Tương lai của prosumer: Sự trỗi dậy của workflow AI Native

xguru · 2024-02-19T11:05:01+09:00

Hầu như không có ai thật sự yêu thích phần mềm làm việc. Ngay cả sản phẩm tốt nhất cũng thường chưa đủ linh hoạt hoặc đủ tinh vi khi áp dụng vào công việc thực tế, dễ gây khó khăn trong việc tiếp cận và đường cong học tập lại khá dốc. Generative AI mang lại cơ hội tái tạo hoàn toàn quy trình làm việc, cho phép xây dựng sản phẩm hoàn toàn mới ngay từ đầu. Workflow AI Native giúp người dùng thực hiện công việc hiện tại hiệu quả hơn. Các nền tảng này cho phép người dùng giao việc ở cấp độ thấp cho trợ lý AI, để dành thêm thời gian cho tư duy cấp cao hơn. Nó mở khóa công nghệ mới và kỹ năng thẩm mỹ, giúp bất kỳ ai cũng có thể trở thành nhà lập trình, nhà sản xuất, nhà thiết kế và nhạc sĩ. Khoảng cách giữa sáng tạo và kỹ thuật sẽ thu hẹp dần. Khi dùng các sản phẩm “mức chuyên gia nhưng thân thiện với người dùng” có workflow dựa trên AI, mọi người đều có thể trở thành "prosumer" thế hệ mới. (Prosumer: người vừa là nhà sản xuất vừa là người tiêu dùng. Alvin Toffler đã dùng thuật ngữ này trong The Third Wave.) Sản phẩm prosumer AI Native của GenAI sẽ như thế nào? Tất cả sản phẩm workflow GenAI native đều có điểm chung là biến các mô hình tiên tiến thành giao diện người dùng dễ truy cập và hiệu quả. Người dùng quan tâm nhiều hơn đến sản phẩm giúp họ làm gì, hơn là cơ sở hạ tầng phía sau sản phẩm. Bước nhảy vọt công nghệ từ GenAI là ấn tượng, nhưng sản phẩm thành công vẫn luôn bắt đầu từ việc hiểu sâu nhu cầu của người dùng và vấn đề họ gặp phải. Sản phẩm thành công bắt đầu từ: hiểu sâu điểm đau của người dùng, xác định cái gì có thể trừu tượng hóa bằng AI, xác định các điểm quyết định cần phê duyệt, và xác định điểm đòn bẩy quan trọng nhất để tạo ảnh hưởng lớn nhất. Các tính năng chính của sản phẩm prosumer AI-native Công cụ tạo giúp giải quyết bài toán "trang trống" Tạo media từ prompt ngôn ngữ tự nhiên để giúp bắt đầu công việc. Có thể thực hiện bằng một mô hình độc quyền hoặc kết hợp nhiều mô hình. Ví dụ: công cụ render của Vizcom, builder tạo website của Durable. Kết hợp đa mô thức (và đa phương tiện) Nhiều dự án sáng tạo cần từ hai loại nội dung trở lên: ảnh và văn bản, âm nhạc và video, hoạt hình và thuyết minh giọng đọc. Nhưng hiện tại, chưa có một mô hình nào tạo được tất cả các loại tài sản này. Điều này tạo ra cơ hội cho sản phẩm workflow cho phép tạo, cải tiến và kết hợp nhiều loại nội dung tại cùng một nơi. Ví dụ: avatar của HeyGen (kết hợp avatar riêng với TTS của ElevenLabs để tạo avatar nói rất chân thực). Trình chỉnh sửa thông minh giúp lặp lại nhiều hơn Kết quả có thể nhận được "một lần là xong" gần như không tồn tại. Với AI có tính ngẫu nhiên riêng như vậy, hiếm khi lần chạy đầu tiên ra đúng mong muốn. Nhấn nút tái tạo hoặc sửa prompt là quan trọng, nhưng đó là quy trình tốn thời gian và dễ làm thất vọng. Dòng sản phẩm thế hệ đầu của AI generation không cho phép lặp lại nào; chạy lại cùng một prompt sẽ cho kết quả hoàn toàn khác. Giờ đây bắt đầu xuất hiện tính năng cho phép người dùng mang lại đầu ra hiện có và chỉnh sửa tiếp mà không cần bắt đầu lại từ đầu. Ví dụ: công cụ biến thể và phóng/thu nhỏ của Midjourney, tính năng sửa vùng cụ thể của Pika. Refinement (định chuẩn tinh chỉnh) trong nền tảng Yếu tố quan trọng khác của chỉnh sửa thông minh là Refinement. 10% cuối cùng của công đoạn đánh bóng thường là sự khác biệt giữa việc tạo ra thứ "tốt" và thứ "xuất sắc". Nhưng (1) việc tìm ra điều cần tinh chỉnh và (2) tinh chỉnh mà không phải chuyển sang chỗ khác có thể rất khó. Sản phẩm workflow AI giúp người dùng nhận diện các điểm cần cải thiện rồi tự động nâng cấp chúng. Tương tự như "retouch tự động" trong ảnh của Apple, nhưng hãy tưởng tượng tính năng đó hoạt động cho mọi thứ. Ví dụ: tính năng upscaling của Krea, workflow audiobook của ElevenLabs. Output có thể remix và chuyển đổi Mọi nội dung đều có thể trở thành "điểm khởi đầu" cho một lần lặp lại khác. Nếu bạn từng copy prompt của người khác trong Midjourney/ChatGPT rồi thử chỉnh sửa, bạn đã đã tham gia vào điều này rồi. Nền tảng nào tận dụng tốt tính linh hoạt này sẽ tạo ra sản phẩm mạnh hơn, bám sát hơn. Giá trị lớn với người sáng tạo ban đầu nằm ở khả năng chuyển đổi công việc qua nhiều phương tiện khác nhau, chẳng hạn chuyển video thành bài viết blog hoặc chuyển hướng dẫn bằng chữ thành video hoạt hình từng bước. Ví dụ: tính năng cốt lõi của nền tảng xuất bản Gamma: tạo deck, tài liệu hoặc trang web từ prompt hay file đã tải lên, rồi chuyển định dạng khi cần. Dùng các sản phẩm này, người dùng còn có thể phơi bày workflow để người khác lặp lại. Có thể là một chuỗi prompt hoặc sự kết hợp của các mô hình, hoặc một nút 'copy' để người dùng trình độ kỹ thuật thấp hơn có thể sao chép đầu ra hoặc thẩm mỹ. Ví dụ: Imagen AI cho nền tảng chỉnh sửa dành cho nhiếp ảnh gia chuyên nghiệp: Hỗ trợ huấn luyện mô hình theo phong cách riêng của từng nhiếp ảnh gia, giúp dễ dàng chỉnh sửa hàng loạt hơn. Ngoài ra, người dùng còn có thể chỉnh sửa theo phong cách của các nhiếp ảnh gia nổi tiếng trong ngành đã công khai hồ sơ trên nền tảng. Sản phẩm dành cho prosumer sẽ tiến hóa như thế nào? Công cụ prosumer thế hệ tiếp theo vẫn đang ở giai đoạn đầu. Các công cụ hiện tại đã có chức năng tạo tài sản lõi đủ mạnh để thêm workflow có ý nghĩa, nhưng phần lớn sản phẩm vẫn tập trung vào một loại nội dung và khá hạn chế về tính năng. Những sản phẩm được kỳ vọng: Công cụ chỉnh sửa kết hợp nhiều mô thức nội dung Video có thể là ví dụ tốt nhất. Hiện tại để làm phim ngắn bằng AI, người dùng phải tạo nhiều clip trong Pika hoặc Runway rồi chuyển sang Capcut hoặc Kapwing để chỉnh sửa, mix âm thanh. Nếu có thể làm toàn bộ các bước này trong một nền tảng thì sao? Một số sản phẩm thế hệ mới dự kiến sẽ thêm nhiều tính năng workflow hơn và mở rộng sang sản xuất các loại nội dung khác thông qua việc tự huấn luyện mô hình, tận dụng mô hình mã nguồn mở hoặc hợp tác với các đối tác khác. Cũng có thể xuất hiện các công cụ chỉnh sửa AI Native độc lập mới, cho phép người dùng 'plug-in' nhiều loại mô hình khác nhau. Sản phẩm tận dụng các chế độ tương tác khác Prompt văn bản không phải lúc nào cũng là cách hiệu quả nhất để giao tiếp với sản phẩm AI. Chúng tôi tin rằng người dùng cần có thể làm việc với công cụ tạo nội dung như khi hợp tác cùng một đối tác brainstorm: qua giọng nói, phác họa hay chia sẻ ảnh tham chiếu. Đặc biệt, kỳ vọng đang rất lớn dành cho giọng nói như một hình thức để chia sẻ suy nghĩ tinh vi và phức tạp hơn (hoặc để nói miên man theo cách mà văn bản không thể diễn đạt). Các sản phẩm như Oasis, TalkNotes, AudioPen đã bắt đầu xuất hiện, chuyển đổi ghi chú giọng nói thành email, bài đăng blog hoặc tweet. Tương lai gần, sẽ có thêm nhiều sản phẩm workflow mà đầu vào là audio và video, làm thay đổi cách người dùng xử lý công việc và thời điểm họ làm việc. Công cụ coi nội dung do AI và con người tạo ra là ngang hàng Sẽ rất tuyệt vời nếu có công cụ cho phép dùng nội dung AI và nội dung người dùng cùng lúc. Hầu hết sản phẩm hiện nay chỉ tập trung vào một trong hai. Chẳng hạn, có sản phẩm rất giỏi chỉnh sửa ảnh thật nhưng không thể làm gì với ảnh AI. Hoặc có thể tạo video mới nhưng không thể chỉnh sửa hoặc đổi phong cách clip quay trên iPhone. Trong tương lai, đa số nhà làm nội dung chuyên nghiệp sẽ làm việc bằng cách phối hợp nội dung AI và nội dung do người tạo ra. Sản phẩm họ dùng cần chấp nhận cả hai loại nội dung và kết hợp chúng dễ dàng hơn. Công cụ chỉnh sửa của Runway minh họa điều này rất rõ: Nhập clip và hình ảnh từ mô hình tạo nội dung riêng của họ và tải lên tài sản thực để dùng chung một timeline. Sau đó có thể dùng các "công cụ kỳ diệu" như inpainting và green screen cho cả hai loại nội dung. Sản phẩm workflow nội dung được chúng tôi đi sâu ở đây mới chỉ là một trong những thành phần quan trọng cấu thành tương lai phần mềm prosumer. Sắp tới, chúng tôi sẽ đi sâu vào thành phần cốt lõi thứ hai là công cụ năng suất và tiếp tục xem xét các công cụ năng suất có thể tái sinh theo cách tương tự trong thời đại AI.

(a16z.com)

9 điểm bởi xguru 2024-02-19 | 2 bình luận | Chia sẻ qua WhatsApp

Hầu như không có ai thật sự yêu thích phần mềm làm việc.
- Ngay cả sản phẩm tốt nhất cũng thường chưa đủ linh hoạt hoặc đủ tinh vi khi áp dụng vào công việc thực tế, dễ gây khó khăn trong việc tiếp cận và đường cong học tập lại khá dốc.
Generative AI mang lại cơ hội tái tạo hoàn toàn quy trình làm việc, cho phép xây dựng sản phẩm hoàn toàn mới ngay từ đầu.
Workflow AI Native giúp người dùng thực hiện công việc hiện tại hiệu quả hơn.
Các nền tảng này cho phép người dùng giao việc ở cấp độ thấp cho trợ lý AI, để dành thêm thời gian cho tư duy cấp cao hơn.
Nó mở khóa công nghệ mới và kỹ năng thẩm mỹ, giúp bất kỳ ai cũng có thể trở thành nhà lập trình, nhà sản xuất, nhà thiết kế và nhạc sĩ.
- Khoảng cách giữa sáng tạo và kỹ thuật sẽ thu hẹp dần.
- Khi dùng các sản phẩm “mức chuyên gia nhưng thân thiện với người dùng” có workflow dựa trên AI, mọi người đều có thể trở thành "prosumer" thế hệ mới.
- (Prosumer: người vừa là nhà sản xuất vừa là người tiêu dùng. Alvin Toffler đã dùng thuật ngữ này trong The Third Wave.)

Sản phẩm prosumer AI Native của GenAI sẽ như thế nào?

Tất cả sản phẩm workflow GenAI native đều có điểm chung là biến các mô hình tiên tiến thành giao diện người dùng dễ truy cập và hiệu quả.
Người dùng quan tâm nhiều hơn đến sản phẩm giúp họ làm gì, hơn là cơ sở hạ tầng phía sau sản phẩm.
Bước nhảy vọt công nghệ từ GenAI là ấn tượng, nhưng sản phẩm thành công vẫn luôn bắt đầu từ việc hiểu sâu nhu cầu của người dùng và vấn đề họ gặp phải.
Sản phẩm thành công bắt đầu từ:
- hiểu sâu điểm đau của người dùng,
- xác định cái gì có thể trừu tượng hóa bằng AI,
- xác định các điểm quyết định cần phê duyệt,
- và xác định điểm đòn bẩy quan trọng nhất để tạo ảnh hưởng lớn nhất.

Các tính năng chính của sản phẩm prosumer AI-native

Công cụ tạo giúp giải quyết bài toán "trang trống"
- Tạo media từ prompt ngôn ngữ tự nhiên để giúp bắt đầu công việc.
- Có thể thực hiện bằng một mô hình độc quyền hoặc kết hợp nhiều mô hình.
- Ví dụ: công cụ render của Vizcom, builder tạo website của Durable.
Kết hợp đa mô thức (và đa phương tiện)
- Nhiều dự án sáng tạo cần từ hai loại nội dung trở lên: ảnh và văn bản, âm nhạc và video, hoạt hình và thuyết minh giọng đọc.
- Nhưng hiện tại, chưa có một mô hình nào tạo được tất cả các loại tài sản này.
- Điều này tạo ra cơ hội cho sản phẩm workflow cho phép tạo, cải tiến và kết hợp nhiều loại nội dung tại cùng một nơi.
- Ví dụ: avatar của HeyGen (kết hợp avatar riêng với TTS của ElevenLabs để tạo avatar nói rất chân thực).
Trình chỉnh sửa thông minh giúp lặp lại nhiều hơn
- Kết quả có thể nhận được "một lần là xong" gần như không tồn tại.
- Với AI có tính ngẫu nhiên riêng như vậy, hiếm khi lần chạy đầu tiên ra đúng mong muốn.
- Nhấn nút tái tạo hoặc sửa prompt là quan trọng, nhưng đó là quy trình tốn thời gian và dễ làm thất vọng.
- Dòng sản phẩm thế hệ đầu của AI generation không cho phép lặp lại nào; chạy lại cùng một prompt sẽ cho kết quả hoàn toàn khác.
- Giờ đây bắt đầu xuất hiện tính năng cho phép người dùng mang lại đầu ra hiện có và chỉnh sửa tiếp mà không cần bắt đầu lại từ đầu.
- Ví dụ: công cụ biến thể và phóng/thu nhỏ của Midjourney, tính năng sửa vùng cụ thể của Pika.
Refinement (định chuẩn tinh chỉnh) trong nền tảng
- Yếu tố quan trọng khác của chỉnh sửa thông minh là Refinement.
- 10% cuối cùng của công đoạn đánh bóng thường là sự khác biệt giữa việc tạo ra thứ "tốt" và thứ "xuất sắc".
- Nhưng (1) việc tìm ra điều cần tinh chỉnh và (2) tinh chỉnh mà không phải chuyển sang chỗ khác có thể rất khó.
- Sản phẩm workflow AI giúp người dùng nhận diện các điểm cần cải thiện rồi tự động nâng cấp chúng.
- Tương tự như "retouch tự động" trong ảnh của Apple, nhưng hãy tưởng tượng tính năng đó hoạt động cho mọi thứ.
- Ví dụ: tính năng upscaling của Krea, workflow audiobook của ElevenLabs.
Output có thể remix và chuyển đổi
- Mọi nội dung đều có thể trở thành "điểm khởi đầu" cho một lần lặp lại khác.
- Nếu bạn từng copy prompt của người khác trong Midjourney/ChatGPT rồi thử chỉnh sửa, bạn đã đã tham gia vào điều này rồi.
- Nền tảng nào tận dụng tốt tính linh hoạt này sẽ tạo ra sản phẩm mạnh hơn, bám sát hơn.
- Giá trị lớn với người sáng tạo ban đầu nằm ở khả năng chuyển đổi công việc qua nhiều phương tiện khác nhau, chẳng hạn chuyển video thành bài viết blog hoặc chuyển hướng dẫn bằng chữ thành video hoạt hình từng bước.
- Ví dụ: tính năng cốt lõi của nền tảng xuất bản Gamma: tạo deck, tài liệu hoặc trang web từ prompt hay file đã tải lên, rồi chuyển định dạng khi cần.
- Dùng các sản phẩm này, người dùng còn có thể phơi bày workflow để người khác lặp lại.
  - Có thể là một chuỗi prompt hoặc sự kết hợp của các mô hình, hoặc một nút 'copy' để người dùng trình độ kỹ thuật thấp hơn có thể sao chép đầu ra hoặc thẩm mỹ.
  Quảng cáo
- Ví dụ: Imagen AI cho nền tảng chỉnh sửa dành cho nhiếp ảnh gia chuyên nghiệp:
  - Hỗ trợ huấn luyện mô hình theo phong cách riêng của từng nhiếp ảnh gia, giúp dễ dàng chỉnh sửa hàng loạt hơn.
  - Ngoài ra, người dùng còn có thể chỉnh sửa theo phong cách của các nhiếp ảnh gia nổi tiếng trong ngành đã công khai hồ sơ trên nền tảng.

Sản phẩm dành cho prosumer sẽ tiến hóa như thế nào?

Công cụ prosumer thế hệ tiếp theo vẫn đang ở giai đoạn đầu.
Các công cụ hiện tại đã có chức năng tạo tài sản lõi đủ mạnh để thêm workflow có ý nghĩa, nhưng phần lớn sản phẩm vẫn tập trung vào một loại nội dung và khá hạn chế về tính năng.
Những sản phẩm được kỳ vọng:
- Công cụ chỉnh sửa kết hợp nhiều mô thức nội dung
  - Video có thể là ví dụ tốt nhất.
  - Hiện tại để làm phim ngắn bằng AI, người dùng phải tạo nhiều clip trong Pika hoặc Runway rồi chuyển sang Capcut hoặc Kapwing để chỉnh sửa, mix âm thanh.
  - Nếu có thể làm toàn bộ các bước này trong một nền tảng thì sao?
  - Một số sản phẩm thế hệ mới dự kiến sẽ thêm nhiều tính năng workflow hơn và mở rộng sang sản xuất các loại nội dung khác thông qua việc tự huấn luyện mô hình, tận dụng mô hình mã nguồn mở hoặc hợp tác với các đối tác khác.
  - Cũng có thể xuất hiện các công cụ chỉnh sửa AI Native độc lập mới, cho phép người dùng 'plug-in' nhiều loại mô hình khác nhau.
  Quảng cáo
- Sản phẩm tận dụng các chế độ tương tác khác
  - Prompt văn bản không phải lúc nào cũng là cách hiệu quả nhất để giao tiếp với sản phẩm AI.
  - Chúng tôi tin rằng người dùng cần có thể làm việc với công cụ tạo nội dung như khi hợp tác cùng một đối tác brainstorm: qua giọng nói, phác họa hay chia sẻ ảnh tham chiếu.
  - Đặc biệt, kỳ vọng đang rất lớn dành cho giọng nói như một hình thức để chia sẻ suy nghĩ tinh vi và phức tạp hơn (hoặc để nói miên man theo cách mà văn bản không thể diễn đạt).
  - Các sản phẩm như Oasis, TalkNotes, AudioPen đã bắt đầu xuất hiện, chuyển đổi ghi chú giọng nói thành email, bài đăng blog hoặc tweet.
  - Tương lai gần, sẽ có thêm nhiều sản phẩm workflow mà đầu vào là audio và video, làm thay đổi cách người dùng xử lý công việc và thời điểm họ làm việc.
- Công cụ coi nội dung do AI và con người tạo ra là ngang hàng
  - Sẽ rất tuyệt vời nếu có công cụ cho phép dùng nội dung AI và nội dung người dùng cùng lúc. Hầu hết sản phẩm hiện nay chỉ tập trung vào một trong hai.
  - Chẳng hạn, có sản phẩm rất giỏi chỉnh sửa ảnh thật nhưng không thể làm gì với ảnh AI.
  - Hoặc có thể tạo video mới nhưng không thể chỉnh sửa hoặc đổi phong cách clip quay trên iPhone.
  - Trong tương lai, đa số nhà làm nội dung chuyên nghiệp sẽ làm việc bằng cách phối hợp nội dung AI và nội dung do người tạo ra.
  - Sản phẩm họ dùng cần chấp nhận cả hai loại nội dung và kết hợp chúng dễ dàng hơn.
  - Công cụ chỉnh sửa của Runway minh họa điều này rất rõ:
    - Nhập clip và hình ảnh từ mô hình tạo nội dung riêng của họ và tải lên tài sản thực để dùng chung một timeline.
    - Sau đó có thể dùng các "công cụ kỳ diệu" như inpainting và green screen cho cả hai loại nội dung.
Sản phẩm workflow nội dung được chúng tôi đi sâu ở đây mới chỉ là một trong những thành phần quan trọng cấu thành tương lai phần mềm prosumer.
Sắp tới, chúng tôi sẽ đi sâu vào thành phần cốt lõi thứ hai là công cụ năng suất và tiếp tục xem xét các công cụ năng suất có thể tái sinh theo cách tương tự trong thời đại AI.

2 bình luận

savvykang 2024-02-19

Tôi cho rằng việc trình bày việc kết hợp các workflow như một điểm khác biệt của sản phẩm AI prosumer có cùng bản chất với giới hạn vốn có của các nền tảng low-code hiện tại.

Không phải mọi công việc được giao cho người làm thực tế đều có mức độ phức tạp đủ để kiểm soát bằng low-code; đôi khi bản thân tính phức tạp của công việc cao đến mức việc kiểm soát bằng kỹ năng lập trình chuyên nghiệp lại hiệu quả hơn giải quyết bằng nền tảng low-code. Nếu ví lập trình với việc thiết kế mạch điện thì giải pháp low-code tương ứng với breadboard. Với breadboard, ta có thể lắp ráp đủ kiểu để tạo nên một nguyên mẫu mạch điện hoạt động, nhưng không thể chế tạo mạch tích hợp đòi hỏi độ tin cậy cao trên breadboard.