ChatGPT bổ sung tính năng hội thoại bằng giọng nói và nhập hình ảnh

(openai.com)

1 điểm bởi GN⁺ 2023-09-26 | 1 bình luận | Chia sẻ qua WhatsApp

OpenAI đang triển khai lần lượt hội thoại bằng giọng nói và nhập hình ảnh cho ChatGPT, cho phép người dùng vượt ra ngoài nhập văn bản để trò chuyện bằng lời nói và đặt câu hỏi bằng cách cho xem ảnh
Tính năng giọng nói cần được opt-in trên ứng dụng di động mới có thể sử dụng; người dùng chọn một trong 5 giọng nói, và Whisper sẽ chuyển lời nói của họ thành văn bản
Tính năng hình ảnh xử lý ảnh chụp, ảnh màn hình và tài liệu trộn lẫn văn bản với hình ảnh; trên ứng dụng di động có thể dùng công cụ vẽ để chỉ định vùng cụ thể
Sẽ được phát hành trước cho người dùng Plus và Enterprise trong vòng 2 tuần; giọng nói có trên iOS và Android, còn hình ảnh có trên mọi nền tảng
Do tồn tại các rủi ro như tổng hợp giọng nói chân thực, diễn giải hình ảnh con người, và việc phụ thuộc trong các lĩnh vực rủi ro cao, OpenAI áp dụng triển khai hạn chế cùng các biện pháp an toàn

Cách nhập mới của ChatGPT: nói, cho xem và đặt câu hỏi

ChatGPT bổ sung khả năng để người dùng trò chuyện bằng giọng nói hoặc cho xem hình ảnh khi đặt câu hỏi
Các tính năng mới tập trung vào việc giúp sử dụng ChatGPT trực quan hơn, thay vì chỉ phụ thuộc vào nhập bằng bàn phím
Ví dụ sử dụng gồm:
- Khi đi du lịch, chụp ảnh một địa danh và hỏi theo thời gian thực về những điểm thú vị
- Cho xem ảnh tủ lạnh và kho thực phẩm rồi hỏi thực đơn bữa tối cùng công thức từng bước
- Chụp ảnh bài toán của con, khoanh tròn bộ câu hỏi rồi yêu cầu gợi ý

Người dùng và nền tảng được mở trước

Người dùng Plus và Enterprise sẽ có thể dùng tính năng giọng nói và hình ảnh trong vòng 2 tuần tới
Tính năng giọng nói có trên iOS và Android, và cần opt-in trong phần cài đặt
Tính năng hình ảnh có trên mọi nền tảng
Sau đó phạm vi truy cập sẽ được mở rộng sang các nhóm người dùng khác, bao gồm cả nhà phát triển

Cách hoạt động của tính năng giọng nói

Người dùng có thể hội thoại giọng nói hai chiều với ChatGPT
- Trò chuyện khi đang di chuyển
- Yêu cầu kể chuyện trước khi ngủ cho gia đình
- Hoặc phân xử tranh luận tại bàn ăn là những ví dụ điển hình
Để bắt đầu dùng giọng nói trong ứng dụng di động, cần bật hội thoại giọng nói tại Settings → New Features
Sau khi nhấn nút tai nghe ở góc trên bên phải màn hình chính, người dùng chọn giọng ưa thích trong 5 giọng nói
Tính năng giọng nói mới sử dụng mô hình chuyển văn bản thành giọng nói có thể tạo ra âm thanh giống người thật chỉ từ văn bản và vài giây mẫu giọng nói
Mỗi giọng nói được OpenAI tạo ra thông qua hợp tác với các diễn viên lồng tiếng chuyên nghiệp
Nội dung người dùng nói sẽ được hệ thống nhận dạng giọng nói mã nguồn mở Whisper của OpenAI chuyển thành văn bản

Cách hoạt động của tính năng hình ảnh

Người dùng có thể cho ChatGPT xem một hoặc nhiều hình ảnh rồi tiếp tục cuộc trò chuyện
Nhập hình ảnh có thể được dùng cho các tác vụ như:
- Kiểm tra lý do bếp nướng không bật
- Lập kế hoạch bữa ăn bằng cách nhìn vào bên trong tủ lạnh
- Phân tích biểu đồ phức tạp chứa dữ liệu công việc
Để tập trung vào một vùng cụ thể, có thể dùng công cụ vẽ trong ứng dụng di động
Để thêm hình ảnh, nhấn nút chụp ảnh để chụp mới hoặc chọn ảnh
- Trên iOS và Android, trước tiên cần nhấn nút dấu cộng
- Có thể thảo luận nhiều ảnh cùng lúc hoặc dùng công cụ vẽ để chỉ cho assistant phần cần xem
Việc hiểu hình ảnh do GPT‑3.5 đa phương thức và GPT‑4 đảm nhiệm
Các mô hình này áp dụng khả năng suy luận ngôn ngữ lên nhiều loại hình ảnh khác nhau như ảnh chụp, ảnh màn hình và tài liệu có cả văn bản lẫn hình ảnh

Triển khai dần và biện pháp an toàn

OpenAI chọn cách công bố dần dần các công cụ để vừa cải thiện vừa giảm thiểu rủi ro
Với các mô hình tiên tiến có cả giọng nói và thị giác, khả năng bị lạm dụng thực tế lớn hơn nên chiến lược này càng quan trọng
Rủi ro và giới hạn liên quan đến giọng nói
- Công nghệ giọng nói mới có thể tạo ra giọng tổng hợp chân thực chỉ từ vài giây giọng nói thật
- Nó mở ra các ứng dụng sáng tạo và tập trung vào khả năng tiếp cận, nhưng cũng đi kèm rủi ro như mạo danh người nổi tiếng hoặc lừa đảo
- OpenAI sử dụng công nghệ này cho trường hợp sử dụng cụ thể là chat bằng giọng nói
- Chat bằng giọng nói được tạo bằng giọng của các diễn viên lồng tiếng mà OpenAI trực tiếp hợp tác
- Spotify đang dùng công nghệ này trong thử nghiệm Voice Translation
- Tính năng này dịch podcast sang các ngôn ngữ bổ sung bằng chính giọng của podcaster, giúp mở rộng phạm vi tiếp cận của storytelling
- Liên kết liên quan: Voice Translation
Rủi ro và giới hạn liên quan đến nhập hình ảnh
- Các mô hình dựa trên thị giác mang đến những thách thức mới như ảo giác về con người hoặc việc phụ thuộc vào diễn giải hình ảnh trong các lĩnh vực rủi ro cao
- OpenAI đã thử nghiệm mô hình với đội red team và nhiều alpha tester khác nhau trước khi phân phối rộng hơn
- Các lĩnh vực thử nghiệm bao gồm những miền rủi ro như chủ nghĩa cực đoan và trình độ khoa học
- Việc hợp tác với Be My Eyes được dùng để hiểu cách sử dụng hình ảnh và các giới hạn của nó
- Be My Eyes là ứng dụng di động miễn phí dành cho người mù và người khiếm thị
- Người dùng thấy hữu ích khi có thể trò chuyện chung về những hình ảnh có người trong đó, như tình huống trên TV có người xuất hiện ở hậu cảnh
- Vì ChatGPT không phải lúc nào cũng chính xác và quyền riêng tư cá nhân cần được tôn trọng, OpenAI đã áp dụng các biện pháp kỹ thuật để hạn chế mạnh khả năng ChatGPT phân tích con người và đưa ra các nhận định trực tiếp
- Việc sử dụng thực tế và phản hồi sẽ được dùng để cải thiện các biện pháp an toàn trong khi vẫn giữ được tính hữu ích của công cụ

Giới hạn mô hình và lưu ý khi sử dụng

Người dùng có thể dựa vào ChatGPT trong các chủ đề chuyên môn như nghiên cứu, vì vậy cần hiểu giới hạn của mô hình và tránh các cách dùng rủi ro cao khi chưa được kiểm chứng
Mô hình làm tốt việc chép lại văn bản tiếng Anh, nhưng hiệu năng thấp hơn ở một số ngôn ngữ khác, đặc biệt là các hệ chữ phi Latin
OpenAI không khuyến nghị người dùng không dùng tiếng Anh sử dụng ChatGPT cho mục đích này
Có thể đọc thêm về cách tiếp cận an toàn cho nhập hình ảnh và công việc liên quan đến Be My Eyes tại system card for image input

1 bình luận

GN⁺ 2023-09-26

Ý kiến trên Hacker News

Giao diện giọng nói có tiềm năng rất lớn, nhưng demo này khá gây thất vọng vì giống các trợ lý giọng nói kém khác: có độ trễ vài giây giữa câu hỏi và câu trả lời
Không nhất thiết phải như vậy. Một demo chạy cục bộ làm bằng Llama 2 phản hồi trong khoảng 0,5 giây, nên cảm giác gần với trò chuyện với người thật hơn là kiểu Siri
Cần đóng gói để mọi người có thể dùng thử, nhưng có một vấn đề là khó xác định người dùng đã nói xong chưa. Các hệ thống nhận dạng giọng nói có sẵn đang thiếu bộ dữ liệu và mô hình turn-taking trong hội thoại, và những công ty như OpenAI có lẽ có thể tạo ra chúng dễ dàng
- Hoàn toàn đồng ý. Để mở ra một trải nghiệm giọng nói xuất sắc, độ trễ là yếu tố then chốt. Một demo ngắn tôi đang làm cho đặt hàng bằng giọng nói nằm ở https://youtu.be/WfvLIEHwiyo
  Tổng độ trễ khứ hồi từ chuyển giọng nói thành văn bản, LLM, POS để xác thực SKU, rồi tạo lại giọng nói chỉ ở mức vài trăm mili giây. Nhờ có xác thực SKU nên cũng không thể bịa đặt, và ở mức này cảm giác khá tự nhiên. Nếu biến độ trễ thấp như vậy thành hệ thống phổ quát, có vẻ nó sẽ mở ra rất nhiều ứng dụng
- Đúng vậy. Nó phải sẵn sàng ngay khi tôi nói xong, và tôi phải có thể chen ngang
  Nếu làm được vậy, khi tôi tạm dừng nó có thể thận trọng bắt đầu nói, còn nếu tôi tiếp tục nói thì nó cũng có thể dừng ngay lập tức
  Tôi không muốn phải bận tâm cấu trúc tương tác như một chuỗi gọi/đáp rõ ràng, và cũng không muốn phải cẩn thận nói liên tục cho đến khi hết ý vì sợ nó hành động sai thời điểm
- Việc xác định người dùng đã nói xong chưa đôi khi khó không chỉ với bên nghe mà cả với người nói
  Việc chen ngang lịch sự, hoặc thiếu khả năng đó, có thể trở thành dấu hiệu phân biệt liệu chúng ta có đang nói chuyện với AI hay không
- Không biết bạn có thể chia sẻ link GitHub không. Bạn đang giảm độ trễ ở đâu? Có phải đang xử lý âm thanh thô thành văn bản không?
  Theo kinh nghiệm của tôi, nếu không dùng các mô hình nhỏ như 7B thì thời gian sinh của ChatGPT nhanh hơn Llama chạy cục bộ rất nhiều
- Tôi tự hỏi khi nào máy tính sẽ bắt đầu xét cả ngữ điệu. Điều đó sẽ thực sự hữu ích để hiểu điểm kết thúc của một cụm từ
  Ngữ điệu chứa rất nhiều thông tin không có trong văn bản thuần. Một AI không hiểu phần đó của ngôn ngữ thì dù thông minh đến đâu cũng sẽ vẫn có gì đó ngớ ngẩn
Ví dụ về chiếc xe đạp dễ thương và ấn tượng, nhưng tương tác với con người có vẻ đang làm lu mờ khả năng lớn hơn
Chỉ cần chỉnh thêm vài thứ, đây sẽ trở thành một bộ giải tổng quát cho lập kế hoạch robot. Vẫn còn vài vấn đề khó trước khi có một giải pháp hoạt động trong thực tế, nhưng coi như một trong số đó đã được giải quyết
Liệu trong 5 năm tới chúng ta có thấy robot đa dụng do ChatGPT điều khiển làm các công việc lao động đơn giản không?
- Ví dụ xe đạp khá yếu đối với một video demo, thậm chí còn gây bối rối
  1. Ở hình đầu tiên, nó chưa đủ thông minh để nhận ra đó là khóa yên kiểu dùng bu-lông. Con người thì nhận ra được
  2. Sổ hướng dẫn không được hiển thị cho người xem, nên không biết mô hình làm sao biết đó là bu-lông 4mm, hay chỉ đoán vì đó là khả năng hợp lý nhất
  3. Tôi cũng không hiểu làm sao nó biết hộp dụng cụ dùng lục giác hệ mét
    Ngoài ra tôi cũng tò mò liệu đây có phải cùng mô hình thị giác đã có trong Bing Chat hay không
- Google đã demo chuyện này từ vài tháng trước rồi
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- Thành thật mà nói, tôi nghĩ họ có thể dùng một ví dụ thuyết phục hơn. Nhận ra được nhiều thứ thì hay, nhưng tôi không rõ demo này thực sự hữu ích đến mức nào
  Một người có hộp dụng cụ và sổ hướng dẫn lại hỏi một câu rất cơ bản là cách hạ yên xe đạp. Ai còn giữ sổ hướng dẫn xe đạp chứ, và đó là việc đứa con 5 tuổi của tôi cũng làm được
  Chắc chắn phải có cách tốt hơn để cho thấy tác động mang tính đột phá của AI đối với nhân loại. Thậm chí như cách buộc dây giày cũng còn hơn
- Đúng, nhưng dấu chân sinh thái là rất lớn
  Nó cũng không phù hợp với các robot nhỏ và nhẹ như drone
- Đây là phần tôi mong chờ nhất. Gần đây đã có một đột phá nhỏ: https://pressroom.toyota.com/toyota-research-institute-unvei...
Thông báo lần này có vẻ đã khiến khá nhiều startup định làm đa phương thức trên nền ChatGPT chết yểu
Nhìn tốc độ họ giải quyết cả các trường hợp dùng hình ảnh lẫn giọng nói, chẳng mấy chốc nó có thể trở thành một ứng dụng thống trị tất cả
Đã thấy viễn cảnh thay thế Alexa/Siri/Google Home, thay thế tìm kiếm hình ảnh của Google, và sự sụp đổ của các startup edtech cho phép chụp ảnh rồi dùng AI giải bài; có lẽ sẽ còn tiếp diễn
- Nhìn lại thì những startup như vậy lẽ ra phải cẩn trọng hơn. Họ lẽ ra phải biết OpenAI có Whisper, và GPT-4 được thiết kế với cả định dạng hình ảnh trong tính toán
  Không thể nói OpenAI đã công khai để lộ ý định, nhưng câu hỏi chiến lược đầu tiên lẽ ra phải là: “Tại sao OpenAI chưa làm việc này, và nếu họ quyết định làm thì chúng ta sẽ làm gì?”
- Năm nay nói chuyện với Google và Siri thật sự rất bực bội. Khi lái xe một mình đường dài, tôi chỉ muốn trò chuyện để học về các chủ đề ngẫu nhiên
  Suốt mùa hè tôi đã muốn “vừa nói chuyện” với ChatGPT vừa học thêm tiếng Pháp, lý thuyết âm nhạc, lịch sử, toán học, v.v. Tính năng này có vẻ đúng thứ cần có
- Việc xây dựng công cụ hay ứng dụng AI đa dụng ngày càng có vẻ là một lựa chọn tệ. Theo tôi, mô hình kinh doanh AI khả thi có hai loại
  1. AI chuyên biệt theo miền: huấn luyện mô hình AI cho các chủ đề cực kỳ kỹ thuật và cụ thể mà mô hình AI đa dụng làm chưa tốt
  2. Tích hợp: nếu xây trên các mô hình AI hiện có, đừng tập trung thêm tính năng, mà hãy tập trung tích hợp vào quy trình làm việc hiện tại của doanh nghiệp và người dùng. Tự động hóa quy trình nội bộ và kết nối các hệ thống theo những cách trước đây không thể làm được có thể tạo ra giá trị lớn, và các công ty mô hình AI cũng khó tự làm trực tiếp
    Hai hướng này thường sẽ đi cùng nhau
- Ai từng theo dõi các lần ra mắt tính năng của OpenAI thì khó có thể không đoán được ChatGPT sẽ trở thành đa phương thức
  Ứng dụng vốn đã có nhập liệu bằng giọng nói. Hiện tại nó vẫn chuyển giọng nói thành văn bản trước khi gửi, nhưng làm tốt đến mức hầu như không cần kiểm tra hay sửa. Thậm chí tôi còn tự hỏi tại sao nó vẫn chưa trả lời bằng giọng nói
  Nhập liệu bằng hình ảnh là trọng tâm và điểm nhấn trong công bố GPT-4 hồi tháng 3: https://openai.com/research/gpt-4
- Thay vì chết, chẳng phải họ có thể pivot sang đa phương thức trên Llama 2 hoặc các mô hình mã nguồn mở khác sao? Có lẽ đó không phải là thay đổi quá lớn
  Nhiều doanh nghiệp, chính phủ, v.v. không thể dùng OpenAI vì chính sách nội bộ không cho gửi dữ liệu tới dịch vụ bên thứ ba. Họ sẽ trả tiền cho thứ có thể chạy on-premises hoặc trên private cloud riêng
Đây sẽ là con dao găm khiến giáo dục trực tuyến trở nên bất khả thi
Chỉ với ChatGPT, nếu sao chép và dán các bài toán dạng văn bản chuyên môn, bạn đã có thể nhận câu trả lời với độ chính xác 90%. Điểm yếu duy nhất là các câu hỏi có biểu đồ hoặc hình vẽ
Khi có hỗ trợ hình ảnh, học sinh chỉ cần tải lên ảnh chụp màn hình hoặc bản scan tài liệu và nhận câu trả lời hợp lệ từ ChatGPT. Theo tôi, nhiều học sinh sẽ sẵn sàng lạm dụng tính năng này. Để ứng phó, hoặc phải bỏ hệ thống chấm điểm, hoặc buộc quay lại giáo dục trực tiếp, nơi bài tập chỉ được làm ở trường dưới sự giám sát và không có bài tập về nhà
- Cũng có lựa chọn khác. Thứ này không thay thế việc của học sinh, mà có thể thay thế việc của giáo viên
  Công dụng lớn nhất của ChatGPT với tôi là tự học nhiều chủ đề. Có thể dùng nó như một buổi seminar kiểu Socrates, đặt câu hỏi cho ChatGPT để học X
  Dĩ nhiên nó sẽ thay đổi mạnh khả năng tạo bài tập về nhà của học sinh, nhưng ngay từ đầu nó cũng có thể thay đổi mạnh cách học của học sinh. Nhờ gia sư hỗ trợ bằng AI, trường học trực tuyến có thể trở thành nhiều thứ hơn hiện nay rất nhiều
  Có vẻ cũng có thể có một tương lai trong đó giáo dục phi tập trung hơn nhiều, học sinh tự chọn chương trình và phương pháp học, có cảm giác sở hữu và kiểm soát công việc của mình, nên không xem nó chỉ là “việc bận rộn”
- Đúng vậy
  Nếu những nhân tài xuất sắc nhất thời đại chúng ta đã quyết định rằng để loài người tiến bộ, tốt nhất là con người bị máy móc thay thế, thì tôi tự hỏi học hành ở trường còn có ý nghĩa gì
  Nếu bây giờ bạn 16 tuổi, biết về ChatGPT và kế hoạch của OpenAI, vừa được bảo rằng phải học chăm chỉ để có việc tốt, đồng thời đọc thấy tương lai mà giới kỹ trị hình dung, hẳn sẽ khá hoang mang
  Có lẽ lúc này muốn học mà vẫn không gian lận là điều thật sự khó
- Bạn đang bỏ lỡ điểm rằng chẳng bao lâu nữa giáo viên sẽ là một LLM có camera nhìn vào học sinh
  Trong lớp học trực tuyến, có lý do gì để nhất thiết phải xem video của người thật không? Có lý do gì để bắt học sinh tạo ra thứ gì đó trong một căn phòng tối không?
  Việc đánh giá học sinh sẽ không dựa trên bài tập về nhà, mà dựa trên cuộc trò chuyện giữa trợ lý AI và học sinh. Việc dạy có thể được tự động hóa, nhưng việc học thì không
  Hiện chỉ có một độ trễ thời gian khi giáo dục chưa bắt kịp, và vì giáo dục đắt đỏ nên chuyện này sẽ được giải quyết nhanh. Phụ huynh thật sự cần khuyến khích con cái luyện tập học tập như trước đây, còn ChatGPT nên được dùng như Wikipedia. Một thế hệ sẽ chịu đau đớn trong quá trình chuyển đổi
- Khi nói về việc lạm dụng ChatGPT trong bối cảnh trường học, thường là nói đến học sinh từ cấp ba trở lên hoặc sinh viên bậc cao hơn. Họ biết đúng sai, và có cả kỹ năng vận động lẫn quyền truy cập để dùng công cụ
  Nhu cầu cụ thể mà họ muốn giải quyết là dọn sạch bài tập về nhà hoặc bài luận để làm XYZ. Có lẽ XYZ sẽ không dùng ChatGPT. Vậy thì hãy biến thứ họ dành thời gian cho thành chính việc đó
  Đến một lúc nào đó, họ sẽ học ngược lại những kỹ năng cần thiết và cần sự hướng dẫn cùng cấu trúc giáo dục. Điều đó không dễ, cũng không xảy ra nếu không có thời gian và nguồn lực, nhưng sự thích nghi sẽ diễn ra theo cách đó
- Trong một kỳ thi chứng chỉ, từng có lúc một ứng dụng chạy trên máy tính của tôi để kiểm tra không có thứ gì khác đang mở, và camera phải bật suốt kỳ thi để thấy cơ thể và bàn tay của tôi
  Có những cách khiến gian lận trở nên khó đến mức không đáng làm. Tuy nhiên, công nghệ này sẽ thay đổi lớn việc chúng ta học gì và học như thế nào. Nó mang tính chuyển đổi, và tốc độ sẽ không chậm lại
Tôi không thích cách họ vô hiệu hóa tính năng duyệt web, tức tính năng chat Bing Browsing, suốt vài tháng rồi lặng lẽ gỡ bỏ
Giá mà có một thông báo đàng hoàng rằng họ sẽ gỡ tính năng này. Có thể tôi đã bỏ lỡ, nhưng thông tin chính thức cuối cùng tôi thấy là họ tạm thời vô hiệu hóa trong lúc sửa gì đó. Đến khi để ý lại thì nó đã biến mất hoàn toàn khỏi nền tảng mà không một lời nào
- Tài khoản của tôi hiện đang có Browsing with Bing được bật dưới dạng plugin. Nó biến mất vài tháng rồi đột nhiên quay lại khoảng 1–2 tuần trước
- Tôi đồng ý là chuyện đó gây thất vọng, và trông có vẻ họ sẽ chưa bật lại trong thời gian tới
  Tuy vậy, Perplexity AI dùng tìm kiếm web tốt hơn ChatGPT, nên vì lý do đó tôi dùng nó nhiều hơn ChatGPT
- Tôi tạo tài khoản chỉ để nói điều này: hiện tôi đang có tính năng này. Nó biến mất vài tháng rồi hình như đã quay lại khoảng tuần trước
  Cũng không phải plugin, mà là một “model” riêng có thể chọn
- Đồng ý. Giờ phải dựa vào plugin bên thứ ba
Trải nghiệm người dùng trực quan nhất ở mức killer app cho đến nay có vẻ là chat bằng văn bản
Việc đưa hình ảnh cho nó xem rồi tương tác cũng thú vị, giống như trò chuyện với bạn bè về một chủ đề nào đó, nhưng còn phải xem liệu cảm giác đó sẽ là nói chuyện với một người cực kỳ thông minh như ChatGPT, hay là nói chuyện với một người rất chậm hiểu nhưng nhận ra được vật thể ở mức nào đó
Nhận ra một cái cờ lê không ấn tượng bằng việc trò chuyện với ChatGPT về lịch sử hoặc bắt nó viết mã thực sự chạy được
OpenAI đang làm tốt. Mọi người nghĩ ra các trường hợp sử dụng thú vị, nhưng có vẻ cách chính mà đa số tương tác với AI vẫn là ChatGPT
Tuy nhiên, có vẻ họ vẫn chưa nắm được mảng tạo ảnh, và những thứ ấn tượng vẫn liên tục đến từ MidJourney và Stable Diffusion
- OpenAI cũng dự kiến phát hành DALL-E 3 vào “đầu tháng 10”, và những hình ảnh được chọn trong demo cho thấy khả năng hiểu prompt ở mức chưa từng có
  Có vẻ còn có thể đưa cả văn bản là câu hoàn chỉnh vào trong ảnh đầu ra
Tôi đang làm vài dự án sở thích ghép nhiều dịch vụ AI lại với nhau để triển khai thứ này, nên rất mong chờ việc giảm bớt độ phức tạp và độ trễ do phải gọi qua gọi lại nhiều lần
Nếu API ra kịp, tức khoảng Halloween, thì phần mềm cho một dự án đa phương thức với đầu lâu biết nói gắn camera ESP32, chuyên nhìn trang phục của người ta rồi mỉa mai, có lẽ sẽ dễ hơn một chút
- Trớ trêu là chính vì lý do đó mà tôi đã không thử làm
- Nếu làm, mong bạn chia sẻ quá trình hoặc chi tiết. Nghe thật sự rất ngầu và tôi cũng muốn làm một thứ tương tự
- Tôi rất muốn xem dự án hoàn chỉnh. Email của tôi có trong hồ sơ
Với góc nhìn của người làm sâu trong lĩnh vực tự động hóa kiểm thử phần mềm, thứ tôi đang chờ là nhận diện hình ảnh dựa trên AI đủ vững chắc cho giao diện người dùng ứng dụng
Khi kết hợp với khả năng AI viết mã tự động hóa kiểm thử, tôi hy vọng chỉ từ một ảnh chụp màn hình hoặc một chuỗi ảnh chụp màn hình, nó có thể tạo ra mã kiểm thử Selenium hoặc Appium có thể chạy được. Cảm giác như gần tới nơi rồi
- Tôi khuyên nên đọc bài báo Spotlight của Google[1]. Các bộ dữ liệu được tạo cho mục đích này rất thú vị
  Họ nói có bộ dữ liệu màn hình-hành động-màn hình nội bộ, nhưng có lẽ sẽ không công bố. Chắc đây là lợi thế của việc sở hữu Android
  Cũng có bài báo gần đây IDEFICS[2] của Hugging Face. Họ tuyên bố đây là bản triển khai mã nguồn mở của Flamingo, tức bài báo trước đây về việc hiểu tác vụ đa phương thức dựa trên ít ví dụ. Lĩnh vực này có vẻ sắp nóng lên
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
Điều tôi phàn nàn nhất về OpenAI/ChatGPT là marketing quá tệ
Khi họ công bố các tính năng hay plugin kiểu này, tôi háo hức vào dùng thử nhưng chúng vẫn chưa được triển khai cho tôi, và với tư cách khách hàng trả phí thì rất bực bội, vì việc duy nhất có thể làm là kiểm tra mỗi ngày
Họ cũng không gửi email kiểu “Bạn đã có thể dùng plugin”, “Tài khoản của bạn đã được bật chat bằng giọng nói”, nên nhiều khi tôi quên mất tính năng mới cho đến khi tình cờ xem lại sau đó
Vừa rồi tôi mở ứng dụng, vào “New Features” trong phần cài đặt thì thấy Bing Browsing bị vô hiệu hóa. Tôi thậm chí còn không biết nó từng hoạt động. Tôi tưởng có lẽ cần cập nhật ứng dụng nên vào App Store, nhưng đã là bản mới nhất; sau khi đóng rồi mở lại ứng dụng thì giờ mục “New Features” cũng biến mất luôn
Tôi sẽ không thường xuyên lục lọi cài đặt ứng dụng để xem có tính năng mới hay không. Thật sự khó hiểu khi không có email hay thông báo đẩy, thậm chí cả thông báo trong ứng dụng cũng không có
- Từ một công ty nghiên cứu ngách, họ có lẽ đã trở thành startup tăng trưởng nhanh nhất trong lịch sử
  Không phải là họ không quan tâm đến giao tiếp với khách hàng, nhưng bên trong chắc hẳn đang hoàn toàn hỗn loạn và rối tung
- Marketing của họ giống như một startup 3 người tìm một template SaaS starter, nối Stripe qua loa rồi không ngoái lại nữa
  Để bắt đầu dùng API, tôi thực sự đã phải hủy đăng ký rồi đăng ký lại. Có lẽ tôi đang nằm trong một phiên bản cũ của mô hình tính phí trước đó
  Tôi thích những công ty thành công không phải nhờ marketing và thiết kế, mà bất chấp chúng. Điều đó có nghĩa là họ thật sự có thứ gì đó đặc biệt
- Chúng ta đang tiến tới kỳ dị điểm mà bạn lại phàn nàn về marketing à?
- Nếu “việc duy nhất có thể làm là kiểm tra mỗi ngày” thì có vẻ marketing của họ đang làm tốt
  Nếu bạn cứ rời đi rồi quên luôn thì họ cần cải thiện tỷ lệ giữ chân, nhưng bạn sẽ không làm vậy, nên họ không cần
- Nếu phàn nàn lớn nhất của người dùng là bực vì một tính năng họ chưa được dùng, thì có thể nói họ đang làm cực kỳ tốt
Tôi không hiểu làm sao có thể đóng gói tất cả những thứ này với giá 20 đô la mỗi tháng. Khi đạt quy mô lớn, chi phí tính toán thật sự rẻ đến vậy sao?
Tôi cũng tò mò Apple và Google sẽ cung cấp thứ này miễn phí như thế nào. Tôi muốn lén ở trong cuộc họp đó như một con ruồi. Họ hẳn sẽ tranh luận rất nhiều kiểu bài toán tiến thoái lưỡng nan của nhà đổi mới, giữa “phải làm” và “ăn mòn biên lợi nhuận”
Có thể hơi suy diễn, nhưng tôi nghĩ Apple dường như đang lựa chọn đúng khi để bụi lắng xuống. Giống như Zuckerberg đã đốt 20 tỷ đô la rồi Apple tung ra Vision Pro, tôi nghĩ chuyện tương tự có thể xảy ra với Llama. Tuy nhiên, phần mềm là sân nhà của Facebook còn phần cứng thì không, nên tôi không quá chắc chắn
- Chi phí tính toán không hề rẻ. Như Altman đã nói, ai cũng biết OpenAI hiện đang đốt rất nhiều tiền
  Nhưng nếu xét khoản đầu tư 10 tỷ đô la của Microsoft cùng doanh thu từ thuê bao và API, trước mắt họ vẫn ổn. Đây là thời khắc quan trọng với các công ty AI, và OpenAI thực chất đang cố giành càng nhiều thị phần càng tốt bằng cách cung cấp giá trị gấp 10 lần với mức giá thấp hơn các mô hình thương mại khác
- Cũng giống lý do ở New York, Uber trước đây đi cùng một chặng chỉ 20 đô la, còn giờ là 80 đô la
  Vốn đầu tư mạo hiểm đang trợ giá cho việc chiếm lĩnh thị trường
- Cũng rất có thể họ tính giá gần bằng hoặc thấp hơn giá vốn vì muốn dữ liệu của người dùng
  Chỉ cần nghĩ xem nếu thuê một lượng lớn tester thì sẽ phải trả bao nhiêu tiền
- Có lẽ họ định dùng dòng tiền từ Microsoft để quét sạch thị trường rồi sau đó tăng giá
- Tôi nghĩ nếu xử lý song song nhiều truy vấn, chi phí có thể rẻ hơn nhiều so với xử lý từng truy vấn một

ChatGPT bổ sung tính năng hội thoại bằng giọng nói và nhập hình ảnh

Cách nhập mới của ChatGPT: nói, cho xem và đặt câu hỏi

Người dùng và nền tảng được mở trước

Cách hoạt động của tính năng giọng nói

Cách hoạt động của tính năng hình ảnh

Triển khai dần và biện pháp an toàn

Rủi ro và giới hạn liên quan đến giọng nói

Rủi ro và giới hạn liên quan đến nhập hình ảnh

Giới hạn mô hình và lưu ý khi sử dụng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News