1 điểm bởi GN⁺ 2023-09-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • OpenAI bắt đầu đưa các tính năng giọng nói và hình ảnh mới vào ChatGPT
  • Các tính năng mới mang lại giao diện trực quan hơn, cho phép người dùng trò chuyện bằng giọng nói hoặc cho ChatGPT xem hình ảnh
  • Người dùng có thể tận dụng các tính năng này theo nhiều cách khác nhau, như chụp ảnh địa danh để trò chuyện theo thời gian thực, hoặc chụp ảnh tủ lạnh và tủ đựng thực phẩm để quyết định thực đơn bữa tối
  • Dự kiến sẽ được triển khai cho người dùng Plus và Enterprise trong hai tuần tới; tính năng giọng nói khả dụng trên iOS và Android, còn tính năng hình ảnh khả dụng trên mọi nền tảng
  • Tính năng giọng nói mới được vận hành bởi mô hình text-to-speech có thể tạo âm thanh giống con người chỉ từ văn bản và vài giây mẫu giọng nói
  • Tính năng giọng nói được phát triển cùng với các diễn viên lồng tiếng chuyên nghiệp và sử dụng Whisper, hệ thống nhận diện giọng nói mã nguồn mở của OpenAI, để chuyển lời nói thành văn bản
  • Tính năng hiểu hình ảnh được vận hành bởi GPT-3.5 và GPT-4, áp dụng năng lực suy luận ngôn ngữ lên nhiều loại hình ảnh khác nhau
  • OpenAI đang phát hành dần các tính năng này để bảo đảm việc sử dụng an toàn và hữu ích, đồng thời chuẩn bị cho người dùng trước các hệ thống mạnh hơn trong tương lai
  • Công nghệ giọng nói mới cũng tiềm ẩn rủi ro khi có thể bị các tác nhân xấu lợi dụng để mạo danh người của công chúng hoặc thực hiện hành vi lừa đảo
  • Các mô hình dựa trên thị giác cũng đặt ra những thách thức mới, chẳng hạn hiện tượng ảo giác về con người hoặc việc phụ thuộc vào cách mô hình diễn giải hình ảnh trong các lĩnh vực rủi ro cao
  • OpenAI đã áp dụng các biện pháp nhằm hạn chế khả năng phân tích và đưa ra nhận xét trực tiếp của ChatGPT về con người để tôn trọng quyền riêng tư cá nhân
  • OpenAI công khai minh bạch về các giới hạn của mô hình, đặc biệt nhấn mạnh các hạn chế trong lĩnh vực nghiên cứu và với các ngôn ngữ sử dụng hệ chữ phi La-tinh
  • Người dùng Plus và Enterprise sẽ được trải nghiệm các tính năng giọng nói và hình ảnh trong hai tuần tới; các nhóm người dùng khác, bao gồm cả nhà phát triển, cũng sẽ sớm được tiếp cận

1 bình luận

 
GN⁺ 2023-09-26
Ý kiến trên Hacker News
  • Tính năng giọng nói và hình ảnh mới của ChatGPT có tiềm năng, nhưng độ trễ giữa truy vấn và phản hồi là điều đáng lo ngại.
  • Công nghệ này có thể được dùng cho việc lập kế hoạch robot, từ đó có thể dẫn đến các robot đa dụng thực hiện lao động đơn giản.
  • Những tiến bộ của ChatGPT có thể khiến nhiều startup đang cố xây dựng tính năng đa phương thức rơi vào tình trạng hỗn loạn.
  • Có sự thất vọng về việc tính năng duyệt web bị gỡ bỏ mà không có thông báo thích đáng.
  • Các tính năng mới có thể được dùng để áp dụng nhận diện hình ảnh mạnh mẽ dựa trên AI vào giao diện người dùng của ứng dụng và tạo mã tự động hóa kiểm thử có thể thực thi.
  • Trải nghiệm người dùng trực quan nhất dường như vẫn là trò chuyện bằng văn bản, nhưng tương tác với hình ảnh cũng rất thú vị.
  • Việc bổ sung hỗ trợ hình ảnh có thể bị học sinh lạm dụng để lấy đáp án bài tập về nhà.
  • Có ý kiến chỉ trích rằng OpenAI thiếu giao tiếp rõ ràng về các tính năng mới và việc triển khai.
  • Các tính năng mới có thể giúp giảm độ phức tạp và độ trễ khi tích hợp nhiều dịch vụ AI trong các dự án sở thích.
  • Có ý kiến phê phán rằng ChatGPT vẫn mắc kẹt ở chế độ "bản demo hào nhoáng" và chưa tận dụng hết tiềm năng, chẳng hạn như dùng giọng nói để giải thích chương trình.