ChatGPT giờ đây có thể nhìn, nghe và nói

kuroneko · 2023-09-26T10:09:40+09:00

Các tính năng giọng nói và hình ảnh mới đã được ra mắt cho ChatGPT. Giờ đây có thể trò chuyện tự nhiên bằng giọng nói và đính kèm hình ảnh để đặt câu hỏi. Giọng nói được chuyển thành văn bản thông qua Whisper, và câu trả lời được chuyển thành giọng của diễn viên lồng tiếng chuyên nghiệp dựa trên mô hình TTS mới. Mô hình TTS mới có thể tái tạo chính xác giọng của một người chỉ với vài giây mẫu giọng nói. Mô hình này cũng được dùng cho tính năng dịch podcast của Spotify, cho phép dịch sang nhiều ngôn ngữ mà vẫn giữ nguyên giọng của podcaster. Có thể đính kèm nhiều hình ảnh cùng lúc, và hệ thống nhận diện chi tiết không chỉ văn bản trong ảnh mà cả các vật thể. Có thể hỏi cách sử dụng công cụ hoặc thiết bị, hoặc trò chuyện về công thức nấu ăn dựa trên nguyên liệu trong tủ lạnh. Ngoài ra, giờ đây cũng có thể phân tích biểu đồ hoặc giải bài toán. Trên ứng dụng di động, có thể dùng công cụ vẽ để yêu cầu hệ thống tập trung vào một phần cụ thể của hình ảnh. Vì lý do an toàn và bảo vệ quyền riêng tư, khả năng phân tích hoặc nói về con người bị giới hạn đáng kể. Sẽ được cung cấp trước cho người dùng Plus và Enterprise trong vòng 2 tuần tới. Tính năng giọng nói chỉ hoạt động trên iOS và Android, còn tính năng đính kèm hình ảnh khả dụng trên mọi nền tảng.

(openai.com)

22 điểm bởi kuroneko 2023-09-26 | 4 bình luận | Chia sẻ qua WhatsApp

Các tính năng giọng nói và hình ảnh mới đã được ra mắt cho ChatGPT.
Giờ đây có thể trò chuyện tự nhiên bằng giọng nói và đính kèm hình ảnh để đặt câu hỏi.
Giọng nói được chuyển thành văn bản thông qua Whisper, và câu trả lời được chuyển thành giọng của diễn viên lồng tiếng chuyên nghiệp dựa trên mô hình TTS mới.
- Mô hình TTS mới có thể tái tạo chính xác giọng của một người chỉ với vài giây mẫu giọng nói.
- Mô hình này cũng được dùng cho tính năng dịch podcast của Spotify, cho phép dịch sang nhiều ngôn ngữ mà vẫn giữ nguyên giọng của podcaster.
Có thể đính kèm nhiều hình ảnh cùng lúc, và hệ thống nhận diện chi tiết không chỉ văn bản trong ảnh mà cả các vật thể.
- Có thể hỏi cách sử dụng công cụ hoặc thiết bị, hoặc trò chuyện về công thức nấu ăn dựa trên nguyên liệu trong tủ lạnh.
- Ngoài ra, giờ đây cũng có thể phân tích biểu đồ hoặc giải bài toán.
- Trên ứng dụng di động, có thể dùng công cụ vẽ để yêu cầu hệ thống tập trung vào một phần cụ thể của hình ảnh.
- Vì lý do an toàn và bảo vệ quyền riêng tư, khả năng phân tích hoặc nói về con người bị giới hạn đáng kể.
Sẽ được cung cấp trước cho người dùng Plus và Enterprise trong vòng 2 tuần tới.
Tính năng giọng nói chỉ hoạt động trên iOS và Android, còn tính năng đính kèm hình ảnh khả dụng trên mọi nền tảng.

4 bình luận

alstjr7375 2023-09-26

Skynet is coming...

ciber27 2023-09-26

Có vẻ như hệ điều hành trong phim her giờ đã có thể trở thành hiện thực rồi.

kuroneko 2023-09-26

Lúc GPT-4 mới ra mắt lần đầu thì tính năng này có xuất hiện thoáng qua, nhưng việc nó không chỉ nhận diện mà còn hiểu được hình ảnh thật sự quá ấn tượng.

Trong ví dụ có đoạn hỏi cách điều chỉnh yên xe đạp,
trông không chỉ như nhận diện hình ảnh đơn thuần mà còn giống như đọc hướng dẫn rồi tìm ra công cụ phù hợp giúp bạn...

Tôi cứ nghĩ là phải cần gói Plus, nhưng nếu là thế này thì câu chuyện lại hơi khác rồi... thật sự rất tò mò.

kuroneko 2023-09-26

Tóm tắt AI của chuỗi HN

modeless: cho rằng độ trễ hiện là vấn đề lớn nhất của các trợ lý giọng nói, và tin rằng việc xây dựng mô hình turn-taking cho hội thoại bằng giọng nói sẽ cho phép các cuộc trò chuyện tự nhiên hơn.
TheEzEzz: đã xây dựng một hệ thống đặt lệnh bằng giọng nói có độ trễ thấp, gần với hội thoại tự nhiên, sử dụng Llama và các công cụ khác. Cho rằng nghiên cứu liên tục trong lĩnh vực này có thể dẫn đến các ứng dụng mới.
cyrux004: đặt câu hỏi liệu các mô hình chạy cục bộ có thể đạt được hiệu năng tương đương với các mô hình dựa trên đám mây hay không, đặc biệt với các hệ thống phức tạp.
TheEzEzz: đồng ý rằng điều đó phụ thuộc vào ứng dụng, và dự đoán cách tiếp cận lai, trong đó mô hình cục bộ xử lý phần tiền xử lý và chỉ gửi yêu cầu đến các mô hình đám mây lớn khi cần, sẽ trở nên phổ biến.
simian1983: hỏi điều gì sẽ xảy ra nếu hệ thống nhận được các yêu cầu vô nghĩa hoặc mang ý đồ xấu.
TheEzEzz: trả lời rằng hệ thống được huấn luyện để bỏ qua các câu không liên quan nhằm tránh việc tiếng ồn nền làm gián đoạn yêu cầu.
furyofantares: nhấn mạnh tầm quan trọng của khả năng ngắt phản hồi của trợ lý giọng nói, giống như khi trò chuyện với con người.
dotancohen: gợi ý rằng việc bị ngắt lời có thể là một dấu hiệu của tính người mà các hệ thống AI vẫn chưa làm chủ được.
jonplackett: tin rằng một trợ lý giọng nói đạt mức con người thực sự phải có khả năng hiểu ngữ điệu, thứ truyền tải thông tin quan trọng mà văn bản không thể hiện.

ChatGPT giờ đây có thể nhìn, nghe và nói

Bài viết liên quan

4 bình luận