- Các tính năng giọng nói và hình ảnh mới đã được ra mắt cho ChatGPT.
- Giờ đây có thể trò chuyện tự nhiên bằng giọng nói và đính kèm hình ảnh để đặt câu hỏi.
- Giọng nói được chuyển thành văn bản thông qua Whisper, và câu trả lời được chuyển thành giọng của diễn viên lồng tiếng chuyên nghiệp dựa trên mô hình TTS mới.
- Mô hình TTS mới có thể tái tạo chính xác giọng của một người chỉ với vài giây mẫu giọng nói.
- Mô hình này cũng được dùng cho tính năng dịch podcast của Spotify, cho phép dịch sang nhiều ngôn ngữ mà vẫn giữ nguyên giọng của podcaster.
- Có thể đính kèm nhiều hình ảnh cùng lúc, và hệ thống nhận diện chi tiết không chỉ văn bản trong ảnh mà cả các vật thể.
- Có thể hỏi cách sử dụng công cụ hoặc thiết bị, hoặc trò chuyện về công thức nấu ăn dựa trên nguyên liệu trong tủ lạnh.
- Ngoài ra, giờ đây cũng có thể phân tích biểu đồ hoặc giải bài toán.
- Trên ứng dụng di động, có thể dùng công cụ vẽ để yêu cầu hệ thống tập trung vào một phần cụ thể của hình ảnh.
- Vì lý do an toàn và bảo vệ quyền riêng tư, khả năng phân tích hoặc nói về con người bị giới hạn đáng kể.
- Sẽ được cung cấp trước cho người dùng Plus và Enterprise trong vòng 2 tuần tới.
- Tính năng giọng nói chỉ hoạt động trên iOS và Android, còn tính năng đính kèm hình ảnh khả dụng trên mọi nền tảng.
4 bình luận
Skynet is coming...
Có vẻ như hệ điều hành trong phim her giờ đã có thể trở thành hiện thực rồi.
Lúc GPT-4 mới ra mắt lần đầu thì tính năng này có xuất hiện thoáng qua, nhưng việc nó không chỉ nhận diện mà còn hiểu được hình ảnh thật sự quá ấn tượng.
Trong ví dụ có đoạn hỏi cách điều chỉnh yên xe đạp,
trông không chỉ như nhận diện hình ảnh đơn thuần mà còn giống như đọc hướng dẫn rồi tìm ra công cụ phù hợp giúp bạn...
Tôi cứ nghĩ là phải cần gói Plus, nhưng nếu là thế này thì câu chuyện lại hơi khác rồi... thật sự rất tò mò.
Tóm tắt AI của chuỗi HN