OpenAI công bố GPT-4o, mô hình AI đa phương thức với khả năng văn bản, âm thanh và hình ảnh
(openai.com)• Mô hình AI mang tính đột phá có thể xử lý và tạo đồng thời văn bản, âm thanh và hình ảnh
• Với thời gian phản hồi theo thời gian thực sánh ngang hội thoại của con người, GPT-4o đặt ra tiêu chuẩn mới cho tương tác tự nhiên giữa người và máy tính
• Trên API, nhanh hơn và tiết kiệm chi phí hơn, đồng thời vượt trội hơn GPT-4 Turbo ở văn bản và mã, đặc biệt là trong các ngôn ngữ không phải tiếng Anh
• Nhờ khả năng đa phương thức của GPT-4o, mô hình có thể hiểu đầu vào âm thanh và phản hồi, tạo đầu ra âm thanh và tham gia hội thoại theo thời gian thực
• Mô hình này thể hiện khả năng suy luận được cải thiện, năng lực đa ngôn ngữ, khả năng hiểu âm thanh và hình ảnh, cùng nhận thức thị giác
• OpenAI nhấn mạnh các biện pháp an toàn được triển khai trong thiết kế và quá trình hậu huấn luyện của GPT-4o nhằm giảm thiểu rủi ro tiềm ẩn
• Bản phát hành ban đầu bao gồm đầu vào văn bản và hình ảnh cùng đầu ra văn bản; các tính năng âm thanh và video sẽ sớm khả dụng cho các đối tác đáng tin cậy của API
5 bình luận
Có thể cảm nhận rõ là tốc độ đã nhanh hơn rất nhiều.
Nếu hỏi bằng tiếng Hàn,
hiệu năng của chính mô hình tăng gấp 2 lần * 1,7 (cải thiện token tiếng Hàn) = nhanh hơn 3,4 lần
Chữ O trong 4O có nghĩa là Omni.
Cập nhật mới nhất của ChatGPT: mô hình GPT-4o và khả năng tiếp cận người dùng được cải thiện
ChatGPT tập trung vào việc giúp mọi người đều có thể sử dụng miễn phí các công cụ AI tiên tiến. Việc ra mắt phiên bản desktop và mô hình flagship mới GPT-4o nhằm cải thiện tính tự nhiên và sự tiện dụng cho người dùng. GPT-4o mang lại khả năng nhanh hơn và được nâng cấp trên văn bản, hình ảnh và âm thanh, đánh dấu một bước tiến quan trọng trong hợp tác giữa con người và máy móc.
Mở rộng ChatGPT với GPT-4o
Giờ đây, chúng tôi cung cấp GPT-4o cho tất cả người dùng, với khả năng suy luận bằng giọng nói, văn bản và hình ảnh. Các tính năng mới bao gồm hội thoại giọng nói thời gian thực, bộ nhớ, truy xuất thông tin theo thời gian thực và phân tích dữ liệu nâng cao. GPT-4o hỗ trợ 50 ngôn ngữ, với chất lượng và tốc độ được cải thiện, đồng thời người dùng trả phí sẽ có giới hạn sử dụng cao hơn.
Các tính năng thời gian thực và phản hồi mới của ChatGPT
Các tính năng mới của ChatGPT mang đến khả năng phản hồi theo thời gian thực và nhận biết cảm xúc của người dùng. Mô hình này có thể tạo giọng nói theo nhiều phong cách như giọng kịch tính, giọng robot và giọng hát. Ngoài ra, ChatGPT hiện cũng hỗ trợ các tác vụ thị giác và có thể tương tác với người dùng trong môi trường demo trực tiếp.
Giải phương trình bậc nhất: từng bước
Barrett Zoph và ChatGPT giải phương trình 3X + 1 = 4 bằng cách trước tiên tách hạng tử chứa X, sau đó tìm X, rồi thảo luận về các ứng dụng thực tế của phương trình bậc nhất trong đời sống hằng ngày như chi phí, lập kế hoạch du lịch và tính toán kinh doanh. Điều này giúp người dùng có thêm sự tự tin để hiểu toán học và áp dụng vào các vấn đề thực tế.
Phân tích dữ liệu thời tiết với ChatGPT
ChatGPT hỗ trợ phân tích dữ liệu thời tiết bằng cách giải thích chức năng của mã và diễn giải đầu ra biểu đồ. Tính năng 'Fu' rất quan trọng để làm mượt dữ liệu nhiệt độ và giảm nhiễu trên biểu đồ. Biểu đồ này hiển thị nhiệt độ trung bình, thấp nhất và cao nhất đã được làm mượt trong suốt năm 2018, đồng thời có chú thích đáng chú ý về một đợt mưa lớn xảy ra vào cuối tháng 9.
Tương tác đa ngôn ngữ và công nghệ AI
Công nghệ AI thể hiện khả năng tương tác đa ngôn ngữ và diễn giải cảm xúc thông qua demo trực tiếp. Demo này nhấn mạnh mục tiêu giúp người dùng dễ dàng tiếp cận công nghệ này hơn trong tương lai gần. Bài thuyết trình cũng ghi nhận đội ngũ đã đóng góp cho những tiến bộ công nghệ này và công lao của họ.
Corely, tóm tắt nội dung chính trong video YouTube chỉ trong 10 giây! - https://corely.ai/content/openai-spring-update-2022
Introducing GPT-4o
Phần demo hội thoại thời gian thực trong video giới thiệu thật sự rất gây sốc. Từ khoảng 9 phút 45 giây trở đi (liên kết trên đã đặt sẵn bắt đầu từ đó).
Giờ đây có thể dễ dàng ngắt lời ngay giữa lúc đang trả lời, phản hồi gần như theo thời gian thực, và ngữ điệu cũng trở nên phong phú hơn nhiều.