Mọi thứ OpenAI công bố tại DevDay

xguru · 2024-10-03T10:20:02+09:00

Các công bố chính Realtime API, cho phép triển khai các tính năng tương tự chế độ giọng nói nâng cao của ChatGPT Tăng Rate Limit của mô hình o1 lên ngang với GPT-4o (10.000 lần/phút) Giảm giá API GPT-4o nhờ tự động prompt caching. Với các lệnh gọi lặp lại, chi phí rẻ hơn 50% mà không cần thêm công sức phát triển API fine-tuning đa phương thức Số lượng ứng dụng đang hoạt động trên nền tảng OpenAI đã tăng gấp 3 từ năm ngoái đến năm nay, và số nhà phát triển đang hoạt động đã đạt 3 triệu người Tổng quan về mô hình o1 OpenAI đã phát hành o1, một mô hình suy luận mới o1 được xếp vào một họ mô hình mới, khác với GPT-4o hiện có OpenAI cho rằng tương lai sẽ là phát triển nhiều mô hình phù hợp với nhiều trường hợp sử dụng khác nhau o1 có khả năng suy nghĩ theo dạng chuỗi tư duy rất tốt nên phù hợp cho các tác vụ lập trình, nhưng chậm và tốn kém hơn Phần lớn prompt không cần đến khả năng suy luận nâng cao của o1, vì vậy o1 sẽ không trở thành mô hình mặc định Romain Huet, người phụ trách quan hệ nhà phát triển của OpenAI, đã trình diễn việc dùng o1 để tạo một ứng dụng iPhone hoàn chỉnh từ đầu đến cuối chỉ trong 30 giây với một prompt duy nhất Ông cũng mang một chiếc drone lên sân khấu, tạo một ứng dụng web và trình diễn điều khiển drone trước khán giả Các màn trình diễn như vậy có lẽ cũng có thể thực hiện bằng các mô hình GPT trước đây, nhưng với o1 thì có thể xây dựng nhanh hơn rất nhiều o1 cho thấy một tương lai nơi có thể đi từ ý tưởng đến ứng dụng chỉ trong 1~2 phút API thời gian thực hội thoại bằng giọng nói Tính năng ấn tượng nhất mà OpenAI ra mắt là Realtime API, cho phép nhà phát triển triển khai vào ứng dụng của mình các tính năng tương tự chế độ giọng nói nâng cao của ChatGPT Nhà phát triển có thể gửi âm thanh đã ghi tới máy chủ OpenAI và nhận lại phản hồi âm thanh được tạo theo thời gian thực, bản chép lời và function calling Realtime API được phát hành dưới dạng public beta từ hôm nay và trong tương lai sẽ hỗ trợ thêm nhiều dạng dữ liệu như video Realtime API có giá 0,06 USD/phút cho đầu vào âm thanh và 0,24 USD/phút cho đầu ra âm thanh, tổng cộng là 0,15 USD/phút (giả sử lượng âm thanh vào và ra là như nhau) Mức này đắt hơn dịch vụ speech-to-speech của ElevenLabs khoảng 0,11 USD/phút, nhưng dịch vụ đó không tính tiền theo mức sử dụng mà yêu cầu mua trước một lượng thời gian cố định mỗi tháng Giọng nói thời gian thực mở ra nhiều trường hợp sử dụng mới như trợ lý đọc tốt hơn hay dạy ngôn ngữ nhập vai hơn Công cụ fine-tuning OpenAI đang nghiêm túc tiếp nhận ý tưởng rằng dùng nhiều mô hình sẽ tốt hơn dùng một mô hình lớn duy nhất Công ty hỗ trợ doanh nghiệp tạo ra các phiên bản GPT-4o tùy chỉnh phù hợp với trường hợp sử dụng của riêng mình OpenAI hình dung một tương lai nơi mọi doanh nghiệp đều sở hữu các mô hình đã được fine-tune có thể truy cập dữ liệu của chính họ API fine-tuning hình ảnh Bất kỳ ai cũng có thể fine-tune GPT-4o bằng dữ liệu hình ảnh của riêng mình Ví dụ, nếu bạn làm việc trong lĩnh vực y tế và muốn tinh chỉnh khả năng đọc và gắn nhãn MRI của GPT-4o, bạn có thể dùng API này Công cụ model distillation OpenAI đã phát hành hai công cụ để làm tốt hơn việc model distillation, tức quá trình tạo ra các phiên bản nhỏ hơn, nhanh hơn và rẻ hơn của foundation model, được xây dựng cho các trường hợp sử dụng cụ thể Họ bổ sung vào Developer Playground khả năng ghi lại các tương tác API trước đó và dùng chúng làm dữ liệu cho fine-tuning, giúp việc distillation trở nên dễ dàng hơn OpenAI cũng thêm công cụ Evals vào Playground để nhà phát triển có thể đánh giá hiệu năng của các mô hình đã fine-tune Prompt caching giúp giảm 50% chi phí cho các lệnh gọi API lặp lại OpenAI đã phát hành tính năng prompt caching mới, có thể phát hiện các lệnh gọi API lặp lại và trả về phản hồi đã được tạo trước đó Tính năng này tự động hoạt động từ hôm nay, giúp nhà phát triển giảm 50% chi phí cho nhiều lệnh gọi API mà không cần làm thêm gì Đây là phần tiếp nối của xu hướng OpenAI cạnh tranh bằng cách khiến chi phí sử dụng API ngày càng rẻ hơn Đây là tin tốt cho nhà phát triển, nhưng lại tạo ra một động lực quan hệ thú vị với Microsoft, đối tác lớn nhất của OpenAI Microsoft đã gây áp lực để các doanh nghiệp lớn cam kết mua trước các lệnh gọi API GPT-4 với một mức chi tiêu tối thiểu nhằm được đảm bảo năng lực Điều này khiến người ta tò mò Microsoft và các khách hàng đã ký cam kết mua trước sẽ nhìn nhận đợt giảm giá này như thế nào Chiến lược của OpenAI 1. Tập trung phát triển nhiều mô hình cho nhiều trường hợp sử dụng khác nhau OpenAI tin rằng thay vì để một mô hình xử lý mọi thứ, những ứng dụng hiệu quả nhất sẽ là các ứng dụng dùng kết hợp nhiều mô hình Nhà phát triển có thể kết hợp các mô hình mạnh về suy luận như o1 với các mô hình mạnh về ngữ cảnh dài hoặc xử lý prompt hình ảnh như GPT-4o để mang lại trải nghiệm nhất quán cho người dùng 2. o1 là một bước quan trọng hướng tới các agent có thể tự vận hành Agent từ lâu đã là một trong những ứng dụng AI hấp dẫn nhất, nhưng các mô hình GPT trước đây thường có khả năng cao là không hoạt động tốt nếu được giao tự giải quyết công việc Nhờ khả năng tự nhìn lại quá trình suy nghĩ và lên kế hoạch cho bước tiếp theo, o1 được kỳ vọng sẽ đóng vai trò cốt lõi trong việc tạo ra các agent thực sự tự chủ 3. Công nghệ để nhà phát triển tạo ra những trải nghiệm đáng kinh ngạc cho người dùng đang trở nên phong phú hơn rất nhiều Rất dễ quên rằng chỉ vài năm trước thôi, không điều nào trong số những gì được trình diễn hôm nay là khả thi hoặc thậm chí nằm trong mối quan tâm của nhiều người Ngày nay, ngay cả một nhà phát triển đơn lẻ làm ứng dụng trong thời gian rảnh cũng có thể làm được những điều mà trước đây cả một đội ngũ phát triển cũng không thể làm nổi

(every.to)

12 điểm bởi xguru 2024-10-03 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Các công bố chính

Realtime API, cho phép triển khai các tính năng tương tự chế độ giọng nói nâng cao của ChatGPT
Tăng Rate Limit của mô hình o1 lên ngang với GPT-4o (10.000 lần/phút)
Giảm giá API GPT-4o nhờ tự động prompt caching. Với các lệnh gọi lặp lại, chi phí rẻ hơn 50% mà không cần thêm công sức phát triển
API fine-tuning đa phương thức
Số lượng ứng dụng đang hoạt động trên nền tảng OpenAI đã tăng gấp 3 từ năm ngoái đến năm nay, và số nhà phát triển đang hoạt động đã đạt 3 triệu người

Tổng quan về mô hình o1

OpenAI đã phát hành o1, một mô hình suy luận mới
o1 được xếp vào một họ mô hình mới, khác với GPT-4o hiện có
OpenAI cho rằng tương lai sẽ là phát triển nhiều mô hình phù hợp với nhiều trường hợp sử dụng khác nhau
o1 có khả năng suy nghĩ theo dạng chuỗi tư duy rất tốt nên phù hợp cho các tác vụ lập trình, nhưng chậm và tốn kém hơn
Phần lớn prompt không cần đến khả năng suy luận nâng cao của o1, vì vậy o1 sẽ không trở thành mô hình mặc định
Romain Huet, người phụ trách quan hệ nhà phát triển của OpenAI, đã trình diễn việc dùng o1 để tạo một ứng dụng iPhone hoàn chỉnh từ đầu đến cuối chỉ trong 30 giây với một prompt duy nhất
Ông cũng mang một chiếc drone lên sân khấu, tạo một ứng dụng web và trình diễn điều khiển drone trước khán giả
Các màn trình diễn như vậy có lẽ cũng có thể thực hiện bằng các mô hình GPT trước đây, nhưng với o1 thì có thể xây dựng nhanh hơn rất nhiều
o1 cho thấy một tương lai nơi có thể đi từ ý tưởng đến ứng dụng chỉ trong 1~2 phút

API thời gian thực hội thoại bằng giọng nói

Tính năng ấn tượng nhất mà OpenAI ra mắt là Realtime API, cho phép nhà phát triển triển khai vào ứng dụng của mình các tính năng tương tự chế độ giọng nói nâng cao của ChatGPT
Nhà phát triển có thể gửi âm thanh đã ghi tới máy chủ OpenAI và nhận lại phản hồi âm thanh được tạo theo thời gian thực, bản chép lời và function calling
Realtime API được phát hành dưới dạng public beta từ hôm nay và trong tương lai sẽ hỗ trợ thêm nhiều dạng dữ liệu như video
Realtime API có giá 0,06 USD/phút cho đầu vào âm thanh và 0,24 USD/phút cho đầu ra âm thanh, tổng cộng là 0,15 USD/phút (giả sử lượng âm thanh vào và ra là như nhau)
Mức này đắt hơn dịch vụ speech-to-speech của ElevenLabs khoảng 0,11 USD/phút, nhưng dịch vụ đó không tính tiền theo mức sử dụng mà yêu cầu mua trước một lượng thời gian cố định mỗi tháng
Giọng nói thời gian thực mở ra nhiều trường hợp sử dụng mới như trợ lý đọc tốt hơn hay dạy ngôn ngữ nhập vai hơn

Công cụ fine-tuning

OpenAI đang nghiêm túc tiếp nhận ý tưởng rằng dùng nhiều mô hình sẽ tốt hơn dùng một mô hình lớn duy nhất
Công ty hỗ trợ doanh nghiệp tạo ra các phiên bản GPT-4o tùy chỉnh phù hợp với trường hợp sử dụng của riêng mình
OpenAI hình dung một tương lai nơi mọi doanh nghiệp đều sở hữu các mô hình đã được fine-tune có thể truy cập dữ liệu của chính họ

API fine-tuning hình ảnh

Bất kỳ ai cũng có thể fine-tune GPT-4o bằng dữ liệu hình ảnh của riêng mình
Ví dụ, nếu bạn làm việc trong lĩnh vực y tế và muốn tinh chỉnh khả năng đọc và gắn nhãn MRI của GPT-4o, bạn có thể dùng API này

Công cụ model distillation

OpenAI đã phát hành hai công cụ để làm tốt hơn việc model distillation, tức quá trình tạo ra các phiên bản nhỏ hơn, nhanh hơn và rẻ hơn của foundation model, được xây dựng cho các trường hợp sử dụng cụ thể
Họ bổ sung vào Developer Playground khả năng ghi lại các tương tác API trước đó và dùng chúng làm dữ liệu cho fine-tuning, giúp việc distillation trở nên dễ dàng hơn
OpenAI cũng thêm công cụ Evals vào Playground để nhà phát triển có thể đánh giá hiệu năng của các mô hình đã fine-tune

Prompt caching giúp giảm 50% chi phí cho các lệnh gọi API lặp lại

OpenAI đã phát hành tính năng prompt caching mới, có thể phát hiện các lệnh gọi API lặp lại và trả về phản hồi đã được tạo trước đó
Tính năng này tự động hoạt động từ hôm nay, giúp nhà phát triển giảm 50% chi phí cho nhiều lệnh gọi API mà không cần làm thêm gì
Đây là phần tiếp nối của xu hướng OpenAI cạnh tranh bằng cách khiến chi phí sử dụng API ngày càng rẻ hơn
Đây là tin tốt cho nhà phát triển, nhưng lại tạo ra một động lực quan hệ thú vị với Microsoft, đối tác lớn nhất của OpenAI
Microsoft đã gây áp lực để các doanh nghiệp lớn cam kết mua trước các lệnh gọi API GPT-4 với một mức chi tiêu tối thiểu nhằm được đảm bảo năng lực
Điều này khiến người ta tò mò Microsoft và các khách hàng đã ký cam kết mua trước sẽ nhìn nhận đợt giảm giá này như thế nào

Chiến lược của OpenAI

1. Tập trung phát triển nhiều mô hình cho nhiều trường hợp sử dụng khác nhau

OpenAI tin rằng thay vì để một mô hình xử lý mọi thứ, những ứng dụng hiệu quả nhất sẽ là các ứng dụng dùng kết hợp nhiều mô hình
Nhà phát triển có thể kết hợp các mô hình mạnh về suy luận như o1 với các mô hình mạnh về ngữ cảnh dài hoặc xử lý prompt hình ảnh như GPT-4o để mang lại trải nghiệm nhất quán cho người dùng

2. o1 là một bước quan trọng hướng tới các agent có thể tự vận hành

Agent từ lâu đã là một trong những ứng dụng AI hấp dẫn nhất, nhưng các mô hình GPT trước đây thường có khả năng cao là không hoạt động tốt nếu được giao tự giải quyết công việc
Nhờ khả năng tự nhìn lại quá trình suy nghĩ và lên kế hoạch cho bước tiếp theo, o1 được kỳ vọng sẽ đóng vai trò cốt lõi trong việc tạo ra các agent thực sự tự chủ

3. Công nghệ để nhà phát triển tạo ra những trải nghiệm đáng kinh ngạc cho người dùng đang trở nên phong phú hơn rất nhiều

Rất dễ quên rằng chỉ vài năm trước thôi, không điều nào trong số những gì được trình diễn hôm nay là khả thi hoặc thậm chí nằm trong mối quan tâm của nhiều người
Ngày nay, ngay cả một nhà phát triển đơn lẻ làm ứng dụng trong thời gian rảnh cũng có thể làm được những điều mà trước đây cả một đội ngũ phát triển cũng không thể làm nổi