OpenAI công bố bản preview của mô hình o1 suy nghĩ nhiều hơn trước khi trả lời

xguru · 2024-09-13T08:50:46+09:00

Mô hình suy luận mới để giải quyết các vấn đề phức tạp Được huấn luyện để mô hình suy nghĩ lâu hơn về vấn đề trước khi phản hồi Thông qua huấn luyện, mô hình học cách cải thiện quá trình tư duy, thử nhiều chiến lược khác nhau và nhận ra sai sót Thể hiện hiệu năng tương đương nghiên cứu sinh tiến sĩ trong các bài benchmark đầy thách thức về vật lý, hóa học và sinh học Cũng đạt thành tích xuất sắc trong toán học và lập trình Trong bài thi vòng loại Olympic Toán học Quốc tế (IMO), GPT-4o chỉ trả lời đúng 13%, trong khi mô hình suy luận đạt 83% Năng lực lập trình trên Codeforces đạt bách phân vị thứ 89 An toàn Đã thiết kế một cách tiếp cận huấn luyện an toàn mới để mô hình tuân thủ các hướng dẫn về an toàn và căn chỉnh Trong một trong những bài kiểm tra jailbreak khó nhất, GPT-4o đạt 22 điểm (trên thang 100), trong khi mô hình o1-preview đạt 84 điểm Tăng cường các hoạt động an toàn, quản trị nội bộ và hợp tác với chính phủ liên bang Kiểm thử và đánh giá nghiêm ngặt bằng Preparedness Framework Vận hành red team ở mức cao nhất Quy trình rà soát ở cấp hội đồng quản trị, bao gồm Safety & Security Committee Đã ký kết thỏa thuận và bắt đầu vận hành với các viện nghiên cứu an toàn AI của Mỹ và Anh Mô hình này dành cho ai Có thể đặc biệt hữu ích khi xử lý các vấn đề phức tạp trong các lĩnh vực như khoa học, lập trình và toán học Ví dụ Nhà nghiên cứu y tế có thể chú thích dữ liệu giải trình tự tế bào, Nhà vật lý có thể tạo ra các công thức toán học phức tạp cần cho quang học lượng tử, Lập trình viên có thể dùng để xây dựng và thực thi các workflow nhiều bước OpenAI o1-mini Dòng o1 vượt trội trong việc tạo và gỡ lỗi mã phức tạp một cách chính xác Để cung cấp giải pháp hiệu quả hơn cho nhà phát triển, OpenAI cũng ra mắt mô hình suy luận nhanh hơn và rẻ hơn mang tên o1-mini o1-mini rẻ hơn 80% so với o1-preview Là mô hình mạnh và tiết kiệm chi phí cho các ứng dụng cần suy luận nhưng không cần lượng kiến thức thế giới quá rộng Cách sử dụng OpenAI o1 Người dùng ChatGPT Plus và Team có thể truy cập mô hình o1 trên ChatGPT từ hôm nay Cả o1-preview và o1-mini đều có thể được chọn thủ công Khi ra mắt, o1-preview bị giới hạn 30 tin nhắn mỗi tuần, còn o1-mini là 50 tin nhắn mỗi tuần Người dùng ChatGPT Enterprise và Edu có thể truy cập cả hai mô hình từ tuần sau Các nhà phát triển thuộc API usage tier 5 có thể bắt đầu tạo prototype với cả hai mô hình trên API từ hôm nay, với giới hạn tốc độ 20 RPM API của các mô hình này hiện chưa bao gồm các tính năng như function calling, streaming và hỗ trợ system message Có kế hoạch cung cấp quyền truy cập o1-mini cho toàn bộ người dùng ChatGPT Free Kế hoạch sắp tới Đây là bản preview ban đầu của mô hình suy luận cho ChatGPT và API Ngoài các bản cập nhật mô hình, OpenAI có kế hoạch bổ sung các tính năng như duyệt web, tải lên tệp và hình ảnh để hữu ích hơn cho mọi người Có kế hoạch tiếp tục phát triển và phát hành các mô hình của dòng GPT song song với dòng OpenAI o1 mới

(openai.com)

8 điểm bởi xguru 2024-09-13 | 4 bình luận | Chia sẻ qua WhatsApp

Mô hình suy luận mới để giải quyết các vấn đề phức tạp
Được huấn luyện để mô hình suy nghĩ lâu hơn về vấn đề trước khi phản hồi
Thông qua huấn luyện, mô hình học cách cải thiện quá trình tư duy, thử nhiều chiến lược khác nhau và nhận ra sai sót
Thể hiện hiệu năng tương đương nghiên cứu sinh tiến sĩ trong các bài benchmark đầy thách thức về vật lý, hóa học và sinh học
Cũng đạt thành tích xuất sắc trong toán học và lập trình
- Trong bài thi vòng loại Olympic Toán học Quốc tế (IMO), GPT-4o chỉ trả lời đúng 13%, trong khi mô hình suy luận đạt 83%
- Năng lực lập trình trên Codeforces đạt bách phân vị thứ 89

An toàn

Đã thiết kế một cách tiếp cận huấn luyện an toàn mới để mô hình tuân thủ các hướng dẫn về an toàn và căn chỉnh
Trong một trong những bài kiểm tra jailbreak khó nhất, GPT-4o đạt 22 điểm (trên thang 100), trong khi mô hình o1-preview đạt 84 điểm
Tăng cường các hoạt động an toàn, quản trị nội bộ và hợp tác với chính phủ liên bang
- Kiểm thử và đánh giá nghiêm ngặt bằng Preparedness Framework
- Vận hành red team ở mức cao nhất
- Quy trình rà soát ở cấp hội đồng quản trị, bao gồm Safety & Security Committee
Đã ký kết thỏa thuận và bắt đầu vận hành với các viện nghiên cứu an toàn AI của Mỹ và Anh

Mô hình này dành cho ai

Có thể đặc biệt hữu ích khi xử lý các vấn đề phức tạp trong các lĩnh vực như khoa học, lập trình và toán học
Ví dụ
- Nhà nghiên cứu y tế có thể chú thích dữ liệu giải trình tự tế bào,
- Nhà vật lý có thể tạo ra các công thức toán học phức tạp cần cho quang học lượng tử,
- Lập trình viên có thể dùng để xây dựng và thực thi các workflow nhiều bước

OpenAI o1-mini

Dòng o1 vượt trội trong việc tạo và gỡ lỗi mã phức tạp một cách chính xác
Để cung cấp giải pháp hiệu quả hơn cho nhà phát triển, OpenAI cũng ra mắt mô hình suy luận nhanh hơn và rẻ hơn mang tên o1-mini
o1-mini rẻ hơn 80% so với o1-preview
- Là mô hình mạnh và tiết kiệm chi phí cho các ứng dụng cần suy luận nhưng không cần lượng kiến thức thế giới quá rộng

Cách sử dụng OpenAI o1

Người dùng ChatGPT Plus và Team có thể truy cập mô hình o1 trên ChatGPT từ hôm nay
Cả o1-preview và o1-mini đều có thể được chọn thủ công
Khi ra mắt, o1-preview bị giới hạn 30 tin nhắn mỗi tuần, còn o1-mini là 50 tin nhắn mỗi tuần
Người dùng ChatGPT Enterprise và Edu có thể truy cập cả hai mô hình từ tuần sau
Các nhà phát triển thuộc API usage tier 5 có thể bắt đầu tạo prototype với cả hai mô hình trên API từ hôm nay, với giới hạn tốc độ 20 RPM
API của các mô hình này hiện chưa bao gồm các tính năng như function calling, streaming và hỗ trợ system message
Có kế hoạch cung cấp quyền truy cập o1-mini cho toàn bộ người dùng ChatGPT Free

Kế hoạch sắp tới

Đây là bản preview ban đầu của mô hình suy luận cho ChatGPT và API
Ngoài các bản cập nhật mô hình, OpenAI có kế hoạch bổ sung các tính năng như duyệt web, tải lên tệp và hình ảnh để hữu ích hơn cho mọi người
Có kế hoạch tiếp tục phát triển và phát hành các mô hình của dòng GPT song song với dòng OpenAI o1 mới

4 bình luận

dbs0829 2024-09-13

Mình khá tò mò về sự cộng hưởng với GitHub Copilot.

wedding 2024-09-13

Đây có phải là Strawberry trong lời đồn không?

brainer 2024-09-13

Đúng vậy. Altman đã an ủi người tung tin đồn đó.

xguru 2024-09-13

Chắc là đúng vậy. Có vẻ họ chỉ chọn số 1 làm mã phiên bản mới để tập trung vào suy luận.