- OpenAI o3-mini là mẫu mới nhất trong dòng mô hình suy luận tiết kiệm chi phí
- Đã được phát hành chính thức sau bản xem trước vào tháng 12/2024 và có thể sử dụng trên ChatGPT và API
- Cho thấy hiệu năng xuất sắc trong các lĩnh vực STEM như khoa học, toán học và lập trình, đồng thời duy trì chi phí và độ trễ thấp hơn OpenAI o1-mini
Tính năng chính và các cải tiến
- OpenAI o3-mini là mô hình suy luận cỡ nhỏ đầu tiên hỗ trợ function calling, structured outputs, developer messages
- Hỗ trợ tính năng streaming và cung cấp ba tùy chọn mức độ nỗ lực suy luận là thấp, trung bình, cao, có thể tối ưu theo từng tình huống
- Không hỗ trợ khả năng vision (hình ảnh); nếu cần suy luận thị giác thì OpenAI khuyến nghị dùng OpenAI o1
- Có thể sử dụng trong Chat Completions API, Assistants API và Batch API, dành cho các nhà phát triển thuộc API usage tier 3~5
- Người dùng ChatGPT Plus, Team, Pro có thể dùng từ hôm nay, còn người dùng Enterprise dự kiến được hỗ trợ từ tháng 2
- Thay thế OpenAI o1-mini, mang lại tốc độ cao hơn và năng lực suy luận được cải thiện
- Giới hạn tin nhắn cho người dùng Plus và Team tăng từ 50 lên 150 so với o1-mini trước đây
- Đã bổ sung tính năng tìm kiếm và đang thử nghiệm khả năng cung cấp thông tin mới nhất kèm liên kết web
Mở rộng khả năng tiếp cận cho người dùng miễn phí
- Người dùng miễn phí cũng có thể dùng o3-mini bằng cách chọn
Reason trong ô soạn tin nhắn hoặc tạo lại phản hồi
- Đây là lần đầu tiên mô hình reasoning trên ChatGPT được cung cấp cho người dùng miễn phí
Tối ưu cho STEM và cải thiện hiệu năng
- Cung cấp hiệu năng được tối ưu cho lĩnh vực STEM, tạo phản hồi nhanh và chính xác hơn so với o1-mini
- Theo đánh giá của các tester chuyên môn, o3-mini được ưa chuộng hơn o1-mini trong 56% trường hợp, đồng thời ghi nhận giảm 39% các lỗi nghiêm trọng ở các bài toán khó
- Cho thấy hiệu năng tương tự o1 trong các bài đánh giá suy luận và trí tuệ khó như AIME, GPQA, đồng thời có tốc độ phản hồi nhanh hơn
So sánh hiệu năng chính
- Toán học (AIME 2024):
- Ở mức nỗ lực suy luận thấp, hiệu năng tương đương o1-mini; ở mức trung bình, hiệu năng tương tự o1
- Ở mức nỗ lực suy luận cao, cho hiệu năng vượt trội hơn o1 và o1-mini
- Câu hỏi khoa học cấp độ tiến sĩ (GPQA Diamond):
- Với các bài toán sinh học, hóa học, vật lý, ngay cả mức nỗ lực suy luận thấp cũng vượt o1-mini
- Ở mức nỗ lực suy luận cao, hiệu năng tương tự o1
- Toán học nâng cao (FrontierMath):
- Khi dùng công cụ Python, giải được hơn 32% số bài ngay ở lần thử đầu tiên, và cũng giải được hơn 28% các bài khó (T3)
- Lập trình thi đấu (Codeforces):
- Điểm Elo càng cao khi tăng mức nỗ lực suy luận, với hiệu năng tốt hơn o1-mini
- Ở mức nỗ lực suy luận trung bình, hiệu năng gần với o1
- Kỹ thuật phần mềm (SWE-bench Verified):
- Đạt hiệu năng tốt nhất trong số các mô hình đã phát hành cho đến nay trên SWEbench-verified
- Bài kiểm tra lập trình thực tế (LiveBench Coding):
- Cho hiệu năng vượt o1-high, và ở mức nỗ lực suy luận cao thì còn vượt trội hơn nữa
- Đánh giá kiến thức tổng quát:
- Cho kết quả tốt hơn o1-mini trong các bài đánh giá kiến thức tổng thể
- Đánh giá mức độ ưa chuộng của người dùng:
- Theo thử nghiệm của chuyên gia, o3-mini được ưa chuộng hơn o1-mini 56% và giảm 39% lỗi ở các bài toán khó
Cải thiện tốc độ và hiệu năng
- Duy trì trí tuệ tương đương o1, đồng thời mang lại hiệu năng nhanh hơn và hiệu quả cao hơn
- Đạt kết quả cải thiện trong các bài đánh giá toán học và tính chính xác thực tế ngay cả ở mức nỗ lực suy luận trung bình
- Theo kết quả thử nghiệm A/B, o3-mini có tốc độ phản hồi nhanh hơn 24% so với o1-mini
- Thời gian phản hồi trung bình: o3-mini (7.7 giây) vs o1-mini (10.16 giây)
- Tốc độ xuất token đầu tiên: o3-mini nhanh hơn o1-mini trung bình 2500ms
An toàn và các biện pháp ứng phó
- OpenAI o3-mini được huấn luyện để tạo phản hồi an toàn hơn bằng cách sử dụng kỹ thuật ‘deliberative alignment’
- So với OpenAI o1, mô hình này cho thấy mức độ an toàn và khả năng phòng thủ trước jailbreak cao, thậm chí vượt GPT-4o
- Trước khi phát hành, mô hình đã được kiểm chứng kỹ lưỡng qua đánh giá chuẩn bị, thử nghiệm red team bên ngoài và đánh giá an toàn
- Kết quả đánh giá phản hồi với nội dung không được phép và đánh giá jailbreak của o3-mini được cung cấp trong system card
Kế hoạch và triển vọng sắp tới
- OpenAI o3-mini đánh dấu một giai đoạn mới trong sự phát triển của AI thông minh với chi phí hiệu quả
- Tiếp tục mục tiêu mang AI chất lượng cao đến với nhiều người dùng hơn thông qua tối ưu STEM và phát triển các mô hình chi phí thấp
- Phát triển theo hướng duy trì năng lực suy luận hàng đầu trong khi đã giảm 95% giá trên mỗi token kể từ khi GPT-4 ra mắt
- Trong bối cảnh AI ngày càng được chấp nhận rộng rãi, OpenAI dự định tập trung vào phát triển các mô hình cân bằng giữa trí tuệ, hiệu quả và an toàn
1 bình luận
Ý kiến trên Hacker News
Mô hình Claude-3.5-sonnet có độ nhất quán rất cao, trong khi các mô hình khác gặp vấn đề kiểu như ADHD
Câu trả lời của o3-mini được ưa chuộng hơn o1-mini 56%
Chia sẻ kết quả dùng o3-mini để tóm tắt chuỗi thảo luận
Trong mảng coding AI, o3-mini đạt điểm tương tự o1 nhưng chi phí rẻ hơn 10 lần
Công bố bản phát hành mới của công cụ CLI LLM hỗ trợ mô hình mới và tùy chọn reasoning_effort
Chỉ ra rằng điểm SWE Bench của o3-mini đã giảm từ 61% xuống 49,3%
Đề cập rằng o3-mini-high đã tìm ra thành công nguyên nhân gốc rễ của lỗi seg fault
Cho thấy mức tăng đáng kể trên SWE-Bench, và đáng để thử lại xem nó có thể xử lý các tác vụ mà trước đây o1-mini không làm được hay không
Bối cảnh AI đang thay đổi rất nhanh và các mô hình AI mới liên tục xuất hiện