OpenAI công bố các mô hình o3 và o4-mini

(openai.com)

5 điểm bởi GN⁺ 2025-04-17 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình o3 và o4-mini cải thiện mạnh mẽ năng lực suy luận của ChatGPT
Hai mô hình này không chỉ trả lời câu hỏi đơn thuần mà còn có thể thực hiện các tác vụ phức tạp như kết hợp sử dụng công cụ, phân tích dữ liệu trực quan, tạo ảnh, chạy mã Python
Đặc biệt, khi người dùng đặt câu hỏi, chúng có khả năng tự đánh giá và thực thi việc nên dùng công cụ nào và dùng vào lúc nào
Chúng mạnh về giải quyết vấn đề phức tạp, suy luận thị giác, phân tích nhiều bước, đồng thời hướng tới phong cách hội thoại tự nhiên hơn như con người
o3 là mô hình cho giải quyết vấn đề phức tạp, còn o4-mini là mô hình suy luận nhanh và hiệu quả, theo đuổi đồng thời hiệu năng cao và hiệu suất cao
Sở hữu năng lực suy luận đa phương thức kết hợp hình ảnh và văn bản, cùng khả năng sử dụng công cụ dạng agent nâng cao

Những thay đổi chính về tính năng

OpenAI o3

Mô hình tập trung vào suy luận mạnh nhất từ trước đến nay
Đạt hiệu năng hàng đầu ở nhiều lĩnh vực như lập trình, toán học, khoa học, phân tích thị giác
Ghi nhận hiệu năng cao nhất trên các benchmark như Codeforces, SWE-bench, MMMU
Theo đánh giá của các chuyên gia bên ngoài, có tỷ lệ lỗi nghiêm trọng ít hơn 20% so với o1
Xuất sắc trong việc tạo ý tưởng và đánh giá phản biện ở các lĩnh vực như lập trình, tư vấn, sinh học, kỹ thuật

OpenAI o4-mini

Mô hình cỡ nhỏ được tối ưu cho tốc độ và hiệu quả chi phí
Đặc biệt nổi trội về toán học, lập trình, giải quyết vấn đề thị giác
Dẫn đầu phân khúc trong các benchmark AIME 2024 và 2025
So với o3-mini, cho hiệu năng vượt trội cả ở những lĩnh vực ngoài STEM
Phù hợp với môi trường đòi hỏi lưu lượng sử dụng cao và phản hồi nhanh

Cả hai mô hình đều được cải thiện về khả năng hiểu lệnh, độ hữu ích của phản hồi và độ tin cậy so với các mô hình trước đó
Khả năng ghi nhớ hội thoại và cung cấp phản hồi được cá nhân hóa cũng được tăng cường

Tính năng đa phương thức

Hình ảnh không chỉ được nhận diện đơn thuần mà còn có thể được sử dụng như một phần của quá trình suy luận
Người dùng có thể tải lên ảnh chụp bảng trắng, sơ đồ trong sách, hình vẽ tay v.v.
Mô hình có thể nhận diện và phân tích cả hình ảnh mờ hoặc bị méo
Các thao tác xoay, phóng to, chuyển đổi ảnh cũng có thể được tự động thực hiện thông qua công cụ
Năng lực giải quyết vấn đề tổng hợp kết hợp thông tin văn bản và thị giác được nâng cao

Phương thức suy luận lấy việc sử dụng công cụ làm trung tâm

o3 và o4-mini có thể truy cập toàn bộ công cụ của ChatGPT
Khi người dùng đặt câu hỏi, mô hình sẽ tự động xác định và sử dụng công cụ cần thiết như tìm kiếm web, phân tích tệp, chạy mã
Ví dụ: khi được yêu cầu "dự đoán mức tiêu thụ điện mùa hè ở California", mô hình có thể thực hiện liên tiếp tìm kiếm web → tạo mã Python → vẽ biểu đồ
Có thể tận dụng thông tin thời gian thực, suy luận nhiều bước và phản hồi tích hợp nhiều modality

Hiệu năng suy luận hiệu quả

So sánh hiệu năng trên chi phí

o3 so với o1, và o4-mini so với o3-mini, đều đạt cải thiện rất lớn về hiệu quả chi phí
Dựa trên kết quả kỳ thi toán AIME 2025, cả o3 và o4-mini đều rẻ hơn và thông minh hơn so với thế hệ trước
Trong môi trường sử dụng thực tế, chúng được kỳ vọng sẽ trở thành lựa chọn thông minh hơn với chi phí thấp hơn

Cải thiện an toàn

Được huấn luyện lại với dữ liệu học tập mới để tăng khả năng từ chối các yêu cầu liên quan đến mối đe dọa sinh học, mã độc, prompt jailbreak
Triển khai hệ thống giám sát an toàn dựa trên LLM để tự động phát hiện mức độ rủi ro trong phản hồi của mô hình
Theo kết quả thử nghiệm nội bộ, phát hiện thành công hơn 99% các cuộc hội thoại rủi ro
Được đánh giá là chưa đạt ngưỡng rủi ro cao trong các lĩnh vực nguy hiểm như sinh học/hóa học, an ninh mạng, tự cải tiến AI
Hoàn tất xác minh độ an toàn theo Preparedness Framework mới nhất

Codex CLI: agent suy luận nâng cao dùng trong terminal

Công cụ cho phép sử dụng năng lực suy luận của o3 và o4-mini ngay trong terminal
Người dùng có thể cung cấp trực tiếp cho mô hình qua CLI các dữ liệu như mã nguồn, hình ảnh, ảnh chụp màn hình
Mô hình có thể liên kết với mã trong môi trường cục bộ để thực hiện suy luận đa phương thức
Được phát hành dưới dạng mã nguồn mở: github.com/openai/codex
OpenAI cũng khởi động chương trình hỗ trợ 1 triệu USD cho các dự án dựa trên Codex CLI

Cách truy cập

Người dùng ChatGPT Plus, Pro, Team: có thể dùng ngay các mô hình o3, o4-mini, o4-mini-high
Người dùng Enterprise và Education: có thể truy cập sau 1 tuần
Người dùng miễn phí cũng có thể sử dụng o4-mini nếu chọn tùy chọn ‘Think’
Người dùng API cũng có thể sử dụng từ hôm nay (có thể yêu cầu xác thực tổ chức)
Trên Responses API, sẽ cung cấp nhiều tính năng như tóm tắt suy luận, giữ lại suy luận quanh function calling, công cụ tìm kiếm web

Hướng đi sắp tới

Dự kiến sẽ kết hợp năng lực suy luận chuyên sâu của dòng o với khả năng hội thoại tự nhiên của dòng GPT
Trong tương lai, mô hình sẽ phát triển theo hướng có thể chủ động sử dụng công cụ trong khi vẫn duy trì hội thoại tự nhiên

1 bình luận

GN⁺ 2025-04-17

Ý kiến trên Hacker News

Đã đặt một câu hỏi kỹ thuật về việc dịch ngược Final Fantasy VII, nhưng AI lại cung cấp thông tin sai
- AI đã tìm thông tin trên diễn đàn và các trang web, nhưng lại tự bịa ra các chi tiết sai nên kết quả không chính xác
- AI dường như biết rằng mình không biết câu trả lời, nhưng vẫn tự tin đưa ra giá trị sai
- Mong AI sẽ nói thẳng khi không tìm được đáp án
Đã dùng o3 để cài bản Webstorm mới nhất trên NixOS, và nó đã chạy máy ảo NixOS, tải gói về rồi cung cấp hướng dẫn cài đặt
- Có vẻ nó còn thực hiện cả kiểm thử GUI, rất ấn tượng
Claude 3.7 vẫn cho thấy hiệu năng tốt nhất trên SWE-bench
- Các mô hình của OpenAI cũng có khả năng cho hiệu năng tương tự
Đã thử thành công một “bài kiểm tra Turing” đơn giản là viết bộ chuyển đổi base 62 trong C# bằng o4-mini-high
Đã hỏi nhiều AI về ngày trăng non vào tháng 8 năm 2025, nhưng phần lớn đều trả lời sai
- Claude từ chối trả lời về cách chặn một công cụ tìm kiếm cụ thể
o3 và o4 nhận ra khi không có công cụ tìm kiếm web và từ chối trả lời
- 4o và 4.1 lại cung cấp thông tin sai
- Tính năng tìm kiếm web mới khá hữu ích, giúp có thể xóa bớt các script Python không cần thiết
Codex CLI được phát hành dưới dạng mã nguồn mở
Không có phần so sánh với Sonnet 3.7 hay Gemini Pro 2.5
Học tăng cường quy mô lớn có xu hướng cải thiện hiệu năng khi dùng nhiều tài nguyên tính toán hơn
- Không rõ xu hướng này sẽ kéo dài đến đâu
Với tư cách người tiêu dùng, việc phải theo kịp nên dùng mô hình nào thật sự rất mệt

OpenAI công bố các mô hình o3 và o4-mini

Những thay đổi chính về tính năng

OpenAI o3

OpenAI o4-mini

Tính năng đa phương thức

Phương thức suy luận lấy việc sử dụng công cụ làm trung tâm

Hiệu năng suy luận hiệu quả

So sánh hiệu năng trên chi phí

Cải thiện an toàn

Codex CLI: agent suy luận nâng cao dùng trong terminal

Cách truy cập

Hướng đi sắp tới

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News