5 điểm bởi GN⁺ 2025-04-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các mô hình o3 và o4-mini cải thiện mạnh mẽ năng lực suy luận của ChatGPT
  • Hai mô hình này không chỉ trả lời câu hỏi đơn thuần mà còn có thể thực hiện các tác vụ phức tạp như kết hợp sử dụng công cụ, phân tích dữ liệu trực quan, tạo ảnh, chạy mã Python
  • Đặc biệt, khi người dùng đặt câu hỏi, chúng có khả năng tự đánh giá và thực thi việc nên dùng công cụ nào và dùng vào lúc nào
  • Chúng mạnh về giải quyết vấn đề phức tạp, suy luận thị giác, phân tích nhiều bước, đồng thời hướng tới phong cách hội thoại tự nhiên hơn như con người
  • o3 là mô hình cho giải quyết vấn đề phức tạp, còn o4-mini là mô hình suy luận nhanh và hiệu quả, theo đuổi đồng thời hiệu năng cao và hiệu suất cao
  • Sở hữu năng lực suy luận đa phương thức kết hợp hình ảnh và văn bản, cùng khả năng sử dụng công cụ dạng agent nâng cao

Những thay đổi chính về tính năng

OpenAI o3

  • Mô hình tập trung vào suy luận mạnh nhất từ trước đến nay
  • Đạt hiệu năng hàng đầu ở nhiều lĩnh vực như lập trình, toán học, khoa học, phân tích thị giác
  • Ghi nhận hiệu năng cao nhất trên các benchmark như Codeforces, SWE-bench, MMMU
  • Theo đánh giá của các chuyên gia bên ngoài, có tỷ lệ lỗi nghiêm trọng ít hơn 20% so với o1
  • Xuất sắc trong việc tạo ý tưởng và đánh giá phản biện ở các lĩnh vực như lập trình, tư vấn, sinh học, kỹ thuật

OpenAI o4-mini

  • Mô hình cỡ nhỏ được tối ưu cho tốc độ và hiệu quả chi phí
  • Đặc biệt nổi trội về toán học, lập trình, giải quyết vấn đề thị giác
  • Dẫn đầu phân khúc trong các benchmark AIME 2024 và 2025
  • So với o3-mini, cho hiệu năng vượt trội cả ở những lĩnh vực ngoài STEM
  • Phù hợp với môi trường đòi hỏi lưu lượng sử dụng cao và phản hồi nhanh
  • Cả hai mô hình đều được cải thiện về khả năng hiểu lệnh, độ hữu ích của phản hồi và độ tin cậy so với các mô hình trước đó
  • Khả năng ghi nhớ hội thoại và cung cấp phản hồi được cá nhân hóa cũng được tăng cường

Tính năng đa phương thức

  • Hình ảnh không chỉ được nhận diện đơn thuần mà còn có thể được sử dụng như một phần của quá trình suy luận
  • Người dùng có thể tải lên ảnh chụp bảng trắng, sơ đồ trong sách, hình vẽ tay v.v.
  • Mô hình có thể nhận diện và phân tích cả hình ảnh mờ hoặc bị méo
  • Các thao tác xoay, phóng to, chuyển đổi ảnh cũng có thể được tự động thực hiện thông qua công cụ
  • Năng lực giải quyết vấn đề tổng hợp kết hợp thông tin văn bản và thị giác được nâng cao

Phương thức suy luận lấy việc sử dụng công cụ làm trung tâm

  • o3 và o4-mini có thể truy cập toàn bộ công cụ của ChatGPT
  • Khi người dùng đặt câu hỏi, mô hình sẽ tự động xác định và sử dụng công cụ cần thiết như tìm kiếm web, phân tích tệp, chạy mã
  • Ví dụ: khi được yêu cầu "dự đoán mức tiêu thụ điện mùa hè ở California", mô hình có thể thực hiện liên tiếp tìm kiếm web → tạo mã Python → vẽ biểu đồ
  • Có thể tận dụng thông tin thời gian thực, suy luận nhiều bướcphản hồi tích hợp nhiều modality

Hiệu năng suy luận hiệu quả

So sánh hiệu năng trên chi phí

  • o3 so với o1, và o4-mini so với o3-mini, đều đạt cải thiện rất lớn về hiệu quả chi phí
  • Dựa trên kết quả kỳ thi toán AIME 2025, cả o3 và o4-mini đều rẻ hơn và thông minh hơn so với thế hệ trước
  • Trong môi trường sử dụng thực tế, chúng được kỳ vọng sẽ trở thành lựa chọn thông minh hơn với chi phí thấp hơn

Cải thiện an toàn

  • Được huấn luyện lại với dữ liệu học tập mới để tăng khả năng từ chối các yêu cầu liên quan đến mối đe dọa sinh học, mã độc, prompt jailbreak
  • Triển khai hệ thống giám sát an toàn dựa trên LLM để tự động phát hiện mức độ rủi ro trong phản hồi của mô hình
  • Theo kết quả thử nghiệm nội bộ, phát hiện thành công hơn 99% các cuộc hội thoại rủi ro
  • Được đánh giá là chưa đạt ngưỡng rủi ro cao trong các lĩnh vực nguy hiểm như sinh học/hóa học, an ninh mạng, tự cải tiến AI
  • Hoàn tất xác minh độ an toàn theo Preparedness Framework mới nhất

Codex CLI: agent suy luận nâng cao dùng trong terminal

  • Công cụ cho phép sử dụng năng lực suy luận của o3 và o4-mini ngay trong terminal
  • Người dùng có thể cung cấp trực tiếp cho mô hình qua CLI các dữ liệu như mã nguồn, hình ảnh, ảnh chụp màn hình
  • Mô hình có thể liên kết với mã trong môi trường cục bộ để thực hiện suy luận đa phương thức
  • Được phát hành dưới dạng mã nguồn mở: github.com/openai/codex
  • OpenAI cũng khởi động chương trình hỗ trợ 1 triệu USD cho các dự án dựa trên Codex CLI

Cách truy cập

  • Người dùng ChatGPT Plus, Pro, Team: có thể dùng ngay các mô hình o3, o4-mini, o4-mini-high
  • Người dùng Enterprise và Education: có thể truy cập sau 1 tuần
  • Người dùng miễn phí cũng có thể sử dụng o4-mini nếu chọn tùy chọn ‘Think’
  • Người dùng API cũng có thể sử dụng từ hôm nay (có thể yêu cầu xác thực tổ chức)
  • Trên Responses API, sẽ cung cấp nhiều tính năng như tóm tắt suy luận, giữ lại suy luận quanh function calling, công cụ tìm kiếm web

Hướng đi sắp tới

  • Dự kiến sẽ kết hợp năng lực suy luận chuyên sâu của dòng o với khả năng hội thoại tự nhiên của dòng GPT
  • Trong tương lai, mô hình sẽ phát triển theo hướng có thể chủ động sử dụng công cụ trong khi vẫn duy trì hội thoại tự nhiên

1 bình luận

 
GN⁺ 2025-04-17
Ý kiến trên Hacker News
  • Đã đặt một câu hỏi kỹ thuật về việc dịch ngược Final Fantasy VII, nhưng AI lại cung cấp thông tin sai

    • AI đã tìm thông tin trên diễn đàn và các trang web, nhưng lại tự bịa ra các chi tiết sai nên kết quả không chính xác
    • AI dường như biết rằng mình không biết câu trả lời, nhưng vẫn tự tin đưa ra giá trị sai
    • Mong AI sẽ nói thẳng khi không tìm được đáp án
  • Đã dùng o3 để cài bản Webstorm mới nhất trên NixOS, và nó đã chạy máy ảo NixOS, tải gói về rồi cung cấp hướng dẫn cài đặt

    • Có vẻ nó còn thực hiện cả kiểm thử GUI, rất ấn tượng
  • Claude 3.7 vẫn cho thấy hiệu năng tốt nhất trên SWE-bench

    • Các mô hình của OpenAI cũng có khả năng cho hiệu năng tương tự
  • Đã thử thành công một “bài kiểm tra Turing” đơn giản là viết bộ chuyển đổi base 62 trong C# bằng o4-mini-high

  • Đã hỏi nhiều AI về ngày trăng non vào tháng 8 năm 2025, nhưng phần lớn đều trả lời sai

    • Claude từ chối trả lời về cách chặn một công cụ tìm kiếm cụ thể
  • o3 và o4 nhận ra khi không có công cụ tìm kiếm web và từ chối trả lời

    • 4o và 4.1 lại cung cấp thông tin sai
    • Tính năng tìm kiếm web mới khá hữu ích, giúp có thể xóa bớt các script Python không cần thiết
  • Codex CLI được phát hành dưới dạng mã nguồn mở

  • Không có phần so sánh với Sonnet 3.7 hay Gemini Pro 2.5

  • Học tăng cường quy mô lớn có xu hướng cải thiện hiệu năng khi dùng nhiều tài nguyên tính toán hơn

    • Không rõ xu hướng này sẽ kéo dài đến đâu
  • Với tư cách người tiêu dùng, việc phải theo kịp nên dùng mô hình nào thật sự rất mệt