13 điểm bởi GN⁺ 2025-02-01 | 1 bình luận | Chia sẻ qua WhatsApp
  • OpenAI o3-mini là mẫu mới nhất trong dòng mô hình suy luận tiết kiệm chi phí
  • Đã được phát hành chính thức sau bản xem trước vào tháng 12/2024 và có thể sử dụng trên ChatGPT và API
  • Cho thấy hiệu năng xuất sắc trong các lĩnh vực STEM như khoa học, toán học và lập trình, đồng thời duy trì chi phí và độ trễ thấp hơn OpenAI o1-mini

Tính năng chính và các cải tiến

  • OpenAI o3-mini là mô hình suy luận cỡ nhỏ đầu tiên hỗ trợ function calling, structured outputs, developer messages
  • Hỗ trợ tính năng streaming và cung cấp ba tùy chọn mức độ nỗ lực suy luận là thấp, trung bình, cao, có thể tối ưu theo từng tình huống
  • Không hỗ trợ khả năng vision (hình ảnh); nếu cần suy luận thị giác thì OpenAI khuyến nghị dùng OpenAI o1
  • Có thể sử dụng trong Chat Completions API, Assistants API và Batch API, dành cho các nhà phát triển thuộc API usage tier 3~5
  • Người dùng ChatGPT Plus, Team, Pro có thể dùng từ hôm nay, còn người dùng Enterprise dự kiến được hỗ trợ từ tháng 2
  • Thay thế OpenAI o1-mini, mang lại tốc độ cao hơn và năng lực suy luận được cải thiện
  • Giới hạn tin nhắn cho người dùng Plus và Team tăng từ 50 lên 150 so với o1-mini trước đây
  • Đã bổ sung tính năng tìm kiếm và đang thử nghiệm khả năng cung cấp thông tin mới nhất kèm liên kết web

Mở rộng khả năng tiếp cận cho người dùng miễn phí

  • Người dùng miễn phí cũng có thể dùng o3-mini bằng cách chọn Reason trong ô soạn tin nhắn hoặc tạo lại phản hồi
  • Đây là lần đầu tiên mô hình reasoning trên ChatGPT được cung cấp cho người dùng miễn phí

Tối ưu cho STEM và cải thiện hiệu năng

  • Cung cấp hiệu năng được tối ưu cho lĩnh vực STEM, tạo phản hồi nhanh và chính xác hơn so với o1-mini
  • Theo đánh giá của các tester chuyên môn, o3-mini được ưa chuộng hơn o1-mini trong 56% trường hợp, đồng thời ghi nhận giảm 39% các lỗi nghiêm trọng ở các bài toán khó
  • Cho thấy hiệu năng tương tự o1 trong các bài đánh giá suy luận và trí tuệ khó như AIME, GPQA, đồng thời có tốc độ phản hồi nhanh hơn

So sánh hiệu năng chính

  • Toán học (AIME 2024):
    • Ở mức nỗ lực suy luận thấp, hiệu năng tương đương o1-mini; ở mức trung bình, hiệu năng tương tự o1
    • Ở mức nỗ lực suy luận cao, cho hiệu năng vượt trội hơn o1 và o1-mini
  • Câu hỏi khoa học cấp độ tiến sĩ (GPQA Diamond):
    • Với các bài toán sinh học, hóa học, vật lý, ngay cả mức nỗ lực suy luận thấp cũng vượt o1-mini
    • Ở mức nỗ lực suy luận cao, hiệu năng tương tự o1
  • Toán học nâng cao (FrontierMath):
    • Khi dùng công cụ Python, giải được hơn 32% số bài ngay ở lần thử đầu tiên, và cũng giải được hơn 28% các bài khó (T3)
  • Lập trình thi đấu (Codeforces):
    • Điểm Elo càng cao khi tăng mức nỗ lực suy luận, với hiệu năng tốt hơn o1-mini
    • Ở mức nỗ lực suy luận trung bình, hiệu năng gần với o1
  • Kỹ thuật phần mềm (SWE-bench Verified):
    • Đạt hiệu năng tốt nhất trong số các mô hình đã phát hành cho đến nay trên SWEbench-verified
  • Bài kiểm tra lập trình thực tế (LiveBench Coding):
    • Cho hiệu năng vượt o1-high, và ở mức nỗ lực suy luận cao thì còn vượt trội hơn nữa
  • Đánh giá kiến thức tổng quát:
    • Cho kết quả tốt hơn o1-mini trong các bài đánh giá kiến thức tổng thể
  • Đánh giá mức độ ưa chuộng của người dùng:
    • Theo thử nghiệm của chuyên gia, o3-mini được ưa chuộng hơn o1-mini 56% và giảm 39% lỗi ở các bài toán khó

Cải thiện tốc độ và hiệu năng

  • Duy trì trí tuệ tương đương o1, đồng thời mang lại hiệu năng nhanh hơn và hiệu quả cao hơn
  • Đạt kết quả cải thiện trong các bài đánh giá toán học và tính chính xác thực tế ngay cả ở mức nỗ lực suy luận trung bình
  • Theo kết quả thử nghiệm A/B, o3-mini có tốc độ phản hồi nhanh hơn 24% so với o1-mini
    • Thời gian phản hồi trung bình: o3-mini (7.7 giây) vs o1-mini (10.16 giây)
    • Tốc độ xuất token đầu tiên: o3-mini nhanh hơn o1-mini trung bình 2500ms

An toàn và các biện pháp ứng phó

  • OpenAI o3-mini được huấn luyện để tạo phản hồi an toàn hơn bằng cách sử dụng kỹ thuật ‘deliberative alignment’
  • So với OpenAI o1, mô hình này cho thấy mức độ an toàn và khả năng phòng thủ trước jailbreak cao, thậm chí vượt GPT-4o
  • Trước khi phát hành, mô hình đã được kiểm chứng kỹ lưỡng qua đánh giá chuẩn bị, thử nghiệm red team bên ngoài và đánh giá an toàn
  • Kết quả đánh giá phản hồi với nội dung không được phép và đánh giá jailbreak của o3-mini được cung cấp trong system card

Kế hoạch và triển vọng sắp tới

  • OpenAI o3-mini đánh dấu một giai đoạn mới trong sự phát triển của AI thông minh với chi phí hiệu quả
  • Tiếp tục mục tiêu mang AI chất lượng cao đến với nhiều người dùng hơn thông qua tối ưu STEM và phát triển các mô hình chi phí thấp
  • Phát triển theo hướng duy trì năng lực suy luận hàng đầu trong khi đã giảm 95% giá trên mỗi token kể từ khi GPT-4 ra mắt
  • Trong bối cảnh AI ngày càng được chấp nhận rộng rãi, OpenAI dự định tập trung vào phát triển các mô hình cân bằng giữa trí tuệ, hiệu quả và an toàn

1 bình luận

 
GN⁺ 2025-02-01
Ý kiến trên Hacker News
  • Mô hình Claude-3.5-sonnet có độ nhất quán rất cao, trong khi các mô hình khác gặp vấn đề kiểu như ADHD

    • Khi cố dùng component shadcn trong ứng dụng NextJS, sonnet làm gần như hoàn hảo nhưng các mô hình khác lại cố dùng radix-ui
    • Mô hình o3-mini cũng gặp vấn đề tương tự
    • Có khả năng bộ chỉ thị của cursor là nguyên nhân
    • sonnet vẫn là lựa chọn coding khả dụng duy nhất
  • Câu trả lời của o3-mini được ưa chuộng hơn o1-mini 56%

    • Khi cả hai câu trả lời đều dài 2.000 từ, có xu hướng chọn bên trả lời câu hỏi nhanh hơn
    • Khảo sát này vô nghĩa, và tỷ lệ 50% cũng chẳng khác gì tung đồng xu
  • Chia sẻ kết quả dùng o3-mini để tóm tắt chuỗi thảo luận

    • 18.936 input, 2.905 output, tốn 3,3612 cent
  • Trong mảng coding AI, o3-mini đạt điểm tương tự o1 nhưng chi phí rẻ hơn 10 lần

    • o3-mini với mức nỗ lực trung bình đạt điểm nằm giữa R1 và Sonnet
  • Công bố bản phát hành mới của công cụ CLI LLM hỗ trợ mô hình mới và tùy chọn reasoning_effort

    • Chia sẻ ví dụ cách sử dụng
  • Chỉ ra rằng điểm SWE Bench của o3-mini đã giảm từ 61% xuống 49,3%

    • o3-mini cho thấy hiệu năng tương tự Claude trong các tác vụ coding thực tế
  • Đề cập rằng o3-mini-high đã tìm ra thành công nguyên nhân gốc rễ của lỗi seg fault

    • Giải quyết được vấn đề mà trước đó o1 đã bỏ sót
  • Cho thấy mức tăng đáng kể trên SWE-Bench, và đáng để thử lại xem nó có thể xử lý các tác vụ mà trước đây o1-mini không làm được hay không

    • Chênh lệch chi phí là $4/triệu token output so với $60
  • Bối cảnh AI đang thay đổi rất nhanh và các mô hình AI mới liên tục xuất hiện

    • Tò mò không biết sự thay đổi của AI sẽ ảnh hưởng thế nào đến bản phát hành này và các bản phát hành sắp tới