OpenAI đã bất ngờ công bố loạt mô hình GPT-OSS (gpt-oss-120b / gpt-oss-20b) theo giấy phép Apache 2.0. Đây là mô hình open-weight đầu tiên được giới thiệu sau 6 năm kể từ GPT-2, và có tiềm năng thay đổi cục diện thị trường cả về hiệu năng lẫn hiệu quả.
🧠 Đặc điểm chính
- Mô hình 20B: kiến trúc Mixture of Experts (MoE)
• Kích hoạt 4 trong 128 expert → giữ hiệu năng trong khi giảm chi phí suy luận
• Hỗ trợ FlashAttention, 128k token, bao gồm YaRN - Mô hình 20B: có thể chạy cả trong môi trường GPU 16GB (bao gồm Apple Silicon)
📊 Hiệu năng benchmark chính (dựa trên GPT-OSS-120B)
- MMLU: 90.0% (tương đương o4-mini)
- Toán AIME: 97.9% (mức rất mạnh về toán + công cụ)
- Codeforces Elo: 2622 (năng lực lập trình cũng thuộc nhóm đầu)
- HealthBench: hiệu năng vượt GPT-4o
- MMMLU (14 ngôn ngữ): 81.3% → suy luận đa ngôn ngữ cũng rất mạnh
💡 Tính thực dụng & hệ sinh thái
- Có thể chạy mô hình 120B trên một GPU H100 80GB duy nhất
- Mô hình 20B có thể chạy thời gian thực ngay cả trong môi trường 16GB
- Tương thích ngay với HuggingFace, vLLM, Ollama, v.v.
🔐 An toàn & trách nhiệm
- Tăng cường tính nhất quán trong suy luận dựa trên RL
- Áp dụng Deliberative Alignment
- Không tạo ra đầu ra rủi ro cao ngay cả khi bị cố ý lạm dụng
Có lẽ trong một thời gian tới sẽ khó còn bị trêu là ClosedAI nữa. Tôi đã thử nhanh một chút và thấy tiếng Hàn cũng làm rất tốt.
8 bình luận
Ngay cả mô hình 120b cũng có điểm simpleqa là 0.168 nhỉ
Tôi định thử phục vụ bằng vllm, nhưng vì nó dựa trên Flash Attention3 nên hình như chỉ hỗ trợ Hopper thôi hu hu hu hu
Tôi cũng vậy nên dùng ollama…
Chiếc A100 đã trở nên lỗi thời...
Các bình luận liên quan trên Hacker News, vui lòng tham khảo bài OpenAI, công bố mô hình ngôn ngữ trọng số mở quy mô lớn.
Bạn có thể xem nhiều đánh giá khác nhau về hiệu năng.
Khi muốn biết máy tính của mình chậm đến mức nào... có lẽ thử dùng cùng một prompt rồi trực tiếp bấm giờ theo từng giây để test sẽ hay đấy. ^^; Tôi cũng muốn mở sẵn một Google Spreadsheet đơn giản để ghi chép lại (chỉ vì niềm vui thuần túy của việc lưu lại dữ liệu)
Nhờ lượng tử hóa MXFP4, có thể chạy trên Ollama ngay cả trên hệ thống có 16GB bộ nhớ (VRAM) (
gpt-oss:20b): https://ollama.com/blog/gpt-ossNhững ai muốn chạy mô hình lớn hơn có thể sử dụng ollama turbo với giá 20 USD/tháng vừa được ra mắt lần này: https://ollama.com/turbo