OpenAI công bố GPT-OSS, LLM mã nguồn mở đầu tiên sau 6 năm

(openai.com)

31 điểm bởi haebom 2025-08-06 | 8 bình luận | Chia sẻ qua WhatsApp

OpenAI đã bất ngờ công bố loạt mô hình GPT-OSS (gpt-oss-120b / gpt-oss-20b) theo giấy phép Apache 2.0. Đây là mô hình open-weight đầu tiên được giới thiệu sau 6 năm kể từ GPT-2, và có tiềm năng thay đổi cục diện thị trường cả về hiệu năng lẫn hiệu quả.

🧠 Đặc điểm chính

Mô hình 20B: kiến trúc Mixture of Experts (MoE)
• Kích hoạt 4 trong 128 expert → giữ hiệu năng trong khi giảm chi phí suy luận
• Hỗ trợ FlashAttention, 128k token, bao gồm YaRN
Mô hình 20B: có thể chạy cả trong môi trường GPU 16GB (bao gồm Apple Silicon)

📊 Hiệu năng benchmark chính (dựa trên GPT-OSS-120B)

MMLU: 90.0% (tương đương o4-mini)
Toán AIME: 97.9% (mức rất mạnh về toán + công cụ)
Codeforces Elo: 2622 (năng lực lập trình cũng thuộc nhóm đầu)
HealthBench: hiệu năng vượt GPT-4o
MMMLU (14 ngôn ngữ): 81.3% → suy luận đa ngôn ngữ cũng rất mạnh

💡 Tính thực dụng & hệ sinh thái

Có thể chạy mô hình 120B trên một GPU H100 80GB duy nhất
Mô hình 20B có thể chạy thời gian thực ngay cả trong môi trường 16GB
Tương thích ngay với HuggingFace, vLLM, Ollama, v.v.

🔐 An toàn & trách nhiệm

Tăng cường tính nhất quán trong suy luận dựa trên RL
Áp dụng Deliberative Alignment
Không tạo ra đầu ra rủi ro cao ngay cả khi bị cố ý lạm dụng

Có lẽ trong một thời gian tới sẽ khó còn bị trêu là ClosedAI nữa. Tôi đã thử nhanh một chút và thấy tiếng Hàn cũng làm rất tốt.

https://huggingface.co/openai/gpt-oss-120b

8 bình luận

yeorinhieut 2025-08-06

Ngay cả mô hình 120b cũng có điểm simpleqa là 0.168 nhỉ

jinucho 2025-08-06

Tôi định thử phục vụ bằng vllm, nhưng vì nó dựa trên Flash Attention3 nên hình như chỉ hỗ trợ Hopper thôi hu hu hu hu

yeorinhieut 2025-08-06

Tôi cũng vậy nên dùng ollama…

jinucho 2025-08-06

Chiếc A100 đã trở nên lỗi thời...

xguru 2025-08-06

Các bình luận liên quan trên Hacker News, vui lòng tham khảo bài OpenAI, công bố mô hình ngôn ngữ trọng số mở quy mô lớn.
Bạn có thể xem nhiều đánh giá khác nhau về hiệu năng.

argo9 2025-08-06

Khi muốn biết máy tính của mình chậm đến mức nào... có lẽ thử dùng cùng một prompt rồi trực tiếp bấm giờ theo từng giây để test sẽ hay đấy. ^^; Tôi cũng muốn mở sẵn một Google Spreadsheet đơn giản để ghi chép lại (chỉ vì niềm vui thuần túy của việc lưu lại dữ liệu)

fanotify 2025-08-06

Nhờ lượng tử hóa MXFP4, có thể chạy trên Ollama ngay cả trên hệ thống có 16GB bộ nhớ (VRAM) (gpt-oss:20b): https://ollama.com/blog/gpt-oss

fanotify 2025-08-06

Những ai muốn chạy mô hình lớn hơn có thể sử dụng ollama turbo với giá 20 USD/tháng vừa được ra mắt lần này: https://ollama.com/turbo

OpenAI công bố GPT-OSS, LLM mã nguồn mở đầu tiên sau 6 năm

Bài viết liên quan

8 bình luận