OpenAI công bố mô hình ngôn ngữ open-weight quy mô lớn

(openai.com)

7 điểm bởi GN⁺ 2025-08-06 | 1 bình luận | Chia sẻ qua WhatsApp

OpenAI lần đầu tiên công bố mô hình ngôn ngữ open-weight quy mô lớn (gpt-oss)
Hai mô hình gpt-oss-120b và gpt-oss-20b được giới thiệu, với hiệu năng mạnh mẽ và hỗ trợ nhiều thiết bị
Giấy phép Apache 2.0 cho phép sử dụng thương mại, tùy biến và phân phối tự do
Mô hình được huấn luyện về an toàn, có đánh giá bởi chuyên gia bên ngoài và quy trình kiểm thử an toàn toàn diện
Có thể tải trực tiếp từ Hugging Face và GitHub; OpenAI cũng cung cấp tài nguyên liên quan fine-tuning, triển khai, tùy chỉnh và Playground

Mô hình mở của OpenAI

OpenAI công bố một mô hình suy luận open-weight quy mô lớn (gpt-oss) có thể tùy chỉnh cho mọi trường hợp sử dụng và chạy ở mọi nơi
Có thể tải trực tiếp tệp mô hình từ Hugging Face và GitHub; bản demo cũng có thể trải nghiệm qua Playground web-based
Apache 2.0 cho phép phân phối mở, nhờ đó có thể khai thác thương mại, tùy chỉnh, phân phối mà không phải lo lắng về copyleft hay rủi ro vi phạm bằng sáng chế

gpt-oss-120b: Mô hình lớn dành cho trung tâm dữ liệu, máy tính để bàn và laptop hiệu năng cao
gpt-oss-20b: Mô hình tầm trung chạy được trên hầu hết máy tính để bàn và laptop

Tính năng chính

Tối ưu cho tác vụ agent
- Có điểm mạnh ở sử dụng công cụ và tuân thủ hướng dẫn, phù hợp cho các kịch bản liên quan agent như tìm kiếm web, chạy mã Python, v.v.
Tùy biến và fine-tuning
- Có thể chỉnh sửa siêu tham số như reasoning_effort (độ khó suy luận)
- Hỗ trợ fine-tuning toàn bộ tham số cho mức tùy biến cao
Công bố chain-of-thought
- Có thể xem toàn bộ diễn tiến quá trình suy luận (chain-of-thought) để dễ dàng debug và đánh giá độ tin cậy
Hỗ trợ Playground
- Hỗ trợ Playground để bất kỳ nhà phát triển và nhà nghiên cứu nào cũng có thể trải nghiệm hiệu năng mô hình trong trình duyệt

Hiệu năng mô hình

gpt-oss-120b và gpt-oss-20b được so sánh trực tiếp với mô hình thương mại của OpenAI (OpenAI o3, o4-mini) trên nhiều benchmark chính
Kết quả chi tiết về suy luận, kiến thức, toán cạnh tranh của từng mô hình được công bố
Ở một số mục, hiệu năng gần với mô hình thương mại của OpenAI hoặc thậm chí dẫn trước ở một số bài test cụ thể

Chi tiết hiệu năng benchmark

Suy luận và kiến thức
- MMLU(Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → Mặc dù nhỉnh hơn các mô hình thương mại lớn, nhưng xét theo nhóm mô hình mở, đây là hiệu năng suy luận tổng thể rất cao
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → Dù là mô hình mở, vẫn đạt hiệu năng trả lời dựa trên kiến thức nâng cao gần tương đương mô hình thương mại
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → Bài kiểm tra khó vẫn thấp hơn mô hình thương mại, nhưng 20b và o4-mini gần như tương đương nhau
Cạnh tranh toán học (AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → Theo phiên bản 2024, lại ghi điểm cao hơn cả mô hình thương mại
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → Trong toán học, có cả chỉ số vượt hơn các mô hình thương mại của OpenAI
Tổng kết
- Dòng gpt-oss đặc biệt cho thấy hiệu năng mạnh mẽ ở toán, logic, kiến thức
- Khoảng cách với mô hình thương mại không lớn, và khả năng ứng dụng vào dịch vụ thực tế hoặc kịch bản kỹ thuật rất cao
- Là lựa chọn đủ sức cạnh tranh cho nghiên cứu/phát triển, môi trường agent và tùy chỉnh với tư cách mô hình mở lớn

An toàn và kiểm thử

Tất cả mô hình đều trải qua huấn luyện và đánh giá an toàn nghiêm ngặt
Theo khung sẵn sàng của OpenAI, khả năng chống lại fine-tuning có mục đích xấu được thử nghiệm riêng biệt
Hợp tác với chuyên gia an toàn bên ngoài để xây dựng tiêu chuẩn an toàn cho mô hình mở

Có thể tải xuống và sử dụng mô hình tại Hugging Face và GitHub

1 bình luận

GN⁺ 2025-08-06

Ý kiến trên Hacker News

Mình có cảm giác như chưa chạm đúng trọng tâm. gpt-oss:20b là model nằm top 10 theo MMLU, ngay sau Gemini-2.5-Pro. Mình đã tự chạy trực tiếp trên Macbook Air M3 đời năm ngoái. Mình đang thử nghiệm rất nhiều mô hình local trên laptop và Pixel 9 Pro, từng nghĩ sắp tới mình sẽ đến mức này, nhưng rồi hôm nay đã làm được luôn. Có thể chạy các model mới nhất trên laptop với chi phí gần như chỉ như tiền điện (gần như miễn phí). Không cần nữa cả phí đăng ký 200 USD/tháng lẫn nước hồ. Thật sự bất ngờ.
- Mình đã chạy model 20b nhưng vẫn chưa giải nổi bài toán "vượt sông" chỉ bằng đổi nhãn. Nó còn xa SOTA, và thậm chí còn kém hơn cả một số mô hình local như QwQ-32b.
- Mình vẫn tự hỏi ai mới là nhóm dùng local AI nhiều nhất. Sinh viên có sẵn phần cứng nhưng muốn né model trả phí? Hay nhà phát triển nhạy cảm giá nên chỉ muốn code miễn phí? Theo cá nhân thì mô hình local còn chưa trích xuất dữ liệu từ ảnh tốt và hay bịa nhiều (trong trường hợp Qwen 2.5 VI). Mình mong chất lượng mô hình local/nhỏ và hiệu năng thiết bị tiếp tục cải thiện. Nói thật thì đang dùng vì cảm giác "vì làm được nên làm". Tò mò không biết nên mua nhiều Mac Studio mắc nhau hoặc mua thêm card đồ họa tốt để làm mấy việc này vì lý do gì. Công cụ tính toán phân tán như exo có ý tưởng hay, nhưng mình không rõ có bao nhiêu trường hợp cấp bách thực sự cần đến mức đó.
- Chấp nhận nghịch lý Jevons (tài nguyên càng tiết kiệm càng dùng nhiều hơn) và chốt rằng việc khai thác sẽ bùng nổ khi đến lúc một agent tủ lạnh mô phỏng tự ý thức để lại làm cạn nước hồ lần nữa.
- Mình tự hỏi mức độ am hiểu về các mô hình open-weight mới nhất ra sao. Sau vài giờ thử nghiệm, so với Qwen3-30B-A3B thì vẫn kém xa. Đặc biệt thiếu nghiêm trọng kiến thức thế giới.
- Thực ra "dùng hết nước hồ" là training chứ không phải inference.
Mình chia sẻ cho ai quan tâm model card: Liên kết PDF So sánh kiến trúc model đã giới thiệu với các mô hình open-weight dẫn đầu như Deepseek, Qwen, GLM, Kimi. Về kỹ thuật, ấn tượng chỉ ở mức "à, ra thế đấy".
- Cả hai model đều dùng kiến trúc Grouped-Query Attention tổng quát (64 query head, 8 KV head). Áp dụng chéo tối ưu hóa cũ từ thời GPT-3 (banded-window spars, 128 token) với mẫu dense attention. Dùng RoPE + YaRN để có context window 131K. Không áp dụng Deepseek Multi-head Latent Attention hay các cải tiến GQA khác.
- Cả hai model đều là MoE transformer. Model 120B (chính xác 116,8B, active 5,1B) chạy 128 expert với top-4 routing. Có nhắc đặc biệt đến Gated SwiGLU activation, nhưng thiếu kiến trúc shared/routed expert của Deepseek và chiến lược cân bằng tải của Qwen.
- Điều thú vị nhất là phương pháp quant hóa. Hơn 90% tham số được quant hóa 4,25 bit/parameter (định dạng MXFP4), giúp model 120B load được trên một GPU 80GB duy nhất. Dù vậy, Unsloth đã làm được quant 1,58 bit rồi. Tổng thể, huấn luyện cho hành vi agent và suy luận chắc chắn rất tốt, nhưng tiến bộ kỹ thuật vẫn mang cảm giác như "được giấu kín trong ngăn tủ".
- Mình đoán bí mật ở đây có lẽ là distillation. Nghiên cứu đã chỉ ra rằng dùng tập dữ liệu tổng hợp chất lượng cao được sinh từ output prompt của các model SOTA như o3 để pretraining giúp model nhỏ đạt hiệu năng tối đa. Nó hiệu quả hơn nhiều so với hậu xử lý RL trên model nhỏ (model nhỏ có baseline thấp nên RL kém hiệu quả).
- Có thể coi OpenAI cũng có tiến bộ kỹ thuật thật ở ngoài kiến trúc attention. Kiến trúc nhìn bề ngoài có vẻ "không có bí mật gì; chỉ là các bạn chưa làm tốt mid/post-training" hoặc muốn khiến ta tin như vậy. Model có sparsity khá cao ở mức 32:1.
- Mình coi MXFP4 release như một món quà. Nó đến từ tối ưu hóa chi phí quy mô lớn nên là lợi thế lớn cho hệ open source. Quant 1,58 bit của Unsloth dù ấn tượng nhưng khi so với full quant thì tổn hao rõ ràng, vì vậy trong hầu hết ứng dụng LLM thì độ chính xác vẫn được ưu tiên. Thực tế rất ít công ty chạy frontier model bằng reduced quant ở production. Nếu OpenAI áp dụng cách này trong prod thì đó sẽ là thử nghiệm cực kỳ thú vị.
- Có thể làm phân tích tương tự trên repo GitHub.
- attention sink (hút attention vào token đặc biệt) cũng đã được áp dụng. Tuy nhiên nó được cài bằng logits học thêm cho attention softmax, không phải token riêng.
Mình viết bản ấn tượng ban đầu, làm trong vài giờ Liên kết đánh giá chi tiết TLDR: Có vẻ như OpenAI đã lấy lại danh hiệu model open-weight hàng đầu từ các AI lab Trung Quốc. Mình chờ xem benchmark độc lập sẽ ra sao. Model 20B chạy trên MacBook với dưới 15GB RAM.
- Mình đã làm dashboard bằng Streamlit dùng MACD, RSI, MA(200). qwen3-coder-30b 4bit mlx xử lý dữ liệu mới nhất rất tốt, tạo dashboard hoạt động hoàn hảo. gpt-oss-20b mxfp4 thì thiếu import datetime, dù sửa thì ngày bắt đầu dừng ở tháng 8/2020 và không có dữ liệu. Sau khi chỉnh date vẫn lỗi trong hàm update.
- Khi dùng model trên MacBook, cần context window ngắn quá nên tính thực dụng giảm; tò mò không biết mọi người đã xử lý phần này sao.
- Cá nhân mình tò mò tool calling hoạt động tốt tới đâu. Chạy mấy tiếng mà vẫn không ổn. Dù sao đây vẫn là một model đáng kỳ vọng.
- 20B chưa dùng hết 15GB RAM nên mình cũng sắp trực tiếp chạy thử. Tò mò về TPS (token/giây) và thông tin bộ xử lý.
Thời điểm để chạy model cấp o3 trên Mac Mini 24GB đã đến. Gần như chỉ vài tuần trước, đưa model mới như vậy vào local hoặc mobile nghe như nhiệm vụ cách 5 năm, giờ gần như chắc chắn sẽ thành hiện thực ở thế hệ phone kế tiếp.
- Mặc dù hardware hạn chế, Qwen vẫn cho hiệu năng đáng kể. Mình háo hức chờ kết quả benchmark so sánh các model open source mới sẽ như thế nào.
- Nhớ chuyện tranh cãi an toàn khi công bố Llama. Giờ có thể chạy frontier model 120B trên MacBook 96GB (V)RAM. Khi có MLX quant, mình háo hức thử so sánh với GLM-4.5-air.
- Thành thật mà nói, mình kỳ vọng nhiều vào model này nhưng trên đánh giá của localllama, 120B vẫn chưa qua được qwen 3 coder, glm45 air, grok 3 ở mảng coding. thảo luận trên Reddit
- Khi chạy thực tế model medium (đã quantized) trên Mac Mini, tò mò có thật sự đáng dùng không nếu response speed 5 token/giây.
- Mình tò mò cách dễ nhất hiện nay để local model có thể web browsing là gì.
Mình tin open model sẽ thắng trong dài hạn. Anthropic cũng làm nghiên cứu với OSS, còn Trung Quốc lặp lại và cải thiện open model rất nhanh. Phía Mỹ cũng sẽ công bố model N-1 (một thế hệ trước) từ 1-3 thế hệ tiếp tục là open-weight. Đưa model thế hệ mới lên OSS quá đắt. Không có hỗ trợ chính phủ hay đổi mới năng lượng theo kiểu Stargate thì sẽ bị giới hạn. Model N-1 mất giá cực nhanh, nên phát hành OSS để hấp thụ bài toán chuyên biệt và use case là có lợi về lâu dài. Dù có rủi ro mất thị phần, khi gom nghiên cứu công khai sẽ mở rộng đáng kể tốc độ phát triển thế hệ sau. Hàng loạt mô hình OSS nhỏ sẽ xuất hiện rất nhiều. Dựa trên OSS release, nhiều model thu nhỏ chạy tốt trên thiết bị nhỏ sẽ ra nhiều. Trong tương lai hướng agent-centric, sẽ dội lên mô hình chuyên môn hóa/distilled cho từng domain. Mọi người đều đua tới AGI/SGI, và model trong chặng này là bước trung gian để chiếm thị phần và tận dụng dữ liệu. Khi AGI/SGI thành công, giá trị thật của nó nằm ở đổi mới khoa học, kỹ thuật, và mọi lĩnh vực. Nghiên cứu của Anthropic sử dụng model OSS như Qwen, Llama.
- Anthropic không bắt buộc phải chỉ thực nghiệm trên open model. Họ chỉ cần để lại kết quả bằng OSS để nhà nghiên cứu sau đó có thể tái tạo.
- Câu "open model sẽ thắng" có điều kiện. Khó xác định tiêu chí thắng. Nếu không thì
  - OSS có thể tăng tốc đối thủ.
  - OSS có thể chẳng giúp được gì cho R&D nội bộ.
  - OSS có thể kéo theo cuộc đua sản phẩm toàn cầu làm tiêu hao tài nguyên.
  - OSS có thể làm xáo trộn model kinh doanh của doanh nghiệp.
  - Rủi ro lạm dụng (deepfake, an ninh, sinh học khủng bố, AGI mất kiểm soát, v.v.). Xem thêm: What failure looks like, AGI Manhattan Project? bài viết của Max Tegmark
- Công nghiệp có vẻ đang đi về hướng gắn tools, database, quy trình vào foundation model vững chắc để ứng dụng. Theo nghĩa đó, model OSS hoàn toàn có thể chiếm được thị phần. Nhưng mình không chắc việc huấn luyện và quản lý rất nhiều mô hình đặc thù riêng lẻ sẽ tạo ra giá trị thực tế đến mức nào.
- Việc chạm AGI/SGI không phải một sự kiện "đạt" ngay lập tức. Hiệu năng sẽ chỉ tăng dần. Suy luận phải đủ rẻ mới có thể dùng thực sự. Nếu mục tiêu là lợi nhuận hoặc đổi mới, mình vẫn chưa biết hướng nào tốt nhất. Isomorphic Labs là ví dụ của một model (đã tồn tại, và nguồn lực đang đổ vào đó).
- Nếu open model thật sự là người chiến thắng dài hạn, phía Frontier Lab vẫn còn câu chuyện mở ra: "càng nhanh và bao nhiêu bí mật phải công bố" cho hợp lý. Động cơ thực thi, vận hành, đầu tư mỗi nơi khác nhau, và có thể lệch khỏi hướng của quốc gia hay nhân loại.
Ở Python, suy luận model dùng harmony[1] viết bằng Rust, tokenizer là tiktoken[2], Codex[3] cũng viết bằng Rust. OpenAI đang tăng cường dùng Rust trong inference pipeline. harmony, tiktoken, codex
- Với tư cách engineer dùng Rust, mình rất thích hướng này.
- Stack giảm bớt Python là điểm tích cực.
Có nghĩa là trong vài ngày nữa sẽ công bố model tốt nhất không? Từ góc nhìn chiến lược, việc công bố loại này là dấu hiệu sắp tới có tuyên bố đột phá hơn.
- Thông minh khi không có ngay bản public release. Áp lực từ model open-weight mạnh như Qwen rất lớn. Nếu không có mặt, dễ bị tụt hậu toàn ngành. License, support kỹ thuật, agent, brand awareness, thị phần đều là cơ hội tương lai. Khi dùng mượt các model này, OpenAI sẽ dễ được tìm thấy hơn trên các model lớn hơn.
- Dự đoán công bố vào thứ Năm. Cá cược ngày công bố GPT-5
- GPT-5 sẽ public vào thứ Năm này.
- Nếu không công bố, giá trị sản phẩm trả phí cũ sẽ giảm. Tuy nhiên, mình cho rằng chưa có trường hợp mở model open-source quá chậm gây thiệt hại rõ cho sản phẩm thương mại.
- Khoảng một tuần qua, mình đã thấy nhiều dấu hiệu rằng GPT-5 rất gần.
Chỉ cần nhìn model 20B gần mức o3 là đã là một thế giới mới. Mình tin rằng 1 năm trước một model nhỏ như vậy không thể có mức trí tuệ này. Cái khiến mình phấn khích hơn là việc distill một model hàng trăm tỉ tham số thành vài tỉ tham số gần như không mất "ma thuật". Nếu tưởng tượng nạp trí tuệ ngang Claude 4 Opus vào model 10B để chạy local 2.000 token/giây, cách phát triển phần mềm sẽ hoàn toàn đổi khác.
- Thực ra không phải 20B; vì là MoE nên active params mới 3,6B. Hiệu năng thực tế cũng chưa tới mức o3. Metrics luôn có độ lệch với thực tế, nên phải tự test mới đánh giá được chất lượng.
- 10B x 2.000 t/s cần băng thông bộ nhớ 20.000 GB/s. Phần cứng Apple hiện chỉ quanh 1.000 GB/s.
Nhân tiện, mình nghĩ Ollama rất xuất sắc. Tìm model 2 giây, tải về 1 phút, dùng ngay. Kudos cho team!
- Thực ra Ollama đã được phát triển sẵn với sự hỗ trợ của OpenAI. Xem blog chính thức của Ollama
- LM Studio cũng tương tự rất dễ dùng. Điểm mấu chốt thực ra là llama.cpp; còn việc phát hành thì HuggingFace làm gần như hết.
- Mình từng đọc tin Ollama chuyển sang closed-source. thảo luận reddit liên quan
Mình đã nối local gpt-oss:20b với claude code qua một proxy mỏng và Ollama. Thú vị, nhưng vì prefill quá chậm nên thực tế gần như không dùng được. Mỗi lần gọi tool mất 2~3 phút, 10~20 lần là 30~60 phút. server.py (1.000 dòng) có phần định nghĩa tool + context của claude khoảng 30k token; đọc file đầu vào có thể lên 50k token. Rõ ràng vẫn có chỗ để tối ưu. Mình chưa chắc Ollama có hỗ trợ kv-cache giữa các gọi /v1/completions hay không; nếu có thì chắc giúp tăng tốc đáng kể.
- Ollama chưa rõ, nhưng llama-server có transparent kv cache. Chạy như sau:
```
llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
```
  Web UI là localhost:8080 (cung cấp API tương thích OpenAI)

OpenAI công bố mô hình ngôn ngữ open-weight quy mô lớn

Mô hình mở của OpenAI

Tính năng chính

Tối ưu cho tác vụ agent

Tùy biến và fine-tuning

Công bố chain-of-thought

Hỗ trợ Playground

Hiệu năng mô hình

Chi tiết hiệu năng benchmark

Suy luận và kiến thức

Cạnh tranh toán học (AIME)

Tổng kết

An toàn và kiểm thử

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News