So sánh chi tiết GPT-OSS với Qwen3 và sự phát triển kiến trúc LLM kể từ sau GPT-2
(magazine.sebastianraschka.com)- Việc OpenAI công bố các mô hình gpt-oss-20b/120b dưới dạng open weight đánh dấu lần đầu tiên kể từ GPT-2 năm 2019 xuất hiện một LLM lớn với trọng số công khai từ OpenAI
- So với GPT-2, mô hình gpt-oss thay thế Dropout, Absolute Position Embedding, GELU bằng các kỹ thuật hiện đại và hiệu quả hơn như RoPE, SwiGLU, RMSNorm
- Việc áp dụng Mixture-of-Experts (kiến trúc chuyên gia mô-đun), Sliding Window Attention, lượng tử hóa MXFP4 không chỉ cải thiện hiệu quả hiệu năng mà còn nâng cao đáng kể khả năng chạy trên môi trường GPU đơn
- Khi so sánh với Qwen3, có thể thấy nhiều khác biệt về độ sâu/độ rộng kiến trúc, số lượng chuyên gia, attention bias, giấy phép mã nguồn mở và nhiều yếu tố khác
- gpt-oss-20b mang lại khả năng tinh gọn phù hợp với phần cứng hiện đại cùng tính năng điều chỉnh reasoning effort, giúp đảm bảo cả tính thực dụng lẫn khả năng mở rộng cho nghiên cứu
Tổng quan và các đổi mới chính
- OpenAI đã công bố gpt-oss-20b/120b dưới dạng open weight lần đầu tiên kể từ GPT-2 năm 2019
- Cho phép chạy bản 20B trên GPU người dùng phổ thông (tối đa 16GB RAM), và bản 120B trên H100 80GB
- Tối ưu MXFP4 giúp chạy trên GPU đơn, mở rộng khả năng tiếp cận cho người dùng phổ thông
Những thay đổi kiến trúc chính từ GPT-2 → gpt-oss
Loại bỏ Dropout
- GPT-2 có Dropout, nhưng trong môi trường huấn luyện với dữ liệu lớn và một epoch duy nhất, điều này được xác nhận là còn làm giảm hiệu năng
- Các nghiên cứu gần đây cũng cho thấy không áp dụng Dropout mang lại hiệu năng tốt hơn cho các tác vụ downstream của LLM
Áp dụng RoPE (Rotary Position Embedding)
- Thay cho absolute position embedding trước đây, RoPE (Rotary Position Embedding) đã trở thành xu hướng chủ đạo
- RoPE xoay góc của các vector query/key theo vị trí để cung cấp thông tin vị trí linh hoạt và có khả năng khái quát tốt hơn
Hàm kích hoạt SwiGLU và áp dụng GLU
- Việc áp dụng các dạng GLU như GEGLU/SwiGLU cho phép đạt năng lực biểu diễn tốt hơn so với FFN 2 lớp truyền thống với ít tham số hơn
- Swish cũng hiệu quả hơn về mặt tính toán so với GELU
Áp dụng Mixture-of-Experts (MoE)
- Thay vì một FFN đơn, mô hình sử dụng nhiều mạng chuyên gia (Expert) và chỉ kích hoạt một phần chuyên gia ở mỗi lần sinh token
- Tăng mạnh số lượng tham số của mô hình mà vẫn giữ được hiệu quả suy luận (tính thưa), đồng thời mở rộng dung lượng huấn luyện
Áp dụng Grouped Query Attention (GQA)
- So với Multi-Head Attention truyền thống, việc chia sẻ key/value giúp giảm bộ nhớ và lượng tính toán
- Cải thiện hiệu quả mà không làm giảm hiệu năng, và đang trở thành cách áp dụng tiêu chuẩn trong các LLM quy mô lớn
Sử dụng Sliding Window Attention
- Ở một số layer, thay vì toàn bộ ngữ cảnh, mô hình chỉ tính attention cục bộ với Sliding Window giới hạn 128 token gần nhất, giúp giảm tối đa mức dùng bộ nhớ
- Cho phép suy luận nhanh hơn mà không suy giảm hiệu năng, đồng thời hỗ trợ ngữ cảnh lớn
Áp dụng RMSNorm
- Dùng RMSNorm thay cho LayerNorm để tăng hiệu quả tính toán
- Thay vì tính trung bình/phương sai như LayerNorm, RMSNorm dùng RMS (căn trung bình bình phương), giúp giảm gánh nặng tính toán trên GPU
So sánh gpt-oss và Qwen3
Khác biệt về quy mô/cấu trúc
- Qwen3 có cấu trúc sâu hơn (48 khối Transformer), trong khi gpt-oss có cấu trúc rộng hơn (tăng emb dimension và số head)
- Mô hình sâu linh hoạt hơn nhưng khó huấn luyện hơn, còn mô hình rộng có lợi thế trong suy luận song song (theo bài báo Gemma 2, ở mốc mô hình 9B thì phương án rộng nhỉnh hơn đôi chút)
Khác biệt trong cấu trúc MoE
- gpt-oss-20b: 32 chuyên gia cỡ lớn, chỉ kích hoạt 4 chuyên gia
- Qwen3: nhiều chuyên gia cỡ nhỏ hơn, kích hoạt 8 chuyên gia
- Xu hướng gần đây là cấu hình nhiều chuyên gia nhỏ hiệu quả hơn, nhưng gpt-oss vẫn giữ cấu trúc ít chuyên gia lớn (ở 20B và 120B chỉ điều chỉnh số chuyên gia và số block)
Attention Bias và Sinks
- gpt-oss sử dụng bias unit trong attention (một cách làm hiếm thấy kể từ thời GPT-2)
- Tuy nhiên, nghiên cứu gần đây cho thấy hiệu quả với key-proj là không đáng kể
- Attention sink là khái niệm token đặc biệt luôn được attend ở vị trí đầu chuỗi, nhưng trong gpt-oss, thay vì biến đổi token đầu vào, nó được thêm vào từng head dưới dạng learned bias logit
Giấy phép và phạm vi công bố
- Phát hành theo giấy phép mã nguồn mở Apache 2.0, cho phép tự do sử dụng thương mại và xây dựng mô hình phái sinh
- Tuy nhiên, đây chưa phải mã nguồn mở đúng nghĩa hoàn toàn (không công bố code huấn luyện hay bộ dữ liệu), mà là mô hình open weight
Các chi tiết khác và vận hành thực tế
Huấn luyện/tối ưu hóa
- gpt-oss được huấn luyện với 2.1M H100-hours tài nguyên tính toán
- Tập trung vào tiếng Anh, đặc biệt là STEM, lập trình và văn bản tri thức phổ thông
- Áp dụng các kỹ thuật hiện đại như tiền huấn luyện + fine-tuning có giám sát (Instruction), cùng giai đoạn reasoning dựa trên RL
Điều chỉnh Reasoning Effort
- Có thể thiết lập reasoning effort (thấp/trung bình/cao) qua system prompt để tự động điều chỉnh độ dài và độ chính xác của câu trả lời
- Tác vụ đơn giản có thể chạy nhanh với mức thấp, còn khi cần reasoning phức tạp thì có thể nâng mức lên
Hỗ trợ GPU đơn nhờ lượng tử hóa MXFP4
- Nhờ định dạng MXFP4, bản 20B có thể chạy trên 16GB VRAM (cần GPU đời mới)
- Bản 120B có thể chạy trên một GPU với 80GB bộ nhớ theo chuẩn H100, không cần xử lý phân tán và dễ triển khai hơn
Benchmark và tính thực dụng khi sử dụng
- gpt-oss tập trung huấn luyện mạnh vào reasoning, nên ở một số câu hỏi kiến thức phổ thông có xu hướng hallucination
- Xét về khả năng sử dụng, đây là một trong những mô hình mở hàng đầu hiện nay, và tính thực dụng dự kiến còn tăng khi kết hợp với tool integration
- Trong sử dụng thực tế, vẫn cần tiếp tục so sánh với các mô hình mở khác để đánh giá cân bằng giữa độ chính xác và reasoning
So sánh với GPT-5
- gpt-oss-120b cho thấy hiệu năng tiệm cận mô hình thương mại của OpenAI (GPT-5) theo benchmark
- Dù lợi thế trong môi trường thực tế vẫn cần quan sát thêm, đây là một lựa chọn thay thế mạnh mẽ trong nhóm LLM hiện đại được cung cấp dưới dạng open weight
- Chỉ benchmark thôi chưa đủ để giải thích hoàn toàn năng lực cạnh tranh trong thực chiến, nhưng nó mở ra cơ hội lớn cho các nghiên cứu và đối sánh bên ngoài trong tương lai
Tóm tắt
- Sự xuất hiện của dòng gpt-oss đặt ra một chuẩn mới cho lĩnh vực LLM open weight quy mô lớn, đồng thời mang đến phân tích, so sánh chi tiết về cách các đổi mới kiến trúc của LLM hiện đại được triển khai và áp dụng trong thực tế
- Có thể nắm bắt các khác biệt và xu hướng so với những mô hình mới khác như Qwen3, GPT-5, từ đó hữu ích cho cả ứng dụng thực tế lẫn nghiên cứu xu hướng mới nhất
1 bình luận
Ý kiến trên Hacker News
Xác nhận rằng Qwen3 vượt trội hơn nhiều trong các bài test cục bộ. Ở bản 32B tham số, model gần như tuân thủ prompt hoàn hảo và cho ra kết quả rất tự nhiên. Trong khi đó, simplebench gpt-oss (120B) lại cho thấy hiệu năng không tốt ở các câu đố logic. Tôi nghĩ khác biệt này đến từ cách huấn luyện, kích thước mô hình, và việc dùng ít chuyên gia lớn so với nhiều chuyên gia nhỏ
Các bài viết blog của Sebastian Raschka là kho báu thông tin. Tôi dùng get-oss và các model qwen3 cục bộ qua Ollama, LM Studio, còn model lớn thì dùng API thương mại. get-oss cho kết quả tốt khi truyền nhiều thông tin ngữ cảnh vào prompt, còn qwen3 thì đơn giản là rất xuất sắc. Cho tới khoảng 3 năm trước tôi còn hiểu máy học đủ sâu để tự triển khai mạng nơ-ron, GAN, RNN, LSTM..., nhưng LLM dạo này thì tiếc là không còn dễ để tự phát triển trực tiếp nữa. Tôi cũng đang xem cuốn sách của Sebastian Raschka, nhưng chắc khó mà đọc hết
Tôi đã chạy qwen3 coder instruct 30b-a3b exl3 q6 trên GPU 3090 cục bộ, tạo cả trang mẫu, khởi chạy server, phát hiện server còn đang chạy, tự tắt nó đi (có xin quyền), rồi khởi chạy lại, tự tìm ip và mở trên trình duyệt. Giờ đây nó không còn chỉ là demo đơn giản nữa, mà đã hữu ích ở mức thực tế ngay cả với junior hay intern
Theo trải nghiệm của tôi thì qwen3-coder vượt trội hẳn. Tôi cũng đã cài gpt-oss:20b, nhưng khi bảo nó tóm tắt mã nguồn thì qwen3 cho kết quả chỉ sau vài giây, còn gpt-oss hơn 5 phút vẫn không làm gì nên tôi dừng lại. Vì thế tôi chỉ dùng qwen3. Nếu không nhận được câu trả lời mong muốn thì tôi dùng công cụ tìm kiếm hoặc Perplexity. Tôi đang dùng 3080 10GB, Ryzen 3600x, RAM 32GB. Qwen3-coder là thứ tốt nhất tôi từng dùng cho tới nay
Điều thú vị là các LLM open-weight hiện nay có kiến trúc quá giống nhau, còn đổi mới dường như chỉ diễn ra ở dữ liệu hoặc RL. Trước đây trong các tổ chức ML lớn, tuning kiến trúc là thứ quan trọng nhất, nhưng thực tế giờ có vẻ khác
Tôi đang dùng model Qwen3 4B cục bộ rất hiệu quả. Hầu như tôi không dùng model online nữa, và việc tìm kiếm web cũng được nhắm mục tiêu tốt hơn nhiều. Tôi không hoàn toàn tin tưởng nó, nhưng nhìn chung là ổn. Tôi tin chắc các model mã nguồn mở kiểu này sẽ thay đổi cuộc chơi của tự động hóa tri thức cục bộ
Trên LM Arena, model có hiệu năng tốt nhất mà không thuần Transformer là Jamba (kiến trúc hybrid giữa Transformers và state space model, hạng 96). hunyuan-turbos của Tencent cũng là hybrid và đang ở hạng 22. Xem bài báo arxiv
LLM thường học trên bộ dữ liệu cực lớn chỉ đúng một lần (single epoch). Điều này là môi trường khác với phương pháp Dropout vốn giả định việc lặp huấn luyện nhiều lần (hàng trăm epoch)
Tôi tò mò các model do các phòng lab lớn công bố có thể tiến bộ thêm bao nhiêu nếu được huấn luyện bổ sung. Ví dụ nếu GPT-OSS đã được huấn luyện 2,1 triệu giờ, thì nếu tăng gấp đôi con số đó sẽ cải thiện được bao nhiêu
Khi vào trang web, tôi nhận được thông báo lỗi "Kết nối không an toàn". Nó hiện rằng "Trang magazine.sebastianraschka.com đang dùng HSTS nên hiện tại không thể truy cập". Tôi đang dùng Chrome bản mới nhất trên Ubuntu