So sánh chi tiết GPT-OSS với Qwen3 và sự phát triển kiến trúc LLM kể từ sau GPT-2

(magazine.sebastianraschka.com)

27 điểm bởi GN⁺ 2025-08-11 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Việc OpenAI công bố các mô hình gpt-oss-20b/120b dưới dạng open weight đánh dấu lần đầu tiên kể từ GPT-2 năm 2019 xuất hiện một LLM lớn với trọng số công khai từ OpenAI
So với GPT-2, mô hình gpt-oss thay thế Dropout, Absolute Position Embedding, GELU bằng các kỹ thuật hiện đại và hiệu quả hơn như RoPE, SwiGLU, RMSNorm
Việc áp dụng Mixture-of-Experts (kiến trúc chuyên gia mô-đun), Sliding Window Attention, lượng tử hóa MXFP4 không chỉ cải thiện hiệu quả hiệu năng mà còn nâng cao đáng kể khả năng chạy trên môi trường GPU đơn
Khi so sánh với Qwen3, có thể thấy nhiều khác biệt về độ sâu/độ rộng kiến trúc, số lượng chuyên gia, attention bias, giấy phép mã nguồn mở và nhiều yếu tố khác
gpt-oss-20b mang lại khả năng tinh gọn phù hợp với phần cứng hiện đại cùng tính năng điều chỉnh reasoning effort, giúp đảm bảo cả tính thực dụng lẫn khả năng mở rộng cho nghiên cứu

Tổng quan và các đổi mới chính

OpenAI đã công bố gpt-oss-20b/120b dưới dạng open weight lần đầu tiên kể từ GPT-2 năm 2019
- Cho phép chạy bản 20B trên GPU người dùng phổ thông (tối đa 16GB RAM), và bản 120B trên H100 80GB
- Tối ưu MXFP4 giúp chạy trên GPU đơn, mở rộng khả năng tiếp cận cho người dùng phổ thông

Những thay đổi kiến trúc chính từ GPT-2 → gpt-oss

Loại bỏ Dropout

GPT-2 có Dropout, nhưng trong môi trường huấn luyện với dữ liệu lớn và một epoch duy nhất, điều này được xác nhận là còn làm giảm hiệu năng
Các nghiên cứu gần đây cũng cho thấy không áp dụng Dropout mang lại hiệu năng tốt hơn cho các tác vụ downstream của LLM

Áp dụng RoPE (Rotary Position Embedding)

Thay cho absolute position embedding trước đây, RoPE (Rotary Position Embedding) đã trở thành xu hướng chủ đạo
RoPE xoay góc của các vector query/key theo vị trí để cung cấp thông tin vị trí linh hoạt và có khả năng khái quát tốt hơn

Hàm kích hoạt SwiGLU và áp dụng GLU

Việc áp dụng các dạng GLU như GEGLU/SwiGLU cho phép đạt năng lực biểu diễn tốt hơn so với FFN 2 lớp truyền thống với ít tham số hơn
Swish cũng hiệu quả hơn về mặt tính toán so với GELU

Áp dụng Mixture-of-Experts (MoE)

Thay vì một FFN đơn, mô hình sử dụng nhiều mạng chuyên gia (Expert) và chỉ kích hoạt một phần chuyên gia ở mỗi lần sinh token
Tăng mạnh số lượng tham số của mô hình mà vẫn giữ được hiệu quả suy luận (tính thưa), đồng thời mở rộng dung lượng huấn luyện

Áp dụng Grouped Query Attention (GQA)

So với Multi-Head Attention truyền thống, việc chia sẻ key/value giúp giảm bộ nhớ và lượng tính toán
Cải thiện hiệu quả mà không làm giảm hiệu năng, và đang trở thành cách áp dụng tiêu chuẩn trong các LLM quy mô lớn

Sử dụng Sliding Window Attention

Ở một số layer, thay vì toàn bộ ngữ cảnh, mô hình chỉ tính attention cục bộ với Sliding Window giới hạn 128 token gần nhất, giúp giảm tối đa mức dùng bộ nhớ
Cho phép suy luận nhanh hơn mà không suy giảm hiệu năng, đồng thời hỗ trợ ngữ cảnh lớn

Áp dụng RMSNorm

Dùng RMSNorm thay cho LayerNorm để tăng hiệu quả tính toán
Thay vì tính trung bình/phương sai như LayerNorm, RMSNorm dùng RMS (căn trung bình bình phương), giúp giảm gánh nặng tính toán trên GPU

So sánh gpt-oss và Qwen3

Khác biệt về quy mô/cấu trúc

Qwen3 có cấu trúc sâu hơn (48 khối Transformer), trong khi gpt-oss có cấu trúc rộng hơn (tăng emb dimension và số head)
Mô hình sâu linh hoạt hơn nhưng khó huấn luyện hơn, còn mô hình rộng có lợi thế trong suy luận song song (theo bài báo Gemma 2, ở mốc mô hình 9B thì phương án rộng nhỉnh hơn đôi chút)

Khác biệt trong cấu trúc MoE

gpt-oss-20b: 32 chuyên gia cỡ lớn, chỉ kích hoạt 4 chuyên gia
Qwen3: nhiều chuyên gia cỡ nhỏ hơn, kích hoạt 8 chuyên gia
Xu hướng gần đây là cấu hình nhiều chuyên gia nhỏ hiệu quả hơn, nhưng gpt-oss vẫn giữ cấu trúc ít chuyên gia lớn (ở 20B và 120B chỉ điều chỉnh số chuyên gia và số block)

Attention Bias và Sinks

gpt-oss sử dụng bias unit trong attention (một cách làm hiếm thấy kể từ thời GPT-2)
- Tuy nhiên, nghiên cứu gần đây cho thấy hiệu quả với key-proj là không đáng kể
Attention sink là khái niệm token đặc biệt luôn được attend ở vị trí đầu chuỗi, nhưng trong gpt-oss, thay vì biến đổi token đầu vào, nó được thêm vào từng head dưới dạng learned bias logit

Giấy phép và phạm vi công bố

Phát hành theo giấy phép mã nguồn mở Apache 2.0, cho phép tự do sử dụng thương mại và xây dựng mô hình phái sinh
Tuy nhiên, đây chưa phải mã nguồn mở đúng nghĩa hoàn toàn (không công bố code huấn luyện hay bộ dữ liệu), mà là mô hình open weight

Các chi tiết khác và vận hành thực tế

Huấn luyện/tối ưu hóa

gpt-oss được huấn luyện với 2.1M H100-hours tài nguyên tính toán
Tập trung vào tiếng Anh, đặc biệt là STEM, lập trình và văn bản tri thức phổ thông
Áp dụng các kỹ thuật hiện đại như tiền huấn luyện + fine-tuning có giám sát (Instruction), cùng giai đoạn reasoning dựa trên RL

Điều chỉnh Reasoning Effort

Có thể thiết lập reasoning effort (thấp/trung bình/cao) qua system prompt để tự động điều chỉnh độ dài và độ chính xác của câu trả lời
Tác vụ đơn giản có thể chạy nhanh với mức thấp, còn khi cần reasoning phức tạp thì có thể nâng mức lên

Hỗ trợ GPU đơn nhờ lượng tử hóa MXFP4

Nhờ định dạng MXFP4, bản 20B có thể chạy trên 16GB VRAM (cần GPU đời mới)
Bản 120B có thể chạy trên một GPU với 80GB bộ nhớ theo chuẩn H100, không cần xử lý phân tán và dễ triển khai hơn

Benchmark và tính thực dụng khi sử dụng

gpt-oss tập trung huấn luyện mạnh vào reasoning, nên ở một số câu hỏi kiến thức phổ thông có xu hướng hallucination
Xét về khả năng sử dụng, đây là một trong những mô hình mở hàng đầu hiện nay, và tính thực dụng dự kiến còn tăng khi kết hợp với tool integration
Trong sử dụng thực tế, vẫn cần tiếp tục so sánh với các mô hình mở khác để đánh giá cân bằng giữa độ chính xác và reasoning

So sánh với GPT-5

gpt-oss-120b cho thấy hiệu năng tiệm cận mô hình thương mại của OpenAI (GPT-5) theo benchmark
Dù lợi thế trong môi trường thực tế vẫn cần quan sát thêm, đây là một lựa chọn thay thế mạnh mẽ trong nhóm LLM hiện đại được cung cấp dưới dạng open weight
Chỉ benchmark thôi chưa đủ để giải thích hoàn toàn năng lực cạnh tranh trong thực chiến, nhưng nó mở ra cơ hội lớn cho các nghiên cứu và đối sánh bên ngoài trong tương lai

Tóm tắt

Sự xuất hiện của dòng gpt-oss đặt ra một chuẩn mới cho lĩnh vực LLM open weight quy mô lớn, đồng thời mang đến phân tích, so sánh chi tiết về cách các đổi mới kiến trúc của LLM hiện đại được triển khai và áp dụng trong thực tế
Có thể nắm bắt các khác biệt và xu hướng so với những mô hình mới khác như Qwen3, GPT-5, từ đó hữu ích cho cả ứng dụng thực tế lẫn nghiên cứu xu hướng mới nhất

So sánh chi tiết GPT-OSS với Qwen3 và sự phát triển kiến trúc LLM kể từ sau GPT-2

Tổng quan và các đổi mới chính

Những thay đổi kiến trúc chính từ GPT-2 → gpt-oss

Loại bỏ Dropout

Áp dụng RoPE (Rotary Position Embedding)

Hàm kích hoạt SwiGLU và áp dụng GLU

Áp dụng Mixture-of-Experts (MoE)

Áp dụng Grouped Query Attention (GQA)

Sử dụng Sliding Window Attention

Áp dụng RMSNorm

So sánh gpt-oss và Qwen3

Khác biệt về quy mô/cấu trúc

Khác biệt trong cấu trúc MoE

Attention Bias và Sinks

Giấy phép và phạm vi công bố

Các chi tiết khác và vận hành thực tế

Huấn luyện/tối ưu hóa

Điều chỉnh Reasoning Effort

Hỗ trợ GPU đơn nhờ lượng tử hóa MXFP4

Benchmark và tính thực dụng khi sử dụng

So sánh với GPT-5

Tóm tắt

Bài viết liên quan

Chưa có bình luận nào.