27 điểm bởi GN⁺ 2025-08-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Việc OpenAI công bố các mô hình gpt-oss-20b/120b dưới dạng open weight đánh dấu lần đầu tiên kể từ GPT-2 năm 2019 xuất hiện một LLM lớn với trọng số công khai từ OpenAI
  • So với GPT-2, mô hình gpt-oss thay thế Dropout, Absolute Position Embedding, GELU bằng các kỹ thuật hiện đại và hiệu quả hơn như RoPE, SwiGLU, RMSNorm
  • Việc áp dụng Mixture-of-Experts (kiến trúc chuyên gia mô-đun), Sliding Window Attention, lượng tử hóa MXFP4 không chỉ cải thiện hiệu quả hiệu năng mà còn nâng cao đáng kể khả năng chạy trên môi trường GPU đơn
  • Khi so sánh với Qwen3, có thể thấy nhiều khác biệt về độ sâu/độ rộng kiến trúc, số lượng chuyên gia, attention bias, giấy phép mã nguồn mở và nhiều yếu tố khác
  • gpt-oss-20b mang lại khả năng tinh gọn phù hợp với phần cứng hiện đại cùng tính năng điều chỉnh reasoning effort, giúp đảm bảo cả tính thực dụng lẫn khả năng mở rộng cho nghiên cứu

Tổng quan và các đổi mới chính

  • OpenAI đã công bố gpt-oss-20b/120b dưới dạng open weight lần đầu tiên kể từ GPT-2 năm 2019
    • Cho phép chạy bản 20B trên GPU người dùng phổ thông (tối đa 16GB RAM), và bản 120B trên H100 80GB
    • Tối ưu MXFP4 giúp chạy trên GPU đơn, mở rộng khả năng tiếp cận cho người dùng phổ thông

Những thay đổi kiến trúc chính từ GPT-2 → gpt-oss

Loại bỏ Dropout

  • GPT-2 có Dropout, nhưng trong môi trường huấn luyện với dữ liệu lớn và một epoch duy nhất, điều này được xác nhận là còn làm giảm hiệu năng
  • Các nghiên cứu gần đây cũng cho thấy không áp dụng Dropout mang lại hiệu năng tốt hơn cho các tác vụ downstream của LLM

Áp dụng RoPE (Rotary Position Embedding)

  • Thay cho absolute position embedding trước đây, RoPE (Rotary Position Embedding) đã trở thành xu hướng chủ đạo
  • RoPE xoay góc của các vector query/key theo vị trí để cung cấp thông tin vị trí linh hoạt và có khả năng khái quát tốt hơn
Quảng cáo

Hàm kích hoạt SwiGLU và áp dụng GLU

  • Việc áp dụng các dạng GLU như GEGLU/SwiGLU cho phép đạt năng lực biểu diễn tốt hơn so với FFN 2 lớp truyền thống với ít tham số hơn
  • Swish cũng hiệu quả hơn về mặt tính toán so với GELU

Áp dụng Mixture-of-Experts (MoE)

  • Thay vì một FFN đơn, mô hình sử dụng nhiều mạng chuyên gia (Expert) và chỉ kích hoạt một phần chuyên gia ở mỗi lần sinh token
  • Tăng mạnh số lượng tham số của mô hình mà vẫn giữ được hiệu quả suy luận (tính thưa), đồng thời mở rộng dung lượng huấn luyện

Áp dụng Grouped Query Attention (GQA)

  • So với Multi-Head Attention truyền thống, việc chia sẻ key/value giúp giảm bộ nhớ và lượng tính toán
  • Cải thiện hiệu quả mà không làm giảm hiệu năng, và đang trở thành cách áp dụng tiêu chuẩn trong các LLM quy mô lớn

Sử dụng Sliding Window Attention

  • Ở một số layer, thay vì toàn bộ ngữ cảnh, mô hình chỉ tính attention cục bộ với Sliding Window giới hạn 128 token gần nhất, giúp giảm tối đa mức dùng bộ nhớ
  • Cho phép suy luận nhanh hơn mà không suy giảm hiệu năng, đồng thời hỗ trợ ngữ cảnh lớn

Áp dụng RMSNorm

  • Dùng RMSNorm thay cho LayerNorm để tăng hiệu quả tính toán
  • Thay vì tính trung bình/phương sai như LayerNorm, RMSNorm dùng RMS (căn trung bình bình phương), giúp giảm gánh nặng tính toán trên GPU

So sánh gpt-oss và Qwen3

Khác biệt về quy mô/cấu trúc

  • Qwen3 có cấu trúc sâu hơn (48 khối Transformer), trong khi gpt-oss có cấu trúc rộng hơn (tăng emb dimension và số head)
  • Mô hình sâu linh hoạt hơn nhưng khó huấn luyện hơn, còn mô hình rộng có lợi thế trong suy luận song song (theo bài báo Gemma 2, ở mốc mô hình 9B thì phương án rộng nhỉnh hơn đôi chút)
Quảng cáo

Khác biệt trong cấu trúc MoE

  • gpt-oss-20b: 32 chuyên gia cỡ lớn, chỉ kích hoạt 4 chuyên gia
  • Qwen3: nhiều chuyên gia cỡ nhỏ hơn, kích hoạt 8 chuyên gia
  • Xu hướng gần đây là cấu hình nhiều chuyên gia nhỏ hiệu quả hơn, nhưng gpt-oss vẫn giữ cấu trúc ít chuyên gia lớn (ở 20B và 120B chỉ điều chỉnh số chuyên gia và số block)

Attention Bias và Sinks

  • gpt-oss sử dụng bias unit trong attention (một cách làm hiếm thấy kể từ thời GPT-2)
    • Tuy nhiên, nghiên cứu gần đây cho thấy hiệu quả với key-proj là không đáng kể
  • Attention sink là khái niệm token đặc biệt luôn được attend ở vị trí đầu chuỗi, nhưng trong gpt-oss, thay vì biến đổi token đầu vào, nó được thêm vào từng head dưới dạng learned bias logit

Giấy phép và phạm vi công bố

  • Phát hành theo giấy phép mã nguồn mở Apache 2.0, cho phép tự do sử dụng thương mại và xây dựng mô hình phái sinh
  • Tuy nhiên, đây chưa phải mã nguồn mở đúng nghĩa hoàn toàn (không công bố code huấn luyện hay bộ dữ liệu), mà là mô hình open weight

Các chi tiết khác và vận hành thực tế

Huấn luyện/tối ưu hóa

  • gpt-oss được huấn luyện với 2.1M H100-hours tài nguyên tính toán
  • Tập trung vào tiếng Anh, đặc biệt là STEM, lập trình và văn bản tri thức phổ thông
  • Áp dụng các kỹ thuật hiện đại như tiền huấn luyện + fine-tuning có giám sát (Instruction), cùng giai đoạn reasoning dựa trên RL
Quảng cáo

Điều chỉnh Reasoning Effort

  • Có thể thiết lập reasoning effort (thấp/trung bình/cao) qua system prompt để tự động điều chỉnh độ dài và độ chính xác của câu trả lời
  • Tác vụ đơn giản có thể chạy nhanh với mức thấp, còn khi cần reasoning phức tạp thì có thể nâng mức lên

Hỗ trợ GPU đơn nhờ lượng tử hóa MXFP4

  • Nhờ định dạng MXFP4, bản 20B có thể chạy trên 16GB VRAM (cần GPU đời mới)
  • Bản 120B có thể chạy trên một GPU với 80GB bộ nhớ theo chuẩn H100, không cần xử lý phân tán và dễ triển khai hơn

Benchmark và tính thực dụng khi sử dụng

  • gpt-oss tập trung huấn luyện mạnh vào reasoning, nên ở một số câu hỏi kiến thức phổ thông có xu hướng hallucination
  • Xét về khả năng sử dụng, đây là một trong những mô hình mở hàng đầu hiện nay, và tính thực dụng dự kiến còn tăng khi kết hợp với tool integration
  • Trong sử dụng thực tế, vẫn cần tiếp tục so sánh với các mô hình mở khác để đánh giá cân bằng giữa độ chính xác và reasoning

So sánh với GPT-5

  • gpt-oss-120b cho thấy hiệu năng tiệm cận mô hình thương mại của OpenAI (GPT-5) theo benchmark
  • Dù lợi thế trong môi trường thực tế vẫn cần quan sát thêm, đây là một lựa chọn thay thế mạnh mẽ trong nhóm LLM hiện đại được cung cấp dưới dạng open weight
  • Chỉ benchmark thôi chưa đủ để giải thích hoàn toàn năng lực cạnh tranh trong thực chiến, nhưng nó mở ra cơ hội lớn cho các nghiên cứu và đối sánh bên ngoài trong tương lai

Tóm tắt

  • Sự xuất hiện của dòng gpt-oss đặt ra một chuẩn mới cho lĩnh vực LLM open weight quy mô lớn, đồng thời mang đến phân tích, so sánh chi tiết về cách các đổi mới kiến trúc của LLM hiện đại được triển khai và áp dụng trong thực tế
  • Có thể nắm bắt các khác biệt và xu hướng so với những mô hình mới khác như Qwen3, GPT-5, từ đó hữu ích cho cả ứng dụng thực tế lẫn nghiên cứu xu hướng mới nhất

1 bình luận

 
GN⁺ 2025-08-11
Ý kiến trên Hacker News
  • Xác nhận rằng Qwen3 vượt trội hơn nhiều trong các bài test cục bộ. Ở bản 32B tham số, model gần như tuân thủ prompt hoàn hảo và cho ra kết quả rất tự nhiên. Trong khi đó, simplebench gpt-oss (120B) lại cho thấy hiệu năng không tốt ở các câu đố logic. Tôi nghĩ khác biệt này đến từ cách huấn luyện, kích thước mô hình, và việc dùng ít chuyên gia lớn so với nhiều chuyên gia nhỏ

    • Qwen3 32B là model dense, luôn sử dụng toàn bộ tham số. GPT OSS 20B là model sparse MoE (Expert of Experts), chỉ dùng một phần tham số, mỗi lần khoảng 3.6B. Vì vậy nó nhanh hơn model dense 20B, nhưng thông minh hơn model 3.6B. Nếu so sánh công bằng thì nên đối chiếu với model dense 8B, và các model như Qwen Coder 30B A3B cũng là mốc so sánh tốt
    • Theo tôi, khác biệt như vậy chịu ảnh hưởng từ dữ liệu và pipeline huấn luyện nhiều hơn rất nhiều so với kiến trúc mô hình. Có ý kiến rằng gpt-oss chỉ tận dụng bộ dữ liệu tổng hợp kiểu Phi và chủ yếu tập trung vào các trò chơi benchmark; bằng chứng cho nhận định đó có vẻ khá thuyết phục
    • Công thức hiệu năng kỳ vọng của MoE là sqrt(số head kích hoạt * tổng số tham số). Ví dụ, sqrt(120*5) ~= 24, nên GPT-OSS 120B thực ra cho hiệu năng cỡ 24B và tốc độ ở mức của một model nhỏ hơn nhiều
    • qwen3 khá chậm. Tôi đã tự dùng thử, thấy là chạy được nhưng tốc độ chậm và có cảm giác thiếu tính năng
  • Các bài viết blog của Sebastian Raschka là kho báu thông tin. Tôi dùng get-oss và các model qwen3 cục bộ qua Ollama, LM Studio, còn model lớn thì dùng API thương mại. get-oss cho kết quả tốt khi truyền nhiều thông tin ngữ cảnh vào prompt, còn qwen3 thì đơn giản là rất xuất sắc. Cho tới khoảng 3 năm trước tôi còn hiểu máy học đủ sâu để tự triển khai mạng nơ-ron, GAN, RNN, LSTM..., nhưng LLM dạo này thì tiếc là không còn dễ để tự phát triển trực tiếp nữa. Tôi cũng đang xem cuốn sách của Sebastian Raschka, nhưng chắc khó mà đọc hết

    • Trong một lĩnh vực thay đổi với tốc độ khó tin, Sebastian Raschka luôn tóm lược thông tin mới nhất một cách ngắn gọn nên thực sự rất hữu ích với tôi
  • Tôi đã chạy qwen3 coder instruct 30b-a3b exl3 q6 trên GPU 3090 cục bộ, tạo cả trang mẫu, khởi chạy server, phát hiện server còn đang chạy, tự tắt nó đi (có xin quyền), rồi khởi chạy lại, tự tìm ip và mở trên trình duyệt. Giờ đây nó không còn chỉ là demo đơn giản nữa, mà đã hữu ích ở mức thực tế ngay cả với junior hay intern

  • Theo trải nghiệm của tôi thì qwen3-coder vượt trội hẳn. Tôi cũng đã cài gpt-oss:20b, nhưng khi bảo nó tóm tắt mã nguồn thì qwen3 cho kết quả chỉ sau vài giây, còn gpt-oss hơn 5 phút vẫn không làm gì nên tôi dừng lại. Vì thế tôi chỉ dùng qwen3. Nếu không nhận được câu trả lời mong muốn thì tôi dùng công cụ tìm kiếm hoặc Perplexity. Tôi đang dùng 3080 10GB, Ryzen 3600x, RAM 32GB. Qwen3-coder là thứ tốt nhất tôi từng dùng cho tới nay

    • Qwen3 coder 480B tốt đến mức có thể ngang Sonnet 4. Nhờ vậy tôi lần đầu thực sự cảm nhận rằng các model Trung Quốc có thể sớm vượt qua các model gốc Mỹ (đặc biệt trong mảng coding)
    • Có thể vấn đề là do gpt-oss 20B không vừa trong 10GB
    • Tôi cũng dùng gpt-oss-20b theo kiểu đơn giản, và với prompt ngắn (một câu ngắn) thì đôi khi nó rơi vào vòng lặp vô hạn. Khi chạy bằng llama.cpp, tôi giảm giá trị repeat penalty xuống thì không còn bị như vậy nữa (chủ yếu dùng vài lần mỗi ngày để phân tích diff). Tuy nhiên, cũng có thể là do tôi gặp may
    • Tôi tò mò không biết bạn đang dùng theo kiểu agentic (tự động hóa qua nhiều lượt hỏi đáp) hay chỉ copy-paste theo kiểu nhập/xuất một lần như “viết đoạn code này cho tôi”. Tôi muốn biết các model công khai mới nhất đã bắt kịp model thương mại tới đâu trong coding kiểu agentic
  • Điều thú vị là các LLM open-weight hiện nay có kiến trúc quá giống nhau, còn đổi mới dường như chỉ diễn ra ở dữ liệu hoặc RL. Trước đây trong các tổ chức ML lớn, tuning kiến trúc là thứ quan trọng nhất, nhưng thực tế giờ có vẻ khác

    • Tôi cho rằng ở quy mô LLM thì bản thân việc tuning hyperparameter là bất khả thi. Chi phí quá lớn, nên họ chỉ test cơ bản vài kiến trúc, chọn một cái rồi tối ưu bằng dữ liệu và RL
    • Nhận xét rất hay. Nhờ LLM mà bất kỳ ai có đủ tài nguyên cũng có thể thử sức. Kiến trúc khá bền với việc điều chỉnh, và nếu đổ đủ compute cùng dữ liệu vào thì ngay cả khi vi phạm scaling law vẫn có thể tạo ra model tử tế (như Llama 3 từng cho thấy)
  • Tôi đang dùng model Qwen3 4B cục bộ rất hiệu quả. Hầu như tôi không dùng model online nữa, và việc tìm kiếm web cũng được nhắm mục tiêu tốt hơn nhiều. Tôi không hoàn toàn tin tưởng nó, nhưng nhìn chung là ổn. Tôi tin chắc các model mã nguồn mở kiểu này sẽ thay đổi cuộc chơi của tự động hóa tri thức cục bộ

    • Tôi tò mò không biết Qwen chỉ đang hướng dẫn các tham số tìm kiếm tốt hơn, hay là Qwen thực sự tự tìm kiếm trên web
  • Trên LM Arena, model có hiệu năng tốt nhất mà không thuần Transformer là Jamba (kiến trúc hybrid giữa Transformers và state space model, hạng 96). hunyuan-turbos của Tencent cũng là hybrid và đang ở hạng 22. Xem bài báo arxiv

  • LLM thường học trên bộ dữ liệu cực lớn chỉ đúng một lần (single epoch). Điều này là môi trường khác với phương pháp Dropout vốn giả định việc lặp huấn luyện nhiều lần (hàng trăm epoch)

    • Đây là điều đã được biết đến khá rõ. Chỉ cần xem Table 2.2 trong bài báo GPT-3
  • Tôi tò mò các model do các phòng lab lớn công bố có thể tiến bộ thêm bao nhiêu nếu được huấn luyện bổ sung. Ví dụ nếu GPT-OSS đã được huấn luyện 2,1 triệu giờ, thì nếu tăng gấp đôi con số đó sẽ cải thiện được bao nhiêu

    • GPT-4.5 thực ra có thể từng được lên kế hoạch như một GPT-5 lớn hơn và đã học trên nhiều dữ liệu hơn. Nhưng vì quá đắt nên không thể thương mại hóa ở quy mô lớn, và cũng đáng tiếc là chúng ta không được thấy bản áp dụng RL của nó
    • Đã lộ rõ rằng các kỹ thuật huấn luyện tiên tiến dựa trên RL được dùng trong GPT-5 cũng không thể mở rộng vô hạn
  • Khi vào trang web, tôi nhận được thông báo lỗi "Kết nối không an toàn". Nó hiện rằng "Trang magazine.sebastianraschka.com đang dùng HSTS nên hiện tại không thể truy cập". Tôi đang dùng Chrome bản mới nhất trên Ubuntu