27 điểm bởi GN⁺ 2025-08-11 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Việc OpenAI công bố các mô hình gpt-oss-20b/120b dưới dạng open weight đánh dấu lần đầu tiên kể từ GPT-2 năm 2019 xuất hiện một LLM lớn với trọng số công khai từ OpenAI
  • So với GPT-2, mô hình gpt-oss thay thế Dropout, Absolute Position Embedding, GELU bằng các kỹ thuật hiện đại và hiệu quả hơn như RoPE, SwiGLU, RMSNorm
  • Việc áp dụng Mixture-of-Experts (kiến trúc chuyên gia mô-đun), Sliding Window Attention, lượng tử hóa MXFP4 không chỉ cải thiện hiệu quả hiệu năng mà còn nâng cao đáng kể khả năng chạy trên môi trường GPU đơn
  • Khi so sánh với Qwen3, có thể thấy nhiều khác biệt về độ sâu/độ rộng kiến trúc, số lượng chuyên gia, attention bias, giấy phép mã nguồn mở và nhiều yếu tố khác
  • gpt-oss-20b mang lại khả năng tinh gọn phù hợp với phần cứng hiện đại cùng tính năng điều chỉnh reasoning effort, giúp đảm bảo cả tính thực dụng lẫn khả năng mở rộng cho nghiên cứu

Tổng quan và các đổi mới chính

  • OpenAI đã công bố gpt-oss-20b/120b dưới dạng open weight lần đầu tiên kể từ GPT-2 năm 2019
    • Cho phép chạy bản 20B trên GPU người dùng phổ thông (tối đa 16GB RAM), và bản 120B trên H100 80GB
    • Tối ưu MXFP4 giúp chạy trên GPU đơn, mở rộng khả năng tiếp cận cho người dùng phổ thông

Những thay đổi kiến trúc chính từ GPT-2 → gpt-oss

Loại bỏ Dropout

  • GPT-2 có Dropout, nhưng trong môi trường huấn luyện với dữ liệu lớn và một epoch duy nhất, điều này được xác nhận là còn làm giảm hiệu năng
  • Các nghiên cứu gần đây cũng cho thấy không áp dụng Dropout mang lại hiệu năng tốt hơn cho các tác vụ downstream của LLM

Áp dụng RoPE (Rotary Position Embedding)

  • Thay cho absolute position embedding trước đây, RoPE (Rotary Position Embedding) đã trở thành xu hướng chủ đạo
  • RoPE xoay góc của các vector query/key theo vị trí để cung cấp thông tin vị trí linh hoạt và có khả năng khái quát tốt hơn

Hàm kích hoạt SwiGLU và áp dụng GLU

  • Việc áp dụng các dạng GLU như GEGLU/SwiGLU cho phép đạt năng lực biểu diễn tốt hơn so với FFN 2 lớp truyền thống với ít tham số hơn
  • Swish cũng hiệu quả hơn về mặt tính toán so với GELU

Áp dụng Mixture-of-Experts (MoE)

  • Thay vì một FFN đơn, mô hình sử dụng nhiều mạng chuyên gia (Expert) và chỉ kích hoạt một phần chuyên gia ở mỗi lần sinh token
  • Tăng mạnh số lượng tham số của mô hình mà vẫn giữ được hiệu quả suy luận (tính thưa), đồng thời mở rộng dung lượng huấn luyện

Áp dụng Grouped Query Attention (GQA)

  • So với Multi-Head Attention truyền thống, việc chia sẻ key/value giúp giảm bộ nhớ và lượng tính toán
  • Cải thiện hiệu quả mà không làm giảm hiệu năng, và đang trở thành cách áp dụng tiêu chuẩn trong các LLM quy mô lớn

Sử dụng Sliding Window Attention

  • Ở một số layer, thay vì toàn bộ ngữ cảnh, mô hình chỉ tính attention cục bộ với Sliding Window giới hạn 128 token gần nhất, giúp giảm tối đa mức dùng bộ nhớ
  • Cho phép suy luận nhanh hơn mà không suy giảm hiệu năng, đồng thời hỗ trợ ngữ cảnh lớn

Áp dụng RMSNorm

  • Dùng RMSNorm thay cho LayerNorm để tăng hiệu quả tính toán
  • Thay vì tính trung bình/phương sai như LayerNorm, RMSNorm dùng RMS (căn trung bình bình phương), giúp giảm gánh nặng tính toán trên GPU

So sánh gpt-oss và Qwen3

Khác biệt về quy mô/cấu trúc

  • Qwen3 có cấu trúc sâu hơn (48 khối Transformer), trong khi gpt-oss có cấu trúc rộng hơn (tăng emb dimension và số head)
  • Mô hình sâu linh hoạt hơn nhưng khó huấn luyện hơn, còn mô hình rộng có lợi thế trong suy luận song song (theo bài báo Gemma 2, ở mốc mô hình 9B thì phương án rộng nhỉnh hơn đôi chút)

Khác biệt trong cấu trúc MoE

  • gpt-oss-20b: 32 chuyên gia cỡ lớn, chỉ kích hoạt 4 chuyên gia
  • Qwen3: nhiều chuyên gia cỡ nhỏ hơn, kích hoạt 8 chuyên gia
  • Xu hướng gần đây là cấu hình nhiều chuyên gia nhỏ hiệu quả hơn, nhưng gpt-oss vẫn giữ cấu trúc ít chuyên gia lớn (ở 20B và 120B chỉ điều chỉnh số chuyên gia và số block)

Attention Bias và Sinks

  • gpt-oss sử dụng bias unit trong attention (một cách làm hiếm thấy kể từ thời GPT-2)
    • Tuy nhiên, nghiên cứu gần đây cho thấy hiệu quả với key-proj là không đáng kể
  • Attention sink là khái niệm token đặc biệt luôn được attend ở vị trí đầu chuỗi, nhưng trong gpt-oss, thay vì biến đổi token đầu vào, nó được thêm vào từng head dưới dạng learned bias logit

Giấy phép và phạm vi công bố

  • Phát hành theo giấy phép mã nguồn mở Apache 2.0, cho phép tự do sử dụng thương mại và xây dựng mô hình phái sinh
  • Tuy nhiên, đây chưa phải mã nguồn mở đúng nghĩa hoàn toàn (không công bố code huấn luyện hay bộ dữ liệu), mà là mô hình open weight

Các chi tiết khác và vận hành thực tế

Huấn luyện/tối ưu hóa

  • gpt-oss được huấn luyện với 2.1M H100-hours tài nguyên tính toán
  • Tập trung vào tiếng Anh, đặc biệt là STEM, lập trình và văn bản tri thức phổ thông
  • Áp dụng các kỹ thuật hiện đại như tiền huấn luyện + fine-tuning có giám sát (Instruction), cùng giai đoạn reasoning dựa trên RL

Điều chỉnh Reasoning Effort

  • Có thể thiết lập reasoning effort (thấp/trung bình/cao) qua system prompt để tự động điều chỉnh độ dài và độ chính xác của câu trả lời
  • Tác vụ đơn giản có thể chạy nhanh với mức thấp, còn khi cần reasoning phức tạp thì có thể nâng mức lên

Hỗ trợ GPU đơn nhờ lượng tử hóa MXFP4

  • Nhờ định dạng MXFP4, bản 20B có thể chạy trên 16GB VRAM (cần GPU đời mới)
  • Bản 120B có thể chạy trên một GPU với 80GB bộ nhớ theo chuẩn H100, không cần xử lý phân tán và dễ triển khai hơn

Benchmark và tính thực dụng khi sử dụng

  • gpt-oss tập trung huấn luyện mạnh vào reasoning, nên ở một số câu hỏi kiến thức phổ thông có xu hướng hallucination
  • Xét về khả năng sử dụng, đây là một trong những mô hình mở hàng đầu hiện nay, và tính thực dụng dự kiến còn tăng khi kết hợp với tool integration
  • Trong sử dụng thực tế, vẫn cần tiếp tục so sánh với các mô hình mở khác để đánh giá cân bằng giữa độ chính xác và reasoning

So sánh với GPT-5

  • gpt-oss-120b cho thấy hiệu năng tiệm cận mô hình thương mại của OpenAI (GPT-5) theo benchmark
  • Dù lợi thế trong môi trường thực tế vẫn cần quan sát thêm, đây là một lựa chọn thay thế mạnh mẽ trong nhóm LLM hiện đại được cung cấp dưới dạng open weight
  • Chỉ benchmark thôi chưa đủ để giải thích hoàn toàn năng lực cạnh tranh trong thực chiến, nhưng nó mở ra cơ hội lớn cho các nghiên cứu và đối sánh bên ngoài trong tương lai

Tóm tắt

  • Sự xuất hiện của dòng gpt-oss đặt ra một chuẩn mới cho lĩnh vực LLM open weight quy mô lớn, đồng thời mang đến phân tích, so sánh chi tiết về cách các đổi mới kiến trúc của LLM hiện đại được triển khai và áp dụng trong thực tế
  • Có thể nắm bắt các khác biệt và xu hướng so với những mô hình mới khác như Qwen3, GPT-5, từ đó hữu ích cho cả ứng dụng thực tế lẫn nghiên cứu xu hướng mới nhất

Chưa có bình luận nào.

Chưa có bình luận nào.