3 điểm bởi GN⁺ 2025-09-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Qwen3-Next là một kiến trúc mô hình mới được phát triển כדי hỗ trợ mở rộng độ dài ngữ cảnhmở rộng tổng số tham số, những xu hướng tương lai của mô hình quy mô lớn, đồng thời cung cấp các tính năng tối đa hóa hiệu quả huấn luyện và suy luận
  • Giới thiệu cơ chế attention laicấu trúc MoE có độ thưa rất cao để cải thiện hiệu năng trong bối cảnh ngữ cảnh dài và cấu hình tham số lớn
  • Tăng tốc độ suy luận thông qua tối ưu độ ổn định huấn luyệncơ chế dự đoán nhiều token
  • Mô hình Qwen3-Next-80B-A3B-Base đạt hiệu năng tương đương hoặc tốt hơn Qwen3-32B trong khi giảm chi phí huấn luyện xuống dưới 10%
  • Việc phát hành mô hình này mang đến bước tiến kiến trúc tiên tiến cho cộng đồng mã nguồn mở, đồng thời đặt nền tảng cho việc nâng cao trí tuệ và năng suất hướng tới Qwen3.5

Giới thiệu

  • Với niềm tin rằng mở rộng độ dài ngữ cảnhmở rộng tổng số tham số là các xu hướng chủ đạo của mô hình quy mô lớn trong tương lai, nhóm đã thiết kế một kiến trúc mô hình mới mang tên Qwen3-Next nhằm nâng cao hiệu quả huấn luyện và suy luận trong các thiết lập ngữ cảnh dài và tham số lớn
  • So với cấu trúc MoE của Qwen3, kiến trúc này đưa vào nhiều cải tiến cốt lõi như cơ chế attention lai, cấu trúc MoE có độ thưa rất cao, tối ưu độ ổn định huấn luyện, cùng cơ chế dự đoán nhiều token để suy luận nhanh hơn
  • Dựa trên kiến trúc này, nhóm đã huấn luyện mô hình Qwen3-Next-80B-A3B-Base, đây là mô hình 80B tham số nhưng chỉ kích hoạt 3B tham số khi suy luận
  • Mô hình base này đạt hiệu năng tương đương hoặc nhỉnh hơn một chút so với mô hình dense Qwen3-32B trong khi chỉ sử dụng dưới 10% chi phí huấn luyện (thời gian GPU)
  • Đặc biệt, ở độ dài ngữ cảnh trên 32K token, mô hình cung cấp thông lượng cao hơn hơn 10 lần, đạt hiệu quả cực đại trong cả huấn luyện lẫn suy luận
  • Dựa trên Qwen3-Next-80B-A3B-Base, nhóm đã phát triển và phát hành hai phiên bản hậu huấn luyện là Qwen3-Next-80B-A3B-Instruct và Qwen3-Next-80B-A3B-Thinking
  • Nhờ kiến trúc attention lai và MoE siêu thưa, mô hình giải quyết được các vấn đề lâu nay về độ ổn định và hiệu quả trong huấn luyện reinforcement learning (RL), qua đó cải thiện cả tốc độ huấn luyện RL lẫn hiệu năng cuối cùng
  • Qwen3-Next-80B-A3B-Instruct cho hiệu năng ngang với mô hình đầu bảng Qwen3-235B-A22B-Instruct-2507 và thể hiện ưu thế rõ rệt trong các tác vụ ngữ cảnh siêu dài lên tới 256K token
  • Qwen3-Next-80B-A3B-Thinking nổi bật ở các tác vụ suy luận phức tạp, vượt qua những mô hình có chi phí cao hơn như Qwen3-30B-A3B-Thinking-2507 và Qwen3-32B-Thinking, vượt cả Gemini-2.5-Flash-Thinking mã nguồn đóng trên nhiều benchmark, và tiệm cận hiệu năng của mô hình hàng đầu Qwen3-235B-A22B-Thinking-2507
  • Qwen3-Next đã được phát hành trên Hugging Face và ModelScope; bất kỳ ai cũng có thể sử dụng dịch vụ Qwen3-Next thông qua Alibaba Cloud Model Studio và NVIDIA API Catalog

Tính năng chính

  • Kiến trúc lai: Gated DeltaNet + Gated Attention tận dụng việc linear attention phá vỡ độ phức tạp bậc hai của attention tiêu chuẩn, từ đó hiệu quả hơn trong ngữ cảnh dài
    • Nhóm nhận thấy linear attention nhanh nhưng khả năng recall yếu, còn attention tiêu chuẩn thì tốn kém và chậm; qua các thí nghiệm có hệ thống, họ xác nhận Gated DeltaNet mang lại năng lực in-context learning mạnh hơn các phương pháp phổ biến như Sliding Window Attention hay Mamba2
    • Trộn Gated DeltaNet với attention tiêu chuẩn theo tỷ lệ 3:1 (75% layer dùng Gated DeltaNet, 25% giữ attention tiêu chuẩn) để đạt hiệu năng và hiệu quả tốt hơn nhất quán so với bất kỳ kiến trúc đơn lẻ nào
    • Áp dụng cơ chế output gating ở các layer attention tiêu chuẩn để giảm vấn đề low-rank của attention, đồng thời tăng số chiều trên mỗi attention head từ 128 lên 256
    • Chỉ áp dụng rotary positional encoding cho 25% đầu tiên của chiều vị trí để cải thiện khả năng ngoại suy sang chuỗi dài hơn
  • MoE siêu thưa: chỉ kích hoạt 3,7% tham số; Qwen3-Next áp dụng thiết kế MoE có độ thưa cao, chỉ kích hoạt khoảng 3B trong tổng số 80B tham số ở mỗi bước suy luận
    • Các thí nghiệm cho thấy khi cố định số chuyên gia được kích hoạt thông qua cân bằng tải toàn cục, việc tăng tổng số tham số chuyên gia giúp loss huấn luyện giảm đều đặn
    • So với MoE của Qwen3 (tổng 128 chuyên gia, route 8), Qwen3-Next mở rộng lên tổng 512 chuyên gia và kết hợp 10 chuyên gia được route + 1 chuyên gia dùng chung, tối đa hóa việc sử dụng tài nguyên mà không làm suy giảm hiệu năng
  • Thiết kế thân thiện với độ ổn định huấn luyện với cơ chế attention output gating giúp loại bỏ các vấn đề như Attention Sink và Massive Activation, từ đó bảo đảm độ ổn định số cho toàn bộ mô hình
    • Sau khi phát hiện trong Qwen3 dùng QK-Norm có hiện tượng trọng số của một số layer norm tăng bất thường, Qwen3-Next áp dụng Zero-Centered RMSNorm và thêm weight decay lên trọng số norm để ngăn tăng trưởng vô hạn
    • Chuẩn hóa tham số router của MoE trong giai đoạn khởi tạo để bảo đảm mỗi chuyên gia được chọn không thiên lệch ở đầu quá trình huấn luyện, qua đó giảm nhiễu do khởi tạo ngẫu nhiên
    • Những thiết kế đặt trọng tâm vào độ ổn định này giúp các thí nghiệm quy mô nhỏ đáng tin cậy hơn và việc huấn luyện quy mô lớn diễn ra trơn tru hơn
    Quảng cáo
  • Dự đoán nhiều token: Qwen3-Next đưa vào cơ chế native multi-token prediction (MTP), không chỉ tạo ra module MTP có tỷ lệ chấp nhận cao cho speculative decoding mà còn cải thiện hiệu năng tổng thể
    • Qwen3-Next đặc biệt tối ưu hiệu năng suy luận nhiều bước của MTP, đồng thời cải thiện thêm tỷ lệ chấp nhận của speculative decoding trong các kịch bản thực tế thông qua huấn luyện nhiều bước, giúp duy trì tính nhất quán giữa huấn luyện và suy luận

Tiền huấn luyện

  • Hiệu quả tiền huấn luyện và tốc độ suy luận: Qwen3-Next được huấn luyện trên một tập con lấy mẫu đồng đều (15T token) từ tập corpus tiền huấn luyện 36T token của Qwen3
    • Mô hình dùng chưa tới 80% thời gian GPU cần cho Qwen3-30A-3B, và chỉ tiêu thụ 9,3% chi phí tính toán của Qwen3-32B nhưng vẫn đạt hiệu năng tốt hơn, cho thấy hiệu quả huấn luyện và giá trị rất cao
    • Nhờ kiến trúc lai, mô hình cũng rất nổi trội ở suy luận, cung cấp thông lượng gần gấp 7 lần Qwen3-32B ở giai đoạn prefill với độ dài ngữ cảnh 4K
    • Nhanh hơn hơn 10 lần ở mức trên 32K
    • Ở giai đoạn decode, mô hình cho thông lượng gần gấp 4 lần tại ngữ cảnh 4K, và vẫn duy trì lợi thế tốc độ hơn 10 lần ở trên 32K
  • Hiệu năng mô hình base: Qwen3-Next-80B-A3B-Base chỉ kích hoạt 1/10 số tham số non-embedding so với Qwen3-32B-Base nhưng vẫn vượt qua mô hình này trên hầu hết benchmark, đồng thời vượt xa Qwen3-30B-A3B, chứng minh hiệu quả vượt trội và hiệu năng mạnh mẽ

Hậu huấn luyện

  • Hiệu năng mô hình instruct: Qwen3-Next-80B-A3B-Instruct vượt xa Qwen3-30B-A3B-Instruct-2507 và Qwen3-32B-Non-thinking, đồng thời đạt kết quả gần như ngang với mô hình đầu bảng Qwen3-235B-A22B-Instruct-2507
    • Trên RULER, Qwen3-Next-80B-A3B-Instruct vượt Qwen3-30B-A3B-Instruct-2507 vốn có nhiều attention layer hơn ở mọi độ dài, đồng thời vượt Qwen3-235B-A22B-Instruct-2507 vốn có nhiều layer tổng thể hơn trong phạm vi ngữ cảnh 256K, qua đó chứng minh sức mạnh của thiết kế lai Gated DeltaNet + Gated Attention cho các tác vụ ngữ cảnh dài
    Quảng cáo
  • Hiệu năng mô hình Thinking: Qwen3-Next-80B-A3B-Thinking vượt qua các mô hình chi phí cao hơn như Qwen3-30B-A3B-Thinking-2507 và Qwen3-32B-Thinking
    • Trên nhiều benchmark, mô hình vượt Gemini-2.5-Flash-Thinking mã nguồn đóng và tiệm cận mô hình đầu bảng mới nhất Qwen3-235B-A22B-Thinking-2507 ở các chỉ số chính

Develop with Qwen3

  • Hugging Face Transformers: mã Qwen3-Next đã được hợp nhất vào nhánh chính của Hugging Face transformers
    • Ở các phiên bản cũ hơn có thể phát sinh lỗi
    • Bao gồm đoạn mã ví dụ minh họa nội dung mô hình sinh ra dựa trên đầu vào được cung cấp
    • Multi-token prediction (MTP) hiện chưa sẵn có rộng rãi trong Hugging Face Transformers
    • Cải thiện về hiệu quả hay thông lượng phụ thuộc rất lớn vào cách triển khai
    • Với các tác vụ suy luận, khuyến nghị dùng các framework suy luận chuyên dụng như SGLang và vLLM
    • Có thể quan sát hiệu quả tốt hơn tùy cấu hình suy luận khi dùng flash-linear-attention và causal-conv1d
    • Xem các liên kết tương ứng để biết hướng dẫn và yêu cầu chi tiết
    • Để triển khai, hãy dùng sglang hoặc vllm mới nhất để tạo endpoint API tương thích OpenAI
  • SGLang là framework serving tốc độ cao cho mô hình ngôn ngữ lớn và mô hình ngôn ngữ-thị giác, có thể khởi chạy máy chủ với dịch vụ API tương thích OpenAI
    • SGLang hỗ trợ Qwen3-Next trên nhánh chính và có thể cài đặt từ source
    • Cung cấp lệnh tạo endpoint API tại http://localhost:30000/v1 với độ dài ngữ cảnh tối đa 256K token, dùng tensor parallel trên 4 GPU
    • Lệnh khuyến nghị cho MTP được cung cấp với các thiết lập còn lại tương tự
    • Hiện tại cần biến môi trường SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • Độ dài ngữ cảnh mặc định là 256K; nếu khởi động máy chủ thất bại, nên cân nhắc giảm xuống giá trị nhỏ hơn như 32768
    Quảng cáo
  • vLLM là engine suy luận và serving có thông lượng cao, tối ưu bộ nhớ cho LLM, có thể khởi chạy máy chủ với dịch vụ API tương thích OpenAI
    • vLLM hỗ trợ Qwen3-Next trên nhánh chính và có thể cài đặt từ source
    • Cung cấp lệnh tạo endpoint API tại http://localhost:8000/v1 với độ dài ngữ cảnh tối đa 256K token, dùng tensor parallel trên 4 GPU
    • Lệnh khuyến nghị cho MTP được cung cấp với các thiết lập còn lại tương tự
    • Hiện tại cần biến môi trường VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • Độ dài ngữ cảnh mặc định là 256K; nếu khởi động máy chủ thất bại, nên cân nhắc giảm xuống giá trị nhỏ hơn như 32768
  • Sử dụng agentic: Qwen3 rất mạnh về khả năng tool calling, và khuyến nghị dùng Qwen-Agent để tận dụng tối đa năng lực tác tử của Qwen3
    • Qwen-Agent đóng gói sẵn template tool calling và parser tool calling bên trong, giúp giảm đáng kể độ phức tạp khi lập trình
    • Có thể dùng file cấu hình MCP để định nghĩa các công cụ khả dụng, dùng các công cụ tích hợp sẵn của Qwen-Agent hoặc dùng công cụ tích hợp riêng
  • Xử lý văn bản siêu dài: Qwen3-Next hỗ trợ native độ dài ngữ cảnh tối đa 262,144 token
    • Với các cuộc hội thoại mà tổng độ dài gồm cả input và output vượt xa giới hạn này, khuyến nghị dùng các kỹ thuật scale RoPE như YaRN để xử lý hiệu quả văn bản dài
    • Hiệu năng của mô hình đã được kiểm chứng với độ dài ngữ cảnh lên tới 1 triệu token khi dùng YaRN
    • YaRN hiện được hỗ trợ trong nhiều framework suy luận như transformers, vllm và sglang
    • Có hai cách để bật YaRN trong các framework được hỗ trợ: chỉnh sửa file mô hình hoặc truyền đối số dòng lệnh
    • Thêm trường rope_scaling trong file config.json
    • Với vllm, dùng đối số dòng lệnh
    • Với sglang, dùng đối số dòng lệnh
    • Tất cả các framework mã nguồn mở đáng chú ý hiện đều triển khai YaRN tĩnh, trong đó hệ số scale được giữ cố định bất kể độ dài đầu vào, điều này có thể ảnh hưởng tiềm tàng tới hiệu năng với văn bản ngắn
    • Chỉ nên thêm cấu hình rope_scaling khi thực sự cần xử lý ngữ cảnh dài
    • Khuyến nghị điều chỉnh factor theo nhu cầu; ví dụ, nếu độ dài ngữ cảnh thông thường của ứng dụng là 524,288 token thì đặt factor thành 2.0

Tóm tắt

  • Qwen3-Next đánh dấu một bước nhảy vọt lớn về kiến trúc mô hình, đưa vào linear attention và attention gate như những đổi mới trong cơ chế attention, đồng thời tăng mức độ thưa trong thiết kế MoE
  • Qwen3-Next-80B-A3B mang lại hiệu năng tương đương Qwen3-235B-A22B-2507 lớn hơn trong cả chế độ thinking và non-thinking, đồng thời cung cấp suy luận nhanh hơn đáng kể trong các kịch bản ngữ cảnh dài
  • Với bản phát hành này, họ kỳ vọng tiếp tục thúc đẩy các tiến bộ kiến trúc tiên tiến cho cộng đồng mã nguồn mở và cùng phát triển với các bước tiến kiến trúc tối tân

1 bình luận

 
GN⁺ 2025-09-13
Ý kiến Hacker News
  • Phần ấn tượng nhất của Qwen3-Next là sau khi áp dụng linear attention, họ đưa vào MTP (Multi-Token Prediction) mà không thêm un-embedding matrix bổ sung. Deepseek R1 cũng áp dụng MTP ở lớp thứ 61, nhưng vì có thêm các tensor lớn là embed_tokensshared_head.head (khoảng 2GB ở FP8), nên Qwen3-Next xử lý MTP với ít tham số hoạt hóa hơn rất nhiều và tiết kiệm bộ nhớ ở mức GB. Nhờ vậy tốc độ suy luận tăng lên đáng kể.
    • Tôi muốn biết MTP thực sự mang lại lợi ích gì ở giai đoạn suy luận, hay nó chỉ liên quan đến hiệu quả pretraining.
    • Tôi muốn biết sự khác biệt giữa MTP và Medusa heads là gì, và liệu mô hình này có hỗ trợ speculative decoding một cách “native” hay không. Nếu chạy mô hình này trên vllm thì có phải MTP đã được áp dụng sẵn, nên có thể hưởng lợi từ speculative decoding ngay không?
    • Nếu có tài liệu nào giải thích dễ hiểu tất cả các thuật ngữ này trong một lần thì mong được chia sẻ.
  • Alibaba thực sự đang liên tục tung ra những mô hình đáng kinh ngạc. Tôi đã thử Qwen3-Next-80B-A3B trên Qwen chat, tốc độ cực nhanh, và về chất lượng thì có vẻ tương đương Qwen3-235B-A22B. Thật ấn tượng khi họ làm được đến mức này. Tôi cũng đang chờ benchmark xuất hiện trên Artificial analysis. Theo Qwen Chat, giới hạn của Qwen3-Next là context length tối đa 262,144 token và summary generation tối đa 32,768 token. So với Qwen3-235B-A22B thì context gấp 2 lần, summary gấp 4 lần. Nó có thế mạnh ở việc hiểu ngữ cảnh dài và xử lý tác vụ phức tạp. Dù vậy tôi vẫn sẽ tiếp tục dùng Qwen2.5-Turbo, vì đó là một trong số ít mô hình hỗ trợ context 1M token, phù hợp hơn với cách tôi làm việc là tải lên các PDF lớn rồi hỏi xuyên suốt giữa các chương.
    • Dù các mô hình frontier có hỗ trợ context dài, trên thực tế có vẻ độ chính xác thường giảm mạnh khi độ dài context tăng lên. Dù quảng bá là hỗ trợ 10M context, nếu thực sự nhét đầy mức đó thì nhiều khi nó vẫn không hoạt động tử tế. Tôi cũng muốn nghe ý kiến của người khác.
    • Xem kỹ model card một chút thì Qwen3-Next cũng có thể được mở rộng đến tối đa context length 1M bằng YaRN. Theo mô tả chính thức, Qwen3-Next mặc định hỗ trợ context đến 262,144 token, và khi tổng số token đầu vào + đầu ra vượt xa mức này thì đã được kiểm chứng có thể xử lý tới 1M token thông qua RoPE scaling hoặc phương pháp YaRN. Nguồn
    • Các mô hình độc quyền của Alibaba cũng thực sự rất mạnh nhưng lại khá ít được biết đến. Chúng cũng hầu như không xuất hiện trong benchmark. Qwen3-coder-plus tốt hơn nhiều so với qwen3 mã nguồn mở, và Qwen3 max cũng ở tầm có thể cạnh tranh với các mô hình SOTA.
    • Tôi tò mò về cách mọi người chuẩn bị dữ liệu PDF trước khi đưa vào Qwen.
  • Tôi dùng lệnh llm để yêu cầu “ASCII của spongebob” với Qwen3-Next-80B-A3B-Thinking thì chỉ ra được một hình rất cơ bản. Với Qwen3-Coder-480B-A35B-Instruct thì lại tạo ra SpongeBob ASCII hoàn thiện hơn rất nhiều. Khi thử nhiều lần vào buổi tối, Qwen3-coder thường cho ra nhiều ASCII bị thiếu phần chân hoặc không hoàn thiện, nhưng buổi sáng thì cùng một prompt lại ra hoàn hảo ngay trong một lần. Tôi tự hỏi liệu tình trạng chiếm dụng tài nguyên (server, API) có ảnh hưởng đến chất lượng phản hồi hay không, hay chỉ là vấn đề may rủi. Thử lại vài phút sau thì lại thất bại, nên có lẽ chỉ là cơ hội khoảng 1/10, còn trên Qwen3-next thì gần như không ra được.
    • Có cảm giác SpongeBob ASCII đã được mô hình ghi nhớ nguyên xi.
    • Tôi nghĩ có sự chia sẻ distillation hoặc dữ liệu huấn luyện giữa Kimi K2 và Qwen Coder (hoặc một mô hình liên quan khác). Tôi đã dùng hầu hết các LLM, nhưng chỉ ở Kimi K2 tôi mới thấy đúng cùng một SpongeBob ASCII như Qwen3-coder. Khi dùng kimi K2, SpongeBob ASCII cũng được tạo ra giống hệt.
    • Bài test SpongeBob ASCII được lấy từ SNS chính thức của Qwen, thực chất là một probe để đo trí nhớ học vẹt được cài vào sẵn. Với mô hình dense quy mô lớn thì có thể nhét cả hình vào trong tham số, nhưng ở kiến trúc sparse-MoE của Qwen3 thì các loại nhiễu như chọn expert hay token sampling khiến việc giữ alignment chính xác của hình dễ bị vỡ hơn. Hơn nữa, nó còn chồng thêm các cấu trúc mới như gated-attention và multi-token head, nên chỉ một lần expert routing không may cũng có thể làm bố cục hình bị lệch. Và Qwen3-coder còn được huấn luyện đặc biệt cho việc này nên so sánh cũng không công bằng. Tôi cũng đã so sánh kết quả ASCII của các mô hình khác trong dòng Qwen3, và chúng khá khác nhau.
  • Tôi ngạc nhiên vì nhờ Qwen mà có thể thấy MoE đã tiến xa đến mức nào. Qwen3-Next vượt trội rõ ràng so với các mô hình dense 72B trước đây, và nếu offload VRAM cùng CPU hợp lý thì nó còn chạy nhanh hơn cả mô hình 14B. Mức hiệu quả này thực sự rất đáng nể.
    • Không phải nhờ Qwen mà LLM mới tiến bộ; các LLM SOTA đã là MoE từ GPT-4 rồi. Thật đáng tiếc là HN tụt lại quá xa so với xu hướng, khiến các chủ đề AI ngập tràn những bình luận vô bổ.
    • Nghĩ lại thì khá buồn cười khi năm ngoái Meta đã đốt lượng tài nguyên khổng lồ để huấn luyện mô hình dense 405B. Mô hình thì cực lớn nhưng hiệu năng thực tế còn kém hơn cả mô hình chỉ bằng 1/10 kích thước, lại không thể chạy ở tốc độ đủ dùng trên bất kỳ phần cứng thực tế nào.
  • Tôi đã thêm Qwen3 Next vào vòng mở Brokk Power Ranking (benchmark lập trình). Về hiệu năng, nó tương đương GPT-OSS-20b. Có thể xem kết quả hiệu năng của toàn bộ mô hình mã nguồn mở tại đây.
    • Nếu thêm nhiều ngôn ngữ hơn thì benchmark này sẽ hữu ích hơn. Hiện tại nó chỉ đánh giá Java, trong khi ngoài đời tôi chủ yếu dùng ngôn ngữ khác chứ không phải Java, nên kết quả benchmark không khớp với trải nghiệm thực tế của tôi.
    • Tôi tò mò không biết Kimi K2 được đăng ký ở đây là bản mới nhất hay là Kimi k2 cũ.
  • Oracle dự báo nhu cầu datacenter sẽ tăng vọt trong tuần này và giá cổ phiếu đang tăng. Nếu việc LLM hiệu quả hơn gấp 10 lần là thật, thì nhu cầu với Nvidia, Oracle, Coreweave... có thể sẽ giảm.
    • Có lẽ nên nghĩ đến hiện tượng kinh tế như nghịch lý Jevons.
    • Bỏ qua dự báo của Oracle, tôi không nghĩ cải thiện hiệu quả sẽ ngay lập tức dẫn đến giảm nhu cầu. Giống nghịch lý Jevons, hiệu quả tăng lên còn có thể khiến người ta dùng nhiều hơn.
    • Điều tương tự cũng từng được nói về deepseek-r1, nhưng thực tế chẳng thay đổi gì. Nếu làm mô hình hiệu quả hơn gấp 10 lần, mọi người sẽ chỉ cố huấn luyện mô hình lớn hơn gấp 10 lần. Các bên chơi sẽ không dừng lại ở một thời điểm nào đó và nói “từng này là đủ rồi”, miễn là scaling vẫn còn ảnh hưởng đến hiệu năng.
    • Chắc chắn là không. Hành vi thị trường cho thấy người ta luôn sẵn sàng trả tiền cho chất lượng tốt nhất, và giá nhìn chung vẫn giữ nguyên. Khi mô hình mới ra mắt, các mô hình cũ chất lượng thấp hơn (rẻ hơn) lập tức bị bỏ qua, và mọi người chỉ tìm mô hình tốt hơn với cùng mức giá. Lần này có lẽ cũng sẽ diễn ra tương tự.
    • Nếu bong bóng AI nổ và datacenter cùng GPU trở nên dư thừa, tôi tò mò có cách nào tận dụng điều đó để kiếm lời từ đầu tư hay không.
  • Nếu bạn tò mò về Gated Delta Network thì xem bài báo ở đây: liên kết arxiv
    • Bài báo về Gated Attention có thể xem ở đây.
  • Qwen3-Next khá ấn tượng, và tôi nghĩ những đổi mới tiếp theo sẽ đến từ kiến trúc tốt hơn. Có cảm giác không nhất thiết phải cần hơn 100B tham số như GPT OSS 120B.
    • Chắc chắn là càng nhiều tham số càng tốt. Các mô hình ít tham số thường hay bị hallucination. Tuy vậy, nếu số tham số hoạt hóa ít mà routing đủ tốt thì có thể vẫn ổn.
    • Kiến trúc mới thì rất hay, và việc được công bố công khai ngay cũng khá thú vị. Tuy nhiên, các mô hình dòng Qwen có xu hướng overfit khá nặng. Chúng thường chỉ làm tốt một số tác vụ nhất định và có giới hạn về khả năng khái quát hóa so với mô hình đóng. Tôi không rõ đó chỉ là vấn đề về scale hay còn do khác biệt ở recipe/phương pháp huấn luyện. Nếu test theo kiểu OOD (out-of-distribution) thì giá trị của chúng giảm rất mạnh, còn các mô hình đóng vẫn giữ được thế mạnh.
  • Dự đoán: trong vòng 4 năm tới, AI sẽ trở thành một loại hàng hóa phổ thông mà ai cũng có thể dễ dàng tiếp cận, với mức thông minh cao hơn mô hình SOTA hiện tại khoảng 15 điểm IQ và context length cũng dài hơn rất nhiều. Khi đó, nếu cải tiến trong việc huấn luyện bằng synthetic data chạm trần (sau khi “dữ liệu thật” đã bị dùng gần hết), thì các mô hình mã nguồn mở sẽ được huấn luyện giá rẻ bằng cách tận dụng đầu ra của các mô hình vốn lớn. Sau đó, tiến bộ AI sẽ chững lại cho đến khi xuất hiện cách huấn luyện trí tuệ tổng quát bằng competitive reinforcement learning (giống cách AlphaGo được huấn luyện). Khi phương pháp đó xuất hiện, sẽ không còn cần lượng dữ liệu huấn luyện khổng lồ nữa, và AGI thực sự sẽ ra đời.
    • Tôi không hiểu ý “đã dùng hết dữ liệu thật”. Mỗi ngày internet vẫn có thêm kiến thức mới, bài báo khoa học mới, video mới; vậy sao lại nói dữ liệu đang cạn kiệt?
    • Nếu coi các mô hình tối tân hiện tại tương đương IQ 120 theo chuẩn con người (không chắc đúng không, nhưng cứ theo ở đây mà giả sử vậy), thì sắp tới sẽ có hàng loạt bot siêu tập trung ở mức IQ 135. Tôi thậm chí khó tưởng tượng điều đó thực sự có nghĩa gì.
  • Dù là mô hình 80B, dạo này tôi đang chú ý hơn đến các mô hình 32B trở xuống chạy ổn trên MacBook Pro (M4, 64GB). Tôi dùng ollama hằng ngày để lọc spam; gemma3:27b rất xuất sắc và gpt-oss:20b cũng nhanh nên tôi dùng thường xuyên.
    • Sẽ rất hay nếu bạn giải thích chi tiết cách bạn dùng Ollama để lọc spam.
    • Tổng số tham số của mô hình là 80B, nhưng khi suy luận thì chỉ có khoảng 3B được kích hoạt. Tôi đang chạy rất ổn bản Qwen3 30B 2507 cũ trên card Nvidia 8GB.
    • Vì là kiến trúc MoE nên nó sẽ chạy rất tốt.