VibeThinker-3B: Mô hình 3B vượt hiệu năng suy luận của Opus 4.5 với SFT+GRPO

(arxiv.org)

2 điểm bởi GN⁺ 5 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

VibeThinker-3B là một mô hình dense cỡ nhỏ thử nghiệm xem có thể nén suy luận có thể kiểm chứng đến mức nào chỉ với 3B tham số
Pipeline huấn luyện kết hợp hậu huấn luyện Spectrum-to-Signal với fine-tuning có giám sát theo curriculum, học tăng cường đa miền và tự chưng cất ngoại tuyến
Mô hình đạt 94.3 điểm trên AIME26, và 97.1 điểm khi áp dụng CLR; đồng thời báo cáo LiveCodeBench v6 Pass@1 80.2 và tỷ lệ chấp nhận 96.1% trên các kỳ thi LeetCode gần đây chưa công bố
Dù nằm trong cùng hoặc cao hơn dải hiệu năng của các mô hình flagship lớn hơn nhiều như DeepSeek V3.2, GLM-5 và Gemini 3 Pro, mô hình vẫn giữ được khả năng tuân thủ chỉ dẫn nghiêm ngặt với 93.4 điểm trên IFEval
Parametric Compression-Coverage Hypothesis cho rằng suy luận có thể kiểm chứng có thể được nén vào một reasoning core nhỏ, nhưng tri thức mở và năng lực tổng quát vẫn cần độ bao phủ tham số rộng hơn

Thử nghiệm đẩy suy luận có thể kiểm chứng bằng mô hình 3B

VibeThinker-3B là mô hình dense cỡ nhỏ ở quy mô 3B tham số
Mục tiêu là kiểm tra có thể nâng hiệu năng suy luận có thể kiểm chứng lên tới đâu ngay cả trong thiết lập mô hình nhỏ nghiêm ngặt
Hậu huấn luyện được xây dựng trên mô hình Spectrum-to-Signal
- fine-tuning có giám sát dựa trên curriculum
- học tăng cường đa miền
- tự chưng cất ngoại tuyến
Kết quả lần này nằm trong mạch mở rộng từ công trình 1.5B trước đó

Dải hiệu năng thể hiện trong đánh giá

Mô hình cho thấy hiệu năng cấp frontier trong các bài đánh giá toán học, lập trình và thực thi chỉ dẫn
- AIME26: 94.3 điểm
- AIME26 + CLR: 97.1 điểm
- LiveCodeBench v6: Pass@1 80.2
- các kỳ thi LeetCode gần đây chưa công bố: tỷ lệ chấp nhận 96.1%
- IFEval: 93.4 điểm
CLR là viết tắt của Claim-Level Reliability Assessment, một chiến lược test-time scaling ở cấp độ claim
Các đối tượng được so sánh trong Figure 1 gồm Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 và Claude Opus 4.5
Theo kết quả được báo cáo, VibeThinker-3B có thể nằm trong cùng hoặc cao hơn dải hiệu năng của các mô hình flagship lớn hơn nhiều như DeepSeek V3.2, GLM-5 và Gemini 3 Pro
Trong so sánh quy mô tham số, VibeThinker-3B được ghi là 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
Parametric Compression-Coverage Hypothesis xem compact model không chỉ là phương án thay thế đơn thuần cho hiệu quả triển khai, mà là một con đường bổ trợ để đạt hiệu năng cấp frontier trong vùng năng lực đậm đặc theo tham số

1 bình luận

GN⁺ 5 giờ trước

Ý kiến trên Hacker News

Tôi tự hỏi liệu đây có thể xem đơn giản là một mô hình nhỏ được huấn luyện để suy luận tốt và chỉ có vậy hay không
Giống như một người thông minh không biết về một chủ đề cụ thể, nhưng nếu được đưa công cụ thì sẽ chăm chỉ nghiên cứu
Sẽ rất tuyệt nếu thay vì bắt mô hình học mọi kiến thức, ta chỉ huấn luyện cách học để nó có thể tự xoay xở chỉ với một thiết bị nhỏ như Pi Zero và kết nối Internet
- Tôi đã mơ về kiểu này từ lâu rồi
  Thay vì mã hóa mọi kiến thức vào tham số, tôi từng nghĩ sẽ ra sao nếu tạo được một mô hình mà dù cùng kích thước nhưng phần lớn được dùng cho suy luận
  Chỉ cần cho nó khả năng duyệt Internet, rồi để nó tự tìm đặc tả ngôn ngữ, tài liệu và best practices
  Tôi không hiểu vì sao agent lập trình của mình lại cần biết dân số New York, công thức cheesecake hay tuổi thọ của đà điểu
  Chỉ cần cho nó lượng kiến thức tối thiểu cần để suy nghĩ và suy luận, phần còn lại để nó tự tìm ra
  Tuy vậy, điều đáng tiếc là các mô hình ngôn ngữ lớn hiện nay rốt cuộc vẫn là dự đoán token, nên chúng không vận hành theo cách đó
- Tôi nghĩ gần như ngược lại
  Suy luận là một sản phẩm phụ xuất hiện từ kết quả được huấn luyện bằng toàn bộ kiến thức, và ngay cả ở dạng này, mô hình cũng không thực sự “biết” gì mà chỉ tạo ra token
  Nếu không được huấn luyện trên một tập dữ liệu lớn chứa nhiều từ và các mối liên hệ hợp lý giữa chúng, nó sẽ không thể tạo được các kết nối phù hợp giữa từ và câu, nên cũng không thể suy luận
  Nếu thử huấn luyện một mô hình nhỏ trên tập dữ liệu rất nhỏ, bạn sẽ thấy đầu ra lảm nhảm, thiếu mạch lạc
  Tối ưu tập dữ liệu để rút ra lượng sinh tối đa từ lượng dữ liệu tối thiểu có thể sẽ thú vị, nhưng nếu công ty muốn làm mô hình đạt trình độ mới nhất thì về mặt kinh tế, gắn thêm vài GPU còn hiệu quả hơn nhiều so với kiểu nỗ lực đó
- Có thể huấn luyện mô hình để xử lý khá tốt logic Boolean, logic tình thái và toán học, nhưng vẫn có một khoảng cách lớn trước khi có thể nâng điều đó lên thành “suy nghĩ về sự vật”
  Ví dụ, ngay cả một câu hỏi rất cơ bản như đặt quả bóng vào cốc, úp cốc xuống bàn rồi nhấc cốc lên cho vào hộp cũng cần đến kiến thức không được nêu rõ trong đề, đặc biệt là kiến thức về trọng lực
  Nếu cố định nghĩa mọi thuật ngữ một cách chặt chẽ thì rất nhanh sẽ rơi vào vũng lầy của sự phức tạp
  Để hiểu chỉ dẫn, cần có kiến thức nền tảng về sự vật; nếu chỉ biết cách suy luận thì cũng không hình dung được phải đạt điều gì
  Có một sự đứt gãy khá rõ giữa kho văn bản khổng lồ mà mô hình được huấn luyện trên đó và khả năng xem xét một chủ đề nào đó một cách vững chắc
  Tôi cũng tự hỏi liệu có thể định hướng con đường đó bằng thứ tự huấn luyện hay không
  Chẳng hạn, nếu học khả năng đọc viết cơ bản bằng TinyStories trước, rồi đến văn bản toán học và triết học, sau đó là tâm lý học và xã hội học, cuối cùng mới nạp khối dữ liệu lớn bao gồm hội thoại, bài viết đầy giận dữ, mã nguồn và tiểu thuyết, thì liệu nó có khác biệt đáng kể so với một mô hình được huấn luyện trước bằng diễn xuất, viết sáng tạo và tiểu thuyết fantasy rồi mới nạp cùng bộ dữ liệu lớn cuối cùng đó hay không
  Tôi cũng tò mò năng lực hiện tại ảnh hưởng đến việc ngữ cảnh hóa dữ liệu huấn luyện mới đến mức nào
- Thực tế thì là ngược lại
  Nó được huấn luyện để giải bài toán bằng cách tạo ra chuỗi suy nghĩ (CoT) dài, và làm việc đó rất tốt, nhưng gần như không có khả năng gọi công cụ, và cũng hầu như không quản lý được quá 1–2 tin nhắn
  Cứ xem cảnh báo ở ngay đầu trang https://huggingface.co/WeiboAI/VibeThinker-3B là rõ
- Tôi đã bị ám bởi ý tưởng này một thời gian, và dòng Qwen được chưng cất từ suy luận của Opus cũng hoạt động khá ổn
  Tôi nghĩ mặt trận tiếp theo sẽ là tối ưu mô hình để nó có năng lực hơn với ít phần cứng hơn
  Đặc biệt, nếu còn có thể học theo thời gian thực thì sẽ càng thú vị hơn
Khi xuất hiện các đột phá từ những mô hình nhỏ nhưng mạnh, có cảm giác như chúng đang vượt lên trước hỏa lực vốn liếng thuần túy của các nhà cung cấp mô hình hàng đầu hiện nay
Tôi muốn cổ vũ phe nhỏ, nhưng có lẽ vẫn còn quá sớm để kết luận
Nhìn theo hướng ngược lại, cũng có thể các benchmark hiện tại chưa đủ hiệu quả để nắm bắt thành công trong quy trình làm việc thực tế của lập trình viên
- Tôi nghĩ mọi người sẽ còn tiếp tục ngạc nhiên trước năng lực của mô hình nhỏ trong tương lai
  Tuy nhiên, nếu bắt mô hình này trò chuyện thì có khả năng nó sẽ thất bại và mất tính nhất quán
  Bù lại, khả năng suy luận để giải toán của nó thực sự rất tốt
- Vài ngày trước tôi bắt đầu chạy qwen3.6:35b trên desktop Framework và thấy khá ấn tượng
  Nó chạy tốt, và làm tôi nhớ đến các mô hình Claude mà tôi từng dùng đầu tiên
  Đây là mô hình local đầu tiên cho agent lập trình mà tôi thử và thấy thực sự dùng được, nên tôi rất hào hứng
- Đôi khi có cảm giác việc tối ưu hóa chỉ mới bắt đầu thôi
Để bất kỳ mô hình nào trở nên hữu ích, ngay cả trong các tác vụ hẹp, nó cũng cần có mức trí thông minh nền tảng nhất định
Có thể dạy một đứa trẻ 5 tuổi lái xe không? Còn 10 tuổi? 12 tuổi?
Để lái xe, phải biết đọc, phải đánh giá được điều kiện như đường băng hay trời mưa, và phải dự đoán được một đứa trẻ có thể chạy lao ra để đuổi theo quả bóng
Con người thường có được loại kiến thức nền này vào khoảng giữa tuổi thiếu niên
Ngay cả mô hình nhỏ cũng cần một mức kiến thức nền nào đó để làm đủ tốt, dù bề ngoài đó là một lĩnh vực hẹp
Có thể không cần đến mọi loại kiến thức hiếm của các frontier model, nhưng nhiều khả năng ngưỡng nền tảng cần thiết cao hơn so với suy nghĩ ban đầu
- Câu “muốn lái xe thì phải biết đọc” hoàn toàn không đúng
  Có thể muốn vượt qua bài thi bằng lái thì phải biết đọc, nhưng trên thế giới có rất nhiều người mù chữ vẫn lái xe tốt
  Có lý do khiến các biển báo giao thông phổ biến được thiết kế để có thể nhận ra chỉ bằng hình dạng và màu sắc
- Cách quy giản hành vi cơ bản của con người thành kiểu trò chơi máy tính chỉ có văn bản như thế này trông khá kỳ lạ
  Bản thân việc lái xe chủ yếu dựa vào trí nhớ cơ bắp để điều khiển chiếc xe, nên những người lái nhiều có thể vận hành như tự lái trong các chuyến đi dài trong khi nghĩ về chuyện hoàn toàn khác
  Đây cũng là một dạng kiến thức, nhưng chỉ có được qua lặp lại
  Tất nhiên, để lái trong giao thông thì còn cần nhiều thứ hơn rất nhiều, như hiểu biết cơ bản về luật giao thông, nhưng phần lớn việc lái xe là trí nhớ cơ bắp, hiểu chiếc xe và dự đoán điều sắp xảy ra
  Loài linh trưởng giỏi những việc này vì đã tiến hóa qua hàng triệu năm dùng cơ thể và quan sát kết quả
  Cũng từng có một ảnh GIF đười ươi lái xe golf, nhưng không rõ thật đến mức nào
  Có lẽ sẽ hữu ích hơn nếu xem mô hình là công cụ có những năng lực cụ thể trong những lĩnh vực cụ thể, thay vì như những con người sao chép trong tương lai
  Cũng như việc nhờ Opus 4.8 lái ô tô là vô nghĩa, thì kỳ vọng một mô hình ảnh nhỏ cho thiết bị edge viết tiểu thuyết cũng vô nghĩa
  Nên xem nó là công cụ được tạo ra cho mục đích cụ thể
- Nếu xem đây là nghiên cứu chính thức thì chủ đề này có vẻ rất thú vị
  Tôi nghĩ trở ngại thực sự là a) khả năng phán đoán, b) phản xạ cơ thể và sức lực ở mức nào đó
  Hồi nhỏ tôi cũng đã biết về băng, tuyết và mưa
  Tôi đi xe đạp quanh năm, và đặc biệt vào lúc giao mùa tôi ít tự tin vào khả năng kiểm soát xe trên tuyết hoặc địa hình ướt
  Trải nghiệm đó dẫn tới việc học lái xe mùa đông ở miền bắc Canada, và tôi áp dụng những bài học tương tự vào việc lái xe
  Trong môi trường không có hậu quả thực tế, tôi đã thấy trẻ con điều khiển simulator thật hoặc game mô phỏng lái xe với độ chính xác đáng kinh ngạc
  Có những trường hợp trẻ 9–11 tuổi chơi mô phỏng và game tự tin hơn nhiều so với tài xế trưởng thành
  Trẻ con biết rằng trong mô phỏng thì không có hậu quả, và nếu không có động lực riêng thì chúng sẽ hành xử như vậy
  Ngược lại, ở người lớn lái xe thường xuyên, ngay cả khi chơi game thì trí nhớ cơ bắp và định kiến sẵn có vẫn chi phối việc ra quyết định
  Tôi tò mò không biết cần bao nhiêu huấn luyện và tiếp xúc để trẻ vượt qua trạng thái chưa nhận thức được giới hạn thực tế và hậu quả của việc lái xe cũng như sai lầm khi lái, và ngược lại, một người là tài xế lành nghề nhưng mới chơi game thì cần bao nhiêu để ngừng áp dụng kinh nghiệm thực vào một mô phỏng không có hậu quả
- 10 tuổi thì chắc chắn có thể, còn 5 tuổi thì sát nút nhưng không phải hoàn toàn phi thực tế
  Lái xe không cần khả năng đọc
  Tuy nhiên, lái xe trên đường cùng với người khác lại là một câu chuyện hoàn toàn khác
- Để lái xe đúng cách thì còn phải cân bằng được khám phá-khai thác
  Một đứa trẻ 3 tuổi có khả năng sẽ khám phá quá nhiều trong những tình huống mà sai lầm là nguy hiểm
  Việc này không chỉ cần kiến thức mà còn cần hệ thống kiểm soát phát triển cùng với thùy trán trước
  Các mô hình ngôn ngữ lớn hiện vẫn chưa làm được nhiều kiểu kiểm soát như vậy
Cần lưu ý rằng kết quả này là chỉ dành cho Python
Với các ngôn ngữ khác, có lẽ nó sẽ không làm tốt đến vậy
Thật đáng mừng khi có thêm nhiều mô hình ngôn ngữ nhỏ chuyên biệt theo miền
Một mô hình mixture-of-experts (MoE) chuyên về lập trình có thể hoạt động tốt trên nhiều ngôn ngữ
- Chỉ cần nó viết được Python chạy được thay vì giả làm lập trình viên Java rồi nhồi kín mã bằng class và accessor, thì đã tốt hơn Opus rồi
- Có rất nhiều nhầm lẫn về việc mô hình này thực sự tập trung vào điều gì
  Mô hình này là một chuyên gia giá rẻ cho các tác vụ suy luận có thể kiểm chứng trong thế giới đóng, như toán học hoặc các bài toán lập trình tự chứa
  “Thế giới đóng” nghĩa là thông tin cần thiết đã có sẵn trong ngữ cảnh
  Nó không phải agent dùng công cụ để phát hiện phần ngữ cảnh còn thiếu
  “Có thể kiểm chứng” nghĩa là bài toán khó ở chỗ tạo ra câu trả lời, nhưng lại dễ xác minh
  Vì vậy nó không phù hợp cho nghiên cứu mở, các tác vụ agent xử lý cả repository, hỏi đáp thực tế, hay tạo SVG
  Nó gần giống một mô-đun suy luận nhỏ cho các bài toán có ranh giới rõ ràng
Điều thú vị ở một mô hình nhỏ như thế này là có vẻ nó có thể chạy trên một chip Taalas duy nhất
HC1 hiện đã chạy được mô hình Llama 3.1 8B
Chúng ta đã đến mức có thể chạy suy luận kha khá ổn trên ASIC với tốc độ cực cao
- Nếu có thể chạy một mô hình 8B thực sự mạnh ở việc cải thiện đầu ra thông qua suy nghĩ trên Taalas ở 16K token mỗi giây thì sẽ rất đáng kinh ngạc
Tôi đang thử mô hình này như một phương án thay thế GPT-5 nano trong review bảo mật mã nguồn, và đã có một mức thành công nhất định
Đang chạy bằng vLLM trên RTX 3090 24GB VRAM
Đúng như model card ghi, đầu ra có cấu trúc không tốt, nhưng tôi đang lách qua điều đó trong test harness của mình
- Không thể ép đầu ra có cấu trúc bằng constrained generation sao?
- Tôi tò mò bạn đang lách bằng cách nào
Tôi đã thử tạo pelican SVG kiểu cổ điển, nhưng nó thất bại thảm hại, chỉ hiện ra các hình chữ nhật và những hình tròn màu đen
- Có vẻ đây là kết quả có thể đoán trước được
  Điểm cốt lõi dường như là họ đã giảm bớt tri thức kiểu “chim bồ nông có cánh”, nhưng vẫn giữ được năng lực suy luận cốt lõi
  “Phát hiện này củng cố giả thuyết nén-tham số bao quát. Giả thuyết này cho rằng suy luận có thể kiểm chứng được có thể được nén vào một lõi suy luận nhỏ, nhưng tri thức miền mở và năng lực tổng quát thì cần độ bao phủ tham số rộng trên toàn bộ các sự kiện, khái niệm và các kịch bản đuôi dài”
- Hãy thử lại, nhưng giải thích cẩn thận xe đạp là gì và chim bồ nông là gì, cũng như chim bồ nông ngồi trên xe đạp như thế nào
  Sau đó chỉ cần đưa các thẻ SVG và tài liệu tham chiếu mà bạn muốn nó dùng
  Kết quả tôi nhận được ở đây: https://9ol.es/tmp/pelican.png
  Prompt ở đây: https://9ol.es/tmp/prompt_pelican.txt
  Mô hình đã dùng là prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
- Đây không phải là mô hình dùng để suy luận chứ đâu phải tạo nghệ thuật sao?
Tôi vẫn chưa thể tin được các đánh giá và benchmark
Làm sao có thể chứng minh rằng bộ dữ liệu kiểm thử thực sự là các ví dụ chưa công bố?
Tôi nghĩ cách duy nhất để chứng minh các mô hình này tốt như tuyên bố là chờ xem chúng có thực sự được áp dụng hay không
- Muốn chứng minh điều đó thì rốt cuộc vẫn phải giải quyết bài toán hộp đen, tức là tiến gần hơn tới mục tiêu minh bạch
  Nếu phải triển khai thứ gì đó như một bộ suy luận, thì cần thiết kế và hiện thực kiến trúc tốt nhất phù hợp với mục tiêu đó rồi kiểm thử
Thật sự rất vui khi thấy những mô hình ngôn ngữ nhỏ năng lực như thế này xuất hiện
Tuy nhiên trên Hugging Face có ghi như sau:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Vì vậy không thể chỉ cắm nó vào một coding harness như pi.dev rồi dùng luôn
Suy luận tốt hơn cả Opus 4.5 sao?
Prompt: “Nếu A đi đến B, và sau đó B đi tiếp đến C, thì A có thể gửi thứ gì đó cho C không?”
Phản hồi là thế này:
“Cần diễn giải theo cách phù hợp nhất. Câu này có thể là một câu đố về quan hệ hoặc về khái niệm gửi một vật gì đó, chẳng hạn như chuyền một quả bóng.
Kịch bản: A đưa một thứ gì đó cho B, và B chuyển nó cho C.
Câu hỏi: A cũng có thể đưa chính thứ đó cho C không?
Trả lời: Chỉ có thể nếu A có được một bản sao thứ hai. Ví dụ, nếu vật đó đã được sao chép. Nếu không, sau khi đưa cho B thì A không còn giữ nó nữa, nên không thể ‘gửi’ nó nếu không có bản sao.”
Ngoài ra còn kèm rất nhiều lời giải thích không cần thiết và các “kịch bản” còn kém hợp lý hơn
- Tôi cũng đã chạy cùng truy vấn đó, và tuy đầu ra rất dài nhưng có vẻ nó đang suy luận để tháo gỡ tính mơ hồ của câu văn
  Dù vậy nó vẫn ra đáp án đúng
  Hơn nữa, nếu so lượng phép toán dấu chấm động cần để đi đến câu trả lời với Opus thì tôi vẫn cho là có lãi ròng
  Linh cảm của tôi là các mô hình cỡ Opus đã mã hóa sẵn trong mô hình những lối tắt để xử lý các trường hợp mơ hồ kiểu này, còn mô hình này thì giống như đã học một chương trình suy luận tại chỗ cho các trường hợp biên
  Nó gần giống khác biệt giữa trí thông minh kết tinh và trí thông minh linh hoạt
  Các mô hình frontier có vẻ như ghi nhớ xác suất, còn VibeThinker thì giống như tính toán ngay tại chỗ
- Trong phần mô tả kiểm soát chất lượng có đoạn này:
  “Kiểm soát chất lượng nhiều giai đoạn.”
  “Lọc chất lượng truy vấn dựa trên mô hình ngôn ngữ lớn. Chúng tôi sử dụng các mô hình ngôn ngữ lớn có hiệu năng cao để đánh giá chất lượng truy vấn, và loại bỏ những mẫu có phần giải thích không đầy đủ, điều kiện không hợp lý, logic sai lệch, hoặc không thể đánh giá hiệu quả điểm kiến thức mục tiêu.”
- Là con người, tôi cũng không biết nên diễn giải prompt này như thế nào
- Nếu A đi đến B và B lại đi đến C, thì C có biết A không?

VibeThinker-3B: Mô hình 3B vượt hiệu năng suy luận của Opus 4.5 với SFT+GRPO

Thử nghiệm đẩy suy luận có thể kiểm chứng bằng mô hình 3B

Dải hiệu năng thể hiện trong đánh giá

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News