- VibeThinker-3B là một mô hình dense cỡ nhỏ thử nghiệm xem có thể nén suy luận có thể kiểm chứng đến mức nào chỉ với 3B tham số
- Pipeline huấn luyện kết hợp hậu huấn luyện Spectrum-to-Signal với fine-tuning có giám sát theo curriculum, học tăng cường đa miền và tự chưng cất ngoại tuyến
- Mô hình đạt 94.3 điểm trên AIME26, và 97.1 điểm khi áp dụng CLR; đồng thời báo cáo LiveCodeBench v6 Pass@1 80.2 và tỷ lệ chấp nhận 96.1% trên các kỳ thi LeetCode gần đây chưa công bố
- Dù nằm trong cùng hoặc cao hơn dải hiệu năng của các mô hình flagship lớn hơn nhiều như DeepSeek V3.2, GLM-5 và Gemini 3 Pro, mô hình vẫn giữ được khả năng tuân thủ chỉ dẫn nghiêm ngặt với 93.4 điểm trên IFEval
- Parametric Compression-Coverage Hypothesis cho rằng suy luận có thể kiểm chứng có thể được nén vào một reasoning core nhỏ, nhưng tri thức mở và năng lực tổng quát vẫn cần độ bao phủ tham số rộng hơn
Thử nghiệm đẩy suy luận có thể kiểm chứng bằng mô hình 3B
- VibeThinker-3B là mô hình dense cỡ nhỏ ở quy mô 3B tham số
- Mục tiêu là kiểm tra có thể nâng hiệu năng suy luận có thể kiểm chứng lên tới đâu ngay cả trong thiết lập mô hình nhỏ nghiêm ngặt
- Hậu huấn luyện được xây dựng trên mô hình Spectrum-to-Signal
- fine-tuning có giám sát dựa trên curriculum
- học tăng cường đa miền
- tự chưng cất ngoại tuyến
- Kết quả lần này nằm trong mạch mở rộng từ công trình 1.5B trước đó
Dải hiệu năng thể hiện trong đánh giá
- Mô hình cho thấy hiệu năng cấp frontier trong các bài đánh giá toán học, lập trình và thực thi chỉ dẫn
- AIME26: 94.3 điểm
- AIME26 + CLR: 97.1 điểm
- LiveCodeBench v6: Pass@1 80.2
- các kỳ thi LeetCode gần đây chưa công bố: tỷ lệ chấp nhận 96.1%
- IFEval: 93.4 điểm
- CLR là viết tắt của Claim-Level Reliability Assessment, một chiến lược test-time scaling ở cấp độ claim
- Các đối tượng được so sánh trong Figure 1 gồm Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 và Claude Opus 4.5
- Theo kết quả được báo cáo, VibeThinker-3B có thể nằm trong cùng hoặc cao hơn dải hiệu năng của các mô hình flagship lớn hơn nhiều như DeepSeek V3.2, GLM-5 và Gemini 3 Pro
- Trong so sánh quy mô tham số, VibeThinker-3B được ghi là 3B
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- Parametric Compression-Coverage Hypothesis xem compact model không chỉ là phương án thay thế đơn thuần cho hiệu quả triển khai, mà là một con đường bổ trợ để đạt hiệu năng cấp frontier trong vùng năng lực đậm đặc theo tham số
1 bình luận
Ý kiến trên Hacker News
Tôi tự hỏi liệu đây có thể xem đơn giản là một mô hình nhỏ được huấn luyện để suy luận tốt và chỉ có vậy hay không
Giống như một người thông minh không biết về một chủ đề cụ thể, nhưng nếu được đưa công cụ thì sẽ chăm chỉ nghiên cứu
Sẽ rất tuyệt nếu thay vì bắt mô hình học mọi kiến thức, ta chỉ huấn luyện cách học để nó có thể tự xoay xở chỉ với một thiết bị nhỏ như Pi Zero và kết nối Internet
Thay vì mã hóa mọi kiến thức vào tham số, tôi từng nghĩ sẽ ra sao nếu tạo được một mô hình mà dù cùng kích thước nhưng phần lớn được dùng cho suy luận
Chỉ cần cho nó khả năng duyệt Internet, rồi để nó tự tìm đặc tả ngôn ngữ, tài liệu và best practices
Tôi không hiểu vì sao agent lập trình của mình lại cần biết dân số New York, công thức cheesecake hay tuổi thọ của đà điểu
Chỉ cần cho nó lượng kiến thức tối thiểu cần để suy nghĩ và suy luận, phần còn lại để nó tự tìm ra
Tuy vậy, điều đáng tiếc là các mô hình ngôn ngữ lớn hiện nay rốt cuộc vẫn là dự đoán token, nên chúng không vận hành theo cách đó
Suy luận là một sản phẩm phụ xuất hiện từ kết quả được huấn luyện bằng toàn bộ kiến thức, và ngay cả ở dạng này, mô hình cũng không thực sự “biết” gì mà chỉ tạo ra token
Nếu không được huấn luyện trên một tập dữ liệu lớn chứa nhiều từ và các mối liên hệ hợp lý giữa chúng, nó sẽ không thể tạo được các kết nối phù hợp giữa từ và câu, nên cũng không thể suy luận
Nếu thử huấn luyện một mô hình nhỏ trên tập dữ liệu rất nhỏ, bạn sẽ thấy đầu ra lảm nhảm, thiếu mạch lạc
Tối ưu tập dữ liệu để rút ra lượng sinh tối đa từ lượng dữ liệu tối thiểu có thể sẽ thú vị, nhưng nếu công ty muốn làm mô hình đạt trình độ mới nhất thì về mặt kinh tế, gắn thêm vài GPU còn hiệu quả hơn nhiều so với kiểu nỗ lực đó
Ví dụ, ngay cả một câu hỏi rất cơ bản như đặt quả bóng vào cốc, úp cốc xuống bàn rồi nhấc cốc lên cho vào hộp cũng cần đến kiến thức không được nêu rõ trong đề, đặc biệt là kiến thức về trọng lực
Nếu cố định nghĩa mọi thuật ngữ một cách chặt chẽ thì rất nhanh sẽ rơi vào vũng lầy của sự phức tạp
Để hiểu chỉ dẫn, cần có kiến thức nền tảng về sự vật; nếu chỉ biết cách suy luận thì cũng không hình dung được phải đạt điều gì
Có một sự đứt gãy khá rõ giữa kho văn bản khổng lồ mà mô hình được huấn luyện trên đó và khả năng xem xét một chủ đề nào đó một cách vững chắc
Tôi cũng tự hỏi liệu có thể định hướng con đường đó bằng thứ tự huấn luyện hay không
Chẳng hạn, nếu học khả năng đọc viết cơ bản bằng TinyStories trước, rồi đến văn bản toán học và triết học, sau đó là tâm lý học và xã hội học, cuối cùng mới nạp khối dữ liệu lớn bao gồm hội thoại, bài viết đầy giận dữ, mã nguồn và tiểu thuyết, thì liệu nó có khác biệt đáng kể so với một mô hình được huấn luyện trước bằng diễn xuất, viết sáng tạo và tiểu thuyết fantasy rồi mới nạp cùng bộ dữ liệu lớn cuối cùng đó hay không
Tôi cũng tò mò năng lực hiện tại ảnh hưởng đến việc ngữ cảnh hóa dữ liệu huấn luyện mới đến mức nào
Nó được huấn luyện để giải bài toán bằng cách tạo ra chuỗi suy nghĩ (CoT) dài, và làm việc đó rất tốt, nhưng gần như không có khả năng gọi công cụ, và cũng hầu như không quản lý được quá 1–2 tin nhắn
Cứ xem cảnh báo ở ngay đầu trang https://huggingface.co/WeiboAI/VibeThinker-3B là rõ
Tôi nghĩ mặt trận tiếp theo sẽ là tối ưu mô hình để nó có năng lực hơn với ít phần cứng hơn
Đặc biệt, nếu còn có thể học theo thời gian thực thì sẽ càng thú vị hơn
Khi xuất hiện các đột phá từ những mô hình nhỏ nhưng mạnh, có cảm giác như chúng đang vượt lên trước hỏa lực vốn liếng thuần túy của các nhà cung cấp mô hình hàng đầu hiện nay
Tôi muốn cổ vũ phe nhỏ, nhưng có lẽ vẫn còn quá sớm để kết luận
Nhìn theo hướng ngược lại, cũng có thể các benchmark hiện tại chưa đủ hiệu quả để nắm bắt thành công trong quy trình làm việc thực tế của lập trình viên
Tuy nhiên, nếu bắt mô hình này trò chuyện thì có khả năng nó sẽ thất bại và mất tính nhất quán
Bù lại, khả năng suy luận để giải toán của nó thực sự rất tốt
Nó chạy tốt, và làm tôi nhớ đến các mô hình Claude mà tôi từng dùng đầu tiên
Đây là mô hình local đầu tiên cho agent lập trình mà tôi thử và thấy thực sự dùng được, nên tôi rất hào hứng
Để bất kỳ mô hình nào trở nên hữu ích, ngay cả trong các tác vụ hẹp, nó cũng cần có mức trí thông minh nền tảng nhất định
Có thể dạy một đứa trẻ 5 tuổi lái xe không? Còn 10 tuổi? 12 tuổi?
Để lái xe, phải biết đọc, phải đánh giá được điều kiện như đường băng hay trời mưa, và phải dự đoán được một đứa trẻ có thể chạy lao ra để đuổi theo quả bóng
Con người thường có được loại kiến thức nền này vào khoảng giữa tuổi thiếu niên
Ngay cả mô hình nhỏ cũng cần một mức kiến thức nền nào đó để làm đủ tốt, dù bề ngoài đó là một lĩnh vực hẹp
Có thể không cần đến mọi loại kiến thức hiếm của các frontier model, nhưng nhiều khả năng ngưỡng nền tảng cần thiết cao hơn so với suy nghĩ ban đầu
Có thể muốn vượt qua bài thi bằng lái thì phải biết đọc, nhưng trên thế giới có rất nhiều người mù chữ vẫn lái xe tốt
Có lý do khiến các biển báo giao thông phổ biến được thiết kế để có thể nhận ra chỉ bằng hình dạng và màu sắc
Bản thân việc lái xe chủ yếu dựa vào trí nhớ cơ bắp để điều khiển chiếc xe, nên những người lái nhiều có thể vận hành như tự lái trong các chuyến đi dài trong khi nghĩ về chuyện hoàn toàn khác
Đây cũng là một dạng kiến thức, nhưng chỉ có được qua lặp lại
Tất nhiên, để lái trong giao thông thì còn cần nhiều thứ hơn rất nhiều, như hiểu biết cơ bản về luật giao thông, nhưng phần lớn việc lái xe là trí nhớ cơ bắp, hiểu chiếc xe và dự đoán điều sắp xảy ra
Loài linh trưởng giỏi những việc này vì đã tiến hóa qua hàng triệu năm dùng cơ thể và quan sát kết quả
Cũng từng có một ảnh GIF đười ươi lái xe golf, nhưng không rõ thật đến mức nào
Có lẽ sẽ hữu ích hơn nếu xem mô hình là công cụ có những năng lực cụ thể trong những lĩnh vực cụ thể, thay vì như những con người sao chép trong tương lai
Cũng như việc nhờ Opus 4.8 lái ô tô là vô nghĩa, thì kỳ vọng một mô hình ảnh nhỏ cho thiết bị edge viết tiểu thuyết cũng vô nghĩa
Nên xem nó là công cụ được tạo ra cho mục đích cụ thể
Tôi nghĩ trở ngại thực sự là a) khả năng phán đoán, b) phản xạ cơ thể và sức lực ở mức nào đó
Hồi nhỏ tôi cũng đã biết về băng, tuyết và mưa
Tôi đi xe đạp quanh năm, và đặc biệt vào lúc giao mùa tôi ít tự tin vào khả năng kiểm soát xe trên tuyết hoặc địa hình ướt
Trải nghiệm đó dẫn tới việc học lái xe mùa đông ở miền bắc Canada, và tôi áp dụng những bài học tương tự vào việc lái xe
Trong môi trường không có hậu quả thực tế, tôi đã thấy trẻ con điều khiển simulator thật hoặc game mô phỏng lái xe với độ chính xác đáng kinh ngạc
Có những trường hợp trẻ 9–11 tuổi chơi mô phỏng và game tự tin hơn nhiều so với tài xế trưởng thành
Trẻ con biết rằng trong mô phỏng thì không có hậu quả, và nếu không có động lực riêng thì chúng sẽ hành xử như vậy
Ngược lại, ở người lớn lái xe thường xuyên, ngay cả khi chơi game thì trí nhớ cơ bắp và định kiến sẵn có vẫn chi phối việc ra quyết định
Tôi tò mò không biết cần bao nhiêu huấn luyện và tiếp xúc để trẻ vượt qua trạng thái chưa nhận thức được giới hạn thực tế và hậu quả của việc lái xe cũng như sai lầm khi lái, và ngược lại, một người là tài xế lành nghề nhưng mới chơi game thì cần bao nhiêu để ngừng áp dụng kinh nghiệm thực vào một mô phỏng không có hậu quả
Lái xe không cần khả năng đọc
Tuy nhiên, lái xe trên đường cùng với người khác lại là một câu chuyện hoàn toàn khác
Một đứa trẻ 3 tuổi có khả năng sẽ khám phá quá nhiều trong những tình huống mà sai lầm là nguy hiểm
Việc này không chỉ cần kiến thức mà còn cần hệ thống kiểm soát phát triển cùng với thùy trán trước
Các mô hình ngôn ngữ lớn hiện vẫn chưa làm được nhiều kiểu kiểm soát như vậy
Cần lưu ý rằng kết quả này là chỉ dành cho Python
Với các ngôn ngữ khác, có lẽ nó sẽ không làm tốt đến vậy
Thật đáng mừng khi có thêm nhiều mô hình ngôn ngữ nhỏ chuyên biệt theo miền
Một mô hình mixture-of-experts (MoE) chuyên về lập trình có thể hoạt động tốt trên nhiều ngôn ngữ
Mô hình này là một chuyên gia giá rẻ cho các tác vụ suy luận có thể kiểm chứng trong thế giới đóng, như toán học hoặc các bài toán lập trình tự chứa
“Thế giới đóng” nghĩa là thông tin cần thiết đã có sẵn trong ngữ cảnh
Nó không phải agent dùng công cụ để phát hiện phần ngữ cảnh còn thiếu
“Có thể kiểm chứng” nghĩa là bài toán khó ở chỗ tạo ra câu trả lời, nhưng lại dễ xác minh
Vì vậy nó không phù hợp cho nghiên cứu mở, các tác vụ agent xử lý cả repository, hỏi đáp thực tế, hay tạo SVG
Nó gần giống một mô-đun suy luận nhỏ cho các bài toán có ranh giới rõ ràng
Điều thú vị ở một mô hình nhỏ như thế này là có vẻ nó có thể chạy trên một chip Taalas duy nhất
HC1 hiện đã chạy được mô hình Llama 3.1 8B
Chúng ta đã đến mức có thể chạy suy luận kha khá ổn trên ASIC với tốc độ cực cao
Tôi đang thử mô hình này như một phương án thay thế GPT-5 nano trong review bảo mật mã nguồn, và đã có một mức thành công nhất định
Đang chạy bằng vLLM trên RTX 3090 24GB VRAM
Đúng như model card ghi, đầu ra có cấu trúc không tốt, nhưng tôi đang lách qua điều đó trong test harness của mình
Tôi đã thử tạo pelican SVG kiểu cổ điển, nhưng nó thất bại thảm hại, chỉ hiện ra các hình chữ nhật và những hình tròn màu đen
Điểm cốt lõi dường như là họ đã giảm bớt tri thức kiểu “chim bồ nông có cánh”, nhưng vẫn giữ được năng lực suy luận cốt lõi
“Phát hiện này củng cố giả thuyết nén-tham số bao quát. Giả thuyết này cho rằng suy luận có thể kiểm chứng được có thể được nén vào một lõi suy luận nhỏ, nhưng tri thức miền mở và năng lực tổng quát thì cần độ bao phủ tham số rộng trên toàn bộ các sự kiện, khái niệm và các kịch bản đuôi dài”
Sau đó chỉ cần đưa các thẻ SVG và tài liệu tham chiếu mà bạn muốn nó dùng
Kết quả tôi nhận được ở đây: https://9ol.es/tmp/pelican.png
Prompt ở đây: https://9ol.es/tmp/prompt_pelican.txt
Mô hình đã dùng là prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
Tôi vẫn chưa thể tin được các đánh giá và benchmark
Làm sao có thể chứng minh rằng bộ dữ liệu kiểm thử thực sự là các ví dụ chưa công bố?
Tôi nghĩ cách duy nhất để chứng minh các mô hình này tốt như tuyên bố là chờ xem chúng có thực sự được áp dụng hay không
Nếu phải triển khai thứ gì đó như một bộ suy luận, thì cần thiết kế và hiện thực kiến trúc tốt nhất phù hợp với mục tiêu đó rồi kiểm thử
Thật sự rất vui khi thấy những mô hình ngôn ngữ nhỏ năng lực như thế này xuất hiện
Tuy nhiên trên Hugging Face có ghi như sau:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Vì vậy không thể chỉ cắm nó vào một coding harness như pi.dev rồi dùng luôn
Suy luận tốt hơn cả Opus 4.5 sao?
Prompt: “Nếu A đi đến B, và sau đó B đi tiếp đến C, thì A có thể gửi thứ gì đó cho C không?”
Phản hồi là thế này:
“Cần diễn giải theo cách phù hợp nhất. Câu này có thể là một câu đố về quan hệ hoặc về khái niệm gửi một vật gì đó, chẳng hạn như chuyền một quả bóng.
Kịch bản: A đưa một thứ gì đó cho B, và B chuyển nó cho C.
Câu hỏi: A cũng có thể đưa chính thứ đó cho C không?
Trả lời: Chỉ có thể nếu A có được một bản sao thứ hai. Ví dụ, nếu vật đó đã được sao chép. Nếu không, sau khi đưa cho B thì A không còn giữ nó nữa, nên không thể ‘gửi’ nó nếu không có bản sao.”
Ngoài ra còn kèm rất nhiều lời giải thích không cần thiết và các “kịch bản” còn kém hợp lý hơn
Dù vậy nó vẫn ra đáp án đúng
Hơn nữa, nếu so lượng phép toán dấu chấm động cần để đi đến câu trả lời với Opus thì tôi vẫn cho là có lãi ròng
Linh cảm của tôi là các mô hình cỡ Opus đã mã hóa sẵn trong mô hình những lối tắt để xử lý các trường hợp mơ hồ kiểu này, còn mô hình này thì giống như đã học một chương trình suy luận tại chỗ cho các trường hợp biên
Nó gần giống khác biệt giữa trí thông minh kết tinh và trí thông minh linh hoạt
Các mô hình frontier có vẻ như ghi nhớ xác suất, còn VibeThinker thì giống như tính toán ngay tại chỗ
“Kiểm soát chất lượng nhiều giai đoạn.”
“Lọc chất lượng truy vấn dựa trên mô hình ngôn ngữ lớn. Chúng tôi sử dụng các mô hình ngôn ngữ lớn có hiệu năng cao để đánh giá chất lượng truy vấn, và loại bỏ những mẫu có phần giải thích không đầy đủ, điều kiện không hợp lý, logic sai lệch, hoặc không thể đánh giá hiệu quả điểm kiến thức mục tiêu.”