- Với kiến trúc Mixture of Experts thưa chỉ kích hoạt 11 tỷ trong tổng số 196 tỷ tham số, mô hình hỗ trợ suy luận tốc độ cao và tương tác thời gian thực
- Đạt tốc độ sinh tối đa 350 token/giây và cửa sổ ngữ cảnh 256K
- Với SWE-bench Verified 74.4%, mô hình cho thấy hiệu năng ổn định trong các benchmark về lập trình và tác vụ agent, đồng thời cũng có thể chạy trong môi trường cục bộ (Mac Studio M4 Max, NVIDIA DGX Spark)
- Thông qua suy luận dựa trên việc sử dụng công cụ và điều phối đa tác tử, mô hình chứng minh độ tin cậy và năng lực thực thi cao trong các kịch bản công việc thực tế như tài chính, phân tích dữ liệu và tự động hóa nghiên cứu
- Với kỹ thuật tối ưu hóa MIS-PO dựa trên học tăng cường, mô hình đảm bảo độ ổn định cho suy luận dài hạn và cung cấp năng lực suy luận và hành động cấp frontier với chi phí thấp hơn so với các mô hình hiệu năng cao
Tổng quan mô hình và hiệu năng
- Step 3.5 Flash là foundation model mã nguồn mở kết hợp suy luận tốc độ cao và khả năng agent, đạt điểm benchmark trung bình 81.0
- Điểm trung bình cao hơn các mô hình chủ chốt như GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5)
- Với kiến trúc MoE thưa, chỉ 11B tham số được kích hoạt trong tổng số 196B, cho phép xử lý hiệu quả và phản hồi thời gian thực
- Dựa trên MTP-3, mô hình đạt tốc độ sinh 100~300 tok/s trong sử dụng thông thường và tối đa 350 tok/s trong tác vụ lập trình
- Với SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0%, mô hình đảm bảo hiệu năng ổn định trong các tác vụ lập trình và agent dài hạn
- Cửa sổ ngữ cảnh 256K được triển khai bằng cấu trúc SWA 3:1, giúp duy trì hiệu quả chi phí ngay cả với ngữ cảnh dài
Trường hợp sử dụng thực tế và khai thác công cụ
- Hiệu năng được cải thiện trong toán học, lập trình và phân tích dữ liệu nhờ suy luận có bổ trợ công cụ (tool-augmented reasoning)
- Khi tích hợp thực thi Python, mô hình ghi nhận điểm số cải thiện trên AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7)
- Trong kịch bản đầu tư cổ phiếu, mô hình kết hợp hơn 80 công cụ MCP để tự động hóa thu thập dữ liệu, phân tích và cảnh báo
- Autonomous Business Intelligence Engine tự động hóa từ xử lý CSV đến dự báo, đồng thời phát hiện chênh lệch chất lượng dữ liệu (1.6 lần)
- Large-Scale Repository Architect phân tích codebase quy mô lớn để tạo wiki chuyên biệt, liên kết giữa mẫu thiết kế và chi tiết triển khai
Nghiên cứu và hiệu năng agent
- Trên benchmark ResearchRubrics, mô hình đạt 65.3%, cao hơn Gemini DeepResearch(63.7) và OpenAI DeepResearch(60.7)
- Trong một vòng lặp đơn dựa trên ReAct, mô hình thực hiện các bước lập kế hoạch, tìm kiếm, kiểm chứng và viết
- Trong môi trường Claude Code, mô hình đạt 39.6% trên benchmark phân tích dữ liệu, nhỉnh hơn GPT-5.2(39.3)
- Thông qua Multi-Agent Framework, Master Agent điều phối các agent tìm kiếm, kiểm chứng và tóm tắt để tạo ra kết quả có cấu trúc
- Với Cloud-Device Synergy, khi kết nối với Step-GUI, mô hình đạt 57 điểm trên benchmark AndroidDaily Hard (so với 40 điểm khi chạy độc lập)
Kiến trúc và đặc điểm kỹ thuật
- Backbone Sparse MoE tách biệt dung lượng toàn cục (196B) và lượng tính toán trên mỗi token (11B), từ đó tối ưu chi phí và tốc độ suy luận
- Cấu trúc Sliding-Window Attention + Full Attention(3:1) duy trì hiệu quả khi xử lý ngữ cảnh dài
- Head-wise Gated Attention điều khiển luồng thông tin một cách động và đảm bảo độ ổn định số
- Đạt throughput giải mã 350 tok/s trên GPU NVIDIA Hopper
- Hỗ trợ suy luận cục bộ (20 tok/s, ngữ cảnh 256K) thông qua mô hình lượng tử hóa INT4 GGUF
Khung học tăng cường
- Giới thiệu Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO)
- Thay vì importance sampling, mô hình loại bỏ các mẫu không ổn định bằng lọc nhị phân
- Ổn định suy luận dài hạn nhờ truncation-aware value bootstrapping và routing confidence monitoring
- Cấu trúc này cho phép tự cải thiện liên tục trên toán học, lập trình và sử dụng công cụ
So sánh benchmark
- Step 3.5 Flash cho thấy hiệu năng top đầu cân bằng ở ba lĩnh vực: Reasoning, Coding và Agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- Chi phí giải mã ở ngữ cảnh 128K là 1.0x, hiệu quả hơn DeepSeek V3.2(6.0x) và Kimi K2.5(18.9x)
Hạn chế và định hướng tiếp theo
- Hiệu quả token: cần sinh dài hơn để đạt cùng chất lượng so với Gemini 3.0 Pro
- Tích hợp chuyên môn: đang nghiên cứu on-policy distillation để kết hợp hiệu quả giữa tính đa dụng và chuyên môn hóa
- Mở rộng RL kiểu agent: dự kiến mở rộng áp dụng RL sang các tác vụ phức tạp ở mức công việc chuyên môn và nghiên cứu
- Độ ổn định vận hành: trong hội thoại dài hoặc khi chuyển miền, vẫn có khả năng xuất hiện suy luận lặp lại hoặc đầu ra trộn ngôn ngữ
Triển khai và khả năng tiếp cận
- Được tích hợp với nền tảng OpenClaw, có thể sử dụng với cài đặt đơn giản và đăng ký mô hình dễ dàng
- Có thể truy cập qua nền tảng API (tiếng Anh/tiếng Trung) và ứng dụng web·di động (iOS/Android)
- Cung cấp cập nhật và hỗ trợ thông qua cộng đồng Discord
2 bình luận
Mô hình này khá ổn đấy.
Nếu có điều kiện và định chạy bằng
llama.cppthì bạn cần áp dụng riêng prompt có trong bình luận của chuỗi thảo luận bên dưới. Nếu không, sẽ có vấn đề là không có thẻ mở<think>mà chỉ lẻ loi xuất hiện một thẻ</think>ở giữa.https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Ý kiến trên Hacker News
Tôi nghĩ đây là một trong những bản phát hành LLM bị đánh giá thấp nhất trong vài tháng gần đây
Tôi đã thử bản quant 4-bit chạy cục bộ (Step-3.5-Flash-GGUF), và nó còn tốt hơn cả Minimax 2.5 lẫn GLM-4.7 (GLM chỉ chạy được 2-bit)
Các điểm chính như sau
Đây là mô hình cục bộ đầu tiên cỡ 200B tham số thực sự dùng được trong CLI harness. Tôi đang dùng cùng với pi.dev và đây là trải nghiệm tốt nhất từ trước đến nay
Nhược điểm là có lỗi vòng lặp suy luận vô hạn (issue liên quan)
Có vẻ StepFun cũng là công ty tạo ra ACEStep (mô hình tạo nhạc), và cũng được nhắc tới trong tài liệu ComfyUI
Thỉnh thoảng nó gọi tool sai, nhưng với cấu hình temperature=1 do Qwen đề xuất thì không bị treo
Nemotron 3 Nano lại thiếu khả năng dùng tool, nên phần lớn có xu hướng chỉ dùng shell tool
Nhìn chung, các mô hình open weight dạng agentic có xu hướng không gọi tốt những công cụ mà chúng không quen
Muốn hỏi xem có ai từng tính kiểu này chưa
Tôi nghĩ đây có vẻ là vấn đề phải sửa ngay ở trọng số mô hình
Gần đây tôi đọc thấy phần quá trình suy luận (reasoning) của mẹo “Walk or drive to the carwash” khá thú vị
Liên kết liên quan: gist, đoạn hội thoại trên stepfun.ai
Họ nói mô hình đạt 51.0% trên Terminal-Bench 2.0, nhưng tôi nghi ngờ liệu điều đó có thật sự đảm bảo được khả năng xử lý công việc dài hạn một cách ổn định hay không
Xem leaderboard thì điểm cao nhất là 75%, nên 51% vào khoảng ⅔ mức SOTA
Có thể mô hình chỉ đơn giản là đã học thuộc các flag lệnh
Tôi thử rồi và thấy hallucination khá nặng. Ngay cả với câu hỏi đơn giản như “hãy tìm deck vô địch Pokémon” mà nó cũng trả lời không chính xác
Opus 4.6, Deepseek và Kimi thì hoạt động tốt như mong đợi
Đây là mô hình mới được công bố gần đây, dùng kiến trúc Mixture of Experts (MoE) nên mỗi token chỉ kích hoạt 11B trong tổng số 196B
Nó vượt Kimi K2.5 và GLM 4.7 ở nhiều benchmark hơn
Ngay cả máy 128GB cũng có thể chạy bản quant 4-bit (liên kết tham khảo)
Tham khảo trang mô hình
Các mô hình gần đây có điểm benchmark cao, nhưng đi kèm là mức sử dụng token bùng nổ
Để có đổi mới thực sự, cần giải quyết vấn đề hiệu quả điện năng
Việc sử dụng kiến trúc MoE một cách hiệu quả ảnh hưởng cả tokens/joule lẫn tokens/sec
SWE-bench Verified thì ổn, nhưng chúng ta cần benchmark SWE tốt hơn
Muốn tạo benchmark công bằng thì chi phí vận hành liên tục rất lớn
Khái niệm “benchmark trực tiếp” thì hay, nhưng chưa phản ánh đủ các mô hình mới nhất
Liên kết tài liệu
Tôi nghĩ chỉ số quan trọng hơn số tham số là tokens per dollar/sec
Vì các mô hình hàng đầu không hỗ trợ suy luận cục bộ
Ví dụ Qwen3 0.6b có tok/dollar rất tốt nhưng không đủ cho đa số nhu cầu
Trong vài bài test đơn giản, tôi thấy một số điểm sau
Trục x của biểu đồ bị đảo ngược nên hơi gây bối rối