Step 3.5 Flash – LLM mã nguồn mở hỗ trợ suy luận tốc độ cao

(static.stepfun.com)

20 điểm bởi GN⁺ 2026-02-20 | 2 bình luận | Chia sẻ qua WhatsApp

Với kiến trúc Mixture of Experts thưa chỉ kích hoạt 11 tỷ trong tổng số 196 tỷ tham số, mô hình hỗ trợ suy luận tốc độ cao và tương tác thời gian thực
Đạt tốc độ sinh tối đa 350 token/giây và cửa sổ ngữ cảnh 256K
Với SWE-bench Verified 74.4%, mô hình cho thấy hiệu năng ổn định trong các benchmark về lập trình và tác vụ agent, đồng thời cũng có thể chạy trong môi trường cục bộ (Mac Studio M4 Max, NVIDIA DGX Spark)
Thông qua suy luận dựa trên việc sử dụng công cụ và điều phối đa tác tử, mô hình chứng minh độ tin cậy và năng lực thực thi cao trong các kịch bản công việc thực tế như tài chính, phân tích dữ liệu và tự động hóa nghiên cứu
Với kỹ thuật tối ưu hóa MIS-PO dựa trên học tăng cường, mô hình đảm bảo độ ổn định cho suy luận dài hạn và cung cấp năng lực suy luận và hành động cấp frontier với chi phí thấp hơn so với các mô hình hiệu năng cao

Tổng quan mô hình và hiệu năng

Step 3.5 Flash là foundation model mã nguồn mở kết hợp suy luận tốc độ cao và khả năng agent, đạt điểm benchmark trung bình 81.0
- Điểm trung bình cao hơn các mô hình chủ chốt như GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5)
Với kiến trúc MoE thưa, chỉ 11B tham số được kích hoạt trong tổng số 196B, cho phép xử lý hiệu quả và phản hồi thời gian thực
Dựa trên MTP-3, mô hình đạt tốc độ sinh 100~300 tok/s trong sử dụng thông thường và tối đa 350 tok/s trong tác vụ lập trình
Với SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0%, mô hình đảm bảo hiệu năng ổn định trong các tác vụ lập trình và agent dài hạn
Cửa sổ ngữ cảnh 256K được triển khai bằng cấu trúc SWA 3:1, giúp duy trì hiệu quả chi phí ngay cả với ngữ cảnh dài

Trường hợp sử dụng thực tế và khai thác công cụ

Hiệu năng được cải thiện trong toán học, lập trình và phân tích dữ liệu nhờ suy luận có bổ trợ công cụ (tool-augmented reasoning)
- Khi tích hợp thực thi Python, mô hình ghi nhận điểm số cải thiện trên AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7)
Trong kịch bản đầu tư cổ phiếu, mô hình kết hợp hơn 80 công cụ MCP để tự động hóa thu thập dữ liệu, phân tích và cảnh báo
Autonomous Business Intelligence Engine tự động hóa từ xử lý CSV đến dự báo, đồng thời phát hiện chênh lệch chất lượng dữ liệu (1.6 lần)
Large-Scale Repository Architect phân tích codebase quy mô lớn để tạo wiki chuyên biệt, liên kết giữa mẫu thiết kế và chi tiết triển khai

Nghiên cứu và hiệu năng agent

Trên benchmark ResearchRubrics, mô hình đạt 65.3%, cao hơn Gemini DeepResearch(63.7) và OpenAI DeepResearch(60.7)
- Trong một vòng lặp đơn dựa trên ReAct, mô hình thực hiện các bước lập kế hoạch, tìm kiếm, kiểm chứng và viết
Trong môi trường Claude Code, mô hình đạt 39.6% trên benchmark phân tích dữ liệu, nhỉnh hơn GPT-5.2(39.3)
Thông qua Multi-Agent Framework, Master Agent điều phối các agent tìm kiếm, kiểm chứng và tóm tắt để tạo ra kết quả có cấu trúc
Với Cloud-Device Synergy, khi kết nối với Step-GUI, mô hình đạt 57 điểm trên benchmark AndroidDaily Hard (so với 40 điểm khi chạy độc lập)

Kiến trúc và đặc điểm kỹ thuật

Backbone Sparse MoE tách biệt dung lượng toàn cục (196B) và lượng tính toán trên mỗi token (11B), từ đó tối ưu chi phí và tốc độ suy luận
Cấu trúc Sliding-Window Attention + Full Attention(3:1) duy trì hiệu quả khi xử lý ngữ cảnh dài
Head-wise Gated Attention điều khiển luồng thông tin một cách động và đảm bảo độ ổn định số
Đạt throughput giải mã 350 tok/s trên GPU NVIDIA Hopper
Hỗ trợ suy luận cục bộ (20 tok/s, ngữ cảnh 256K) thông qua mô hình lượng tử hóa INT4 GGUF

Khung học tăng cường

Giới thiệu Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO)
- Thay vì importance sampling, mô hình loại bỏ các mẫu không ổn định bằng lọc nhị phân
- Ổn định suy luận dài hạn nhờ truncation-aware value bootstrapping và routing confidence monitoring
Cấu trúc này cho phép tự cải thiện liên tục trên toán học, lập trình và sử dụng công cụ

So sánh benchmark

Step 3.5 Flash cho thấy hiệu năng top đầu cân bằng ở ba lĩnh vực: Reasoning, Coding và Agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
Chi phí giải mã ở ngữ cảnh 128K là 1.0x, hiệu quả hơn DeepSeek V3.2(6.0x) và Kimi K2.5(18.9x)

Hạn chế và định hướng tiếp theo

Hiệu quả token: cần sinh dài hơn để đạt cùng chất lượng so với Gemini 3.0 Pro
Tích hợp chuyên môn: đang nghiên cứu on-policy distillation để kết hợp hiệu quả giữa tính đa dụng và chuyên môn hóa
Mở rộng RL kiểu agent: dự kiến mở rộng áp dụng RL sang các tác vụ phức tạp ở mức công việc chuyên môn và nghiên cứu
Độ ổn định vận hành: trong hội thoại dài hoặc khi chuyển miền, vẫn có khả năng xuất hiện suy luận lặp lại hoặc đầu ra trộn ngôn ngữ

Triển khai và khả năng tiếp cận

Được tích hợp với nền tảng OpenClaw, có thể sử dụng với cài đặt đơn giản và đăng ký mô hình dễ dàng
Có thể truy cập qua nền tảng API (tiếng Anh/tiếng Trung) và ứng dụng web·di động (iOS/Android)
Cung cấp cập nhật và hỗ trợ thông qua cộng đồng Discord

2 bình luận

sftblw 2026-02-20

Mô hình này khá ổn đấy.
Nếu có điều kiện và định chạy bằng llama.cpp thì bạn cần áp dụng riêng prompt có trong bình luận của chuỗi thảo luận bên dưới. Nếu không, sẽ có vấn đề là không có thẻ mở <think> mà chỉ lẻ loi xuất hiện một thẻ </think> ở giữa.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file 경로/step3p5_flash_chat_template.jinja

GN⁺ 2026-02-20

Ý kiến trên Hacker News

Tôi nghĩ đây là một trong những bản phát hành LLM bị đánh giá thấp nhất trong vài tháng gần đây
Tôi đã thử bản quant 4-bit chạy cục bộ (Step-3.5-Flash-GGUF), và nó còn tốt hơn cả Minimax 2.5 lẫn GLM-4.7 (GLM chỉ chạy được 2-bit)
Các điểm chính như sau
- Hiệu quả ngữ cảnh rất cao. Trên Mac 128GB có thể chạy toàn bộ ngữ cảnh 256k hoặc đồng thời hai luồng 128k
- Tốc độ trên M1 Ultra cũng tốt (36 t/s tg, 300 t/s pp), và khi ngữ cảnh tăng lên thì tốc độ giảm không quá mạnh
- Được tối ưu cho agentic coding, và có vẻ được huấn luyện để tương thích với Claude Code. Codex là ngoại lệ duy nhất do vấn đề với công cụ chỉnh sửa patch
  Đây là mô hình cục bộ đầu tiên cỡ 200B tham số thực sự dùng được trong CLI harness. Tôi đang dùng cùng với pi.dev và đây là trải nghiệm tốt nhất từ trước đến nay
  Nhược điểm là có lỗi vòng lặp suy luận vô hạn (issue liên quan)
  Có vẻ StepFun cũng là công ty tạo ra ACEStep (mô hình tạo nhạc), và cũng được nhắc tới trong tài liệu ComfyUI
- Tôi đã thử Qwen3 Coder Next với OpenCode và nó hoạt động khá tốt
  Thỉnh thoảng nó gọi tool sai, nhưng với cấu hình temperature=1 do Qwen đề xuất thì không bị treo
  Nemotron 3 Nano lại thiếu khả năng dùng tool, nên phần lớn có xu hướng chỉ dùng shell tool
  Nhìn chung, các mô hình open weight dạng agentic có xu hướng không gọi tốt những công cụ mà chúng không quen
- Tôi tò mò liệu chạy mô hình OSS trên M3 Ultra (RAM 512GB) có kinh tế hơn trả tiền thuê bao Claude hay Codex không
  Muốn hỏi xem có ai từng tính kiểu này chưa
- Tôi tò mò liệu vấn đề vòng lặp suy luận vô hạn có thể được giải quyết bằng cách đổi inference engine hay không
  Tôi nghĩ đây có vẻ là vấn đề phải sửa ngay ở trọng số mô hình
- Không biết có ai chạy thử bản MLX chưa. Về lý thuyết nó sẽ nhanh hơn, nhưng tôi vẫn ngại phải tải nhiều phiên bản
- gpt-oss 120b và 20b cũng hoạt động tốt với Codex
Gần đây tôi đọc thấy phần quá trình suy luận (reasoning) của mẹo “Walk or drive to the carwash” khá thú vị
Liên kết liên quan: gist, đoạn hội thoại trên stepfun.ai
Họ nói mô hình đạt 51.0% trên Terminal-Bench 2.0, nhưng tôi nghi ngờ liệu điều đó có thật sự đảm bảo được khả năng xử lý công việc dài hạn một cách ổn định hay không
- Chỉ riêng con số 51% thì không nói lên nhiều điều. Các benchmark kiểu này là chấm theo điểm tuyệt đối nên 100% không có nghĩa là ngang mức con người
  Xem leaderboard thì điểm cao nhất là 75%, nên 51% vào khoảng ⅔ mức SOTA
- Điểm số đó tương đương Gemini 3 Flash, nhưng trên thực tế có vẻ cấu hình agent ảnh hưởng đến điểm nhiều hơn bản thân mô hình
- Dù tên là TerminalBench, nó gần như chẳng liên quan gì đến terminal, mà phần lớn giống kiểu kiểm tra cú pháp tool ngẫu nhiên hơn
  Có thể mô hình chỉ đơn giản là đã học thuộc các flag lệnh
Tôi thử rồi và thấy hallucination khá nặng. Ngay cả với câu hỏi đơn giản như “hãy tìm deck vô địch Pokémon” mà nó cũng trả lời không chính xác
Opus 4.6, Deepseek và Kimi thì hoạt động tốt như mong đợi
- Tôi nghĩ để thực thi thì nên dùng các mô hình cỡ trung sẽ tốt hơn
- Các mô hình như Gemini có thể nhanh và chính xác hơn vì chúng tận dụng chức năng tìm kiếm rất tích cực
Đây là mô hình mới được công bố gần đây, dùng kiến trúc Mixture of Experts (MoE) nên mỗi token chỉ kích hoạt 11B trong tổng số 196B
Nó vượt Kimi K2.5 và GLM 4.7 ở nhiều benchmark hơn
Ngay cả máy 128GB cũng có thể chạy bản quant 4-bit (liên kết tham khảo)
- Tôi nghi ngờ việc vượt benchmark đó có thực sự có ý nghĩa hay không. Tôi quan tâm hơn đến khả năng làm theo chỉ dẫn, suy luận trên ngữ cảnh dài, và không hallucinate
- Tôi muốn biết Q4_K_S(116GB), IQ4_NL(112GB), hay Q4_0(113GB) cái nào tốt hơn
  Tham khảo trang mô hình
Các mô hình gần đây có điểm benchmark cao, nhưng đi kèm là mức sử dụng token bùng nổ
Để có đổi mới thực sự, cần giải quyết vấn đề hiệu quả điện năng
- Không chỉ số lượng token đơn thuần mà hiệu quả năng lượng trên mỗi token (tokens/joule) cũng quan trọng
  Việc sử dụng kiến trúc MoE một cách hiệu quả ảnh hưởng cả tokens/joule lẫn tokens/sec
SWE-bench Verified thì ổn, nhưng chúng ta cần benchmark SWE tốt hơn
Muốn tạo benchmark công bằng thì chi phí vận hành liên tục rất lớn
Khái niệm “benchmark trực tiếp” thì hay, nhưng chưa phản ánh đủ các mô hình mới nhất
- Đã có đề xuất mời tham gia phát triển Terminal Bench 3.0
  Liên kết tài liệu
Tôi nghĩ chỉ số quan trọng hơn số tham số là tokens per dollar/sec
Vì các mô hình hàng đầu không hỗ trợ suy luận cục bộ
- Nhưng nếu là mô hình mã nguồn mở thì với những người cân nhắc tự host, số lượng tham số vẫn quan trọng
- Số tham số vẫn là chỉ báo gần đúng về hiệu năng mô hình
  Ví dụ Qwen3 0.6b có tok/dollar rất tốt nhưng không đủ cho đa số nhu cầu
- Điểm đáng chú ý của mô hình này là có thể chạy cục bộ ngay cả trên máy giá dưới $3,000
Trong vài bài test đơn giản, tôi thấy một số điểm sau
1. Trace đầu ra rất dài dòng và các đoạn văn ngắn kiểu LinkedIn
2. Tốc độ xuất token của bản host rất cao
3. Độ tuân thủ chỉ dẫn và chất lượng đầu ra tốt hơn các mô hình lớn như Opus 4.5
Trục x của biểu đồ bị đảo ngược nên hơi gây bối rối
- Tôi cũng nghĩ vậy. Không hiểu sao họ lại làm thế
- Có lẽ họ định làm cho biểu đồ trông đẹp hơn, nhưng thực tế thì không phải vậy