20 điểm bởi GN⁺ 2026-02-20 | 2 bình luận | Chia sẻ qua WhatsApp
  • Với kiến trúc Mixture of Experts thưa chỉ kích hoạt 11 tỷ trong tổng số 196 tỷ tham số, mô hình hỗ trợ suy luận tốc độ cao và tương tác thời gian thực
  • Đạt tốc độ sinh tối đa 350 token/giây và cửa sổ ngữ cảnh 256K
  • Với SWE-bench Verified 74.4%, mô hình cho thấy hiệu năng ổn định trong các benchmark về lập trình và tác vụ agent, đồng thời cũng có thể chạy trong môi trường cục bộ (Mac Studio M4 Max, NVIDIA DGX Spark)
  • Thông qua suy luận dựa trên việc sử dụng công cụđiều phối đa tác tử, mô hình chứng minh độ tin cậy và năng lực thực thi cao trong các kịch bản công việc thực tế như tài chính, phân tích dữ liệu và tự động hóa nghiên cứu
  • Với kỹ thuật tối ưu hóa MIS-PO dựa trên học tăng cường, mô hình đảm bảo độ ổn định cho suy luận dài hạn và cung cấp năng lực suy luận và hành động cấp frontier với chi phí thấp hơn so với các mô hình hiệu năng cao

Tổng quan mô hình và hiệu năng

  • Step 3.5 Flash là foundation model mã nguồn mở kết hợp suy luận tốc độ cao và khả năng agent, đạt điểm benchmark trung bình 81.0
    • Điểm trung bình cao hơn các mô hình chủ chốt như GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5)
  • Với kiến trúc MoE thưa, chỉ 11B tham số được kích hoạt trong tổng số 196B, cho phép xử lý hiệu quả và phản hồi thời gian thực
  • Dựa trên MTP-3, mô hình đạt tốc độ sinh 100~300 tok/s trong sử dụng thông thường và tối đa 350 tok/s trong tác vụ lập trình
  • Với SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0%, mô hình đảm bảo hiệu năng ổn định trong các tác vụ lập trình và agent dài hạn
  • Cửa sổ ngữ cảnh 256K được triển khai bằng cấu trúc SWA 3:1, giúp duy trì hiệu quả chi phí ngay cả với ngữ cảnh dài

Trường hợp sử dụng thực tế và khai thác công cụ

  • Hiệu năng được cải thiện trong toán học, lập trình và phân tích dữ liệu nhờ suy luận có bổ trợ công cụ (tool-augmented reasoning)
    • Khi tích hợp thực thi Python, mô hình ghi nhận điểm số cải thiện trên AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7)
  • Trong kịch bản đầu tư cổ phiếu, mô hình kết hợp hơn 80 công cụ MCP để tự động hóa thu thập dữ liệu, phân tích và cảnh báo
  • Autonomous Business Intelligence Engine tự động hóa từ xử lý CSV đến dự báo, đồng thời phát hiện chênh lệch chất lượng dữ liệu (1.6 lần)
  • Large-Scale Repository Architect phân tích codebase quy mô lớn để tạo wiki chuyên biệt, liên kết giữa mẫu thiết kế và chi tiết triển khai

Nghiên cứu và hiệu năng agent

  • Trên benchmark ResearchRubrics, mô hình đạt 65.3%, cao hơn Gemini DeepResearch(63.7) và OpenAI DeepResearch(60.7)
    • Trong một vòng lặp đơn dựa trên ReAct, mô hình thực hiện các bước lập kế hoạch, tìm kiếm, kiểm chứng và viết
  • Trong môi trường Claude Code, mô hình đạt 39.6% trên benchmark phân tích dữ liệu, nhỉnh hơn GPT-5.2(39.3)
  • Thông qua Multi-Agent Framework, Master Agent điều phối các agent tìm kiếm, kiểm chứng và tóm tắt để tạo ra kết quả có cấu trúc
  • Với Cloud-Device Synergy, khi kết nối với Step-GUI, mô hình đạt 57 điểm trên benchmark AndroidDaily Hard (so với 40 điểm khi chạy độc lập)

Kiến trúc và đặc điểm kỹ thuật

  • Backbone Sparse MoE tách biệt dung lượng toàn cục (196B) và lượng tính toán trên mỗi token (11B), từ đó tối ưu chi phí và tốc độ suy luận
  • Cấu trúc Sliding-Window Attention + Full Attention(3:1) duy trì hiệu quả khi xử lý ngữ cảnh dài
  • Head-wise Gated Attention điều khiển luồng thông tin một cách động và đảm bảo độ ổn định số
  • Đạt throughput giải mã 350 tok/s trên GPU NVIDIA Hopper
  • Hỗ trợ suy luận cục bộ (20 tok/s, ngữ cảnh 256K) thông qua mô hình lượng tử hóa INT4 GGUF

Khung học tăng cường

  • Giới thiệu Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO)
    • Thay vì importance sampling, mô hình loại bỏ các mẫu không ổn định bằng lọc nhị phân
    • Ổn định suy luận dài hạn nhờ truncation-aware value bootstrappingrouting confidence monitoring
  • Cấu trúc này cho phép tự cải thiện liên tục trên toán học, lập trình và sử dụng công cụ

So sánh benchmark

  • Step 3.5 Flash cho thấy hiệu năng top đầu cân bằng ở ba lĩnh vực: Reasoning, Coding và Agentic
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • Chi phí giải mã ở ngữ cảnh 128K là 1.0x, hiệu quả hơn DeepSeek V3.2(6.0x) và Kimi K2.5(18.9x)

Hạn chế và định hướng tiếp theo

  • Hiệu quả token: cần sinh dài hơn để đạt cùng chất lượng so với Gemini 3.0 Pro
  • Tích hợp chuyên môn: đang nghiên cứu on-policy distillation để kết hợp hiệu quả giữa tính đa dụng và chuyên môn hóa
  • Mở rộng RL kiểu agent: dự kiến mở rộng áp dụng RL sang các tác vụ phức tạp ở mức công việc chuyên môn và nghiên cứu
  • Độ ổn định vận hành: trong hội thoại dài hoặc khi chuyển miền, vẫn có khả năng xuất hiện suy luận lặp lại hoặc đầu ra trộn ngôn ngữ

Triển khai và khả năng tiếp cận

  • Được tích hợp với nền tảng OpenClaw, có thể sử dụng với cài đặt đơn giản và đăng ký mô hình dễ dàng
  • Có thể truy cập qua nền tảng API (tiếng Anh/tiếng Trung) và ứng dụng web·di động (iOS/Android)
  • Cung cấp cập nhật và hỗ trợ thông qua cộng đồng Discord

2 bình luận

 
sftblw 2026-02-20

Mô hình này khá ổn đấy.
Nếu có điều kiện và định chạy bằng llama.cpp thì bạn cần áp dụng riêng prompt có trong bình luận của chuỗi thảo luận bên dưới. Nếu không, sẽ có vấn đề là không có thẻ mở <think> mà chỉ lẻ loi xuất hiện một thẻ </think> ở giữa.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file 경로/step3p5_flash_chat_template.jinja  
 
GN⁺ 2026-02-20
Ý kiến trên Hacker News
  • Tôi nghĩ đây là một trong những bản phát hành LLM bị đánh giá thấp nhất trong vài tháng gần đây
    Tôi đã thử bản quant 4-bit chạy cục bộ (Step-3.5-Flash-GGUF), và nó còn tốt hơn cả Minimax 2.5 lẫn GLM-4.7 (GLM chỉ chạy được 2-bit)
    Các điểm chính như sau

    • Hiệu quả ngữ cảnh rất cao. Trên Mac 128GB có thể chạy toàn bộ ngữ cảnh 256k hoặc đồng thời hai luồng 128k
    • Tốc độ trên M1 Ultra cũng tốt (36 t/s tg, 300 t/s pp), và khi ngữ cảnh tăng lên thì tốc độ giảm không quá mạnh
    • Được tối ưu cho agentic coding, và có vẻ được huấn luyện để tương thích với Claude Code. Codex là ngoại lệ duy nhất do vấn đề với công cụ chỉnh sửa patch
      Đây là mô hình cục bộ đầu tiên cỡ 200B tham số thực sự dùng được trong CLI harness. Tôi đang dùng cùng với pi.dev và đây là trải nghiệm tốt nhất từ trước đến nay
      Nhược điểm là có lỗi vòng lặp suy luận vô hạn (issue liên quan)
      Có vẻ StepFun cũng là công ty tạo ra ACEStep (mô hình tạo nhạc), và cũng được nhắc tới trong tài liệu ComfyUI
    • Tôi đã thử Qwen3 Coder Next với OpenCode và nó hoạt động khá tốt
      Thỉnh thoảng nó gọi tool sai, nhưng với cấu hình temperature=1 do Qwen đề xuất thì không bị treo
      Nemotron 3 Nano lại thiếu khả năng dùng tool, nên phần lớn có xu hướng chỉ dùng shell tool
      Nhìn chung, các mô hình open weight dạng agentic có xu hướng không gọi tốt những công cụ mà chúng không quen
    • Tôi tò mò liệu chạy mô hình OSS trên M3 Ultra (RAM 512GB) có kinh tế hơn trả tiền thuê bao Claude hay Codex không
      Muốn hỏi xem có ai từng tính kiểu này chưa
    • Tôi tò mò liệu vấn đề vòng lặp suy luận vô hạn có thể được giải quyết bằng cách đổi inference engine hay không
      Tôi nghĩ đây có vẻ là vấn đề phải sửa ngay ở trọng số mô hình
    • Không biết có ai chạy thử bản MLX chưa. Về lý thuyết nó sẽ nhanh hơn, nhưng tôi vẫn ngại phải tải nhiều phiên bản
    • gpt-oss 120b và 20b cũng hoạt động tốt với Codex
  • Gần đây tôi đọc thấy phần quá trình suy luận (reasoning) của mẹo “Walk or drive to the carwash” khá thú vị
    Liên kết liên quan: gist, đoạn hội thoại trên stepfun.ai

  • Họ nói mô hình đạt 51.0% trên Terminal-Bench 2.0, nhưng tôi nghi ngờ liệu điều đó có thật sự đảm bảo được khả năng xử lý công việc dài hạn một cách ổn định hay không

    • Chỉ riêng con số 51% thì không nói lên nhiều điều. Các benchmark kiểu này là chấm theo điểm tuyệt đối nên 100% không có nghĩa là ngang mức con người
      Xem leaderboard thì điểm cao nhất là 75%, nên 51% vào khoảng ⅔ mức SOTA
    • Điểm số đó tương đương Gemini 3 Flash, nhưng trên thực tế có vẻ cấu hình agent ảnh hưởng đến điểm nhiều hơn bản thân mô hình
    • Dù tên là TerminalBench, nó gần như chẳng liên quan gì đến terminal, mà phần lớn giống kiểu kiểm tra cú pháp tool ngẫu nhiên hơn
      Có thể mô hình chỉ đơn giản là đã học thuộc các flag lệnh
  • Tôi thử rồi và thấy hallucination khá nặng. Ngay cả với câu hỏi đơn giản như “hãy tìm deck vô địch Pokémon” mà nó cũng trả lời không chính xác
    Opus 4.6, Deepseek và Kimi thì hoạt động tốt như mong đợi

    • Tôi nghĩ để thực thi thì nên dùng các mô hình cỡ trung sẽ tốt hơn
    • Các mô hình như Gemini có thể nhanh và chính xác hơn vì chúng tận dụng chức năng tìm kiếm rất tích cực
  • Đây là mô hình mới được công bố gần đây, dùng kiến trúc Mixture of Experts (MoE) nên mỗi token chỉ kích hoạt 11B trong tổng số 196B
    Nó vượt Kimi K2.5 và GLM 4.7 ở nhiều benchmark hơn
    Ngay cả máy 128GB cũng có thể chạy bản quant 4-bit (liên kết tham khảo)

    • Tôi nghi ngờ việc vượt benchmark đó có thực sự có ý nghĩa hay không. Tôi quan tâm hơn đến khả năng làm theo chỉ dẫn, suy luận trên ngữ cảnh dài, và không hallucinate
    • Tôi muốn biết Q4_K_S(116GB), IQ4_NL(112GB), hay Q4_0(113GB) cái nào tốt hơn
      Tham khảo trang mô hình
  • Các mô hình gần đây có điểm benchmark cao, nhưng đi kèm là mức sử dụng token bùng nổ
    Để có đổi mới thực sự, cần giải quyết vấn đề hiệu quả điện năng

    • Không chỉ số lượng token đơn thuần mà hiệu quả năng lượng trên mỗi token (tokens/joule) cũng quan trọng
      Việc sử dụng kiến trúc MoE một cách hiệu quả ảnh hưởng cả tokens/joule lẫn tokens/sec
  • SWE-bench Verified thì ổn, nhưng chúng ta cần benchmark SWE tốt hơn
    Muốn tạo benchmark công bằng thì chi phí vận hành liên tục rất lớn
    Khái niệm “benchmark trực tiếp” thì hay, nhưng chưa phản ánh đủ các mô hình mới nhất

  • Tôi nghĩ chỉ số quan trọng hơn số tham số là tokens per dollar/sec
    Vì các mô hình hàng đầu không hỗ trợ suy luận cục bộ

    • Nhưng nếu là mô hình mã nguồn mở thì với những người cân nhắc tự host, số lượng tham số vẫn quan trọng
    • Số tham số vẫn là chỉ báo gần đúng về hiệu năng mô hình
      Ví dụ Qwen3 0.6b có tok/dollar rất tốt nhưng không đủ cho đa số nhu cầu
    • Điểm đáng chú ý của mô hình này là có thể chạy cục bộ ngay cả trên máy giá dưới $3,000
  • Trong vài bài test đơn giản, tôi thấy một số điểm sau

    1. Trace đầu ra rất dài dòng và các đoạn văn ngắn kiểu LinkedIn
    2. Tốc độ xuất token của bản host rất cao
    3. Độ tuân thủ chỉ dẫn và chất lượng đầu ra tốt hơn các mô hình lớn như Opus 4.5
  • Trục x của biểu đồ bị đảo ngược nên hơi gây bối rối

    • Tôi cũng nghĩ vậy. Không hiểu sao họ lại làm thế
    • Có lẽ họ định làm cho biểu đồ trông đẹp hơn, nhưng thực tế thì không phải vậy