Qwen3.7-Max: biên giới tác nhân

(qwen.ai)

5 điểm bởi GN⁺ 2026-05-21 | 3 bình luận | Chia sẻ qua WhatsApp

Qwen3.7-Max là một mô hình độc quyền lấy tác nhân làm trung tâm, nhắm tới lập trình·gỡ lỗi, tự động hóa công việc văn phòng và tự chủ thực thi hàng trăm đến hàng nghìn bước
Mô hình cạnh tranh trực diện với các đối thủ trong các đánh giá về lập trình, tác nhân đa dụng, suy luận và đa ngôn ngữ, ghi nhận 69.7 điểm trên Terminal Bench 2.0-Terminus và 92.4 điểm trên GPQA Diamond
Trong bài tối ưu kernel tự chủ kéo dài 35 giờ, mô hình thực hiện 1,158 lần gọi công cụ và 432 lần đánh giá, đạt mức tăng tốc trung bình nhân hình học gấp 10.0 lần so với chuẩn Triton
Bằng cách tách các phiên bản huấn luyện thành Task·Harness·Verifier, mô hình thực hiện huấn luyện RL xuyên harness, từ đó thúc đẩy năng lực giải quyết vấn đề tổng quát thay vì các lối tắt đặc thù của từng harness
API sẽ sớm được cung cấp qua Alibaba Cloud Model Studio và có thể tích hợp với các framework tác nhân như Claude Code, OpenClaw và Qwen Code

Đánh giá hiệu năng

Qwen3.7-Max được đánh giá cùng nhiều mô hình so sánh trong các lĩnh vực tác nhân lập trình, tác nhân đa dụng, STEM·suy luận, năng lực tổng quát và đa ngôn ngữ
Ô trống(--) có nghĩa là điểm số vẫn chưa được cung cấp
Tác nhân lập trình
- Trên Terminal Bench 2.0-Terminus, mô hình đạt 69.7 điểm, vượt 67.9 điểm của DS-V4-Pro Max
- Trên SWE-Verified, mô hình đạt 80.4 điểm, ở mức tương đương Opus-4.6 Max 80.8 điểm và DS-V4-Pro Max 80.6 điểm
- Mô hình ghi nhận 60.6 điểm ở SWE-Pro, 78.3 điểm ở SWE-Multilingual, 53.5 điểm ở SciCode và 1608 điểm ở QwenSVG
- NL2repo được đánh giá bằng Claude Code và đã vô hiệu hóa các lệnh Bash như pip download, pip install, git clone vốn cố truy cập vào các kho lưu trữ cụ thể
- QwenWebDev là benchmark nội bộ về sinh mã frontend song ngữ Anh·Trung, sử dụng 7 hạng mục, render tự động, chấm đa phương thức và điểm BT/Elo
Tác nhân đa dụng
- Trên MCP-Mark, mô hình đạt 60.8 điểm, vượt 57.5 điểm của GLM-5.1; trên MCP-Atlas, đạt 76.4 điểm, vượt 75.8 điểm của Opus-4.6
- Trên Skillsbench, mô hình đạt 59.2 điểm, cao hơn 56.2 điểm của K2.6
- Trên Kernel Bench L3, mô hình ghi nhận mức tăng tốc trung vị 1.98 lần và tỷ lệ thắng 96%, cho thấy năng lực tối ưu kernel GPU
- Với BFCL-V4 75.0 điểm, Qwenclaw 64.3 điểm và ClawEval 65.2 điểm, mô hình tiến sát Opus-4.6 Max
- Trên SpreadSheetBench-v1, mô hình đạt 87.0 điểm, cho thấy hiệu năng cao cả ở benchmark tự động hóa văn phòng
- QwenClawBench là benchmark tác nhân Claw phản ánh phân bố người dùng thực tế và đã được công bố mã nguồn mở
- CoWorkBench là benchmark cộng tác nội bộ xử lý các tác vụ dài hạn trong các lĩnh vực năng suất như khoa học máy tính, tài chính, pháp lý và y tế
Suy luận
- Trên GPQA Diamond, mô hình đạt 92.4 điểm, vượt 91.3 điểm của Opus-4.6
- Trên HLE, mô hình đạt 41.4 điểm, vượt 40.0 điểm của Opus-4.6; trên HMMT 2026 Feb, đạt 97.1 điểm, vượt 96.2 điểm của Opus-4.6
- Trên IMOAnswerBench, mô hình đạt 90.0 điểm, vượt 89.8 điểm của DS-V4-Pro; trên Apex, đạt 44.5 điểm, vượt 38.3 điểm của DS-V4-Pro
- Trong các kịch bản suy luận, hệ thống gợi ý dùng system prompt bắt đầu bằng Reasoning effort is set to xhigh...
Năng lực tổng quát và đa ngôn ngữ
- Trên IFBench, mô hình đạt 79.1 điểm, vượt 77.0 điểm của DS-V4-Pro và thể hiện khả năng tuân thủ chỉ dẫn chính xác
- Mô hình đạt 85.8 điểm trên WMT24++ và 89.2 điểm trên MAXIFE, cho thấy thế mạnh cả về hiểu đa ngôn ngữ lẫn chất lượng dịch
- Mô hình đạt 73.6 điểm trên SuperGPQA và 57.3 điểm trên QwenWorldBench
- WMT24++ là tập con khó hơn của WMT24 và sử dụng điểm trung bình XCOMET-XXL trên 55 ngôn ngữ
- MAXIFE đo độ chính xác trên 23 thiết lập prompt tiếng Anh và đa ngôn ngữ
- MMLU-ProX sử dụng độ chính xác trung bình trên 29 ngôn ngữ

Điều kiện đánh giá và chi tiết benchmark

Terminal-Bench 2.0 được đánh giá với harness Harbor/Terminus-2, giới hạn 5 giờ, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, tối đa 80K token, ngữ cảnh 256K và lấy trung bình 5 lần
Dòng SWE-Bench sử dụng scaffold tác nhân nội bộ cùng các công cụ Bash·chỉnh sửa tệp, được đánh giá với temp=1.0, top_p=0.95 và cửa sổ ngữ cảnh 200K
SkillsBench được đánh giá bằng OpenCode, dùng trung bình 5 lần trên 78 tác vụ sau khi loại trừ 9 tác vụ phụ thuộc API bên ngoài
MCP-Mark dùng GitHub MCP v0.30.3 và cắt ngắn phản hồi Playwright ở mức 32K token
MCP-Atlas là điểm số trên tập công khai và dùng giám khảo gemini-2.5-pro
Kernel Bench L3 báo cáo trung vị mức tăng tốc theo từng bài so với chuẩn PyTorch eager trên 50 bài toán và tỷ lệ bài toán nhanh hơn torch.compile
Mỗi mẫu kiểm thử của Kernel Bench L3 được chạy trong một container Docker cô lập với 1 GPU H100 80GB, và quyền truy cập Internet chỉ giới hạn ở codebase CUTLASS cùng tài liệu CUDA chính thức
Kernel Bench L3 dùng giới hạn 500 lần gọi công cụ và dừng sớm sau 100 lượt không cải thiện, phát hiện hành vi hack tiềm ẩn bằng GPT-5.4(xhigh), đồng thời đo thời gian ở cấp kernel bằng CUPTI
MRCR-v2 là tập con ngữ cảnh 128K gồm 8 chiếc kim và áp dụng giao thức mrcr_v2 của Google DeepMind eval_hub

Trợ lý năng suất cộng tác

Qwen3.7-Max hướng tới vai trò một đồng nghiệp cao cấp phục vụ năng suất công việc thực tế, có thể tổng hợp thông tin phức tạp, phân tích và mô hình hóa dữ liệu chuyên sâu, cũng như tạo tài liệu·trực quan hóa đạt mức có thể xuất bản
Mô hình có khả năng tương thích cơ bản với các harness tác nhân chủ chốt và hỗ trợ lập kế hoạch tự chủ cũng như thực thi liên tục trong nhiều giờ cho các tác vụ dài hạn
Chất lượng đầu ra được nâng lên dần dần thông qua hàng nghìn lần gọi công cụ và hàng chục vòng lặp cải tiến
Bài viết cho rằng các dự án phức tạp vốn thường cần đội ngũ chuyên môn mất 1~2 tuần có thể được hoàn thành end-to-end chỉ trong vài giờ

Huấn luyện tác nhân và khả năng tổng quát hóa

Dựa trên cách tiếp cận mở rộng môi trường được giới thiệu từ Qwen3.5, Qwen3.7 mở rộng chất lượng và độ đa dạng của môi trường huấn luyện tác nhân
Điều này dựa trên quan sát rằng cũng như mô hình ngôn ngữ tổng quát hóa từ nhiều văn bản tiền huấn luyện khác nhau, năng lực tác nhân cũng tổng quát hóa từ các môi trường huấn luyện đa dạng
Tất cả benchmark trong đánh giá đều là các môi trường out-of-domain hoàn toàn mới, không được đưa vào huấn luyện
Mở rộng môi trường tạo ra quỹ đạo cải thiện rõ ràng và nhất quán, và Qwen3.7-Max đạt thứ hạng trung bình top 3, tiệm cận Claude-4.6-Opus-Max
Mức cải thiện trên các tập con benchmark nhất quán đến mức có thể dự báo mức cải thiện tương đối trên phần benchmark còn lại và trên trung bình toàn cục, qua đó gợi ý sự tổng quát hóa năng lực hơn là cải tiến chuyên biệt cho benchmark
Phân tích bổ sung về động lực mở rộng và phương pháp luận sẽ được trình bày trong báo cáo kỹ thuật tương lai

Tổng quát hóa xuyên harness

Hạ tầng môi trường rollout tách mỗi phiên bản huấn luyện thành ba thành phần trực giao là Task, Harness, Verifier
Hệ thống hỗ trợ nhiều harness và các phiên bản của chúng, đồng thời dùng môi trường dựa trên thực tế thay vì proxy tổng hợp
Thiết kế tách rời cho phép mở rộng theo tổ hợp, kết hợp cùng một tác vụ với nhiều loại·phiên bản harness và verifier khác nhau với chi phí bổ sung tối thiểu
Thông qua huấn luyện RL xuyên harness·xuyên verifier, nơi cùng một tác vụ xuất hiện trong các cấu hình harness khác nhau, mô hình được dẫn dắt để học chiến lược giải quyết vấn đề có thể tổng quát hóa thay vì các lối tắt đặc thù của từng harness
Trên QwenClawBench và CoWorkBench, Qwen3.7-Max cho thấy hiệu năng mạnh và ổn định bất kể harness dùng trong đánh giá là gì

Tự tiến hóa trong môi trường thực tế

Extend Attention là toán tử attention đa đầu độ dài biến thiên cấp production của SGLang
Kịch bản thử nghiệm xử lý một kernel nhạy với độ trễ và bị nghẽn bộ nhớ trong phục vụ LLM, tính điểm attention giữa các token mới sinh cùng MTP và prefix KV-cache tối đa 32K mục
Cách triển khai chuẩn là bản Triton chính thức của SGLang
Tối ưu kernel trên kiến trúc PPU chưa biết
- Qwen3.7-Max tối ưu kernel này trên một instance ECS gắn PPU T-Head ZW-M890 mà mô hình chưa từng thấy trong quá trình huấn luyện
- Mô hình bắt đầu mà không có dữ liệu profiling trước, tài liệu phần cứng hay ví dụ kernel cho kiến trúc đó
- Không gian làm việc ban đầu chỉ có mô tả tác vụ, phần triển khai SGLang hiện có và script đánh giá
- Trong khoảng 35 giờ tự chủ liên tục, mô hình đã thực hiện 1,158 lần gọi công cụ và 432 lần đánh giá kernel
- Mô hình tự thực hiện chẩn đoán lỗi biên dịch, sửa lỗi tính đúng đắn, xác định nút thắt dựa trên profiling thời gian chạy và tái thiết kế kiến trúc kernel
- Kết quả cuối cùng là mức tăng tốc trung bình nhân hình học gấp 10.0 lần so với Triton trên nhiều workload
- Ngay cả sau 30 giờ, mô hình vẫn tìm ra các cải tiến có ý nghĩa, cho thấy năng suất của tối ưu tự chủ dài hạn
Quỹ đạo tối ưu
- Bằng song song hóa Split-KV để chia prefix KV-cache thành nhiều thread block cho mỗi truy vấn và đưa vào reduction kernel hợp nhất kết quả từng phần bằng online softmax rescaling, hiệu năng đã tăng từ 0.33 lần lên 2.58 lần chỉ sau khoảng 2 giờ
- Việc thay cudaMalloc/cudaFree theo từng lệnh gọi bằng tensor torch::empty cấp phát trước, loại bỏ cudaMemcpy đồng bộ và unroll vòng lặp nội bộ 2 lần đã nâng hiệu năng lên 5.37 lần sau khoảng 2.5 giờ
- Việc thay fixed split divisor bằng heuristic dựa trên kích thước workload và tăng SM wave occupancy trên kiến trúc 36-SM đã nâng hiệu năng lên 6.85 lần sau khoảng 3 giờ
- Việc kết hợp loại bỏ shared memory barrier, tải K/V dựa trên thanh ghi, persistent static tensor, batched softmax update và tiền scale Q đã nâng hiệu năng lên 8.50 lần trong giai đoạn 3~25 giờ
- Kernel chuyên biệt cho MTP γ=4 xử lý đồng thời 4 token truy vấn trên mỗi block và chia sẻ tải K/V giữa các truy vấn, giúp đạt 10.0 lần trong giai đoạn 32~35 giờ
So sánh trong cùng điều kiện
- GLM 5.1 đạt 7.3 lần, Kimi K2.6 đạt 5.0 lần, DeepSeek V4 Pro đạt 3.3 lần và Qwen3.6-Plus đạt 1.1 lần
- Các mô hình dừng sớm được xem là đã tự nguyện kết thúc phiên khi không còn khả năng tiến triển thêm, do không đưa ra được lần gọi công cụ nào trong 5 lượt liên tiếp
Sinh kernel cho GPU NVIDIA
- Qwen3.7-Max không chỉ sinh kernel cho PPU mà còn tạo được kernel cấp production trên nhiều GPU NVIDIA khác nhau
- Trên KernelBench L3, Qwen3.7-Max có thể tạo kernel tăng tốc trong 96% kịch bản
- Các con số so sánh là Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54% và Qwen3.6-Plus 48%
Đặc trưng của tác nhân tự chủ dài hạn
- Mô hình thể hiện độ bền suy luận dài hạn, duy trì chiến lược tối ưu qua hơn 1,000 lần gọi công cụ mà không mất ngữ cảnh hay thoái lui
- Mô hình cho thấy khả năng tổng quát hóa trong ngữ cảnh, tạo ra kernel cạnh tranh trên các kiến trúc chưa gặp khi huấn luyện dựa trên phản hồi thời gian chạy thay vì kiến thức phần cứng được ghi nhớ sẵn

Giám sát reward hacking

Qwen3.7-Max được tích hợp vào hệ thống giám sát RL cho các tác vụ kỹ thuật phần mềm, tạo thành framework tự giám sát reward hacking và tự tiến hóa luật
Trong các thí nghiệm RL kéo dài hơn 80 giờ, mô hình tự tìm kiếm·phát lại quỹ đạo huấn luyện và thực hiện hơn 10,000 lần gọi
Mô hình xác định một cách có hệ thống các mẫu hack khả dĩ như nỗ lực lách ràng buộc để truy cập đáp án trên GitHub
Mô hình thực hiện xác minh luật, khai thác phản ví dụ và tối ưu lặp
Qua nhiều vòng tự tiến hóa luật, mô hình đã bổ sung 13 luật heuristic mới và gắn cờ chính xác 1,618 trường hợp hack
Quá trình này đảm bảo độ ổn định của phần thưởng RL và thúc đẩy việc tự cải thiện liên tục của mô hình như một tác nhân kỹ thuật phần mềm tinh vi

Lập kế hoạch và thực thi dài hạn trong điều hành startup

Trong framework Dynamic Cumulative Survival Games, mô hình mở rộng độ phức tạp thời gian của các tác vụ huấn luyện để tăng cường năng lực lập kế hoạch và thực thi dài hạn
Điều này nâng tính nhất quán chính sách của tác nhân trên các quỹ đạo ra quyết định tuần tự vượt quá một nghìn bước, giúp duy trì việc xây dựng giả thuyết, điều chỉnh chiến lược dựa trên phản hồi môi trường, cũng như tích lũy kinh nghiệm và bộ nhớ dài hạn
Mô hình duy trì nhịp thực thi ổn định ngay cả trên chân trời thời gian dài và có khả năng chống suy giảm ngữ cảnh cũng như lệch chỉ dẫn
Kết quả YC-Bench
- YC-Bench là benchmark mô phỏng toàn bộ vòng đời một năm của startup
- Tác nhân phải đưa ra hàng trăm vòng quyết định như quản lý nhân sự, rà soát hợp đồng và nhận diện khách hàng độc hại, đồng thời vẫn giữ được biên lợi nhuận trong bối cảnh chi phí lao động tăng dần
- Qwen3.7-Max đạt tổng doanh thu 2.08 triệu USD, cao gấp 2 lần so với 1.05 triệu USD của Qwen3.6-Plus và gấp 5.9 lần so với 352 nghìn USD của Qwen3.5-Plus
- Số tác vụ hoàn thành là 237
- Mô hình thực hiện việc tìm kiếm khách hàng tiềm năng, nhận diện bẫy độc hại và đưa vào blacklist, ưu tiên các nguồn doanh thu ổn định và tự phục hồi trong các khủng hoảng trung hạn
- Cuối cùng, mô hình hội tụ về một vòng lặp thực thi ổn định và hiệu suất cao

Xây dựng với Qwen3.7

Qwen3.7-Max sẽ sớm được cung cấp qua Alibaba Cloud Model Studio và có thể tích hợp với các framework tác nhân phổ biến cùng các trợ lý lập trình
Sử dụng API
- Qwen3.7-Max hỗ trợ tính năng preserve_thinking, giữ lại nội dung suy nghĩ của mọi lượt trước trong thông điệp và được khuyến nghị cho tác vụ tác nhân
- Alibaba Cloud Model Studio hỗ trợ các giao thức tiêu chuẩn ngành như chat completions·responses API tương thích chuẩn OpenAI và giao diện API tương thích Anthropic
- DASHSCOPE_API_KEY sử dụng khóa API nhận từ bảng điều khiển Model Studio
- DASHSCOPE_BASE_URL là tùy chọn; URL mặc định cho API ở chế độ tương thích có thể là https://dashscope-intl.aliyuncs.com/compatible-mode/v1
- URL Bắc Kinh là https://dashscope.aliyuncs.com/compatible-mode/v1, URL Singapore là https://dashscope-intl.aliyuncs.com/compatible-mode/v1, và URL Virginia (Mỹ) là https://dashscope-us.aliyuncs.com/compatible-mode/v1
- Có thể xem thêm thông tin trong tài liệu API
Lập trình frontend
- Qwen3.7-Max có thể tạo ứng dụng web tương tác từ một prompt duy nhất, gồm cảnh 3D Three.js, hoạt họa Canvas, bố cục toàn trang và SVG động
- Prompt ví dụ yêu cầu một triển khai HTML có hiệu ứng xoay 3D, trong đó camera phát hiện động tác mở·nắm lòng bàn tay để điều khiển sự co lại và khuếch tán của cụm hạt, đồng thời các cử chỉ ngón tay 1·2 sẽ lần lượt tạo thành chữ hello, world và I’am Qwen
Trợ lý văn phòng
- Qwen3.7-Max có thể hoạt động như một trợ lý văn phòng thông minh thông qua tích hợp công cụ
- Trong ví dụ, mô hình đọc quy định định dạng luận văn đại học và tự định dạng lại một bản nháp lộn xộn bằng các lần gọi công cụ office-cli tự chủ
- Mô hình chỉnh sửa bố cục trang, kiểu tiêu đề, phông chữ, lề, mục lục và định dạng tài liệu tham khảo
- Bài luận mẫu là nội dung do AI tạo ra cho mục đích demo
Tác nhân điều hướng trong thế giới vật lý
- Qwen3.7-Max có thể điều khiển một robot chó thông qua gọi công cụ
- Mô hình thực hiện hiểu biết vật lý, lập kế hoạch, ghi nhớ và ra quyết định trong môi trường vật lý
- Hệ thống sử dụng harness tác nhân robot Qwen-RobotClaw, mô hình dựa trên điều hướng Qwen-RobotNav và nhiều công cụ thị giác được xây dựng bằng mô hình Qwen-plus
- Trong demo, bảng bên trái hiển thị luồng tương tác gọi công cụ của tác nhân trong 20 phút ở thế giới vật lý, phần giữa là góc nhìn ngôi thứ nhất theo quỹ đạo của robot bốn chân, còn bên phải là bộ nhớ dài hạn của tác nhân
Tích hợp trợ lý lập trình
- Qwen3.7-Max được tích hợp với các framework tác nhân phổ biến và các trợ lý lập trình
- Claude Code
  - API Qwen hỗ trợ giao thức Anthropic API nên có thể dùng trực tiếp trong Claude Code
  - Đặt ANTHROPIC_MODEL và ANTHROPIC_SMALL_FAST_MODEL thành qwen3.7-max, còn ANTHROPIC_BASE_URL đặt thành https://dashscope-intl.aliyuncs.com/apps/anthropic
- OpenClaw
  - OpenClaw có thể kết nối qua Model Studio
  - Sau khi đặt DASHSCOPE_API_KEY, chạy openclaw dashboard rồi chỉ định modelstudio/qwen3.7-max làm mô hình mặc định trong ~/.openclaw/openclaw.json
  - Ví dụ cấu hình gồm contextWindow 1000000, maxTokens 65536 và reasoning true
- Qwen Code
  - Qwen Code được tối ưu sâu cho dòng Qwen
  - Cài đặt bằng npm install -g @qwen-code/qwen-code@latest rồi chạy bằng lệnh qwen

3 bình luận

beepp 2026-05-21

Trước đó thấy bài viết nói những nhân sự chủ chốt đã rời đi nên tôi cũng lo, nhưng dù vậy họ vẫn hoạt động rất sôi nổi.

emptybynature 2026-05-22

Dù sao đây cũng là một ngành cứ chưng cất lẫn nhau rồi tái sử dụng, nên ai đi đâu cũng chẳng quá quan trọng. Cục diện đang trôi theo kiểu cuộc chiến tiêu hao, nên cuối cùng doanh nghiệp có nhiều đạn nhất sẽ là kẻ chiến thắng.

GN⁺ 2026-05-21

Ý kiến trên Hacker News

Trên AA-omniscience, tỷ lệ câu trả lời không bị ảo giác thuộc hàng cao nhất, tốt hơn Opus 4.7, Gemini 3.1 Pro và GPT5.5. Xin chúc mừng đội ngũ
- Tôi tham khảo liên kết này: https://artificialanalysis.ai/evaluations/omniscience?models...
  Nó không hiện mặc định mà phải tự thêm vào biểu đồ, và tôi cũng tò mò không biết đây có phải mức ảo giác thấp nhất trong bộ dữ liệu hay không
- Khi dùng nhiều các mô hình Trung Quốc top đầu như thế này, câu hỏi lớn nhất là hiệu suất token ra sao
  Ví dụ, khi chạy Step 3.5 Flash ở local thì nhìn chung nó giỏi một cách đáng kinh ngạc, nhưng hiệu suất token quá tệ nên nếu tính theo thời gian thực tế thì phần lớn thua các model khác. Ngay cả khi hack hỗ trợ MTP vào llama.cpp thì trên Spark cũng chỉ từ 20tk/s lên khoảng 30tk/s, và dù được huấn luyện với ba head thì MTP 2 vẫn là điểm hợp lý
  Các model DeepSeek và Qwen 3.5 Plus cũng tương tự, nên so với Opus, đặc biệt là GPT 5.5, chúng dùng nhiều token hơn hẳn để cho ra cùng một câu trả lời
  Tôi thật sự hy vọng Qwen 3.7 đã cải thiện phần này và rất muốn thử sớm. Nhân tiện, chạy DeepSeek v4 Flash trên Spark đúng là kỳ diệu đến mức phi lý, và nếu antirez thấy được thì tôi muốn nói lời cảm ơn
- Việc “tỷ lệ câu trả lời không ảo giác” là hoàn hảo tự nó có thể không mang nhiều ý nghĩa. Vì ngay cả các bài test kiểu này cũng có thể chứa ảo giác do con người tạo ra
  Rốt cuộc nó chỉ có nghĩa là model khớp đến đâu với niềm tin của nhóm tạo ra bài test, mà những niềm tin đó có thể đúng hoặc sai
- Thật sự rất ấn tượng và mức tiến bộ này đáng nể. Tôi cũng tò mò họ đã dùng bao nhiêu chip tự phát triển cho việc huấn luyện
- Tôi tò mò ở mức nào thì xảy ra chuyển pha về năng lực. Là 5% hay 1%
Tối qua tôi suýt chạm ngưỡng giới hạn Claude Code theo tuần, nên đã bảo Claude cấu hình Qwen3.6 với llama.cpp và OpenCode. Thành thật mà nói, đây là một lựa chọn thay thế miễn phí tuyệt vời cho Claude Code, và với khá nhiều tác vụ nhỏ hơn, ít phức tạp hơn thì nó đủ tốt
Tôi cũng rất mong được thử bản mới này. Việc model mã nguồn mở đã tiến sát tuyến đầu đến vậy thật sự rất ấn tượng
- Tôi tò mò bạn đang chạy trên máy và model nào
  Tuần trước tôi thử qwen3.6-27b Q6_k GUFF trên M2 MacBook Pro 32GB bằng llama.cpp và LM Studio, nhưng cả hai đều chỉ lẹt đẹt chưa tới 1 token/giây
  Tôi không biết nên kỳ vọng tốc độ ở mức nào. Tôi nhớ là 2 năm trước khi chạy các model dòng Llama 3 34b với llama.cpp thì vẫn được vài token/giây, nên giờ không rõ là mình cấu hình sai hoàn toàn hay kỳ vọng quá phi thực tế
  Tôi cũng tự hỏi liệu qwen 3.x có chậm hơn vì lý do nào đó không. Không biết nó có phải kiến trúc chuyên gia hỗn hợp (MoE) không. Tôi không mong phản hồi tức thì, nhưng tốc độ hiện tại thì thực sự khó dùng
- Bản mới này không phải kiểu có thể chạy local. Đây là model cloud, và kể cả có public trọng số thì có lẽ nó cũng quá lớn
- Tôi muốn biết chính xác bạn đang dùng model nào. Cả tham số, mức lượng tử hóa và phần cứng là gì nữa
  Tôi cũng muốn biết bạn có dùng MCP hay công cụ nào khác để tối ưu hiệu năng như context-mode hay cắt tỉa ngữ cảnh động không. Tôi đã dùng local model khá nhiều nhưng mới bắt đầu với opencode, kết quả пока chưa tốt lắm, nhưng tôi rất muốn nó chạy ổn cho các tác vụ đơn giản. Tôi cũng gặp vấn đề opencode mới cài dùng 100% CPU của iTerm ngay cả khi idle
- Qwen Max thường là model đóng, khá đáng tiếc
- Tôi tò mò Qwen 3.6 cho cảm giác thế nào so với Sonnet 4.6. Vì thực tế đó mới là thứ nhiều người dùng thường xuyên
  Nếu tôi xử lý toàn bộ tác vụ liên quan đến code bằng Opus 4.7 thì hóa đơn hằng tháng sẽ cao gấp 10 đến 20 lần so với khi có thể dùng Sonnet
Khi họ bắt đầu tung ra nhiều model độc quyền hơn, tôi thật sự mong họ sẽ hợp tác với một trong các hyperscaler lớn của Mỹ để có thể dùng các model này thông qua nhà cung cấp đặt tại Mỹ
Tôi hoàn toàn hiểu vì sao điều đó có thể không hợp lý hoặc không phù hợp với lợi ích của họ. Và cũng đúng là phía Mỹ khi ở chiều ngược lại cũng chẳng tự động làm việc đó. Dù vậy, sẽ rất tốt nếu có thể thử chúng đúng nghĩa trên workload production thực tế
- Tôi muốn tình trạng hiện tại được giữ nguyên, trừ khi các hyperscaler của Mỹ cũng làm điều tương tự theo chiều ngược lại. Nếu mọi bên đều hài lòng với việc chia sẻ thì phải là chia sẻ hai chiều; còn nếu không thì các hyperscaler Mỹ cứ tiếp tục tự cô lập như từ trước đến nay cũng được
- Qwen3.6-Plus có thể dùng trên Fireworks
- Alibaba Cloud có trung tâm dữ liệu ở Mexico
- Fireworks đang host Qwen 3.6 Plus, nên có vẻ cũng có thể mang Qwen 3.7 Plus lên
- ChatLLM có hỗ trợ QWEN, nhưng tôi không rõ có thể xem đó là an toàn theo tiêu chuẩn của Mỹ hay không
Các con số tự thân thì rất đẹp. Nhưng tôi vẫn không hiểu vì sao trong những bài như thế này họ lại không so với các model cạnh tranh mới nhất. Chẳng lẽ mọi người lại không nhận ra
- Không ai công bố số liệu khiến mình trông tệ hơn đối thủ cả
  OpenAI và Anthropic cũng vậy, họ cũng thường dùng bộ dữ liệu đánh giá khác nhau
- Nếu chỉ là mức tăng của bản minor thì tôi thấy vẫn có thể thông cảm. Nhân tiện, dạo này trong các mô hình ngôn ngữ lớn, vì lý do nào đó x.5 gần như được dùng như một bản nâng cấp major
  Những bài như thế này không phải tự dưng từ trên trời rơi xuống, kể cả với mô hình ngôn ngữ lớn. Nếu họ có một bộ benchmark mục tiêu cho model của mình thì việc liên tục duy trì một tập model có thể so sánh song song cũng tự nó là một gánh nặng quản lý riêng
- Có lẽ logic là họ muốn cho thấy mình đang chậm hơn đỉnh mới nhất khoảng N tháng
  Thực tế thì tôi nghĩ họ chỉ hy vọng độc giả không để ý đến chi tiết
  Các model Qwen rất tuyệt nếu xét theo tiêu chí open weight, nhưng các bản phát hành trước đây trong sử dụng thực tế không tốt được như benchmark. Họ biết việc tối ưu theo điểm benchmark có hiệu quả nên cứ nhắm vào đó
- Tôi nghĩ đó là một phần của quá trình đặt kỳ vọng. Cũng có thể họ có hoàn cảnh như đã cấu hình distillation hoặc evaluation harness theo một model cụ thể
  Nếu bạn nói có thể so được với 4.7, thì model chuẩn để đánh giá sẽ bị cố định như vậy trong đầu mọi người
- Thành thật mà nói, Opus-4.6 giai đoạn đầu tốt hơn rất nhiều so với thứ hiện đang được cung cấp dưới tên 4.7. Nếu nó chỉ hoạt động ở mức đó thôi thì tôi sẵn sàng chuyển hẳn
Không biết đây có phải kiểu một tuần sau sẽ có bản phát hành trên Hugging Face không. Hay là đã biết chắc nó sẽ giữ độc quyền
- Hãy sửa tôi nếu tôi sai, nhưng theo tôi biết thì các model Max thường không được công khai
Tôi hy vọng sẽ có thêm các bản phát hành open weight từ Qwen. Đặc biệt là 122B và 397B
- Đúng vậy. Khoảng từ 60~150B hiện là điểm rất đẹp trên phần cứng prosumer, nên sẽ hay nếu có một model kiểu 120b-a14b
- Cá nhân tôi còn mong các model nhỏ hơn được lượng tử hóa mạnh như 9B hơn
- Tôi mong qwen3.7 9b và 72b hơn. Chúng thường cho hiệu năng trên kích thước rất tốt
- Tôi vẫn đang chờ qwem image-edit 2.0 open weight
- Đau thật. Tôi mới chỉ bắt đầu nghịch mấy thứ này, mà máy của tôi chỉ là desktop gaming bình thường với 3060 12GB và RAM 32GB
  Chỉ cần vượt quá Qwen 9B là máy đã có nguy cơ đứng cứng hoàn toàn
Trong benchmark không có Opus 4.7, GPT5.5, Gemini Flash 3.5
Tôi đang dùng pi agent và muốn thử các model Qwen được host. Tôi tò mò đâu là lựa chọn tốt
Nhà cung cấp chính thức không có Alibaba. Tôi cũng muốn biết các dịch vụ như OpenRouter có đủ nhanh không. DeepSeek v4 thì bị throttling rất nặng trên các dịch vụ proxy kiểu này
- Tôi dùng khá nhiều qwen3.6-max-preview trên pi + openrouter. Đến giờ tôi chưa gặp vấn đề gì về độ ổn định hay hiệu năng
Tôi mới bắt đầu thử local LLM và thành thật mà nói là khá ấn tượng. Tôi đang dùng một laptop workstation với NVIDIA A1000 (6GB VRAM) và RAM 96GB
Tôi hầu như không dùng GPU, chỉ thỉnh thoảng cho thiết kế CAD hay machine learning dựa trên OpenCV. Tôi đã chạy llama3:latest và nó chạy khá nhanh, nên tôi tò mò Qwen sẽ chạy thế nào trên hệ thống của tôi
Mẫu mà tôi tin tưởng nhất là thêm các đầu ra xác minh nhỏ cho mỗi hành động bên ngoài. Agent thường thất bại nhanh hơn vì trạng thái bị trôi âm thầm chứ không hẳn vì thiếu độ sâu suy luận
- Bạn có thể giải thích chi tiết hơn phần này không

Qwen3.7-Max: biên giới tác nhân

Đánh giá hiệu năng

Tác nhân lập trình

Tác nhân đa dụng

Suy luận

Năng lực tổng quát và đa ngôn ngữ

Điều kiện đánh giá và chi tiết benchmark

Trợ lý năng suất cộng tác

Huấn luyện tác nhân và khả năng tổng quát hóa

Tổng quát hóa xuyên harness

Tự tiến hóa trong môi trường thực tế

Tối ưu kernel trên kiến trúc PPU chưa biết

Quỹ đạo tối ưu

So sánh trong cùng điều kiện

Sinh kernel cho GPU NVIDIA

Đặc trưng của tác nhân tự chủ dài hạn

Giám sát reward hacking

Lập kế hoạch và thực thi dài hạn trong điều hành startup

Kết quả YC-Bench

Xây dựng với Qwen3.7

Sử dụng API

Lập trình frontend

Trợ lý văn phòng

Tác nhân điều hướng trong thế giới vật lý

Tích hợp trợ lý lập trình

Claude Code

OpenClaw

Qwen Code

Bài viết liên quan

3 bình luận

Ý kiến trên Hacker News