- Qwen3.7-Max là một mô hình độc quyền lấy tác nhân làm trung tâm, nhắm tới lập trình·gỡ lỗi, tự động hóa công việc văn phòng và tự chủ thực thi hàng trăm đến hàng nghìn bước
- Mô hình cạnh tranh trực diện với các đối thủ trong các đánh giá về lập trình, tác nhân đa dụng, suy luận và đa ngôn ngữ, ghi nhận 69.7 điểm trên Terminal Bench 2.0-Terminus và 92.4 điểm trên GPQA Diamond
- Trong bài tối ưu kernel tự chủ kéo dài 35 giờ, mô hình thực hiện 1,158 lần gọi công cụ và 432 lần đánh giá, đạt mức tăng tốc trung bình nhân hình học gấp 10.0 lần so với chuẩn Triton
- Bằng cách tách các phiên bản huấn luyện thành Task·Harness·Verifier, mô hình thực hiện huấn luyện RL xuyên harness, từ đó thúc đẩy năng lực giải quyết vấn đề tổng quát thay vì các lối tắt đặc thù của từng harness
- API sẽ sớm được cung cấp qua Alibaba Cloud Model Studio và có thể tích hợp với các framework tác nhân như Claude Code, OpenClaw và Qwen Code
Đánh giá hiệu năng
- Qwen3.7-Max được đánh giá cùng nhiều mô hình so sánh trong các lĩnh vực tác nhân lập trình, tác nhân đa dụng, STEM·suy luận, năng lực tổng quát và đa ngôn ngữ
- Ô trống(
--) có nghĩa là điểm số vẫn chưa được cung cấp
-
Tác nhân lập trình
- Trên Terminal Bench 2.0-Terminus, mô hình đạt 69.7 điểm, vượt 67.9 điểm của DS-V4-Pro Max
- Trên SWE-Verified, mô hình đạt 80.4 điểm, ở mức tương đương Opus-4.6 Max 80.8 điểm và DS-V4-Pro Max 80.6 điểm
- Mô hình ghi nhận 60.6 điểm ở SWE-Pro, 78.3 điểm ở SWE-Multilingual, 53.5 điểm ở SciCode và 1608 điểm ở QwenSVG
- NL2repo được đánh giá bằng Claude Code và đã vô hiệu hóa các lệnh Bash như
pip download, pip install, git clone vốn cố truy cập vào các kho lưu trữ cụ thể
- QwenWebDev là benchmark nội bộ về sinh mã frontend song ngữ Anh·Trung, sử dụng 7 hạng mục, render tự động, chấm đa phương thức và điểm BT/Elo
-
Tác nhân đa dụng
- Trên MCP-Mark, mô hình đạt 60.8 điểm, vượt 57.5 điểm của GLM-5.1; trên MCP-Atlas, đạt 76.4 điểm, vượt 75.8 điểm của Opus-4.6
- Trên Skillsbench, mô hình đạt 59.2 điểm, cao hơn 56.2 điểm của K2.6
- Trên Kernel Bench L3, mô hình ghi nhận mức tăng tốc trung vị 1.98 lần và tỷ lệ thắng 96%, cho thấy năng lực tối ưu kernel GPU
- Với BFCL-V4 75.0 điểm, Qwenclaw 64.3 điểm và ClawEval 65.2 điểm, mô hình tiến sát Opus-4.6 Max
- Trên SpreadSheetBench-v1, mô hình đạt 87.0 điểm, cho thấy hiệu năng cao cả ở benchmark tự động hóa văn phòng
- QwenClawBench là benchmark tác nhân Claw phản ánh phân bố người dùng thực tế và đã được công bố mã nguồn mở
- CoWorkBench là benchmark cộng tác nội bộ xử lý các tác vụ dài hạn trong các lĩnh vực năng suất như khoa học máy tính, tài chính, pháp lý và y tế
-
Suy luận
- Trên GPQA Diamond, mô hình đạt 92.4 điểm, vượt 91.3 điểm của Opus-4.6
- Trên HLE, mô hình đạt 41.4 điểm, vượt 40.0 điểm của Opus-4.6; trên HMMT 2026 Feb, đạt 97.1 điểm, vượt 96.2 điểm của Opus-4.6
- Trên IMOAnswerBench, mô hình đạt 90.0 điểm, vượt 89.8 điểm của DS-V4-Pro; trên Apex, đạt 44.5 điểm, vượt 38.3 điểm của DS-V4-Pro
- Trong các kịch bản suy luận, hệ thống gợi ý dùng system prompt bắt đầu bằng
Reasoning effort is set to xhigh...
-
Năng lực tổng quát và đa ngôn ngữ
- Trên IFBench, mô hình đạt 79.1 điểm, vượt 77.0 điểm của DS-V4-Pro và thể hiện khả năng tuân thủ chỉ dẫn chính xác
- Mô hình đạt 85.8 điểm trên WMT24++ và 89.2 điểm trên MAXIFE, cho thấy thế mạnh cả về hiểu đa ngôn ngữ lẫn chất lượng dịch
- Mô hình đạt 73.6 điểm trên SuperGPQA và 57.3 điểm trên QwenWorldBench
- WMT24++ là tập con khó hơn của WMT24 và sử dụng điểm trung bình XCOMET-XXL trên 55 ngôn ngữ
- MAXIFE đo độ chính xác trên 23 thiết lập prompt tiếng Anh và đa ngôn ngữ
- MMLU-ProX sử dụng độ chính xác trung bình trên 29 ngôn ngữ
Điều kiện đánh giá và chi tiết benchmark
- Terminal-Bench 2.0 được đánh giá với harness Harbor/Terminus-2, giới hạn 5 giờ, 12 CPU/24GB RAM,
temp=1.0, top_p=0.95, top_k=20, tối đa 80K token, ngữ cảnh 256K và lấy trung bình 5 lần
- Dòng SWE-Bench sử dụng scaffold tác nhân nội bộ cùng các công cụ Bash·chỉnh sửa tệp, được đánh giá với
temp=1.0, top_p=0.95 và cửa sổ ngữ cảnh 200K
- SkillsBench được đánh giá bằng OpenCode, dùng trung bình 5 lần trên 78 tác vụ sau khi loại trừ 9 tác vụ phụ thuộc API bên ngoài
- MCP-Mark dùng GitHub MCP v0.30.3 và cắt ngắn phản hồi Playwright ở mức 32K token
- MCP-Atlas là điểm số trên tập công khai và dùng giám khảo
gemini-2.5-pro
- Kernel Bench L3 báo cáo trung vị mức tăng tốc theo từng bài so với chuẩn PyTorch eager trên 50 bài toán và tỷ lệ bài toán nhanh hơn
torch.compile
- Mỗi mẫu kiểm thử của Kernel Bench L3 được chạy trong một container Docker cô lập với 1 GPU H100 80GB, và quyền truy cập Internet chỉ giới hạn ở codebase CUTLASS cùng tài liệu CUDA chính thức
- Kernel Bench L3 dùng giới hạn 500 lần gọi công cụ và dừng sớm sau 100 lượt không cải thiện, phát hiện hành vi hack tiềm ẩn bằng GPT-5.4(xhigh), đồng thời đo thời gian ở cấp kernel bằng CUPTI
- MRCR-v2 là tập con ngữ cảnh 128K gồm 8 chiếc kim và áp dụng giao thức mrcr_v2 của Google DeepMind eval_hub
Trợ lý năng suất cộng tác
- Qwen3.7-Max hướng tới vai trò một đồng nghiệp cao cấp phục vụ năng suất công việc thực tế, có thể tổng hợp thông tin phức tạp, phân tích và mô hình hóa dữ liệu chuyên sâu, cũng như tạo tài liệu·trực quan hóa đạt mức có thể xuất bản
- Mô hình có khả năng tương thích cơ bản với các harness tác nhân chủ chốt và hỗ trợ lập kế hoạch tự chủ cũng như thực thi liên tục trong nhiều giờ cho các tác vụ dài hạn
- Chất lượng đầu ra được nâng lên dần dần thông qua hàng nghìn lần gọi công cụ và hàng chục vòng lặp cải tiến
- Bài viết cho rằng các dự án phức tạp vốn thường cần đội ngũ chuyên môn mất 1~2 tuần có thể được hoàn thành end-to-end chỉ trong vài giờ
Huấn luyện tác nhân và khả năng tổng quát hóa
- Dựa trên cách tiếp cận mở rộng môi trường được giới thiệu từ Qwen3.5, Qwen3.7 mở rộng chất lượng và độ đa dạng của môi trường huấn luyện tác nhân
- Điều này dựa trên quan sát rằng cũng như mô hình ngôn ngữ tổng quát hóa từ nhiều văn bản tiền huấn luyện khác nhau, năng lực tác nhân cũng tổng quát hóa từ các môi trường huấn luyện đa dạng
- Tất cả benchmark trong đánh giá đều là các môi trường out-of-domain hoàn toàn mới, không được đưa vào huấn luyện
- Mở rộng môi trường tạo ra quỹ đạo cải thiện rõ ràng và nhất quán, và Qwen3.7-Max đạt thứ hạng trung bình top 3, tiệm cận Claude-4.6-Opus-Max
- Mức cải thiện trên các tập con benchmark nhất quán đến mức có thể dự báo mức cải thiện tương đối trên phần benchmark còn lại và trên trung bình toàn cục, qua đó gợi ý sự tổng quát hóa năng lực hơn là cải tiến chuyên biệt cho benchmark
- Phân tích bổ sung về động lực mở rộng và phương pháp luận sẽ được trình bày trong báo cáo kỹ thuật tương lai
Tổng quát hóa xuyên harness
- Hạ tầng môi trường rollout tách mỗi phiên bản huấn luyện thành ba thành phần trực giao là Task, Harness, Verifier
- Hệ thống hỗ trợ nhiều harness và các phiên bản của chúng, đồng thời dùng môi trường dựa trên thực tế thay vì proxy tổng hợp
- Thiết kế tách rời cho phép mở rộng theo tổ hợp, kết hợp cùng một tác vụ với nhiều loại·phiên bản harness và verifier khác nhau với chi phí bổ sung tối thiểu
- Thông qua huấn luyện RL xuyên harness·xuyên verifier, nơi cùng một tác vụ xuất hiện trong các cấu hình harness khác nhau, mô hình được dẫn dắt để học chiến lược giải quyết vấn đề có thể tổng quát hóa thay vì các lối tắt đặc thù của từng harness
- Trên QwenClawBench và CoWorkBench, Qwen3.7-Max cho thấy hiệu năng mạnh và ổn định bất kể harness dùng trong đánh giá là gì
Tự tiến hóa trong môi trường thực tế
- Extend Attention là toán tử attention đa đầu độ dài biến thiên cấp production của SGLang
- Kịch bản thử nghiệm xử lý một kernel nhạy với độ trễ và bị nghẽn bộ nhớ trong phục vụ LLM, tính điểm attention giữa các token mới sinh cùng MTP và prefix KV-cache tối đa 32K mục
- Cách triển khai chuẩn là bản Triton chính thức của SGLang
-
Tối ưu kernel trên kiến trúc PPU chưa biết
- Qwen3.7-Max tối ưu kernel này trên một instance ECS gắn PPU T-Head ZW-M890 mà mô hình chưa từng thấy trong quá trình huấn luyện
- Mô hình bắt đầu mà không có dữ liệu profiling trước, tài liệu phần cứng hay ví dụ kernel cho kiến trúc đó
- Không gian làm việc ban đầu chỉ có mô tả tác vụ, phần triển khai SGLang hiện có và script đánh giá
- Trong khoảng 35 giờ tự chủ liên tục, mô hình đã thực hiện 1,158 lần gọi công cụ và 432 lần đánh giá kernel
- Mô hình tự thực hiện chẩn đoán lỗi biên dịch, sửa lỗi tính đúng đắn, xác định nút thắt dựa trên profiling thời gian chạy và tái thiết kế kiến trúc kernel
- Kết quả cuối cùng là mức tăng tốc trung bình nhân hình học gấp 10.0 lần so với Triton trên nhiều workload
- Ngay cả sau 30 giờ, mô hình vẫn tìm ra các cải tiến có ý nghĩa, cho thấy năng suất của tối ưu tự chủ dài hạn
-
Quỹ đạo tối ưu
- Bằng song song hóa Split-KV để chia prefix KV-cache thành nhiều thread block cho mỗi truy vấn và đưa vào reduction kernel hợp nhất kết quả từng phần bằng online softmax rescaling, hiệu năng đã tăng từ 0.33 lần lên 2.58 lần chỉ sau khoảng 2 giờ
- Việc thay
cudaMalloc/cudaFree theo từng lệnh gọi bằng tensor torch::empty cấp phát trước, loại bỏ cudaMemcpy đồng bộ và unroll vòng lặp nội bộ 2 lần đã nâng hiệu năng lên 5.37 lần sau khoảng 2.5 giờ
- Việc thay fixed split divisor bằng heuristic dựa trên kích thước workload và tăng SM wave occupancy trên kiến trúc 36-SM đã nâng hiệu năng lên 6.85 lần sau khoảng 3 giờ
- Việc kết hợp loại bỏ shared memory barrier, tải K/V dựa trên thanh ghi, persistent static tensor, batched softmax update và tiền scale Q đã nâng hiệu năng lên 8.50 lần trong giai đoạn 3~25 giờ
- Kernel chuyên biệt cho MTP γ=4 xử lý đồng thời 4 token truy vấn trên mỗi block và chia sẻ tải K/V giữa các truy vấn, giúp đạt 10.0 lần trong giai đoạn 32~35 giờ
-
So sánh trong cùng điều kiện
- GLM 5.1 đạt 7.3 lần, Kimi K2.6 đạt 5.0 lần, DeepSeek V4 Pro đạt 3.3 lần và Qwen3.6-Plus đạt 1.1 lần
- Các mô hình dừng sớm được xem là đã tự nguyện kết thúc phiên khi không còn khả năng tiến triển thêm, do không đưa ra được lần gọi công cụ nào trong 5 lượt liên tiếp
-
Sinh kernel cho GPU NVIDIA
- Qwen3.7-Max không chỉ sinh kernel cho PPU mà còn tạo được kernel cấp production trên nhiều GPU NVIDIA khác nhau
- Trên KernelBench L3, Qwen3.7-Max có thể tạo kernel tăng tốc trong 96% kịch bản
- Các con số so sánh là Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54% và Qwen3.6-Plus 48%
-
Đặc trưng của tác nhân tự chủ dài hạn
- Mô hình thể hiện độ bền suy luận dài hạn, duy trì chiến lược tối ưu qua hơn 1,000 lần gọi công cụ mà không mất ngữ cảnh hay thoái lui
- Mô hình cho thấy khả năng tổng quát hóa trong ngữ cảnh, tạo ra kernel cạnh tranh trên các kiến trúc chưa gặp khi huấn luyện dựa trên phản hồi thời gian chạy thay vì kiến thức phần cứng được ghi nhớ sẵn
Giám sát reward hacking
- Qwen3.7-Max được tích hợp vào hệ thống giám sát RL cho các tác vụ kỹ thuật phần mềm, tạo thành framework tự giám sát reward hacking và tự tiến hóa luật
- Trong các thí nghiệm RL kéo dài hơn 80 giờ, mô hình tự tìm kiếm·phát lại quỹ đạo huấn luyện và thực hiện hơn 10,000 lần gọi
- Mô hình xác định một cách có hệ thống các mẫu hack khả dĩ như nỗ lực lách ràng buộc để truy cập đáp án trên GitHub
- Mô hình thực hiện xác minh luật, khai thác phản ví dụ và tối ưu lặp
- Qua nhiều vòng tự tiến hóa luật, mô hình đã bổ sung 13 luật heuristic mới và gắn cờ chính xác 1,618 trường hợp hack
- Quá trình này đảm bảo độ ổn định của phần thưởng RL và thúc đẩy việc tự cải thiện liên tục của mô hình như một tác nhân kỹ thuật phần mềm tinh vi
Lập kế hoạch và thực thi dài hạn trong điều hành startup
- Trong framework Dynamic Cumulative Survival Games, mô hình mở rộng độ phức tạp thời gian của các tác vụ huấn luyện để tăng cường năng lực lập kế hoạch và thực thi dài hạn
- Điều này nâng tính nhất quán chính sách của tác nhân trên các quỹ đạo ra quyết định tuần tự vượt quá một nghìn bước, giúp duy trì việc xây dựng giả thuyết, điều chỉnh chiến lược dựa trên phản hồi môi trường, cũng như tích lũy kinh nghiệm và bộ nhớ dài hạn
- Mô hình duy trì nhịp thực thi ổn định ngay cả trên chân trời thời gian dài và có khả năng chống suy giảm ngữ cảnh cũng như lệch chỉ dẫn
-
Kết quả YC-Bench
- YC-Bench là benchmark mô phỏng toàn bộ vòng đời một năm của startup
- Tác nhân phải đưa ra hàng trăm vòng quyết định như quản lý nhân sự, rà soát hợp đồng và nhận diện khách hàng độc hại, đồng thời vẫn giữ được biên lợi nhuận trong bối cảnh chi phí lao động tăng dần
- Qwen3.7-Max đạt tổng doanh thu 2.08 triệu USD, cao gấp 2 lần so với 1.05 triệu USD của Qwen3.6-Plus và gấp 5.9 lần so với 352 nghìn USD của Qwen3.5-Plus
- Số tác vụ hoàn thành là 237
- Mô hình thực hiện việc tìm kiếm khách hàng tiềm năng, nhận diện bẫy độc hại và đưa vào blacklist, ưu tiên các nguồn doanh thu ổn định và tự phục hồi trong các khủng hoảng trung hạn
- Cuối cùng, mô hình hội tụ về một vòng lặp thực thi ổn định và hiệu suất cao
Xây dựng với Qwen3.7
- Qwen3.7-Max sẽ sớm được cung cấp qua Alibaba Cloud Model Studio và có thể tích hợp với các framework tác nhân phổ biến cùng các trợ lý lập trình
-
Sử dụng API
-
Lập trình frontend
- Qwen3.7-Max có thể tạo ứng dụng web tương tác từ một prompt duy nhất, gồm cảnh 3D Three.js, hoạt họa Canvas, bố cục toàn trang và SVG động
- Prompt ví dụ yêu cầu một triển khai HTML có hiệu ứng xoay 3D, trong đó camera phát hiện động tác mở·nắm lòng bàn tay để điều khiển sự co lại và khuếch tán của cụm hạt, đồng thời các cử chỉ ngón tay 1·2 sẽ lần lượt tạo thành chữ
hello, world và I’am Qwen
-
Trợ lý văn phòng
- Qwen3.7-Max có thể hoạt động như một trợ lý văn phòng thông minh thông qua tích hợp công cụ
- Trong ví dụ, mô hình đọc quy định định dạng luận văn đại học và tự định dạng lại một bản nháp lộn xộn bằng các lần gọi công cụ office-cli tự chủ
- Mô hình chỉnh sửa bố cục trang, kiểu tiêu đề, phông chữ, lề, mục lục và định dạng tài liệu tham khảo
- Bài luận mẫu là nội dung do AI tạo ra cho mục đích demo
-
Tác nhân điều hướng trong thế giới vật lý
- Qwen3.7-Max có thể điều khiển một robot chó thông qua gọi công cụ
- Mô hình thực hiện hiểu biết vật lý, lập kế hoạch, ghi nhớ và ra quyết định trong môi trường vật lý
- Hệ thống sử dụng harness tác nhân robot Qwen-RobotClaw, mô hình dựa trên điều hướng Qwen-RobotNav và nhiều công cụ thị giác được xây dựng bằng mô hình Qwen-plus
- Trong demo, bảng bên trái hiển thị luồng tương tác gọi công cụ của tác nhân trong 20 phút ở thế giới vật lý, phần giữa là góc nhìn ngôi thứ nhất theo quỹ đạo của robot bốn chân, còn bên phải là bộ nhớ dài hạn của tác nhân
-
Tích hợp trợ lý lập trình
- Qwen3.7-Max được tích hợp với các framework tác nhân phổ biến và các trợ lý lập trình
-
Claude Code
-
OpenClaw
- OpenClaw có thể kết nối qua Model Studio
- Sau khi đặt
DASHSCOPE_API_KEY, chạy openclaw dashboard rồi chỉ định modelstudio/qwen3.7-max làm mô hình mặc định trong ~/.openclaw/openclaw.json
- Ví dụ cấu hình gồm
contextWindow 1000000, maxTokens 65536 và reasoning true
-
Qwen Code
- Qwen Code được tối ưu sâu cho dòng Qwen
- Cài đặt bằng
npm install -g @qwen-code/qwen-code@latest rồi chạy bằng lệnh qwen
1 bình luận
Ý kiến trên Hacker News
Trên AA-omniscience, tỷ lệ câu trả lời không bị ảo giác thuộc hàng cao nhất, tốt hơn Opus 4.7, Gemini 3.1 Pro và GPT5.5. Xin chúc mừng đội ngũ
Nó không hiện mặc định mà phải tự thêm vào biểu đồ, và tôi cũng tò mò không biết đây có phải mức ảo giác thấp nhất trong bộ dữ liệu hay không
Ví dụ, khi chạy Step 3.5 Flash ở local thì nhìn chung nó giỏi một cách đáng kinh ngạc, nhưng hiệu suất token quá tệ nên nếu tính theo thời gian thực tế thì phần lớn thua các model khác. Ngay cả khi hack hỗ trợ MTP vào llama.cpp thì trên Spark cũng chỉ từ 20tk/s lên khoảng 30tk/s, và dù được huấn luyện với ba head thì MTP 2 vẫn là điểm hợp lý
Các model DeepSeek và Qwen 3.5 Plus cũng tương tự, nên so với Opus, đặc biệt là GPT 5.5, chúng dùng nhiều token hơn hẳn để cho ra cùng một câu trả lời
Tôi thật sự hy vọng Qwen 3.7 đã cải thiện phần này và rất muốn thử sớm. Nhân tiện, chạy DeepSeek v4 Flash trên Spark đúng là kỳ diệu đến mức phi lý, và nếu antirez thấy được thì tôi muốn nói lời cảm ơn
Rốt cuộc nó chỉ có nghĩa là model khớp đến đâu với niềm tin của nhóm tạo ra bài test, mà những niềm tin đó có thể đúng hoặc sai
Tối qua tôi suýt chạm ngưỡng giới hạn Claude Code theo tuần, nên đã bảo Claude cấu hình Qwen3.6 với llama.cpp và OpenCode. Thành thật mà nói, đây là một lựa chọn thay thế miễn phí tuyệt vời cho Claude Code, và với khá nhiều tác vụ nhỏ hơn, ít phức tạp hơn thì nó đủ tốt
Tôi cũng rất mong được thử bản mới này. Việc model mã nguồn mở đã tiến sát tuyến đầu đến vậy thật sự rất ấn tượng
Tuần trước tôi thử qwen3.6-27b Q6_k GUFF trên M2 MacBook Pro 32GB bằng llama.cpp và LM Studio, nhưng cả hai đều chỉ lẹt đẹt chưa tới 1 token/giây
Tôi không biết nên kỳ vọng tốc độ ở mức nào. Tôi nhớ là 2 năm trước khi chạy các model dòng Llama 3 34b với llama.cpp thì vẫn được vài token/giây, nên giờ không rõ là mình cấu hình sai hoàn toàn hay kỳ vọng quá phi thực tế
Tôi cũng tự hỏi liệu qwen 3.x có chậm hơn vì lý do nào đó không. Không biết nó có phải kiến trúc chuyên gia hỗn hợp (MoE) không. Tôi không mong phản hồi tức thì, nhưng tốc độ hiện tại thì thực sự khó dùng
Tôi cũng muốn biết bạn có dùng MCP hay công cụ nào khác để tối ưu hiệu năng như context-mode hay cắt tỉa ngữ cảnh động không. Tôi đã dùng local model khá nhiều nhưng mới bắt đầu với opencode, kết quả пока chưa tốt lắm, nhưng tôi rất muốn nó chạy ổn cho các tác vụ đơn giản. Tôi cũng gặp vấn đề opencode mới cài dùng 100% CPU của iTerm ngay cả khi idle
Nếu tôi xử lý toàn bộ tác vụ liên quan đến code bằng Opus 4.7 thì hóa đơn hằng tháng sẽ cao gấp 10 đến 20 lần so với khi có thể dùng Sonnet
Khi họ bắt đầu tung ra nhiều model độc quyền hơn, tôi thật sự mong họ sẽ hợp tác với một trong các hyperscaler lớn của Mỹ để có thể dùng các model này thông qua nhà cung cấp đặt tại Mỹ
Tôi hoàn toàn hiểu vì sao điều đó có thể không hợp lý hoặc không phù hợp với lợi ích của họ. Và cũng đúng là phía Mỹ khi ở chiều ngược lại cũng chẳng tự động làm việc đó. Dù vậy, sẽ rất tốt nếu có thể thử chúng đúng nghĩa trên workload production thực tế
Các con số tự thân thì rất đẹp. Nhưng tôi vẫn không hiểu vì sao trong những bài như thế này họ lại không so với các model cạnh tranh mới nhất. Chẳng lẽ mọi người lại không nhận ra
OpenAI và Anthropic cũng vậy, họ cũng thường dùng bộ dữ liệu đánh giá khác nhau
Những bài như thế này không phải tự dưng từ trên trời rơi xuống, kể cả với mô hình ngôn ngữ lớn. Nếu họ có một bộ benchmark mục tiêu cho model của mình thì việc liên tục duy trì một tập model có thể so sánh song song cũng tự nó là một gánh nặng quản lý riêng
Thực tế thì tôi nghĩ họ chỉ hy vọng độc giả không để ý đến chi tiết
Các model Qwen rất tuyệt nếu xét theo tiêu chí open weight, nhưng các bản phát hành trước đây trong sử dụng thực tế không tốt được như benchmark. Họ biết việc tối ưu theo điểm benchmark có hiệu quả nên cứ nhắm vào đó
Nếu bạn nói có thể so được với 4.7, thì model chuẩn để đánh giá sẽ bị cố định như vậy trong đầu mọi người
Không biết đây có phải kiểu một tuần sau sẽ có bản phát hành trên Hugging Face không. Hay là đã biết chắc nó sẽ giữ độc quyền
Tôi hy vọng sẽ có thêm các bản phát hành open weight từ Qwen. Đặc biệt là 122B và 397B
Chỉ cần vượt quá Qwen 9B là máy đã có nguy cơ đứng cứng hoàn toàn
Trong benchmark không có Opus 4.7, GPT5.5, Gemini Flash 3.5
Tôi đang dùng pi agent và muốn thử các model Qwen được host. Tôi tò mò đâu là lựa chọn tốt
Nhà cung cấp chính thức không có Alibaba. Tôi cũng muốn biết các dịch vụ như OpenRouter có đủ nhanh không. DeepSeek v4 thì bị throttling rất nặng trên các dịch vụ proxy kiểu này
Tôi mới bắt đầu thử local LLM và thành thật mà nói là khá ấn tượng. Tôi đang dùng một laptop workstation với NVIDIA A1000 (6GB VRAM) và RAM 96GB
Tôi hầu như không dùng GPU, chỉ thỉnh thoảng cho thiết kế CAD hay machine learning dựa trên OpenCV. Tôi đã chạy llama3:latest và nó chạy khá nhanh, nên tôi tò mò Qwen sẽ chạy thế nào trên hệ thống của tôi
Mẫu mà tôi tin tưởng nhất là thêm các đầu ra xác minh nhỏ cho mỗi hành động bên ngoài. Agent thường thất bại nhanh hơn vì trạng thái bị trôi âm thầm chứ không hẳn vì thiếu độ sâu suy luận