- GLM-5.1, mô hình kỹ thuật tác tử thế hệ tiếp theo, là phiên bản flagship được tăng cường mạnh mẽ về năng lực lập trình và giải quyết vấn đề, được thiết kế với trọng tâm là tối ưu hóa dài hạn và cải tiến liên tục
- Ghi nhận hiệu năng hàng đầu trên các benchmark quan trọng như SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0, đồng thời vẫn duy trì độ bền năng suất ngay cả trong các lần chạy lặp kéo dài
- Trong các bài toán như VectorDBBench, KernelBench và kịch bản xây dựng ứng dụng web, mô hình tiếp tục cải thiện hiệu năng qua hàng trăm đến hàng nghìn vòng lặp, loại bỏ điểm nghẽn bằng cách phân tích log của chính mình và điều chỉnh chiến lược
- Thông qua tự đánh giá và chuyển đổi cấu trúc, mô hình vận hành hiệu quả cả với các nhiệm vụ kỹ thuật phần mềm phức tạp, và chất lượng kết quả tiếp tục được cải thiện ổn định trong quá trình chạy dài hạn
- Được phát hành mã nguồn mở theo giấy phép MIT, có thể sử dụng trên nhiều nền tảng và framework khác nhau, đồng thời được giới thiệu như một chuẩn mực mới cho mô hình AI tối ưu hóa dài hạn
Tổng quan về GLM-5.1
- GLM-5.1 là mô hình agentic engineering thế hệ tiếp theo, một mô hình flagship có hiệu năng lập trình được cải thiện đáng kể so với phiên bản trước
- Ghi nhận hiệu năng cao nhất trên SWE-Bench Pro, đồng thời tạo khoảng cách đáng kể so với GLM-5 ở NL2Repo (tạo repository) và Terminal-Bench 2.0 (tác vụ terminal thực tế)
- Không chỉ tập trung vào hiệu năng chạy một lần, mô hình còn được thiết kế với trọng tâm là khả năng tối ưu hóa dài hạn và năng lực giải quyết vấn đề bền bỉ
- Mô hình đánh giá tốt hơn các vấn đề mơ hồ, duy trì năng suất trong các phiên dài, và thông qua thử nghiệm lặp cùng điều chỉnh chiến lược, tiếp tục nâng cao hiệu năng ngay cả sau hàng trăm vòng lặp
- Với cấu trúc cho phép kết quả cải thiện theo thời gian chạy, năng lực xử lý công việc dài hạn (long-horizon capability) là đặc trưng cốt lõi
Các nhiệm vụ kỹ thuật phần mềm phức tạp
- GLM-5.1 đạt hiệu năng hàng đầu trong các tác vụ kỹ thuật phần mềm phức tạp
- Trong khi các mô hình trước thường nhanh chóng chững lại sau giai đoạn tăng trưởng ban đầu, GLM-5.1 vẫn duy trì hiệu quả ngay cả trong các tác vụ tác tử dài hạn
- Mô hình chia nhỏ vấn đề, thực hiện thử nghiệm, phân tích kết quả để xác định điểm nghẽn và điều chỉnh chiến lược thông qua suy luận lặp
- Điều này được chứng minh qua ba nhiệm vụ có mức độ cấu trúc giảm dần
- Bài toán tối ưu tìm kiếm vector (dựa trên một chỉ số số duy nhất)
- Benchmark kernel GPU (đo mức tăng tốc theo từng bài toán)
- Xây dựng ứng dụng web (cải thiện dựa trên tự đánh giá, không có chỉ số rõ ràng)
Kịch bản 1: Tối ưu hóa cơ sở dữ liệu vector qua 600 vòng lặp
- VectorDBBench là thử thách mã nguồn mở đánh giá năng lực lập trình của mô hình trong việc xây dựng cơ sở dữ liệu hiệu năng cao cho tìm kiếm lân cận gần đúng
- Mô hình được cung cấp mã khung dựa trên Rust và endpoint HTTP API, rồi thực hiện đọc/ghi tệp, biên dịch, kiểm thử và profiling trong phạm vi 50 lần gọi công cụ (tool-call)
- Hiệu năng cao nhất trước đó là 3,547 QPS của Claude Opus 4.6 (Recall ≥ 95%)
- GLM-5.1 bổ sung vòng lặp tối ưu hóa bên ngoài, thực hiện hơn 600 vòng lặp (hơn 6.000 lần gọi công cụ) và cuối cùng đạt 21.5k QPS
- Tương đương mức cải thiện khoảng 6 lần so với một phiên 50 bước đơn lẻ
- Quá trình cải thiện hiệu năng cho thấy mô hình bậc thang (staircase), với tinh chỉnh dần dần xen kẽ các chuyển đổi cấu trúc
- Khoảng vòng 90: đưa vào IVF cluster probing + nén vector f16 → 6.4k QPS
- Khoảng vòng 240: đưa vào pipeline hai giai đoạn u8 pre-scoring + f16 re-ranking → 13.4k QPS
- Tổng cộng có 6 lần chuyển đổi cấu trúc, và mỗi lần đều là kết quả từ việc mô hình phân tích log của chính mình để tìm ra điểm nghẽn
- Các thời điểm Recall giảm xuống dưới 95% chủ yếu tập trung vào giai đoạn thử nghiệm chiến lược mới
Kịch bản 2: Tối ưu hóa workload machine learning qua hơn 1.000 vòng lặp
- KernelBench đánh giá khả năng của mô hình trong việc chuyển đổi triển khai chuẩn PyTorch thành kernel GPU nhanh hơn nhưng cho ra cùng kết quả
- Gồm ba cấp độ (Level 1~3), trong đó Level 3 bao gồm tối ưu hóa ở cấp toàn bộ mô hình như MobileNet, VGG, MiniGPT, Mamba
- Thiết lập mặc định của torch.compile đạt 1.15× tăng tốc, còn max-autotune đạt 1.49×
- GLM-5.1 ghi nhận 3.6× tăng tốc ở Level 3, và duy trì các tối ưu hiệu quả trong thời gian dài hơn nhiều so với GLM-5
- GLM-5 tăng mạnh lúc đầu rồi chững lại, còn Claude Opus 4.5 kéo dài lâu hơn nhưng chậm dần về cuối
- Claude Opus 4.6 cuối cùng duy trì hiệu năng cao nhất với 4.2×, và vẫn còn dư địa để cải thiện thêm
Kịch bản 3: Xây dựng web app desktop Linux trong 8 giờ
- Việc tạo website là một nhiệm vụ mang tính chủ quan không có chỉ số số học rõ ràng, với tiêu chí đánh giá là mức độ hoàn thiện, chất lượng thị giác và chất lượng tương tác
- Prompt thử nghiệm: “Hãy xây dựng một môi trường desktop kiểu Linux dưới dạng ứng dụng web”
- Bắt đầu mà không có mã ban đầu, thiết kế hay phản hồi trung gian
- Phần lớn mô hình chỉ tạo UI cơ bản rồi dừng lại, nhưng GLM-5.1 tiếp tục phát triển liên tục thông qua vòng lặp tự rà soát kết quả và cải thiện
- Mô hình chạy lặp trong 8 giờ, mở rộng dần từ bố cục đơn giản ban đầu thành một môi trường desktop hoàn chỉnh
- Bổ sung file browser, terminal, text editor, system monitor, calculator, game, v.v.
- Mỗi chức năng đều được tích hợp trong một UI nhất quán, với phong cách và chất lượng tương tác được cải thiện dần theo thời gian
- Kết quả cuối cùng là một môi trường desktop hoàn chỉnh và nhất quán về mặt thị giác chạy ngay trong trình duyệt
Ý nghĩa và thách thức của tối ưu hóa dài hạn
- Trong cả ba kịch bản, biến số cốt lõi không phải là thời gian chạy tự thân, mà là liệu thời gian bổ sung đó có thực sự mang lại hiệu quả hay không
- So với GLM-5, GLM-5.1 mở rộng đáng kể productive horizon
- Tuy vậy, ở một số nhiệm vụ như KernelBench, vẫn còn chỗ để cải thiện
- Những thách thức còn lại
- Thoát khỏi cực trị cục bộ khi tinh chỉnh dần dần đã chạm giới hạn
- Duy trì tính nhất quán qua hàng nghìn lần gọi công cụ
- Tự đánh giá đáng tin cậy (self-evaluation) trong các nhiệm vụ không có chỉ số số học rõ ràng
- GLM-5.1 được giới thiệu như bước khởi đầu đầu tiên theo hướng tối ưu hóa dài hạn này
Tóm tắt so sánh benchmark
- GLM-5.1 vượt GLM-5 trên các benchmark lập trình chủ chốt như SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5
- Hiệu năng thuộc nhóm dẫn đầu so với các mô hình cạnh tranh trên cả Reasoning, Coding, Agentic
- Khi so sánh với các mô hình mới nhất như Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4, mô hình vẫn bám sát hoặc vượt lên ở nhiều hạng mục
Công bố và cách sử dụng
- Phát hành mã nguồn mở theo giấy phép MIT
- Có thể sử dụng trên api.z.ai, BigModel.cn, và tương thích với Claude Code cùng OpenClaw
- Người đăng ký GLM Coding Plan có thể sử dụng ngay bằng cách đổi tên model thành
"GLM-5.1"
- Trong giờ cao điểm (UTC+8 14:00–18:00), quota bị tiêu thụ 3×, ngoài giờ cao điểm là 2×
- Đến cuối tháng 4, ngoài giờ cao điểm được áp dụng khuyến mãi ở mức 1×
- Cung cấp Z Code làm môi trường GUI, hỗ trợ phát triển từ xa qua SSH và làm việc trên di động
- Trọng số mô hình được công bố trên HuggingFace và ModelScope
- Hỗ trợ các framework suy luận lớn như vLLM, SGLang, và cung cấp hướng dẫn triển khai trên GitHub
- Sắp tới cũng sẽ có mặt trên nền tảng chat Z.ai
Thiết lập đánh giá và ghi chú
- HLE và các bài toán suy luận khác: tối đa 163,840 token sinh ra, sử dụng GPT-5.2 làm mô hình chấm điểm
- SWE-Bench Pro: cửa sổ ngữ cảnh 200K, thực thi dựa trên OpenHands
- NL2Repo: bao gồm phát hiện và chặn lệnh độc hại
- Terminal-Bench 2.0: giới hạn 16 CPU, 32GB RAM, timeout 3 giờ
- KernelBench Level 3: môi trường GPU H100, giới hạn 1.200 lần gọi công cụ, có kiểm toán độc lập
- Đánh giá độc lập cũng được thực hiện trên nhiều benchmark bên ngoài như CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2
1 bình luận
Ý kiến trên Hacker News
Mỗi ngày có ba điều ngày càng trở nên rõ ràng hơn
(1) OpenAI và Anthropic giờ gần như không còn nhiều năng lực cạnh tranh
(2) Tôi tin chắc suy luận cục bộ/riêng tư mới là tương lai của AI
(3) Vẫn chưa có một ‘sản phẩm sát thủ’, nên giờ là lúc phải thực sự tạo ra nó
Tôi vừa xem bài về Claude Mythos, và lần này cảm giác không còn là cải tiến nhỏ mà là một bước nhảy vọt thực sự. Chưa rõ khi nào sẽ công bố, nhưng tôi cũng đang mong chờ bản GLM tiếp theo vì thông số có vẻ mạnh đến mức điên rồ
Bản Unsloth quantization cũng đã được phát hành cùng lúc. IQ4_XS của mô hình GLM-5.1-GGUF có 754B tham số và kích thước 361GB, nên với người chơi LLM cục bộ thông thường thì gần như không thể chạy nổi
Mô hình này không chỉ vẽ cho tôi một bức tranh bồ nông rất đẹp mà còn biến nó thành hoạt hình
Liên kết liên quan
Thành thật mà nói tôi hơi thất vọng. GLM 5.1 tạo TypeScript tốt hơn Opus hay Codex rất nhiều, nhưng trong ngữ cảnh dài thì đôi lúc lại rơi vào chế độ kỳ quặc. Dù vậy cũng đã có những phiên hoạt động ổn định với hơn 200k token
/compactGLM-5.0 là một tay chơi thực thụ trong số các mô hình mã nguồn mở. Nó luôn đứng nhóm đầu trong benchmark nội bộ và ở mức tương đương GPT-5.2. Tôi dùng nó chủ yếu cho các tác vụ phi cấu trúc hơn là lập trình
Trong thử nghiệm của tôi, GLM 5.1 kém hơn GLM 5
Liên kết so sánh
Có vẻ mô hình giờ đã được tinh chỉnh theo hướng agent/coding-centric
Cách đánh giá chất lượng mô hình bằng tốc độ thực thi của đoạn mã do agent tạo ra khá thú vị. Tôi kiểm thử theo kiểu tạo benchmark, đặt mốc chuẩn rồi cải thiện từ 1,4 lần trở lên. Opus 4.6 đã tìm ra tối ưu hóa mức thấp trong mã Rust và làm nó nhanh hơn 6 lần so với trước mà vẫn vượt qua toàn bộ bài kiểm thử. Cách này giúp so sánh hiệu năng thực tế theo hướng hữu ích hơn
Nhìn các bình luận thì cứ như ai cũng đã dùng mô hình này từ lâu rồi, nên tôi tò mò không biết có đúng vậy không
Tôi chủ yếu dùng bản GLM 4.7 Flash cục bộ cho agent coding, và nó thực sự rất tuyệt. Lần này tôi cũng hy vọng sẽ có bản Flash, nhưng tiếc là ghi chú phát hành không nhắc đến. Dù vậy tôi tin là nó sẽ sớm xuất hiện