GLM-5.1: Tiến hóa hướng tới thực hiện các nhiệm vụ dài hạn

(z.ai)

8 điểm bởi GN⁺ 14 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

GLM-5.1, mô hình kỹ thuật tác tử thế hệ tiếp theo, là phiên bản flagship được tăng cường mạnh mẽ về năng lực lập trình và giải quyết vấn đề, được thiết kế với trọng tâm là tối ưu hóa dài hạn và cải tiến liên tục
Ghi nhận hiệu năng hàng đầu trên các benchmark quan trọng như SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0, đồng thời vẫn duy trì độ bền năng suất ngay cả trong các lần chạy lặp kéo dài
Trong các bài toán như VectorDBBench, KernelBench và kịch bản xây dựng ứng dụng web, mô hình tiếp tục cải thiện hiệu năng qua hàng trăm đến hàng nghìn vòng lặp, loại bỏ điểm nghẽn bằng cách phân tích log của chính mình và điều chỉnh chiến lược
Thông qua tự đánh giá và chuyển đổi cấu trúc, mô hình vận hành hiệu quả cả với các nhiệm vụ kỹ thuật phần mềm phức tạp, và chất lượng kết quả tiếp tục được cải thiện ổn định trong quá trình chạy dài hạn
Được phát hành mã nguồn mở theo giấy phép MIT, có thể sử dụng trên nhiều nền tảng và framework khác nhau, đồng thời được giới thiệu như một chuẩn mực mới cho mô hình AI tối ưu hóa dài hạn

Tổng quan về GLM-5.1

GLM-5.1 là mô hình agentic engineering thế hệ tiếp theo, một mô hình flagship có hiệu năng lập trình được cải thiện đáng kể so với phiên bản trước
Ghi nhận hiệu năng cao nhất trên SWE-Bench Pro, đồng thời tạo khoảng cách đáng kể so với GLM-5 ở NL2Repo (tạo repository) và Terminal-Bench 2.0 (tác vụ terminal thực tế)
Không chỉ tập trung vào hiệu năng chạy một lần, mô hình còn được thiết kế với trọng tâm là khả năng tối ưu hóa dài hạn và năng lực giải quyết vấn đề bền bỉ
Mô hình đánh giá tốt hơn các vấn đề mơ hồ, duy trì năng suất trong các phiên dài, và thông qua thử nghiệm lặp cùng điều chỉnh chiến lược, tiếp tục nâng cao hiệu năng ngay cả sau hàng trăm vòng lặp
Với cấu trúc cho phép kết quả cải thiện theo thời gian chạy, năng lực xử lý công việc dài hạn (long-horizon capability) là đặc trưng cốt lõi

Các nhiệm vụ kỹ thuật phần mềm phức tạp

GLM-5.1 đạt hiệu năng hàng đầu trong các tác vụ kỹ thuật phần mềm phức tạp
Trong khi các mô hình trước thường nhanh chóng chững lại sau giai đoạn tăng trưởng ban đầu, GLM-5.1 vẫn duy trì hiệu quả ngay cả trong các tác vụ tác tử dài hạn
Mô hình chia nhỏ vấn đề, thực hiện thử nghiệm, phân tích kết quả để xác định điểm nghẽn và điều chỉnh chiến lược thông qua suy luận lặp
Điều này được chứng minh qua ba nhiệm vụ có mức độ cấu trúc giảm dần
- Bài toán tối ưu tìm kiếm vector (dựa trên một chỉ số số duy nhất)
- Benchmark kernel GPU (đo mức tăng tốc theo từng bài toán)
- Xây dựng ứng dụng web (cải thiện dựa trên tự đánh giá, không có chỉ số rõ ràng)

Kịch bản 1: Tối ưu hóa cơ sở dữ liệu vector qua 600 vòng lặp

VectorDBBench là thử thách mã nguồn mở đánh giá năng lực lập trình của mô hình trong việc xây dựng cơ sở dữ liệu hiệu năng cao cho tìm kiếm lân cận gần đúng
Mô hình được cung cấp mã khung dựa trên Rust và endpoint HTTP API, rồi thực hiện đọc/ghi tệp, biên dịch, kiểm thử và profiling trong phạm vi 50 lần gọi công cụ (tool-call)
Hiệu năng cao nhất trước đó là 3,547 QPS của Claude Opus 4.6 (Recall ≥ 95%)
GLM-5.1 bổ sung vòng lặp tối ưu hóa bên ngoài, thực hiện hơn 600 vòng lặp (hơn 6.000 lần gọi công cụ) và cuối cùng đạt 21.5k QPS
- Tương đương mức cải thiện khoảng 6 lần so với một phiên 50 bước đơn lẻ
Quá trình cải thiện hiệu năng cho thấy mô hình bậc thang (staircase), với tinh chỉnh dần dần xen kẽ các chuyển đổi cấu trúc
- Khoảng vòng 90: đưa vào IVF cluster probing + nén vector f16 → 6.4k QPS
- Khoảng vòng 240: đưa vào pipeline hai giai đoạn u8 pre-scoring + f16 re-ranking → 13.4k QPS
Tổng cộng có 6 lần chuyển đổi cấu trúc, và mỗi lần đều là kết quả từ việc mô hình phân tích log của chính mình để tìm ra điểm nghẽn
Các thời điểm Recall giảm xuống dưới 95% chủ yếu tập trung vào giai đoạn thử nghiệm chiến lược mới

Kịch bản 2: Tối ưu hóa workload machine learning qua hơn 1.000 vòng lặp

KernelBench đánh giá khả năng của mô hình trong việc chuyển đổi triển khai chuẩn PyTorch thành kernel GPU nhanh hơn nhưng cho ra cùng kết quả
Gồm ba cấp độ (Level 1~3), trong đó Level 3 bao gồm tối ưu hóa ở cấp toàn bộ mô hình như MobileNet, VGG, MiniGPT, Mamba
Thiết lập mặc định của torch.compile đạt 1.15× tăng tốc, còn max-autotune đạt 1.49×
GLM-5.1 ghi nhận 3.6× tăng tốc ở Level 3, và duy trì các tối ưu hiệu quả trong thời gian dài hơn nhiều so với GLM-5
GLM-5 tăng mạnh lúc đầu rồi chững lại, còn Claude Opus 4.5 kéo dài lâu hơn nhưng chậm dần về cuối
Claude Opus 4.6 cuối cùng duy trì hiệu năng cao nhất với 4.2×, và vẫn còn dư địa để cải thiện thêm

Kịch bản 3: Xây dựng web app desktop Linux trong 8 giờ

Việc tạo website là một nhiệm vụ mang tính chủ quan không có chỉ số số học rõ ràng, với tiêu chí đánh giá là mức độ hoàn thiện, chất lượng thị giác và chất lượng tương tác
Prompt thử nghiệm: “Hãy xây dựng một môi trường desktop kiểu Linux dưới dạng ứng dụng web”
- Bắt đầu mà không có mã ban đầu, thiết kế hay phản hồi trung gian
Phần lớn mô hình chỉ tạo UI cơ bản rồi dừng lại, nhưng GLM-5.1 tiếp tục phát triển liên tục thông qua vòng lặp tự rà soát kết quả và cải thiện
Mô hình chạy lặp trong 8 giờ, mở rộng dần từ bố cục đơn giản ban đầu thành một môi trường desktop hoàn chỉnh
- Bổ sung file browser, terminal, text editor, system monitor, calculator, game, v.v.
- Mỗi chức năng đều được tích hợp trong một UI nhất quán, với phong cách và chất lượng tương tác được cải thiện dần theo thời gian
Kết quả cuối cùng là một môi trường desktop hoàn chỉnh và nhất quán về mặt thị giác chạy ngay trong trình duyệt

Ý nghĩa và thách thức của tối ưu hóa dài hạn

Trong cả ba kịch bản, biến số cốt lõi không phải là thời gian chạy tự thân, mà là liệu thời gian bổ sung đó có thực sự mang lại hiệu quả hay không
So với GLM-5, GLM-5.1 mở rộng đáng kể productive horizon
Tuy vậy, ở một số nhiệm vụ như KernelBench, vẫn còn chỗ để cải thiện
Những thách thức còn lại
- Thoát khỏi cực trị cục bộ khi tinh chỉnh dần dần đã chạm giới hạn
- Duy trì tính nhất quán qua hàng nghìn lần gọi công cụ
- Tự đánh giá đáng tin cậy (self-evaluation) trong các nhiệm vụ không có chỉ số số học rõ ràng
GLM-5.1 được giới thiệu như bước khởi đầu đầu tiên theo hướng tối ưu hóa dài hạn này

Tóm tắt so sánh benchmark

GLM-5.1 vượt GLM-5 trên các benchmark lập trình chủ chốt như SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5
Hiệu năng thuộc nhóm dẫn đầu so với các mô hình cạnh tranh trên cả Reasoning, Coding, Agentic
Khi so sánh với các mô hình mới nhất như Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4, mô hình vẫn bám sát hoặc vượt lên ở nhiều hạng mục

Công bố và cách sử dụng

Phát hành mã nguồn mở theo giấy phép MIT
Có thể sử dụng trên api.z.ai, BigModel.cn, và tương thích với Claude Code cùng OpenClaw
Người đăng ký GLM Coding Plan có thể sử dụng ngay bằng cách đổi tên model thành "GLM-5.1"
- Trong giờ cao điểm (UTC+8 14:00–18:00), quota bị tiêu thụ 3×, ngoài giờ cao điểm là 2×
- Đến cuối tháng 4, ngoài giờ cao điểm được áp dụng khuyến mãi ở mức 1×
Cung cấp Z Code làm môi trường GUI, hỗ trợ phát triển từ xa qua SSH và làm việc trên di động
Trọng số mô hình được công bố trên HuggingFace và ModelScope
Hỗ trợ các framework suy luận lớn như vLLM, SGLang, và cung cấp hướng dẫn triển khai trên GitHub
Sắp tới cũng sẽ có mặt trên nền tảng chat Z.ai

Thiết lập đánh giá và ghi chú

HLE và các bài toán suy luận khác: tối đa 163,840 token sinh ra, sử dụng GPT-5.2 làm mô hình chấm điểm
SWE-Bench Pro: cửa sổ ngữ cảnh 200K, thực thi dựa trên OpenHands
NL2Repo: bao gồm phát hiện và chặn lệnh độc hại
Terminal-Bench 2.0: giới hạn 16 CPU, 32GB RAM, timeout 3 giờ
KernelBench Level 3: môi trường GPU H100, giới hạn 1.200 lần gọi công cụ, có kiểm toán độc lập
Đánh giá độc lập cũng được thực hiện trên nhiều benchmark bên ngoài như CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2

1 bình luận

GN⁺ 14 ngày trước

Ý kiến trên Hacker News

Mỗi ngày có ba điều ngày càng trở nên rõ ràng hơn
(1) OpenAI và Anthropic giờ gần như không còn nhiều năng lực cạnh tranh
(2) Tôi tin chắc suy luận cục bộ/riêng tư mới là tương lai của AI
(3) Vẫn chưa có một ‘sản phẩm sát thủ’, nên giờ là lúc phải thực sự tạo ra nó
- Tôi không đồng ý với ý “không có sản phẩm sát thủ”. Trợ lý lập trình và LLM là thành tựu công nghệ đáng kinh ngạc nhất trong đời tôi. Cũng như trước và sau Cách mạng Công nghiệp, tôi nghĩ lịch sử loài người sắp được chia thành trước AI và sau AI
- Trợ lý lập trình AI là một trong những công nghệ hữu ích nhất từng được tạo ra. Chất lượng của mô hình là yếu tố quan trọng nhất, nên nếu phần cứng không thay đổi về căn bản thì suy luận cục bộ khó mà trở thành xu hướng chủ đạo
- Tôi tự hỏi ngoài việc là một dự án sở thích thú vị, thì việc một cá nhân bỏ 50.000 USD cho GPU để tự chạy có lợi ích thực tế nào đáng kể không
Tôi vừa xem bài về Claude Mythos, và lần này cảm giác không còn là cải tiến nhỏ mà là một bước nhảy vọt thực sự. Chưa rõ khi nào sẽ công bố, nhưng tôi cũng đang mong chờ bản GLM tiếp theo vì thông số có vẻ mạnh đến mức điên rồ
Bản Unsloth quantization cũng đã được phát hành cùng lúc. IQ4_XS của mô hình GLM-5.1-GGUF có 754B tham số và kích thước 361GB, nên với người chơi LLM cục bộ thông thường thì gần như không thể chạy nổi
- Nếu có hỗ trợ phần mềm tốt thì vẫn có thể offload sang SSD. Dĩ nhiên lúc đó không hẳn là “chạy” mà đúng hơn là “bò”, nhưng dù sao vẫn có thể nhận phản hồi cục bộ. Gần đây thậm chí còn xuất hiện các nỗ lực thiết kế cấu trúc n-gram, tham số embedding nội bộ có tính đến việc offload sang SSD ngay từ đầu
Mô hình này không chỉ vẽ cho tôi một bức tranh bồ nông rất đẹp mà còn biến nó thành hoạt hình
Liên kết liên quan
- Cách thể hiện thực tế hơn nhiều. Bồ nông bay trên trời tự nhiên hơn là đi xe đạp
- Simon, giờ là lúc phải tạo ra một benchmark tốt hơn rồi
Thành thật mà nói tôi hơi thất vọng. GLM 5.1 tạo TypeScript tốt hơn Opus hay Codex rất nhiều, nhưng trong ngữ cảnh dài thì đôi lúc lại rơi vào chế độ kỳ quặc. Dù vậy cũng đã có những phiên hoạt động ổn định với hơn 200k token
- Nếu chạy tốt và tốc độ ổn thì thực sự rất ấn tượng. Hôm qua nó giải được một bài mà Kimi K2.5 không giải nổi. Tuy vậy đôi khi vẫn còn chậm. Cảm giác đang tiến gần đến mức Opus 4.5
- Tôi đặt cửa sổ ngữ cảnh ở 100k và định kỳ compact hoặc ghi lại trạng thái rồi mở phiên mới. Vì Opus 4.6 dạo này không ổn định nên tôi chủ yếu dùng GLM 5.1 thay thế. Thật đáng ngạc nhiên khi chất lượng của mô hình mở đã tốt đến mức này
- Từ góc nhìn người dùng, việc mô hình mã nguồn mở làm tốt hơn mô hình đóng là lợi ích ròng
- Khoảng 100k token thì nên mở phiên mới hoặc dùng lệnh /compact
- Tôi vẫn còn thói quen từ thời Claude và Codex trước đây nên vẫn thường xuyên dọn ngữ cảnh. Dù là mô hình mới nhất thì tôi vẫn chưa tin tưởng ngữ cảnh khổng lồ
GLM-5.0 là một tay chơi thực thụ trong số các mô hình mã nguồn mở. Nó luôn đứng nhóm đầu trong benchmark nội bộ và ở mức tương đương GPT-5.2. Tôi dùng nó chủ yếu cho các tác vụ phi cấu trúc hơn là lập trình
- Tôi chưa thử 5.1, nhưng với lập trình PHP thì nó cho kết quả giống Sonnet/Opus/GPT-5 đến 99%. Hơn nữa còn có thể chạy cục bộ
- Tôi đang tạo bộ dữ liệu chuyển đổi Python ↔ Cython, và nó có tỷ lệ chấp nhận cao thứ hai (16%), chỉ sau Gemini Pro 3.1. Các mô hình tầm trung chỉ ở mức 6~7% nên không cùng đẳng cấp
- Trường hợp sử dụng của tôi thiên về hiểu codebase và phân tích tài liệu hơn là viết mã, và mô hình này hoạt động tốt hơn các mô hình Mỹ với mức giá chỉ bằng một nửa
Trong thử nghiệm của tôi, GLM 5.1 kém hơn GLM 5
Liên kết so sánh
Có vẻ mô hình giờ đã được tinh chỉnh theo hướng agent/coding-centric
- Mức suy giảm hiệu năng đặc biệt rõ ở bản (none)
Cách đánh giá chất lượng mô hình bằng tốc độ thực thi của đoạn mã do agent tạo ra khá thú vị. Tôi kiểm thử theo kiểu tạo benchmark, đặt mốc chuẩn rồi cải thiện từ 1,4 lần trở lên. Opus 4.6 đã tìm ra tối ưu hóa mức thấp trong mã Rust và làm nó nhanh hơn 6 lần so với trước mà vẫn vượt qua toàn bộ bài kiểm thử. Cách này giúp so sánh hiệu năng thực tế theo hướng hữu ích hơn
Nhìn các bình luận thì cứ như ai cũng đã dùng mô hình này từ lâu rồi, nên tôi tò mò không biết có đúng vậy không
- Bài blog thì mới đăng, nhưng mô hình đã được công bố từ 2 tuần trước
- Trang đặt sân tennis ở khu tôi bị hỏng nên tôi nhờ GLM-5.1 phân tích API, và chỉ trong 5 phút nó đã tìm ra endpoint /cancel.php rồi dùng blind SQL injection để trích xuất ID đặt sân. Hơi quá hăng, nhưng thực sự ấn tượng
- Nó đã được công bố từ khá lâu rồi
Tôi chủ yếu dùng bản GLM 4.7 Flash cục bộ cho agent coding, và nó thực sự rất tuyệt. Lần này tôi cũng hy vọng sẽ có bản Flash, nhưng tiếc là ghi chú phát hành không nhắc đến. Dù vậy tôi tin là nó sẽ sớm xuất hiện

GLM-5.1: Tiến hóa hướng tới thực hiện các nhiệm vụ dài hạn

Tổng quan về GLM-5.1

Các nhiệm vụ kỹ thuật phần mềm phức tạp

Kịch bản 1: Tối ưu hóa cơ sở dữ liệu vector qua 600 vòng lặp

Kịch bản 2: Tối ưu hóa workload machine learning qua hơn 1.000 vòng lặp

Kịch bản 3: Xây dựng web app desktop Linux trong 8 giờ

Ý nghĩa và thách thức của tối ưu hóa dài hạn

Tóm tắt so sánh benchmark

Công bố và cách sử dụng

Thiết lập đánh giá và ghi chú

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News