GLM-4.5: mô hình nền tảng agentic, suy luận và lập trình (ARC)

(arxiv.org)

4 điểm bởi GN⁺ 2025-08-13 | 2 bình luận | Chia sẻ qua WhatsApp

GLM-4.5 là mô hình ngôn ngữ lớn Mixture-of-Experts (MoE) mã nguồn mở, nổi bật về tính agentic, suy luận và lập trình
Mô hình này được phát triển thông qua huấn luyện nhiều giai đoạn trên 23T token, lặp mô hình chuyên gia và học tăng cường
Đạt thành tích hàng đầu trên nhiều benchmark cốt lõi như TAU-Bench, AIME 24, SWE-bench Verified
Vẫn mang lại hiệu năng hiệu quả với số lượng tham số ít hơn, tiệm cận hoặc vượt các mô hình thương mại chủ chốt
Đã công bố GLM-4.5 cùng phiên bản nhỏ hơn GLM-4.5-Air để phục vụ nghiên cứu và phát triển hệ thống AI

Tổng quan

GLM-4.5 là mô hình ngôn ngữ lớn Mixture-of-Experts (MoE) mã nguồn mở với 355 tỷ tham số tổng và 32 tỷ tham số kích hoạt
Áp dụng phương thức suy luận lai, hỗ trợ cả chế độ suy nghĩ chuyên sâu (Thinking) và chế độ phản hồi tức thì (Direct Response)
Trải qua huấn luyện nhiều giai đoạn trên 23 nghìn tỷ token, lặp mô hình chuyên gia và post-training dựa trên học tăng cường
Nhờ đó đạt điểm số cao trong các nhóm tác vụ agentic, suy luận và lập trình (Coding·ARC)
- Ghi nhận TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
So với các mô hình cạnh tranh, GLM-4.5 dùng ít tham số hơn nhưng vẫn đứng thứ 3 toàn bộ và thứ 2 theo benchmark agentic
Công bố cả hai phiên bản: mô hình lớn GLM-4.5 (355 tỷ tham số) và bản thu gọn GLM-4.5-Air (106 tỷ tham số)
Toàn bộ mã nguồn, mô hình và thông tin chi tiết có tại GitHub chính thức (https://github.com/zai-org/GLM-4.5)

Đánh giá hiệu năng LLM: benchmark agentic, suy luận và lập trình

GLM-4.5 cùng các mô hình toàn cầu chủ chốt được thử nghiệm trên 12 benchmark tiêu biểu như MMLU-Pro, AIME 24, SWE-Bench Verified
GLM-4.5 xếp hạng trung bình tổng thể thứ 3, còn GLM-4.5-Air đứng thứ 6
Theo điểm số agentic, mô hình đứng thứ 2 sau OpenAI o3, và cũng đạt hạng 3 ở benchmark lập trình, tiệm cận Claude Sonnet 4
GLM-4.5 cho hiệu năng tương đương với một nửa số tham số của DeepSeek-R1 và một phần ba của Kimi K2
Xét theo số tham số so với hiệu năng ở SWE-bench Verified, cả GLM-4.5 và GLM-4.5-Air đều nằm trên Pareto Frontier
Dữ liệu hiệu năng tính đến ngày 28/7/2025

Giới thiệu

Mô hình ngôn ngữ lớn (LLM) đang nhanh chóng tiến hóa từ kho dữ liệu đa dụng truyền thống thành bộ giải quyết vấn đề tổng quát
Đích đến của trí tuệ nhân tạo là AGI (Artificial General Intelligence), hướng tới các mô hình có năng lực nhận thức ở mức con người trên nhiều lĩnh vực
Để làm được điều đó, cần tích hợp khả năng giải quyết vấn đề phức tạp, khái quát hóa và tự cải thiện
Ba năng lực cốt lõi quan trọng cho công việc thực tế và giải quyết các vấn đề chuyên môn phức tạp gồm:
- Năng lực agentic: tương tác với công cụ và thế giới bên ngoài
- Suy luận phức hợp: giải quyết bài toán nhiều bước phức tạp như toán học/khoa học
- Lập trình nâng cao: năng lực thực hiện kỹ thuật phần mềm thực chất
Các mô hình thương mại SOTA hiện có (OpenAI, Anthropic) cho thấy hiệu năng chuyên biệt ở từng mảng, nhưng trong số các mô hình mã nguồn mở vẫn còn thiếu một mô hình công khai xuất sắc ở cả ba lĩnh vực

Giới thiệu mô hình GLM-4.5 và GLM-4.5-Air

GLM-4.5/GLM-4.5-Air đạt hiệu năng thuộc hàng đầu mã nguồn mở trong cả agentic, suy luận và lập trình
Cả hai mô hình đều hỗ trợ chế độ suy luận lai
- Thinking Mode mạnh về suy luận phức tạp và agentic
- Non-thinking Mode được tối ưu cho phản hồi nhanh
Thành tích chính của GLM-4.5:
- Agentic: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (vượt các mô hình thương mại cạnh tranh)
- Suy luận: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- Lập trình: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (vượt GPT-4.1 và Gemini-2.5-pro, tiệm cận Claude Sonnet 4)
GLM-4.5-Air có 106 tỷ tham số, ngang bằng hoặc vượt Qwen3-235B-A22B và MiniMax-M1 trong nhóm mô hình quy mô 100 tỷ

Tình hình và đặc điểm hiệu năng benchmark

Trên 12 benchmark quan trọng, cả GLM-4.5 và GLM-4.5-Air đều ghi nhận thứ hạng cao
GLM-4.5 cho hiệu năng đồng đều ở agentic, suy luận và lập trình, đồng thời nổi bật về hiệu quả tham số
Đạt vùng hiệu quả cao nhất (Pareto Frontier) khi xét số tham số theo chuẩn SWE-bench Verified
Đã tiến hành so sánh hiệu năng chi tiết với nhiều mô hình thương mại và mã nguồn mở

Công bố và hỗ trợ mã nguồn mở

Các mô hình GLM-4.5/GLM-4.5-Air được công bố trên Z.ai, BigModel.cn và cả Huggingface (https://huggingface.co/zai-org/GLM-4.5)
Để bảo đảm khả năng tái lập benchmark, bộ công cụ đánh giá (https://github.com/zai-org/glm-simple-evals) cũng được cung cấp dưới dạng mã nguồn mở

Tiền huấn luyện

Kiến trúc

Dòng GLM-4.5 sử dụng kiến trúc Mixture-of-Experts (MoE), giúp tăng mạnh hiệu quả tính toán trong huấn luyện và suy luận
Áp dụng loss-free balance routing và sigmoid gating cho các lớp MoE
Khác với DeepSeek-V3 và Kimi K2, mô hình giảm chiều rộng (hidden dimension, số expert định tuyến) và tăng chiều sâu (số lớp). Mô hình sâu hơn hiệu quả hơn cho sự phát triển năng lực suy luận
Ở Self-Attention, áp dụng Grouped-Query Attention + partial RoPE, với 96 attention head để tạo cấu hình attention head gấp 2.5 lần trên hidden dimension 5120
Việc tăng số head không ảnh hưởng đến training loss, nhưng được xác nhận là có tác động tích cực tới suy luận thực tế và hiệu năng benchmark
Áp dụng QK-Norm để tăng độ ổn định của giá trị attention logit
Cả GLM-4.5 và GLM-4.5-Air đều bổ sung lớp MTP (Multi-Token Prediction) dựa trên lớp MoE để hỗ trợ speculative decoding khi suy luận
Trong quá trình thống kê tham số kiến trúc, có tính tham số của lớp MTP nhưng không tính word embedding và lớp đầu ra

Kết luận và hiệu quả kỳ vọng

GLM-4.5/GLM-4.5-Air là thế hệ mô hình ngôn ngữ tiếp theo trong thị trường AI mã nguồn mở, hội tụ hiệu năng cao, hiệu quả và tính đa dụng
Nổi bật ở năng lực giải quyết bài toán tích hợp nhiều lĩnh vực/độ khó cao, sức cạnh tranh với mô hình thương mại và hiệu quả tham số
Có tiềm năng mở rộng đóng góp như một nền tảng đổi mới cho mô hình ngôn ngữ lớn mã nguồn mở trong học thuật, công nghiệp và nghiên cứu của giới phát triển

2 bình luận

xguru 2025-08-13

Bên Hacker News cũng vậy, và trên diễn đàn LocalLLaMA của Reddit cũng có đánh giá rằng GLM khá tốt. GLM 4.5 AIR IS SO FKING GOODDD

GLM 4.5 Air thật sự rất nhanh, và khả năng gọi tool cũng rất tốt (không phải chạy local, mà được thử qua Open Router)
Khi so với GPT-5 Mini, mức độ vượt trội còn tùy vào từng loại tác vụ
Các model GLM khác như GLM 4.5V cũng đều tốt
Tùy tác vụ cụ thể (ví dụ: viết tiểu thuyết, coding), GLM tự nhiên hơn và ít bị gò bó hơn so với GPT

GN⁺ 2025-08-13

Ý kiến trên Hacker News

Thật sự rất đáng mừng khi bài báo này đi vào chiều sâu, khác với những bài blog công bố model thường thấy hằng ngày
Nhóm Zhipu/Tsinghua không chỉ giải thích "cái gì" mà còn trình bày rất chi tiết "làm như thế nào", nên đây là thông tin đặc biệt thú vị với những ai muốn tự xây dựng hoặc ứng dụng các model kiểu này
Đặc biệt, phương pháp hậu huấn luyện (post-training) ở Mục 3 rất ấn tượng
Cách tiếp cận tạo riêng các "model chuyên gia" cho suy luận/agent/chat rồi chưng cất (distill) năng lực đó vào model tích hợp cuối cùng rất hấp dẫn
Đây là một nỗ lực mang tính hệ thống hơn nhiều để xử lý giới hạn của các model đa năng làm đủ thứ nhưng không thật sự xuất sắc ở từng vai trò
Không chỉ đơn giản là trộn dữ liệu lại với nhau, mà giống như thiết kế để một model tổng quát học từ cả một tập thể chuyên gia
Một điểm thú vị trong kết quả thí nghiệm RL là áp dụng RL một lần trên toàn bộ ngữ cảnh 64K lại cho kết quả tốt hơn RL theo từng giai đoạn (xem Hình 6)
Nhiều nhóm có lẽ sẽ nghĩ ngược lại, nhưng kết quả thực tế thì khác
Và việc dùng template XML cho định dạng function calling là một lựa chọn nhỏ nhưng rất thông minh, giúp tránh được vấn đề escape JSON (xem Hình 4)
Trong thực tế, việc escape code bên trong JSON cực kỳ phiền phức
Hiệu năng trên SWE-bench cũng rất đáng nể, đủ sức so với các model lớn hơn nhiều hoặc model thương mại
Điều tôi tò mò tiếp theo là liệu kiểu huấn luyện lai này có còn hiệu quả trong các môi trường ngoài đánh giá kiểu ARC hay không
Ví dụ, tôi muốn biết liệu hiệu năng agent có còn được giữ vững trong các workflow phức tạp ngoài thực tế, nơi không có tài liệu API, lỗi xảy ra thường xuyên và đầu vào cũng mơ hồ hay không
- Tôi cũng tò mò liệu các tinh chỉnh kiểu post/mid-training như thế này có thực sự cần thiết trong việc huấn luyện cho những miền cụ thể vốn đã có dữ liệu và nhãn dồi dào, được kiểm chứng kỹ lưỡng hay không
  Tôi muốn biết liệu chỉ cần một nhóm nhỏ theo kịp stack huấn luyện scale-up hiện đại là đã đủ, hay nếu không dùng các kỹ thuật này thì sẽ tạo ra khác biệt rất lớn
- Tôi hơi lo là điều này có thể nghe như đang bắt bẻ vô cớ, nhưng văn phong của bài viết mang cảm giác rất đặc trưng của LLM
  Trước đây tôi cũng từng thấy nhận xét tương tự liên kết
  Tôi nghĩ chỉ ra những điều như vậy là cách để giữ môi trường trực tuyến lành mạnh
Tôi đã dùng model coding GLM-4.5 khá lâu rồi, và hiệu năng thực sự rất xuất sắc
Có lúc khi chạy GLM-4.5 trong Octofriend, agent coding mà tôi đang phát triển, tôi còn nhầm nó với Claude 4
Theo trải nghiệm của tôi, Claude có vẻ mạnh hơn một chút trong những tình huống phải dùng toàn bộ codebase làm ngữ cảnh và phải tính đến tương tác hệ thống
Trong khi đó, GLM-4.5 có vẻ "thành thật" hơn, không hay làm kiểu sửa luôn cả test để lách vấn đề như Claude thường làm
Cả hai đều ở trình độ cao, nhưng đã có lúc GLM-4.5 tìm ra bug mà Claude 4 Sonnet hoặc 4.1 Opus không bắt được
Nếu chỉ xét riêng debug thì Claude nhỉnh hơn một chút về tần suất thắng, nhưng chênh lệch không lớn
Nếu so với GPT-5 thì cả Claude lẫn GLM đều ổn định hơn
GPT-5 đôi khi cho ra kết quả thực sự ấn tượng, nhưng một khi đã lệch hướng thì rất khó kéo nó trở lại quỹ đạo bình thường, khá bực bội
Tham khảo Octofriend: https://github.com/synthetic-lab/octofriend
- Sau khi đọc bình luận này, tôi đã thử GLM-4.5 trong Kilocode
  Cả ngày hôm nay tôi vật lộn với Gemini CLI để bắt một bug khó chịu trong mã compiler mà không được
  Nhưng GLM-4.5 thì chỉ ra đúng vấn đề cốt lõi ngay lập tức
  Gemini CLI cứ nghi ngờ nhầm những hàm không liên quan và lặp đi lặp lại các chỉnh sửa nửa vời, cuối cùng lại là sai hoàn toàn chỗ
  Rõ ràng khả năng tập trung vào vấn đề của GLM-4.5 rất nổi bật
- Tôi cũng có trải nghiệm tốt với GLM-4.5 trong các dự án nhỏ hoặc những yêu cầu ngắn
  Tiếc là tôi cảm thấy hiệu năng giảm dần khi ngữ cảnh dài hơn, nên hiện tại đang dùng nó làm phương án dự phòng cho Sonnet 4
- Tôi đang dùng chế độ architect trong aider
  Tôi dùng kết hợp Deepseek R1 (phụ trách thiết kế cấp cao) + Qwen3 480B (phụ trách coding cấp thấp, hoặc dùng qwen code API)
  Cấu hình này hoạt động cực kỳ tốt
  Nó gần như tự giải quyết được 99.99% vấn đề
  Dù vậy, việc phân vai trong aider vẫn chưa hoàn hảo, nên tôi đang định tự làm một công cụ cải thiện workflow này
- Tôi đồng ý với ý đầu tiên
  Với tôi cũng vậy, Claude hoạt động tốt hơn khi có nhiều ngữ cảnh, còn GLM-4.5 thì cho kết quả không tốt lắm trong tình huống đó
Dòng GLM-4.5 khi tính tổng số/tham số active thì loại trừ embedding và output layer, chỉ tính thêm các lớp MTP
Điều này khớp với con số tôi tính ra (355B A32B)
Dòng GPT OSS thì đưa cả embedding/output vào tổng tham số, còn với tham số active thì chỉ tính output
Dòng Qwen3 thì tính cả embedding và output trong cả tổng lẫn active
Cách tính tham số khác nhau giữa các model, nên tôi thắc mắc vì sao không có chuẩn chung, và cách tính nào hợp lý hơn
- Tổng số tham số liên quan trực tiếp đến yêu cầu bộ nhớ, nên tính toàn bộ tham số vào là hợp lý
  Còn với tham số active, các tham số unembedding được dùng cho mọi lần sinh token, trong khi embedding chỉ dùng một cột, nên cần phản ánh đặc điểm này trong cách tính thì mới hiểu đúng mối quan hệ với băng thông và độ trễ
Tôi nghĩ trong vài năm tới, sẽ có thể coding bằng một model mở chạy cục bộ ở mức Sonnet 4 trên một máy workstation khoảng 2.000 USD
Các model chạy trên cloud hiện nay vẫn hữu ích, nhưng vì đây là công cụ sẽ trở thành cốt lõi của trải nghiệm lập trình viên, tôi muốn có khả năng chạy cục bộ
- Theo tôi thì không phải 2 năm đâu, cuối năm nay là đủ rồi
- Từ góc độ mã nguồn mở thì các model như vậy là bắt buộc
  Nếu không, bản thân việc phát triển mã nguồn mở có thể trở nên không bền vững
  Thậm chí tôi còn kỳ vọng trong 2 năm nữa có thể đưa hiệu năng ngang hoặc hơn Sonnet 4 lên một PC 2.000 USD
Tôi có cảm giác đây là model mở đầu tiên có thể được đem ra so sánh gần như ngang hàng với các model frontier thương mại hiện có
Chỉ nhìn vào hiệu quả tham số thôi cũng thấy phương pháp huấn luyện đã có đổi mới thực sự
Tôi cũng muốn xem kết quả kiểm chứng hiệu năng độc lập trên Aider LLM Leaderboard
Để dành cho những ai như tôi muốn đọc từ phần tóm tắt của bài báo trước, đây là liên kết https://www.arxiv.org/abs/2508.06471
Việc phát hành dưới giấy phép Apache càng khiến điều này tuyệt vời hơn
Tôi thật sự vui khi thấy các model mã nguồn mở tiếp tục thách thức giới hạn
Có quá nhiều điều được quan sát trong bài báo này, đến mức từng phần riêng lẻ cũng có thể viết thành một bài báo độc lập
Đặc biệt, kinh nghiệm về quá trình huấn luyện và thu thập/tổng hợp dữ liệu là cực kỳ phong phú
Có ai biết liệu các tác giả trước đây từng viết những bài báo xuất sắc ở mức tương tự không?
Tôi thấy các chỉ số trên biểu đồ trong bài báo hơi khó hiểu
Ở hình đầu tiên thì điểm swebench của sonnet 4 có vẻ khoảng 53, nhưng ngay sau đó lại gần 70
Giá trị thực tế có vẻ gần 70 hơn tham khảo
Tôi thắc mắc vì sao Qwen3 bị thiếu trong benchmark coding, nhưng lại có mặt ở các benchmark khác
- Qwen3-Coder có trong Section 4.3.2
- Qwen vẫn chưa thành thạo trong việc hiểu codebase quy mô lớn