- GLM-4.5 là mô hình ngôn ngữ lớn Mixture-of-Experts (MoE) mã nguồn mở, nổi bật về tính agentic, suy luận và lập trình
- Mô hình này được phát triển thông qua huấn luyện nhiều giai đoạn trên 23T token, lặp mô hình chuyên gia và học tăng cường
- Đạt thành tích hàng đầu trên nhiều benchmark cốt lõi như TAU-Bench, AIME 24, SWE-bench Verified
- Vẫn mang lại hiệu năng hiệu quả với số lượng tham số ít hơn, tiệm cận hoặc vượt các mô hình thương mại chủ chốt
- Đã công bố GLM-4.5 cùng phiên bản nhỏ hơn GLM-4.5-Air để phục vụ nghiên cứu và phát triển hệ thống AI
Tổng quan
- GLM-4.5 là mô hình ngôn ngữ lớn Mixture-of-Experts (MoE) mã nguồn mở với 355 tỷ tham số tổng và 32 tỷ tham số kích hoạt
- Áp dụng phương thức suy luận lai, hỗ trợ cả chế độ suy nghĩ chuyên sâu (Thinking) và chế độ phản hồi tức thì (Direct Response)
- Trải qua huấn luyện nhiều giai đoạn trên 23 nghìn tỷ token, lặp mô hình chuyên gia và post-training dựa trên học tăng cường
- Nhờ đó đạt điểm số cao trong các nhóm tác vụ agentic, suy luận và lập trình (Coding·ARC)
- Ghi nhận TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
- So với các mô hình cạnh tranh, GLM-4.5 dùng ít tham số hơn nhưng vẫn đứng thứ 3 toàn bộ và thứ 2 theo benchmark agentic
- Công bố cả hai phiên bản: mô hình lớn GLM-4.5 (355 tỷ tham số) và bản thu gọn GLM-4.5-Air (106 tỷ tham số)
- Toàn bộ mã nguồn, mô hình và thông tin chi tiết có tại GitHub chính thức (https://github.com/zai-org/GLM-4.5)
Đánh giá hiệu năng LLM: benchmark agentic, suy luận và lập trình
- GLM-4.5 cùng các mô hình toàn cầu chủ chốt được thử nghiệm trên 12 benchmark tiêu biểu như MMLU-Pro, AIME 24, SWE-Bench Verified
- GLM-4.5 xếp hạng trung bình tổng thể thứ 3, còn GLM-4.5-Air đứng thứ 6
- Theo điểm số agentic, mô hình đứng thứ 2 sau OpenAI o3, và cũng đạt hạng 3 ở benchmark lập trình, tiệm cận Claude Sonnet 4
- GLM-4.5 cho hiệu năng tương đương với một nửa số tham số của DeepSeek-R1 và một phần ba của Kimi K2
- Xét theo số tham số so với hiệu năng ở SWE-bench Verified, cả GLM-4.5 và GLM-4.5-Air đều nằm trên Pareto Frontier
- Dữ liệu hiệu năng tính đến ngày 28/7/2025
Giới thiệu
- Mô hình ngôn ngữ lớn (LLM) đang nhanh chóng tiến hóa từ kho dữ liệu đa dụng truyền thống thành bộ giải quyết vấn đề tổng quát
- Đích đến của trí tuệ nhân tạo là AGI (Artificial General Intelligence), hướng tới các mô hình có năng lực nhận thức ở mức con người trên nhiều lĩnh vực
- Để làm được điều đó, cần tích hợp khả năng giải quyết vấn đề phức tạp, khái quát hóa và tự cải thiện
- Ba năng lực cốt lõi quan trọng cho công việc thực tế và giải quyết các vấn đề chuyên môn phức tạp gồm:
- Năng lực agentic: tương tác với công cụ và thế giới bên ngoài
- Suy luận phức hợp: giải quyết bài toán nhiều bước phức tạp như toán học/khoa học
- Lập trình nâng cao: năng lực thực hiện kỹ thuật phần mềm thực chất
- Các mô hình thương mại SOTA hiện có (OpenAI, Anthropic) cho thấy hiệu năng chuyên biệt ở từng mảng, nhưng trong số các mô hình mã nguồn mở vẫn còn thiếu một mô hình công khai xuất sắc ở cả ba lĩnh vực
Giới thiệu mô hình GLM-4.5 và GLM-4.5-Air
- GLM-4.5/GLM-4.5-Air đạt hiệu năng thuộc hàng đầu mã nguồn mở trong cả agentic, suy luận và lập trình
- Cả hai mô hình đều hỗ trợ chế độ suy luận lai
- Thinking Mode mạnh về suy luận phức tạp và agentic
- Non-thinking Mode được tối ưu cho phản hồi nhanh
- Thành tích chính của GLM-4.5:
- Agentic: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (vượt các mô hình thương mại cạnh tranh)
- Suy luận: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- Lập trình: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (vượt GPT-4.1 và Gemini-2.5-pro, tiệm cận Claude Sonnet 4)
- GLM-4.5-Air có 106 tỷ tham số, ngang bằng hoặc vượt Qwen3-235B-A22B và MiniMax-M1 trong nhóm mô hình quy mô 100 tỷ
Tình hình và đặc điểm hiệu năng benchmark
- Trên 12 benchmark quan trọng, cả GLM-4.5 và GLM-4.5-Air đều ghi nhận thứ hạng cao
- GLM-4.5 cho hiệu năng đồng đều ở agentic, suy luận và lập trình, đồng thời nổi bật về hiệu quả tham số
- Đạt vùng hiệu quả cao nhất (Pareto Frontier) khi xét số tham số theo chuẩn SWE-bench Verified
- Đã tiến hành so sánh hiệu năng chi tiết với nhiều mô hình thương mại và mã nguồn mở
Công bố và hỗ trợ mã nguồn mở
- Các mô hình GLM-4.5/GLM-4.5-Air được công bố trên Z.ai, BigModel.cn và cả Huggingface (https://huggingface.co/zai-org/GLM-4.5)
- Để bảo đảm khả năng tái lập benchmark, bộ công cụ đánh giá (https://github.com/zai-org/glm-simple-evals) cũng được cung cấp dưới dạng mã nguồn mở
Tiền huấn luyện
Kiến trúc
- Dòng GLM-4.5 sử dụng kiến trúc Mixture-of-Experts (MoE), giúp tăng mạnh hiệu quả tính toán trong huấn luyện và suy luận
- Áp dụng loss-free balance routing và sigmoid gating cho các lớp MoE
- Khác với DeepSeek-V3 và Kimi K2, mô hình giảm chiều rộng (hidden dimension, số expert định tuyến) và tăng chiều sâu (số lớp). Mô hình sâu hơn hiệu quả hơn cho sự phát triển năng lực suy luận
- Ở Self-Attention, áp dụng Grouped-Query Attention + partial RoPE, với 96 attention head để tạo cấu hình attention head gấp 2.5 lần trên hidden dimension 5120
- Việc tăng số head không ảnh hưởng đến training loss, nhưng được xác nhận là có tác động tích cực tới suy luận thực tế và hiệu năng benchmark
- Áp dụng QK-Norm để tăng độ ổn định của giá trị attention logit
- Cả GLM-4.5 và GLM-4.5-Air đều bổ sung lớp MTP (Multi-Token Prediction) dựa trên lớp MoE để hỗ trợ speculative decoding khi suy luận
- Trong quá trình thống kê tham số kiến trúc, có tính tham số của lớp MTP nhưng không tính word embedding và lớp đầu ra
Kết luận và hiệu quả kỳ vọng
- GLM-4.5/GLM-4.5-Air là thế hệ mô hình ngôn ngữ tiếp theo trong thị trường AI mã nguồn mở, hội tụ hiệu năng cao, hiệu quả và tính đa dụng
- Nổi bật ở năng lực giải quyết bài toán tích hợp nhiều lĩnh vực/độ khó cao, sức cạnh tranh với mô hình thương mại và hiệu quả tham số
- Có tiềm năng mở rộng đóng góp như một nền tảng đổi mới cho mô hình ngôn ngữ lớn mã nguồn mở trong học thuật, công nghiệp và nghiên cứu của giới phát triển
2 bình luận
Bên Hacker News cũng vậy, và trên diễn đàn LocalLLaMA của Reddit cũng có đánh giá rằng GLM khá tốt. GLM 4.5 AIR IS SO FKING GOODDD
Ý kiến trên Hacker News
Thật sự rất đáng mừng khi bài báo này đi vào chiều sâu, khác với những bài blog công bố model thường thấy hằng ngày
Nhóm Zhipu/Tsinghua không chỉ giải thích "cái gì" mà còn trình bày rất chi tiết "làm như thế nào", nên đây là thông tin đặc biệt thú vị với những ai muốn tự xây dựng hoặc ứng dụng các model kiểu này
Đặc biệt, phương pháp hậu huấn luyện (post-training) ở Mục 3 rất ấn tượng
Cách tiếp cận tạo riêng các "model chuyên gia" cho suy luận/agent/chat rồi chưng cất (distill) năng lực đó vào model tích hợp cuối cùng rất hấp dẫn
Đây là một nỗ lực mang tính hệ thống hơn nhiều để xử lý giới hạn của các model đa năng làm đủ thứ nhưng không thật sự xuất sắc ở từng vai trò
Không chỉ đơn giản là trộn dữ liệu lại với nhau, mà giống như thiết kế để một model tổng quát học từ cả một tập thể chuyên gia
Một điểm thú vị trong kết quả thí nghiệm RL là áp dụng RL một lần trên toàn bộ ngữ cảnh 64K lại cho kết quả tốt hơn RL theo từng giai đoạn (xem Hình 6)
Nhiều nhóm có lẽ sẽ nghĩ ngược lại, nhưng kết quả thực tế thì khác
Và việc dùng template XML cho định dạng function calling là một lựa chọn nhỏ nhưng rất thông minh, giúp tránh được vấn đề escape JSON (xem Hình 4)
Trong thực tế, việc escape code bên trong JSON cực kỳ phiền phức
Hiệu năng trên SWE-bench cũng rất đáng nể, đủ sức so với các model lớn hơn nhiều hoặc model thương mại
Điều tôi tò mò tiếp theo là liệu kiểu huấn luyện lai này có còn hiệu quả trong các môi trường ngoài đánh giá kiểu ARC hay không
Ví dụ, tôi muốn biết liệu hiệu năng agent có còn được giữ vững trong các workflow phức tạp ngoài thực tế, nơi không có tài liệu API, lỗi xảy ra thường xuyên và đầu vào cũng mơ hồ hay không
Tôi cũng tò mò liệu các tinh chỉnh kiểu post/mid-training như thế này có thực sự cần thiết trong việc huấn luyện cho những miền cụ thể vốn đã có dữ liệu và nhãn dồi dào, được kiểm chứng kỹ lưỡng hay không
Tôi muốn biết liệu chỉ cần một nhóm nhỏ theo kịp stack huấn luyện scale-up hiện đại là đã đủ, hay nếu không dùng các kỹ thuật này thì sẽ tạo ra khác biệt rất lớn
Tôi hơi lo là điều này có thể nghe như đang bắt bẻ vô cớ, nhưng văn phong của bài viết mang cảm giác rất đặc trưng của LLM
Trước đây tôi cũng từng thấy nhận xét tương tự liên kết
Tôi nghĩ chỉ ra những điều như vậy là cách để giữ môi trường trực tuyến lành mạnh
Tôi đã dùng model coding GLM-4.5 khá lâu rồi, và hiệu năng thực sự rất xuất sắc
Có lúc khi chạy GLM-4.5 trong Octofriend, agent coding mà tôi đang phát triển, tôi còn nhầm nó với Claude 4
Theo trải nghiệm của tôi, Claude có vẻ mạnh hơn một chút trong những tình huống phải dùng toàn bộ codebase làm ngữ cảnh và phải tính đến tương tác hệ thống
Trong khi đó, GLM-4.5 có vẻ "thành thật" hơn, không hay làm kiểu sửa luôn cả test để lách vấn đề như Claude thường làm
Cả hai đều ở trình độ cao, nhưng đã có lúc GLM-4.5 tìm ra bug mà Claude 4 Sonnet hoặc 4.1 Opus không bắt được
Nếu chỉ xét riêng debug thì Claude nhỉnh hơn một chút về tần suất thắng, nhưng chênh lệch không lớn
Nếu so với GPT-5 thì cả Claude lẫn GLM đều ổn định hơn
GPT-5 đôi khi cho ra kết quả thực sự ấn tượng, nhưng một khi đã lệch hướng thì rất khó kéo nó trở lại quỹ đạo bình thường, khá bực bội
Tham khảo Octofriend: https://github.com/synthetic-lab/octofriend
Sau khi đọc bình luận này, tôi đã thử GLM-4.5 trong Kilocode
Cả ngày hôm nay tôi vật lộn với Gemini CLI để bắt một bug khó chịu trong mã compiler mà không được
Nhưng GLM-4.5 thì chỉ ra đúng vấn đề cốt lõi ngay lập tức
Gemini CLI cứ nghi ngờ nhầm những hàm không liên quan và lặp đi lặp lại các chỉnh sửa nửa vời, cuối cùng lại là sai hoàn toàn chỗ
Rõ ràng khả năng tập trung vào vấn đề của GLM-4.5 rất nổi bật
Tôi cũng có trải nghiệm tốt với GLM-4.5 trong các dự án nhỏ hoặc những yêu cầu ngắn
Tiếc là tôi cảm thấy hiệu năng giảm dần khi ngữ cảnh dài hơn, nên hiện tại đang dùng nó làm phương án dự phòng cho Sonnet 4
Tôi đang dùng chế độ architect trong aider
Tôi dùng kết hợp Deepseek R1 (phụ trách thiết kế cấp cao) + Qwen3 480B (phụ trách coding cấp thấp, hoặc dùng qwen code API)
Cấu hình này hoạt động cực kỳ tốt
Nó gần như tự giải quyết được 99.99% vấn đề
Dù vậy, việc phân vai trong aider vẫn chưa hoàn hảo, nên tôi đang định tự làm một công cụ cải thiện workflow này
Tôi đồng ý với ý đầu tiên
Với tôi cũng vậy, Claude hoạt động tốt hơn khi có nhiều ngữ cảnh, còn GLM-4.5 thì cho kết quả không tốt lắm trong tình huống đó
Dòng GLM-4.5 khi tính tổng số/tham số active thì loại trừ embedding và output layer, chỉ tính thêm các lớp MTP
Điều này khớp với con số tôi tính ra (355B A32B)
Dòng GPT OSS thì đưa cả embedding/output vào tổng tham số, còn với tham số active thì chỉ tính output
Dòng Qwen3 thì tính cả embedding và output trong cả tổng lẫn active
Cách tính tham số khác nhau giữa các model, nên tôi thắc mắc vì sao không có chuẩn chung, và cách tính nào hợp lý hơn
Còn với tham số active, các tham số unembedding được dùng cho mọi lần sinh token, trong khi embedding chỉ dùng một cột, nên cần phản ánh đặc điểm này trong cách tính thì mới hiểu đúng mối quan hệ với băng thông và độ trễ
Tôi nghĩ trong vài năm tới, sẽ có thể coding bằng một model mở chạy cục bộ ở mức Sonnet 4 trên một máy workstation khoảng 2.000 USD
Các model chạy trên cloud hiện nay vẫn hữu ích, nhưng vì đây là công cụ sẽ trở thành cốt lõi của trải nghiệm lập trình viên, tôi muốn có khả năng chạy cục bộ
Theo tôi thì không phải 2 năm đâu, cuối năm nay là đủ rồi
Từ góc độ mã nguồn mở thì các model như vậy là bắt buộc
Nếu không, bản thân việc phát triển mã nguồn mở có thể trở nên không bền vững
Thậm chí tôi còn kỳ vọng trong 2 năm nữa có thể đưa hiệu năng ngang hoặc hơn Sonnet 4 lên một PC 2.000 USD
Tôi có cảm giác đây là model mở đầu tiên có thể được đem ra so sánh gần như ngang hàng với các model frontier thương mại hiện có
Chỉ nhìn vào hiệu quả tham số thôi cũng thấy phương pháp huấn luyện đã có đổi mới thực sự
Tôi cũng muốn xem kết quả kiểm chứng hiệu năng độc lập trên Aider LLM Leaderboard
Để dành cho những ai như tôi muốn đọc từ phần tóm tắt của bài báo trước, đây là liên kết https://www.arxiv.org/abs/2508.06471
Việc phát hành dưới giấy phép Apache càng khiến điều này tuyệt vời hơn
Tôi thật sự vui khi thấy các model mã nguồn mở tiếp tục thách thức giới hạn
Có quá nhiều điều được quan sát trong bài báo này, đến mức từng phần riêng lẻ cũng có thể viết thành một bài báo độc lập
Đặc biệt, kinh nghiệm về quá trình huấn luyện và thu thập/tổng hợp dữ liệu là cực kỳ phong phú
Có ai biết liệu các tác giả trước đây từng viết những bài báo xuất sắc ở mức tương tự không?
Tôi thấy các chỉ số trên biểu đồ trong bài báo hơi khó hiểu
Ở hình đầu tiên thì điểm swebench của sonnet 4 có vẻ khoảng 53, nhưng ngay sau đó lại gần 70
Giá trị thực tế có vẻ gần 70 hơn tham khảo
Tôi thắc mắc vì sao Qwen3 bị thiếu trong benchmark coding, nhưng lại có mặt ở các benchmark khác
Qwen3-Coder có trong Section 4.3.2
Qwen vẫn chưa thành thạo trong việc hiểu codebase quy mô lớn