4 điểm bởi GN⁺ 2025-08-13 | 2 bình luận | Chia sẻ qua WhatsApp
  • GLM-4.5 là mô hình ngôn ngữ lớn Mixture-of-Experts (MoE) mã nguồn mở, nổi bật về tính agentic, suy luận và lập trình
  • Mô hình này được phát triển thông qua huấn luyện nhiều giai đoạn trên 23T token, lặp mô hình chuyên gia và học tăng cường
  • Đạt thành tích hàng đầu trên nhiều benchmark cốt lõi như TAU-Bench, AIME 24, SWE-bench Verified
  • Vẫn mang lại hiệu năng hiệu quả với số lượng tham số ít hơn, tiệm cận hoặc vượt các mô hình thương mại chủ chốt
  • Đã công bố GLM-4.5 cùng phiên bản nhỏ hơn GLM-4.5-Air để phục vụ nghiên cứu và phát triển hệ thống AI

Tổng quan

  • GLM-4.5 là mô hình ngôn ngữ lớn Mixture-of-Experts (MoE) mã nguồn mở với 355 tỷ tham số tổng và 32 tỷ tham số kích hoạt
  • Áp dụng phương thức suy luận lai, hỗ trợ cả chế độ suy nghĩ chuyên sâu (Thinking) và chế độ phản hồi tức thì (Direct Response)
  • Trải qua huấn luyện nhiều giai đoạn trên 23 nghìn tỷ token, lặp mô hình chuyên gia và post-training dựa trên học tăng cường
  • Nhờ đó đạt điểm số cao trong các nhóm tác vụ agentic, suy luận và lập trình (Coding·ARC)
    • Ghi nhận TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2%
  • So với các mô hình cạnh tranh, GLM-4.5 dùng ít tham số hơn nhưng vẫn đứng thứ 3 toàn bộ và thứ 2 theo benchmark agentic
  • Công bố cả hai phiên bản: mô hình lớn GLM-4.5 (355 tỷ tham số) và bản thu gọn GLM-4.5-Air (106 tỷ tham số)
  • Toàn bộ mã nguồn, mô hình và thông tin chi tiết có tại GitHub chính thức (https://github.com/zai-org/GLM-4.5)

Đánh giá hiệu năng LLM: benchmark agentic, suy luận và lập trình

  • GLM-4.5 cùng các mô hình toàn cầu chủ chốt được thử nghiệm trên 12 benchmark tiêu biểu như MMLU-Pro, AIME 24, SWE-Bench Verified
  • GLM-4.5 xếp hạng trung bình tổng thể thứ 3, còn GLM-4.5-Air đứng thứ 6
  • Theo điểm số agentic, mô hình đứng thứ 2 sau OpenAI o3, và cũng đạt hạng 3 ở benchmark lập trình, tiệm cận Claude Sonnet 4
  • GLM-4.5 cho hiệu năng tương đương với một nửa số tham số của DeepSeek-R1 và một phần ba của Kimi K2
  • Xét theo số tham số so với hiệu năng ở SWE-bench Verified, cả GLM-4.5 và GLM-4.5-Air đều nằm trên Pareto Frontier
  • Dữ liệu hiệu năng tính đến ngày 28/7/2025

Giới thiệu

  • Mô hình ngôn ngữ lớn (LLM) đang nhanh chóng tiến hóa từ kho dữ liệu đa dụng truyền thống thành bộ giải quyết vấn đề tổng quát
  • Đích đến của trí tuệ nhân tạo là AGI (Artificial General Intelligence), hướng tới các mô hình có năng lực nhận thức ở mức con người trên nhiều lĩnh vực
  • Để làm được điều đó, cần tích hợp khả năng giải quyết vấn đề phức tạp, khái quát hóa và tự cải thiện
  • Ba năng lực cốt lõi quan trọng cho công việc thực tế và giải quyết các vấn đề chuyên môn phức tạp gồm:
    • Năng lực agentic: tương tác với công cụ và thế giới bên ngoài
    • Suy luận phức hợp: giải quyết bài toán nhiều bước phức tạp như toán học/khoa học
    • Lập trình nâng cao: năng lực thực hiện kỹ thuật phần mềm thực chất
  • Các mô hình thương mại SOTA hiện có (OpenAI, Anthropic) cho thấy hiệu năng chuyên biệt ở từng mảng, nhưng trong số các mô hình mã nguồn mở vẫn còn thiếu một mô hình công khai xuất sắc ở cả ba lĩnh vực

Giới thiệu mô hình GLM-4.5 và GLM-4.5-Air

  • GLM-4.5/GLM-4.5-Air đạt hiệu năng thuộc hàng đầu mã nguồn mở trong cả agentic, suy luận và lập trình
  • Cả hai mô hình đều hỗ trợ chế độ suy luận lai
    • Thinking Mode mạnh về suy luận phức tạp và agentic
    • Non-thinking Mode được tối ưu cho phản hồi nhanh
  • Thành tích chính của GLM-4.5:
    • Agentic: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (vượt các mô hình thương mại cạnh tranh)
    • Suy luận: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
    • Lập trình: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (vượt GPT-4.1 và Gemini-2.5-pro, tiệm cận Claude Sonnet 4)
  • GLM-4.5-Air có 106 tỷ tham số, ngang bằng hoặc vượt Qwen3-235B-A22B và MiniMax-M1 trong nhóm mô hình quy mô 100 tỷ

Tình hình và đặc điểm hiệu năng benchmark

  • Trên 12 benchmark quan trọng, cả GLM-4.5 và GLM-4.5-Air đều ghi nhận thứ hạng cao
  • GLM-4.5 cho hiệu năng đồng đều ở agentic, suy luận và lập trình, đồng thời nổi bật về hiệu quả tham số
  • Đạt vùng hiệu quả cao nhất (Pareto Frontier) khi xét số tham số theo chuẩn SWE-bench Verified
  • Đã tiến hành so sánh hiệu năng chi tiết với nhiều mô hình thương mại và mã nguồn mở

Công bố và hỗ trợ mã nguồn mở

Tiền huấn luyện

Kiến trúc

  • Dòng GLM-4.5 sử dụng kiến trúc Mixture-of-Experts (MoE), giúp tăng mạnh hiệu quả tính toán trong huấn luyện và suy luận
  • Áp dụng loss-free balance routing và sigmoid gating cho các lớp MoE
  • Khác với DeepSeek-V3 và Kimi K2, mô hình giảm chiều rộng (hidden dimension, số expert định tuyến) và tăng chiều sâu (số lớp). Mô hình sâu hơn hiệu quả hơn cho sự phát triển năng lực suy luận
  • Self-Attention, áp dụng Grouped-Query Attention + partial RoPE, với 96 attention head để tạo cấu hình attention head gấp 2.5 lần trên hidden dimension 5120
  • Việc tăng số head không ảnh hưởng đến training loss, nhưng được xác nhận là có tác động tích cực tới suy luận thực tế và hiệu năng benchmark
  • Áp dụng QK-Norm để tăng độ ổn định của giá trị attention logit
  • Cả GLM-4.5 và GLM-4.5-Air đều bổ sung lớp MTP (Multi-Token Prediction) dựa trên lớp MoE để hỗ trợ speculative decoding khi suy luận
  • Trong quá trình thống kê tham số kiến trúc, có tính tham số của lớp MTP nhưng không tính word embedding và lớp đầu ra

Kết luận và hiệu quả kỳ vọng

  • GLM-4.5/GLM-4.5-Air là thế hệ mô hình ngôn ngữ tiếp theo trong thị trường AI mã nguồn mở, hội tụ hiệu năng cao, hiệu quả và tính đa dụng
  • Nổi bật ở năng lực giải quyết bài toán tích hợp nhiều lĩnh vực/độ khó cao, sức cạnh tranh với mô hình thương mại và hiệu quả tham số
  • Có tiềm năng mở rộng đóng góp như một nền tảng đổi mới cho mô hình ngôn ngữ lớn mã nguồn mở trong học thuật, công nghiệp và nghiên cứu của giới phát triển

2 bình luận

 
xguru 2025-08-13

Bên Hacker News cũng vậy, và trên diễn đàn LocalLLaMA của Reddit cũng có đánh giá rằng GLM khá tốt. GLM 4.5 AIR IS SO FKING GOODDD

  • GLM 4.5 Air thật sự rất nhanh, và khả năng gọi tool cũng rất tốt (không phải chạy local, mà được thử qua Open Router)
  • Khi so với GPT-5 Mini, mức độ vượt trội còn tùy vào từng loại tác vụ
  • Các model GLM khác như GLM 4.5V cũng đều tốt
  • Tùy tác vụ cụ thể (ví dụ: viết tiểu thuyết, coding), GLM tự nhiên hơn và ít bị gò bó hơn so với GPT
 
GN⁺ 2025-08-13
Ý kiến trên Hacker News
  • Thật sự rất đáng mừng khi bài báo này đi vào chiều sâu, khác với những bài blog công bố model thường thấy hằng ngày
    Nhóm Zhipu/Tsinghua không chỉ giải thích "cái gì" mà còn trình bày rất chi tiết "làm như thế nào", nên đây là thông tin đặc biệt thú vị với những ai muốn tự xây dựng hoặc ứng dụng các model kiểu này
    Đặc biệt, phương pháp hậu huấn luyện (post-training) ở Mục 3 rất ấn tượng
    Cách tiếp cận tạo riêng các "model chuyên gia" cho suy luận/agent/chat rồi chưng cất (distill) năng lực đó vào model tích hợp cuối cùng rất hấp dẫn
    Đây là một nỗ lực mang tính hệ thống hơn nhiều để xử lý giới hạn của các model đa năng làm đủ thứ nhưng không thật sự xuất sắc ở từng vai trò
    Không chỉ đơn giản là trộn dữ liệu lại với nhau, mà giống như thiết kế để một model tổng quát học từ cả một tập thể chuyên gia
    Một điểm thú vị trong kết quả thí nghiệm RL là áp dụng RL một lần trên toàn bộ ngữ cảnh 64K lại cho kết quả tốt hơn RL theo từng giai đoạn (xem Hình 6)
    Nhiều nhóm có lẽ sẽ nghĩ ngược lại, nhưng kết quả thực tế thì khác
    Và việc dùng template XML cho định dạng function calling là một lựa chọn nhỏ nhưng rất thông minh, giúp tránh được vấn đề escape JSON (xem Hình 4)
    Trong thực tế, việc escape code bên trong JSON cực kỳ phiền phức
    Hiệu năng trên SWE-bench cũng rất đáng nể, đủ sức so với các model lớn hơn nhiều hoặc model thương mại
    Điều tôi tò mò tiếp theo là liệu kiểu huấn luyện lai này có còn hiệu quả trong các môi trường ngoài đánh giá kiểu ARC hay không
    Ví dụ, tôi muốn biết liệu hiệu năng agent có còn được giữ vững trong các workflow phức tạp ngoài thực tế, nơi không có tài liệu API, lỗi xảy ra thường xuyên và đầu vào cũng mơ hồ hay không

    • Tôi cũng tò mò liệu các tinh chỉnh kiểu post/mid-training như thế này có thực sự cần thiết trong việc huấn luyện cho những miền cụ thể vốn đã có dữ liệu và nhãn dồi dào, được kiểm chứng kỹ lưỡng hay không
      Tôi muốn biết liệu chỉ cần một nhóm nhỏ theo kịp stack huấn luyện scale-up hiện đại là đã đủ, hay nếu không dùng các kỹ thuật này thì sẽ tạo ra khác biệt rất lớn

    • Tôi hơi lo là điều này có thể nghe như đang bắt bẻ vô cớ, nhưng văn phong của bài viết mang cảm giác rất đặc trưng của LLM
      Trước đây tôi cũng từng thấy nhận xét tương tự liên kết
      Tôi nghĩ chỉ ra những điều như vậy là cách để giữ môi trường trực tuyến lành mạnh

  • Tôi đã dùng model coding GLM-4.5 khá lâu rồi, và hiệu năng thực sự rất xuất sắc
    Có lúc khi chạy GLM-4.5 trong Octofriend, agent coding mà tôi đang phát triển, tôi còn nhầm nó với Claude 4
    Theo trải nghiệm của tôi, Claude có vẻ mạnh hơn một chút trong những tình huống phải dùng toàn bộ codebase làm ngữ cảnh và phải tính đến tương tác hệ thống
    Trong khi đó, GLM-4.5 có vẻ "thành thật" hơn, không hay làm kiểu sửa luôn cả test để lách vấn đề như Claude thường làm
    Cả hai đều ở trình độ cao, nhưng đã có lúc GLM-4.5 tìm ra bug mà Claude 4 Sonnet hoặc 4.1 Opus không bắt được
    Nếu chỉ xét riêng debug thì Claude nhỉnh hơn một chút về tần suất thắng, nhưng chênh lệch không lớn
    Nếu so với GPT-5 thì cả Claude lẫn GLM đều ổn định hơn
    GPT-5 đôi khi cho ra kết quả thực sự ấn tượng, nhưng một khi đã lệch hướng thì rất khó kéo nó trở lại quỹ đạo bình thường, khá bực bội
    Tham khảo Octofriend: https://github.com/synthetic-lab/octofriend

    • Sau khi đọc bình luận này, tôi đã thử GLM-4.5 trong Kilocode
      Cả ngày hôm nay tôi vật lộn với Gemini CLI để bắt một bug khó chịu trong mã compiler mà không được
      Nhưng GLM-4.5 thì chỉ ra đúng vấn đề cốt lõi ngay lập tức
      Gemini CLI cứ nghi ngờ nhầm những hàm không liên quan và lặp đi lặp lại các chỉnh sửa nửa vời, cuối cùng lại là sai hoàn toàn chỗ
      Rõ ràng khả năng tập trung vào vấn đề của GLM-4.5 rất nổi bật

    • Tôi cũng có trải nghiệm tốt với GLM-4.5 trong các dự án nhỏ hoặc những yêu cầu ngắn
      Tiếc là tôi cảm thấy hiệu năng giảm dần khi ngữ cảnh dài hơn, nên hiện tại đang dùng nó làm phương án dự phòng cho Sonnet 4

    • Tôi đang dùng chế độ architect trong aider
      Tôi dùng kết hợp Deepseek R1 (phụ trách thiết kế cấp cao) + Qwen3 480B (phụ trách coding cấp thấp, hoặc dùng qwen code API)
      Cấu hình này hoạt động cực kỳ tốt
      Nó gần như tự giải quyết được 99.99% vấn đề
      Dù vậy, việc phân vai trong aider vẫn chưa hoàn hảo, nên tôi đang định tự làm một công cụ cải thiện workflow này

    • Tôi đồng ý với ý đầu tiên
      Với tôi cũng vậy, Claude hoạt động tốt hơn khi có nhiều ngữ cảnh, còn GLM-4.5 thì cho kết quả không tốt lắm trong tình huống đó

  • Dòng GLM-4.5 khi tính tổng số/tham số active thì loại trừ embedding và output layer, chỉ tính thêm các lớp MTP
    Điều này khớp với con số tôi tính ra (355B A32B)
    Dòng GPT OSS thì đưa cả embedding/output vào tổng tham số, còn với tham số active thì chỉ tính output
    Dòng Qwen3 thì tính cả embedding và output trong cả tổng lẫn active
    Cách tính tham số khác nhau giữa các model, nên tôi thắc mắc vì sao không có chuẩn chung, và cách tính nào hợp lý hơn

    • Tổng số tham số liên quan trực tiếp đến yêu cầu bộ nhớ, nên tính toàn bộ tham số vào là hợp lý
      Còn với tham số active, các tham số unembedding được dùng cho mọi lần sinh token, trong khi embedding chỉ dùng một cột, nên cần phản ánh đặc điểm này trong cách tính thì mới hiểu đúng mối quan hệ với băng thông và độ trễ
  • Tôi nghĩ trong vài năm tới, sẽ có thể coding bằng một model mở chạy cục bộ ở mức Sonnet 4 trên một máy workstation khoảng 2.000 USD
    Các model chạy trên cloud hiện nay vẫn hữu ích, nhưng vì đây là công cụ sẽ trở thành cốt lõi của trải nghiệm lập trình viên, tôi muốn có khả năng chạy cục bộ

    • Theo tôi thì không phải 2 năm đâu, cuối năm nay là đủ rồi

    • Từ góc độ mã nguồn mở thì các model như vậy là bắt buộc
      Nếu không, bản thân việc phát triển mã nguồn mở có thể trở nên không bền vững
      Thậm chí tôi còn kỳ vọng trong 2 năm nữa có thể đưa hiệu năng ngang hoặc hơn Sonnet 4 lên một PC 2.000 USD

  • Tôi có cảm giác đây là model mở đầu tiên có thể được đem ra so sánh gần như ngang hàng với các model frontier thương mại hiện có
    Chỉ nhìn vào hiệu quả tham số thôi cũng thấy phương pháp huấn luyện đã có đổi mới thực sự
    Tôi cũng muốn xem kết quả kiểm chứng hiệu năng độc lập trên Aider LLM Leaderboard

  • Để dành cho những ai như tôi muốn đọc từ phần tóm tắt của bài báo trước, đây là liên kết https://www.arxiv.org/abs/2508.06471

  • Việc phát hành dưới giấy phép Apache càng khiến điều này tuyệt vời hơn
    Tôi thật sự vui khi thấy các model mã nguồn mở tiếp tục thách thức giới hạn

  • Có quá nhiều điều được quan sát trong bài báo này, đến mức từng phần riêng lẻ cũng có thể viết thành một bài báo độc lập
    Đặc biệt, kinh nghiệm về quá trình huấn luyện và thu thập/tổng hợp dữ liệu là cực kỳ phong phú
    Có ai biết liệu các tác giả trước đây từng viết những bài báo xuất sắc ở mức tương tự không?

  • Tôi thấy các chỉ số trên biểu đồ trong bài báo hơi khó hiểu
    Ở hình đầu tiên thì điểm swebench của sonnet 4 có vẻ khoảng 53, nhưng ngay sau đó lại gần 70
    Giá trị thực tế có vẻ gần 70 hơn tham khảo

  • Tôi thắc mắc vì sao Qwen3 bị thiếu trong benchmark coding, nhưng lại có mặt ở các benchmark khác

    • Qwen3-Coder có trong Section 4.3.2

    • Qwen vẫn chưa thành thạo trong việc hiểu codebase quy mô lớn