GLM-5.2 vươn lên dẫn đầu trong nhóm mô hình open-weights trên Artificial Analysis
(artificialanalysis.ai)- GLM-5.2 của Z.ai đạt 51 điểm trên Artificial Analysis Intelligence Index v4.1, vươn lên vị trí dẫn đầu trong nhóm mô hình open-weights, đồng thời cũng nằm trên Pareto frontier về hiệu năng so với chi phí
- Kích thước mô hình vẫn là 744B tổng / 40B tham số hoạt động như GLM-5.1, nhưng điểm số cao hơn 11 điểm, vượt MiniMax-M3, DeepSeek V4 Pro(max) và Kimi K2.6
- Mức cải thiện xuất hiện ở phần lớn các bài đánh giá, đặc biệt nổi bật ở các chỉ số suy luận khoa học như CritPt và HLE
- Trên GDPval-AA v2, mô hình đạt 1524 điểm, vượt MiniMax-M3 và DeepSeek V4 Pro(max), đồng thời ở mức gần tương đương GPT-5.5(xhigh reasoning)
- Dù dùng 43k output tokens cho mỗi tác vụ nên hiệu quả token không cao, chi phí mỗi tác vụ của mô hình vẫn thuộc nhóm thấp nhất trong các mô hình có cùng mức độ thông minh
Dẫn đầu nhóm open-weights trên Intelligence Index v4.1
- GLM-5.2 đạt 51 điểm trên Artificial Analysis Intelligence Index v4.1, đứng số 1 trong nhóm mô hình open-weights
- Điểm số của các mô hình open-weights đáng chú ý như sau
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2 có quy mô 744B tổng tham số / 40B tham số hoạt động giống GLM-5.1, nhưng điểm Intelligence Index v4.1 cao hơn 11 điểm
Cải thiện hiệu năng theo từng bài đánh giá
- So với GLM-5.1, GLM-5.2 tăng điểm ở phần lớn các bài đánh giá
- Đặc biệt, mức cải thiện rất lớn ở các bài đánh giá liên quan đến suy luận khoa học
- CritPt: +16 điểm, 21%
- HLE: +12 điểm, 40%
- GPQA Diamond: +3 điểm, 89%
- Mô hình cũng cải thiện đồng đều ở các bài đánh giá khác
- AA-LCR: +9 điểm, 71%
- tau3 banking: +15 điểm, 27%
- SciCode: +7 điểm, 50%
- TerminalBench v2.1: +16 điểm, 78%
GDPval-AA v2 và hiệu năng tác nhân
- GLM-5.2 đạt 1524 điểm trên GDPval-AA v2, thước đo hiệu năng tác nhân trong thế giới thực
- Đây là điểm số cao nhất khi so giữa các mô hình open-weights
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- Kết quả này về thực chất ở mức gần tương đương GPT-5.5(xhigh reasoning) với 1514 điểm
- GDPval-AA v2 thay đổi cách đánh giá so với GDPval-AA trước đó
- Đặt đường cơ sở Elo ở mức hiệu năng con người 1000
- Áp dụng hội đồng luân phiên của frontier-model judge
- Tăng giới hạn lượt từ 100 lên 250 để xử lý các quỹ đạo tác nhân dài hơn
Chi phí, giá và lượng token sử dụng
- GLM-5.2 nằm trên Pareto frontier trong biểu đồ Intelligence vs Cost per Task, và thuộc nhóm có chi phí mỗi tác vụ thấp nhất trong các mô hình cùng mức độ thông minh
- Chi phí mỗi tác vụ cao hơn GLM-5.1, nhưng xét theo điểm Intelligence cao hơn thì vị thế chi phí/hiệu năng thuận lợi hơn
- GLM-5.2: khoảng $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- Giá API first-party vẫn ở cùng mức với GLM-5.1
- $1.4 cho mỗi 1M input tokens
- $4.4 cho mỗi 1M output tokens
- $0.26 cho mỗi 1M cache hit tokens
- Mô hình sử dụng 43k output tokens cho mỗi tác vụ trong Intelligence Index, trong đó 37k là reasoning tokens
- Lượng output tokens sử dụng thuộc nhóm cao hơn so với các mô hình open-weights lớn khác
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- Trong nhóm mô hình open-weights có cùng mức độ thông minh, hiệu quả token khá thấp, và không nằm trong góc phần tư hấp dẫn nhất trên biểu đồ Intelligence vs Output Tokens
Chi tiết mô hình và khả năng truy cập
- Giấy phép của GLM-5.2 là MIT
- Context window là 1M tokens, tăng từ 200K của GLM-5.1
- Có thể sử dụng qua API first-party của Z.ai và nhiều nhà cung cấp third-party
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2 đạt 4 điểm trên AA-Omniscience Index, cao hơn 2 điểm của GLM-5.1
- Độ chính xác là 25.1%, cao hơn 24.2% của GLM-5.1
- Tỷ lệ hallucination là 28.1%, thấp hơn 29.4% của GLM-5.1
- Tỷ lệ attempt là 47%, không đổi
- Có thể xem phần so sánh mô hình tại trang GLM-5.2 của Artificial Analysis
-
1 bình luận
Ý kiến Hacker News
Đây là một bước tiến khá tốt và có vẻ đã tiến rất gần tuyến đầu, nhưng giờ tôi muốn họ tập trung hơn vào hiệu quả suy luận
Tôi dùng một bài test yêu cầu viết một thư viện đánh giá biểu thức đơn giản bằng Nim để đánh giá LLM, và GLM 5.2 xhigh đã suy luận hơn 15 phút và dùng khoảng 45k token trước khi viết file đầu tiên
Theo https://artificialanalysis.ai/#output-tokens, GPT 5.5 xhigh trung bình tổng cộng 16k token, high là 10k, Fable 5 là 33k, Opus 4.8 là 41k, còn GLM 5.2 là 42k, nên hiệu quả suy luận của GPT 5.5 vượt trội áp đảo
Nếu quy đổi sang chi phí thực tế cho mỗi yêu cầu thì GLM 5.2 có thể rẻ hơn GPT 5.5/Opus 4.8, nhưng với nhiều người thì tốc độ cũng quan trọng
Nếu muốn mức tiêu thụ token hợp lý thì nên chạy GLM 5.2 ở High; trong đa số tác vụ, hạ từ Max xuống High chỉ làm giảm chất lượng rất ít nhưng giảm lượng token đi 2~2.5 lần
Rốt cuộc GLM 5.2 giống như em trai của Opus 4.8 nhưng rẻ hơn rất nhiều, và cũng có người đùa rằng thật khó tin Opus lại hoàn toàn không được dùng trong quá trình huấn luyện mô hình này
Cá nhân tôi thấy tổ hợp GLM + OpenCode mình dùng còn tốt hơn nhiều so với Claude Code + Opus mà công ty bắt phải dùng, mắc các lỗi kiểu người mới trên StackOverflow ít hơn hẳn và cũng làm theo chỉ thị tốt hơn
Trải nghiệm người dùng với harness cũng tốt hơn nhiều vì nó không phớt lờ cấu hình, không tự ý thay đổi, cũng không báo cáo sai, và có vẻ hào lũy của Anthropic đang biến mất rất nhanh
Cuối cùng tôi phải dừng nó lại và bảo “cứ viết code trước đã, rồi giải quyết trong lúc làm tiếp”, cảm giác như chứng bí ý tưởng của nhà văn cũng tồn tại ở LLM
Theo Artificial Analysis, K2.7 Code có mức thông minh tương tự K2.6 nhưng chỉ dùng một nửa số token đầu ra để đạt cùng cấp độ
Tôi đã viết một script xếp hạng mô hình dựa trên codingindex của Artificial Analysis và dùng nó hằng ngày
Nó lấy JSON từ trang bảng chính rồi chỉ parse các trường liên quan đến coding mà tôi quan tâm; trước đây còn có mailing list nhưng vì không mấy hứng thú nên tôi đã tắt nó
Ở một số kết quả hiện tại, Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max... đang nằm trong nhóm đầu, và có thể chạy bằng
$ curl day50.dev/art-analysis.sh | bashKho lưu trữ là https://github.com/day50-dev/aa-eval-email, và hiện tại các mô hình mở có vẻ đang chậm hơn khoảng 4~7 tháng tùy cách đo; nếu xu hướng này tiếp diễn thì trước năm mới có thể sẽ có mô hình trọng số mở làm được các tác vụ ở mức Claude Fable 5
Nó xếp Gemma 4 31B cao hơn DeepSeek V4 Flash, nhưng với tư cách người đã dùng cả hai cho nhiều tác vụ code khác nhau thì lần nào tôi cũng sẽ chọn DeepSeek
Tôi không hiểu vì sao nhiều người không bàn về chuyện này hơn
Về cơ bản nó đang cung cấp chất lượng cỡ Opus 4.7 với mức giá phi lý, có nơi còn cho token không giới hạn với 50 USD/tháng, và cũng có nơi lấy phí API thấp hơn 3 lần so với ZAI API chính thức
Ngay cả ZAI API chính thức cũng rẻ hơn Opus khoảng 10 lần, nên đây là đòn giáng mạnh vào Anthropic/OpenAI/Google và là chiến thắng lớn cho phần còn lại của thế giới; với mô hình mở thì giá và tốc độ API chính thức không phải là tất cả
GLM 5.2 có thể gần với Opus 4.7, nhưng nếu mỗi lần kiểm tra lại tôi vẫn thấy nó chỉ tối ưu cho benchmark chứ chưa tới tầm GPT hay Opus, thì tôi sẽ bắt đầu coi đây như kiểu “sói đến rồi”
Họ thường cấu hình mô hình sai hoặc lén lượng tử hóa nó, và trong một thời gian đã có chênh lệch 20~40% giữa Kimi trên API chính thức và phần lớn nhà cung cấp bên thứ ba
Tôi đã thắc mắc API nào rẻ hơn 3 lần, rồi xác nhận mức giá 8-bit của Croft là $0.50/$0.08/$2.20
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
Ngay cả việc tìm cách chạy các mô hình này cũng khó, không có trình cài đặt, và nếu bạn không phải 1% thực sự quan tâm thì sẽ đi tìm hướng dẫn rồi lại phát hiện nó đã lỗi thời
So với việc “cài Claude Code rồi trả 100 USD mỗi tháng”, đường cong học tập dốc hơn quá nhiều, và tiết kiệm 50 USD/tháng là không đáng kể so với công sức đó
Hoàn toàn là vì nó được thiết kế để phù hợp với những người không phải kỹ sư trong môi trường doanh nghiệp
Trên benchmark lập trình của Artificial Analysis, GLM 5.1 high khá gần với GPT 5.5 xhigh về chi phí chạy, còn GPT 5.5 medium thì rẻ hơn rất nhiều
So với GPT 5.5 medium, GLM 5.1 xhigh có chi phí gấp đôi nhưng mức độ thông minh chỉ bằng một nửa, nên ngay cả khi chưa có GLM 5.2 thì khoảng cách cần lấp đầy vẫn còn lớn
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE cũng khá khớp với trải nghiệm cá nhân của tôi, nên tôi nghi ngờ việc Internet đang ồn ào về các mô hình mở là chính đáng đến mức nào
Nếu muốn một mô hình gần với tuyến đầu, hiện tại có vẻ thành thật hơn khi nói đến Opus, Fable, và GPT5.5
https://z.ai/blog/glm-5.2
Các gói đăng ký của OpenAI, Google, Anthropic không có tùy chọn riêng tư như vậy, và nhìn vào liên kết thì cũng thú vị khi GPT 5.5 đứng thứ 7 trong Cursor CLI nhưng lại vươn lên thứ 3 trong Codex CLI
Vì các mô hình mở chưa được thử trong Codex nên khó khẳng định đó là benchmark mô hình thuần túy, và cũng có thể các mô hình mở yếu với harness tác tử SWE, nhưng có vẻ đó không phải lời giải thích đơn giản nhất
Theo thước đo đó, GPT-5.5 vẫn là vua về hiệu quả token, tốc độ, và mức độ thông minh trên mỗi đô la
https://deepswe.datacurve.ai/
Fable 5 cũng tốt, nhưng tôi vẫn chưa thấy GPT-5.6
Nó dễ đắt hơn DeepSeek V4 gấp 4 lần, nhưng tôi không cảm thấy kết quả tốt hơn tương xứng, và khi xem lại sau đó bằng GPT 5.5 trong Codex thì cũng còn khá nhiều chỗ bừa bộn
Xét về hiệu quả trên chi phí, MiniMax M3 tốt hơn
Điều đáng ngạc nhiên là GLM 5.1/5.2 không phải mô hình thị giác
Điều này giờ khá hiếm, vì các mô hình OpenAI/Anthropic/Gemini đều đã nhận hình ảnh, và các dòng trọng số mở lớn như Gemma 4, Qwen 3.6, Kimi 2.x cũng hỗ trợ đầu vào hình ảnh
GLM là mô hình có điểm cao ở các tác vụ như thiết kế web, nên nếu có đầu vào hình ảnh thì sẽ hữu ích cho việc nhận ảnh chụp màn hình rồi xuất HTML+CSS, và đây rõ ràng là một khoảng trống
Không nhất thiết phải cần “một mô hình làm mọi thứ”
Gemma 31B làm tác vụ thị giác khá tốt, và 1500 yêu cầu mỗi ngày thì thực tế gần như không giới hạn
Có thể sẽ hữu ích cho các trường hợp như công việc UX/UI, nhưng ngoài ra thì không quá cần, và ngay cả các mô hình tuyến đầu cũng không thể tái tạo hình ảnh thật sự, theo kinh nghiệm cá nhân của tôi chúng chỉ xấp xỉ được mà thôi
Nếu là mô hình thị giác thì có lẽ sẽ hữu ích hơn
Tôi đã dùng mô hình này khá nhiều trong 24 giờ qua và xác nhận rằng nó khá có năng lực
Tuy vậy, nó hơi dài dòng, và tôi đã thấy trong nhật ký suy nghĩ nó tự rà soát lại 3–4 lần trước khi chốt hướng đi; khả năng xử lý các yêu cầu phức tạp và trừu tượng cũng chưa bằng GPT5.5
Dù vậy, tôi vẫn có thể khuyến nghị cho đa số mọi người tổ hợp đăng ký Z.AI + đăng ký OpenAI 20 đô la/tháng, và quy trình để GLM viết rồi GPT review/debug chỉ kém một chút so với việc chỉ dùng GPT với gói 200 đô la/tháng, trong khi lại cho cảm giác gần như không giới hạn
Có lẽ đó là lý do nó dài dòng
Nếu biết lập trình thì giờ đã đến giai đoạn có thể cung cấp đủ thông tin để mô hình làm điều mình cần
Ngược lại, viết lách có quá nhiều sắc thái nên chúng vẫn còn gặp khó, dù thực tế đang tiến bộ dần
Mỗi ngày một lần tôi dán code vào Claude Sonnet miễn phí để biến nó thành thứ thực sự đọc được
Đúng là Opus 4.8 là tác tử lập trình mạnh hơn, thành công ở những chỗ DeepSeek 4.0 hay Kimi 2.7 chao đảo và thất bại, nhưng lối hoa mỹ tu từ trong cách nói chuyện của nó ngày càng gây khó chịu, và đôi khi cho cảm giác cố tình nói mơ hồ hoặc giữ lại sự thật cho đến khi bị ép hỏi, khiến tôi phải suy nghĩ lại về việc tiếp tục đăng ký
GLM 5.2 là mô hình đầu tiên trong số các mô hình chúng tôi đã thử có đẳng cấp rõ ràng ngang bằng hoặc tốt hơn Opus 4.6
Tuy vậy, so với các benchmark khác dùng phương pháp thử nghiệm mong manh, phía chúng tôi đánh giá GLM 5.2 và phần lớn các mô hình Trung Quốc thấp hơn một chút
Dữ liệu có tại https://gertlabs.com/rankings
Tôi không rành cách chạy những mô hình này, nhưng khá tò mò xem thời điểm các công ty cỡ vừa và tập đoàn lớn bắt đầu mua phần cứng để đặt mô hình tại chỗ đã gần đến mức nào
Dù đắt và không giỏi bằng các mô hình tuyến đầu, lợi thế về quyền riêng tư và quyền kiểm soát là khá lớn
Việc này thực sự tăng tốc từ thời Kimi K2, nhưng mua và lưu trữ loại phần cứng đó cũng cần thời gian
Không phải công ty nào cũng muốn, hoặc về mặt pháp lý cũng được phép, gửi bí mật kinh doanh cho OpenAI hay Anthropic
Vào thời các mô hình thị giác tốt như AlexNet xuất hiện, đặc biệt cả trong OCR, doanh nghiệp cũng phải chọn giữa đám mây và tự lưu trữ GPU
Cuối cùng vấn đề là mẫu hình sử dụng: nhu cầu dồn vào một số khung giờ làm việc nhất định, còn thời gian khác thì GPU bị bỏ không
Với các tác vụ nhạy cảm với độ trễ, đây là bài toán đánh đổi đã tồn tại hàng chục năm, không phải vấn đề riêng của LLM
Có lẽ phải là một công ty tầm trung với quyết tâm khá lớn mới làm được
Việc tìm kiếm lượng văn bản khổng lồ trong khâu công bố chứng cứ không cần tới các mô hình hàng đầu, nhưng lại đòi hỏi tính bảo mật tuyệt đối
Trên r/localllama có khá nhiều luật sư khoe các bản dựng đa GPU, và đúng lúc họ cũng có sẵn ngân sách cần thiết cho việc đó
Họ nói rằng “GLM-5.2 nằm trên đường biên Pareto về chi phí trên mỗi tác vụ so với mức độ thông minh, và có chi phí trên mỗi tác vụ thấp nhất trong số các mô hình cùng mức độ thông minh”, nhưng lại ghi GLM-5.2 khoảng $0.46 mỗi tác vụ, trong khi GLM-5.1 là $0.25, Kimi K2.6 là $0.31, MiniMax-M3 là $0.18, DeepSeek V4 Pro max là $0.05, nên tôi tự hỏi có phải mình đã bỏ sót điều gì không
Thay vì chọn các mô hình khác có điểm đo trí tuệ gần với 5.2, có vẻ họ đã lấy vài mô hình mở thấp hơn
Chi phí suy luận sẽ được đo tốt hơn bằng tổng số tham số và số tham số được kích hoạt
Tôi đã thêm GLM 5.2 vào benchmark dựa trên lỗi của Mythos sau khi xem bài viết, và nó tốt hơn GLM 5.1 nhưng vẫn thua nhiều mô hình khác; xét trực diện nhất thì có lẽ nên so với Qwen 3.7 Max
Các mô hình mở nhỏ hơn có thể tự lưu trữ như Gemma 4 và Qwen 3.6 cũng tìm được cùng số lỗi là 3 trên 9, còn GLM 5.2 xác định đúng vị trí của một lỗi nhưng lại hiểu hơi sai bản thân lỗi đó nên chỉ được điểm một phần
Kimi K2.7-code được thêm vào cùng lần chạy đó cũng thể hiện kém một cách nhất quán so với 2.6, và trong benchmark cụ thể này có những mô hình vừa tốt hơn vừa rẻ hơn
https://swelljoe.com/post/will-it-mythos/
Benchmark nhỏ này không chứng minh được điều gì dứt khoát, nhưng vẫn hữu ích để nhanh chóng ước lượng xem mô hình có thể suy luận về những vấn đề khá phức tạp trong mã hay không