Ra mắt GLM-5: mô hình hướng tới kỹ thuật hệ thống phức tạp và các tác vụ agent dài hạn

(z.ai)

6 điểm bởi GN⁺ 2026-02-12 | 4 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ lớn tăng cường hiệu quả và khả năng thực hiện tác vụ dài hạn của AI
Mở rộng lên 744 tỷ tham số (40 tỷ hoạt động) so với thế hệ trước, và tăng dữ liệu tiền huấn luyện lên 28,5 nghìn tỷ token
Tích hợp DeepSeek Sparse Attention (DSA) để duy trì khả năng xử lý ngữ cảnh dài đồng thời giảm chi phí triển khai
Nâng cao hiệu quả huấn luyện thông qua hạ tầng học tăng cường bất đồng bộ slime mới, đồng thời đạt hiệu năng hàng đầu trong nhiều benchmark
Được công bố mã nguồn mở, có thể truy cập trên Hugging Face, ModelScope, nền tảng Z.ai và tương thích với Claude Code và OpenClaw

Tổng quan về GLM-5

GLM-5 là mô hình được thiết kế nhằm thực hiện kỹ thuật hệ thống phức tạp và các tác vụ agent dài hạn
- So với GLM-4.5, số tham số tăng từ 355 tỷ (32 tỷ hoạt động) lên 744 tỷ (40 tỷ hoạt động)
- Dữ liệu tiền huấn luyện được mở rộng từ 23 nghìn tỷ lên 28,5 nghìn tỷ token
Tích hợp DeepSeek Sparse Attention (DSA) để duy trì năng lực xử lý ngữ cảnh dài trong khi giảm mạnh chi phí triển khai
Giới thiệu hạ tầng học tăng cường bất đồng bộ mang tên slime để cải thiện thông lượng và hiệu quả huấn luyện, cho phép lặp lại hậu huấn luyện một cách tinh chỉnh

Cải thiện hiệu năng và kết quả benchmark

GLM-5 cho thấy hiệu năng tổng thể được cải thiện so với GLM-4.7, tiệm cận mức của Claude Opus 4.5
Trên bộ đánh giá nội bộ CC-Bench-V2, mô hình cho kết quả xuất sắc ở frontend, backend và các tác vụ dài hạn
Đứng đầu trong số các mô hình mã nguồn mở trên Vending Bench 2, đạt số dư cuối cùng 4.432 USD trong mô phỏng kinh doanh máy bán hàng tự động kéo dài 1 năm
Sở hữu hiệu năng mã nguồn mở hàng đầu thế giới trên nhiều mảng suy luận, lập trình và tác vụ agent
- Ví dụ: SWE-bench Verified 77,8 điểm, BrowseComp 62,0 điểm, τ²-Bench 89,7 điểm
Thu hẹp khoảng cách với các mô hình hàng đầu như GPT-5.2 và Gemini 3.0 Pro

Công bố mã nguồn mở và các kênh truy cập

GLM-5 được phát hành theo giấy phép MIT, cho phép tải trọng số mô hình từ Hugging Face và ModelScope
Có thể sử dụng dưới dạng API trên Z.ai, BigModel.cn, api.z.ai
Tương thích với Claude Code và OpenClaw, nên có thể tích hợp trong nhiều môi trường phát triển khác nhau
Nền tảng Z.ai cung cấp trải nghiệm dùng thử miễn phí

Tính năng office và tạo tài liệu

GLM-5 hướng tới việc chuyển từ “chat” sang “work”, đóng vai trò như công cụ văn phòng dành cho lao động tri thức và kỹ sư
Có thể chuyển trực tiếp văn bản hoặc tài liệu nguồn sang định dạng .docx, .pdf, .xlsx để tạo tài liệu hoàn chỉnh như PRD, đề thi, báo cáo tài chính, thực đơn
Ứng dụng Z.ai cung cấp chế độ Agent hỗ trợ tạo PDF/Word/Excel, cho phép cộng tác qua nhiều vòng

Hỗ trợ cho nhà phát triển và triển khai

Người đăng ký GLM Coding Plan có thể dần được cấp quyền truy cập GLM-5
- Người dùng gói Max có thể kích hoạt ngay bằng tên mô hình "GLM-5"
- Yêu cầu tới GLM-5 tiêu tốn nhiều quota hơn so với GLM-4.7
Cung cấp môi trường phát triển agent Z Code cho người dùng ưa thích giao diện GUI
Thông qua framework OpenClaw, có thể sử dụng GLM-5 như agent trợ lý cá nhân hoạt động trên nhiều ứng dụng và thiết bị

Triển khai cục bộ và khả năng tương thích phần cứng

GLM-5 hỗ trợ các framework suy luận như vLLM, SGLang, đồng thời cung cấp hướng dẫn triển khai trên GitHub chính thức
Có thể chạy trên cả chipset ngoài NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, v.v.)
- Đảm bảo thông lượng hợp lý thông qua tối ưu kernel và lượng tử hóa mô hình

4 bình luận

GN⁺ 2026-02-12

Ý kiến trên Hacker News

Đã xem kết quả do Pelican tạo ra thông qua OpenRouter
Con chim trông giống một loài chim chắc nịch, nhưng làm khung xe đạp thì không ổn lắm
Liên kết liên quan
- Cảm ơn Simon vì đã duy trì hệ thống benchmark có ý nghĩa duy nhất
  Có thể xem bối cảnh của bài test chim bồ nông đi xe đạp tại đây
- Tôi nghĩ đây là bài test thực sự quan trọng, xin nâng ly chúc mừng Simon
- Giờ tôi cảm thấy benchmark Pelican đã lỗi thời
  SVG giờ đã ở khắp nơi, nên cần một kịch bản mới thực tế hơn
- Tôi tự hỏi trước khi bài test này ra đời thì đã có bao nhiêu SVG chim bồ nông đi xe đạp
  Có khi nào những kết quả kiểu này đang làm ô nhiễm dữ liệu huấn luyện không
- Tôi nghĩ việc gọi một con chim thậm chí không có cánh là “chim chắc nịch” là ví dụ mang tính biểu tượng của khoảng cách kỳ vọng AI
  Điều thú vị là AI tự nói rằng “cần có chân có màng” nhưng trong ảnh thật lại không có
  Tôi lo ngại về thái độ coi 90% độ chính xác là “đã giải quyết xong” như với MMLU hay AIME
  AGI thực sự thì phải đạt 100% độ chính xác, nhưng chúng ta đang quá dễ hài lòng
Tôi cho rằng việc sao chép nhanh dựa trên distillation ở thị trường xám trong tương lai là điều tất yếu
Trước đây tôi nghĩ các model N-1, N-2 sẽ không hấp dẫn, nhưng giờ ngay cả mức đó cũng có vẻ đủ thỏa mãn vì sở thích người dùng đã bão hòa
Opus 4.5 rõ ràng là một bước nhảy vọt, nhưng 4.6 không làm thay đổi workflow của tôi
Cuối cùng, sau “vụ trộm lớn nhất của nhân loại” có lẽ sẽ đến “quả báo lớn nhất”
Người dùng sẽ chẳng hề bận tâm chuyện AI Trung Quốc đã đánh cắp từ Big Tech Mỹ
- Nếu các công ty LLM biện minh cho việc sử dụng dữ liệu huấn luyện, thì việc distiller học từ đầu ra của LLM cũng phải hợp pháp theo cùng logic đó
  Có thể lập luận rằng “chỉ là học như con người thì sao lại bất hợp pháp”
- Việc ngăn distillation mới nên là bất hợp pháp
  Chỉ cần tạo ra hàng nghìn trang nội dung do AI sinh ra, rồi công khai prompt và thông tin model trong mỗi bài
  Sau đó để người khác “vô tình” crawl chúng và dùng để huấn luyện
- Opus 4.6 nổi bật ở khả năng duy trì tác vụ dài hạn
  Cảm giác nó đi xa gấp đôi trước đây nên tôi không muốn quay lại nữa
- Nhưng lượng token tiêu thụ quá lớn nên tôi thấy xét về hiệu suất thì lại là bước lùi
Benchmark gần đây rất ấn tượng, nhưng đối tượng so sánh lại là model thế hệ cũ (Opus 4.5, GPT-5.2)
Các model mở công bố dạo này có điểm benchmark cao nhưng trải nghiệm dùng thực tế lại thấp hơn kỳ vọng
Rõ ràng có hiện tượng benchmaxxing
- Những lời chỉ trích nhắm vào model open-weight có vẻ quá gay gắt
  Chạy 20 benchmark cũng không phải việc dễ, và model thế hệ mới này mới ra được 5 ngày
  Nhiều developer đang rơi vào sự sùng bái model đóng, và không biết rằng cùng một prompt sẽ không chạy tốt trên các họ model khác
  Tôi hay dùng GLM-4.7, thấy nó ở tầm Sonnet 4.5, còn GLM-5 có lẽ sẽ cỡ Opus 4.5
- Nếu GLM-4.7 ở mức 4.5 hay 5.2 thì bản thân nó đã là một bước nhảy cực lớn
- Dạo này các model rốt cuộc chỉ như máy sinh token
  Test mù thì chúng giống nhau đến mức khó phân biệt
  Ngay cả so sánh câu trả lời giữa Claude và ChatGPT cũng gần như y hệt
  Cuối cùng với đa số mục đích thì một model hạng Toyota là đủ
- Vấn đề là giới hạn của RLHF (học tăng cường từ phản hồi con người)
  Đổi mới thuật toán thì có thể, nhưng chi phí tạo dữ liệu con người quá lớn nên không thể mở rộng
  Model mã nguồn mở vẫn còn nhiều lỗi cú pháp, còn model frontier thì gần như đã giải quyết được chuyện đó
- Anthropic, OpenAI và Google cải thiện model bằng dữ liệu người dùng thực tế
  trong khi các phòng lab Trung Quốc lại thiên về benchmark nên mới tạo ra khác biệt
  Tự host và cải tiến liên tục khó mà cùng tồn tại
Có lẽ nhờ mã nguồn mở từ Trung Quốc mà chúng ta sẽ có được trí tuệ tự host
Về chi phí thì không hiệu quả lắm, nhưng tôi thích việc có thể vận hành độc lập mà không cần kết nối Internet
Cuối cùng macOS là lựa chọn tiêu dùng duy nhất có thể chạy model lớn ở local
- Tôi thường xuyên vượt hạn mức đăng ký Claude Max, nên đang cầm cự bằng 2x RTX3090 và model lượng tử hóa Qwen3
  Xét về quyền riêng tư và tính sẵn sàng, tự host cũng rất đáng giá
  Đặc biệt là để phòng trường hợp quy định số ở Mỹ ngày càng siết chặt, cần có phương án thay thế
- Dù là model open-weight thì dữ liệu huấn luyện và tiêu chí kiểm duyệt vẫn chưa được công khai
  Dù vậy, ưu điểm là có thể sửa thiên lệch bằng fine-tuning
- Máy Strix Halo với 128GB VRAM có giá tầm 3.000 USD, đủ để chạy local những model khá ổn
  Tôi khuyên dùng GPT-OSS 120GB, Qwen Coder Next 80B và Step 3.5 Flash
  Tôi kỳ vọng trong 1–2 năm nữa, phần cứng tiêu dùng cũng có thể chạy được model cỡ 512GB
- Thay vì macOS, đặt một hộp suy luận Linux headless ở nhà cũng là ý hay
  Sự trở lại của mạng gia đình
- Tôi nghĩ điều quan trọng hơn việc tự host là hàng hóa hóa dịch vụ hosting
  Cốt lõi là quyền tự do đổi nhà cung cấp bất cứ lúc nào
Tôi đã dùng GLM-4.7 vài tuần và thấy nó ở mức tương tự Sonnet
Chỉ là cần chỉ dẫn rõ ràng hơn
Với việc lớn tôi vẫn dùng dòng Anthropic, nhưng cho những tác vụ nhỏ, rõ ràng thì GLM có hiệu năng/giá tốt nhất
- Tôi cũng có trải nghiệm tương tự
  GLM-4.7 nếu để tự chạy thì có xu hướng dựng cả một thế giới không cần thiết
  Nhưng với tác vụ nhỏ thì nó ngang Sonnet, và giá rất rẻ nên hữu ích như model phụ trợ
- 6–8 tháng gần đây tôi chỉ dùng Sonnet, còn Opus thì hay gặp lỗi ngốn token
  Nếu model mở tiến bộ thêm khoảng 6 tháng nữa thì tôi sẵn sàng chuyển sang
Từ hôm nay MiniMax M2.5 cũng có thể dùng trên Chat UI
GLM làm coding tốt hơn, nhưng tôi thường dùng MiniMax cho công việc hằng ngày nhờ tốc độ và khả năng gọi tool
Model mới đã được phát hành trên OpenRouter
Trong benchmark cá nhân của tôi, khả năng làm theo chỉ dẫn của nó rất yếu
Đây là bài test theo định dạng chat.md + mcps, nhưng nó không thực hiện đúng được
- Tôi thấy định dạng gọi tool tùy biến được huấn luyện khác nhau tùy model nên rất khó đảm bảo tính nhất quán
  Tôi tò mò không biết ở các model frontier khác thì kết quả ra sao
- Tôi thích ý tưởng chat.md
  Tôi cũng đang làm một trình soạn thảo văn bản dựa trên vim keybinding, và cách tiếp cận này có thể trở thành nguồn cảm hứng UI
  Tôi định thêm chức năng gập bớt phần văn bản không cần thiết
- Vấn đề có thể nằm ở chất lượng nhà cung cấp của OpenRouter
  Đôi khi hiệu năng khá kém
- OpenRouter thường host model đã lượng tử hóa nên chất lượng bị giảm
  Nếu có thể thì nên dùng trực tiếp nhà cung cấp gốc
GLM-4.7-Flash là model thông minh đầu tiên mà tôi thấy đủ dùng cho coding local
Nó ở mức tương tự Claude 4.5 Haiku, và quá trình suy luận minh bạch nên có thể hiểu vì sao nó đưa ra quyết định như vậy
Tốt hơn nhiều so với Devstral 2 Small hay Qwen-Coder-Next
- minimax-m.2 cũng khá tiệm cận mức đó
Tôi đang dùng GLM 4.7 trên opencode
Không phải tốt nhất, nhưng nhờ hạn mức sử dụng thoáng nên có thể dùng cả ngày
Model mới vẫn còn bị giới hạn truy cập, nhưng tôi đang rất mong đợi
Tôi đã thử nhanh model mới trên opencode và thấy khá ấn tượng
Không phải một đột phá lớn, nhưng chắc chắn tốt hơn 4.7
Bộ nhớ và độ ổn định khi xử lý tác vụ dài hạn đã cải thiện rõ rệt

jinifor 2026-02-12

Giá đăng ký đã tăng rồi.

princox 2026-02-13

Ưu đãi giảm 50% khi đăng ký lần đầu đã không còn nữa..

fanotify 2026-02-12

Mức giảm giá siêu sớm cho gói Max trước đây là $360/năm, giờ đã thành $672 rồi...