- Mô hình ngôn ngữ lớn tăng cường hiệu quả và khả năng thực hiện tác vụ dài hạn của AI
- Mở rộng lên 744 tỷ tham số (40 tỷ hoạt động) so với thế hệ trước, và tăng dữ liệu tiền huấn luyện lên 28,5 nghìn tỷ token
- Tích hợp DeepSeek Sparse Attention (DSA) để duy trì khả năng xử lý ngữ cảnh dài đồng thời giảm chi phí triển khai
- Nâng cao hiệu quả huấn luyện thông qua hạ tầng học tăng cường bất đồng bộ
slime mới, đồng thời đạt hiệu năng hàng đầu trong nhiều benchmark
- Được công bố mã nguồn mở, có thể truy cập trên Hugging Face, ModelScope, nền tảng Z.ai và tương thích với Claude Code và OpenClaw
Tổng quan về GLM-5
- GLM-5 là mô hình được thiết kế nhằm thực hiện kỹ thuật hệ thống phức tạp và các tác vụ agent dài hạn
- So với GLM-4.5, số tham số tăng từ 355 tỷ (32 tỷ hoạt động) lên 744 tỷ (40 tỷ hoạt động)
- Dữ liệu tiền huấn luyện được mở rộng từ 23 nghìn tỷ lên 28,5 nghìn tỷ token
- Tích hợp DeepSeek Sparse Attention (DSA) để duy trì năng lực xử lý ngữ cảnh dài trong khi giảm mạnh chi phí triển khai
- Giới thiệu hạ tầng học tăng cường bất đồng bộ mang tên slime để cải thiện thông lượng và hiệu quả huấn luyện, cho phép lặp lại hậu huấn luyện một cách tinh chỉnh
Cải thiện hiệu năng và kết quả benchmark
- GLM-5 cho thấy hiệu năng tổng thể được cải thiện so với GLM-4.7, tiệm cận mức của Claude Opus 4.5
- Trên bộ đánh giá nội bộ CC-Bench-V2, mô hình cho kết quả xuất sắc ở frontend, backend và các tác vụ dài hạn
- Đứng đầu trong số các mô hình mã nguồn mở trên Vending Bench 2, đạt số dư cuối cùng 4.432 USD trong mô phỏng kinh doanh máy bán hàng tự động kéo dài 1 năm
- Sở hữu hiệu năng mã nguồn mở hàng đầu thế giới trên nhiều mảng suy luận, lập trình và tác vụ agent
- Ví dụ: SWE-bench Verified 77,8 điểm, BrowseComp 62,0 điểm, τ²-Bench 89,7 điểm
- Thu hẹp khoảng cách với các mô hình hàng đầu như GPT-5.2 và Gemini 3.0 Pro
Công bố mã nguồn mở và các kênh truy cập
- GLM-5 được phát hành theo giấy phép MIT, cho phép tải trọng số mô hình từ Hugging Face và ModelScope
- Có thể sử dụng dưới dạng API trên Z.ai, BigModel.cn, api.z.ai
- Tương thích với Claude Code và OpenClaw, nên có thể tích hợp trong nhiều môi trường phát triển khác nhau
- Nền tảng Z.ai cung cấp trải nghiệm dùng thử miễn phí
Tính năng office và tạo tài liệu
- GLM-5 hướng tới việc chuyển từ “chat” sang “work”, đóng vai trò như công cụ văn phòng dành cho lao động tri thức và kỹ sư
- Có thể chuyển trực tiếp văn bản hoặc tài liệu nguồn sang định dạng .docx, .pdf, .xlsx để tạo tài liệu hoàn chỉnh như PRD, đề thi, báo cáo tài chính, thực đơn
- Ứng dụng Z.ai cung cấp chế độ Agent hỗ trợ tạo PDF/Word/Excel, cho phép cộng tác qua nhiều vòng
Hỗ trợ cho nhà phát triển và triển khai
- Người đăng ký GLM Coding Plan có thể dần được cấp quyền truy cập GLM-5
- Người dùng gói Max có thể kích hoạt ngay bằng tên mô hình
"GLM-5"
- Yêu cầu tới GLM-5 tiêu tốn nhiều quota hơn so với GLM-4.7
- Cung cấp môi trường phát triển agent Z Code cho người dùng ưa thích giao diện GUI
- Thông qua framework OpenClaw, có thể sử dụng GLM-5 như agent trợ lý cá nhân hoạt động trên nhiều ứng dụng và thiết bị
Triển khai cục bộ và khả năng tương thích phần cứng
- GLM-5 hỗ trợ các framework suy luận như vLLM, SGLang, đồng thời cung cấp hướng dẫn triển khai trên GitHub chính thức
- Có thể chạy trên cả chipset ngoài NVIDIA (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon, v.v.)
- Đảm bảo thông lượng hợp lý thông qua tối ưu kernel và lượng tử hóa mô hình
4 bình luận
Ý kiến trên Hacker News
Đã xem kết quả do Pelican tạo ra thông qua OpenRouter
Con chim trông giống một loài chim chắc nịch, nhưng làm khung xe đạp thì không ổn lắm
Liên kết liên quan
Có thể xem bối cảnh của bài test chim bồ nông đi xe đạp tại đây
SVG giờ đã ở khắp nơi, nên cần một kịch bản mới thực tế hơn
Có khi nào những kết quả kiểu này đang làm ô nhiễm dữ liệu huấn luyện không
Điều thú vị là AI tự nói rằng “cần có chân có màng” nhưng trong ảnh thật lại không có
Tôi lo ngại về thái độ coi 90% độ chính xác là “đã giải quyết xong” như với MMLU hay AIME
AGI thực sự thì phải đạt 100% độ chính xác, nhưng chúng ta đang quá dễ hài lòng
Tôi cho rằng việc sao chép nhanh dựa trên distillation ở thị trường xám trong tương lai là điều tất yếu
Trước đây tôi nghĩ các model N-1, N-2 sẽ không hấp dẫn, nhưng giờ ngay cả mức đó cũng có vẻ đủ thỏa mãn vì sở thích người dùng đã bão hòa
Opus 4.5 rõ ràng là một bước nhảy vọt, nhưng 4.6 không làm thay đổi workflow của tôi
Cuối cùng, sau “vụ trộm lớn nhất của nhân loại” có lẽ sẽ đến “quả báo lớn nhất”
Người dùng sẽ chẳng hề bận tâm chuyện AI Trung Quốc đã đánh cắp từ Big Tech Mỹ
Có thể lập luận rằng “chỉ là học như con người thì sao lại bất hợp pháp”
Chỉ cần tạo ra hàng nghìn trang nội dung do AI sinh ra, rồi công khai prompt và thông tin model trong mỗi bài
Sau đó để người khác “vô tình” crawl chúng và dùng để huấn luyện
Cảm giác nó đi xa gấp đôi trước đây nên tôi không muốn quay lại nữa
Benchmark gần đây rất ấn tượng, nhưng đối tượng so sánh lại là model thế hệ cũ (Opus 4.5, GPT-5.2)
Các model mở công bố dạo này có điểm benchmark cao nhưng trải nghiệm dùng thực tế lại thấp hơn kỳ vọng
Rõ ràng có hiện tượng benchmaxxing
Chạy 20 benchmark cũng không phải việc dễ, và model thế hệ mới này mới ra được 5 ngày
Nhiều developer đang rơi vào sự sùng bái model đóng, và không biết rằng cùng một prompt sẽ không chạy tốt trên các họ model khác
Tôi hay dùng GLM-4.7, thấy nó ở tầm Sonnet 4.5, còn GLM-5 có lẽ sẽ cỡ Opus 4.5
Test mù thì chúng giống nhau đến mức khó phân biệt
Ngay cả so sánh câu trả lời giữa Claude và ChatGPT cũng gần như y hệt
Cuối cùng với đa số mục đích thì một model hạng Toyota là đủ
Đổi mới thuật toán thì có thể, nhưng chi phí tạo dữ liệu con người quá lớn nên không thể mở rộng
Model mã nguồn mở vẫn còn nhiều lỗi cú pháp, còn model frontier thì gần như đã giải quyết được chuyện đó
trong khi các phòng lab Trung Quốc lại thiên về benchmark nên mới tạo ra khác biệt
Tự host và cải tiến liên tục khó mà cùng tồn tại
Có lẽ nhờ mã nguồn mở từ Trung Quốc mà chúng ta sẽ có được trí tuệ tự host
Về chi phí thì không hiệu quả lắm, nhưng tôi thích việc có thể vận hành độc lập mà không cần kết nối Internet
Cuối cùng macOS là lựa chọn tiêu dùng duy nhất có thể chạy model lớn ở local
Xét về quyền riêng tư và tính sẵn sàng, tự host cũng rất đáng giá
Đặc biệt là để phòng trường hợp quy định số ở Mỹ ngày càng siết chặt, cần có phương án thay thế
Dù vậy, ưu điểm là có thể sửa thiên lệch bằng fine-tuning
Tôi khuyên dùng GPT-OSS 120GB, Qwen Coder Next 80B và Step 3.5 Flash
Tôi kỳ vọng trong 1–2 năm nữa, phần cứng tiêu dùng cũng có thể chạy được model cỡ 512GB
Sự trở lại của mạng gia đình
Cốt lõi là quyền tự do đổi nhà cung cấp bất cứ lúc nào
Tôi đã dùng GLM-4.7 vài tuần và thấy nó ở mức tương tự Sonnet
Chỉ là cần chỉ dẫn rõ ràng hơn
Với việc lớn tôi vẫn dùng dòng Anthropic, nhưng cho những tác vụ nhỏ, rõ ràng thì GLM có hiệu năng/giá tốt nhất
GLM-4.7 nếu để tự chạy thì có xu hướng dựng cả một thế giới không cần thiết
Nhưng với tác vụ nhỏ thì nó ngang Sonnet, và giá rất rẻ nên hữu ích như model phụ trợ
Nếu model mở tiến bộ thêm khoảng 6 tháng nữa thì tôi sẵn sàng chuyển sang
Từ hôm nay MiniMax M2.5 cũng có thể dùng trên Chat UI
GLM làm coding tốt hơn, nhưng tôi thường dùng MiniMax cho công việc hằng ngày nhờ tốc độ và khả năng gọi tool
Model mới đã được phát hành trên OpenRouter
Trong benchmark cá nhân của tôi, khả năng làm theo chỉ dẫn của nó rất yếu
Đây là bài test theo định dạng chat.md + mcps, nhưng nó không thực hiện đúng được
Tôi tò mò không biết ở các model frontier khác thì kết quả ra sao
Tôi cũng đang làm một trình soạn thảo văn bản dựa trên vim keybinding, và cách tiếp cận này có thể trở thành nguồn cảm hứng UI
Tôi định thêm chức năng gập bớt phần văn bản không cần thiết
Đôi khi hiệu năng khá kém
Nếu có thể thì nên dùng trực tiếp nhà cung cấp gốc
GLM-4.7-Flash là model thông minh đầu tiên mà tôi thấy đủ dùng cho coding local
Nó ở mức tương tự Claude 4.5 Haiku, và quá trình suy luận minh bạch nên có thể hiểu vì sao nó đưa ra quyết định như vậy
Tốt hơn nhiều so với Devstral 2 Small hay Qwen-Coder-Next
Tôi đang dùng GLM 4.7 trên opencode
Không phải tốt nhất, nhưng nhờ hạn mức sử dụng thoáng nên có thể dùng cả ngày
Model mới vẫn còn bị giới hạn truy cập, nhưng tôi đang rất mong đợi
Tôi đã thử nhanh model mới trên opencode và thấy khá ấn tượng
Không phải một đột phá lớn, nhưng chắc chắn tốt hơn 4.7
Bộ nhớ và độ ổn định khi xử lý tác vụ dài hạn đã cải thiện rõ rệt
Giá đăng ký đã tăng rồi.
Ưu đãi giảm 50% khi đăng ký lần đầu đã không còn nữa..
Mức giảm giá siêu sớm cho gói Max trước đây là $360/năm, giờ đã thành $672 rồi...