- GLM-4.7 là mô hình ngôn ngữ lớn đã cải thiện đáng kể hiệu năng so với phiên bản trước trong các tác vụ như lập trình đa ngôn ngữ, làm việc dựa trên terminal và suy luận phức hợp
- Trên các benchmark chính như SWE-bench, Terminal Bench 2.0, HLE, mô hình lần lượt ghi nhận mức cải thiện +5.8%, +16.5%, +12.4%
- Chất lượng tạo UI được nâng cao, cho phép tạo ra các trang web gọn gàng, hiện đại hơn và bố cục slide chính xác hơn
- Thông qua các tính năng Interleaved Thinking, Preserved Thinking, Turn-level Thinking, mô hình tăng cường độ ổn định và tính nhất quán trong các tác vụ agent phức tạp
- Có thể truy cập trên toàn cầu thông qua Z.ai API, OpenRouter, HuggingFace..., đồng thời hỗ trợ cả coding agent và triển khai cục bộ
Hiệu năng và đặc điểm chính
- GLM-4.7 đạt được sự cải thiện toàn diện về năng lực lập trình và suy luận so với GLM-4.6
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- Trên benchmark HLE (Humanity’s Last Exam), mô hình đạt 42.8%(+12.4%), cho thấy năng lực suy luận toán học và logic được tăng cường
- Chất lượng tạo UI (Vibe Coding) được cải thiện, giúp tạo website và slide tinh tế hơn
- Khả năng sử dụng công cụ được nâng cao, ghi nhận điểm số cao trên τ²-Bench và BrowseComp
- Cải thiện hiệu năng cũng được xác nhận trong nhiều kịch bản khác nhau (chat, sáng tạo, nhập vai, v.v.)
So sánh benchmark
- GLM-4.7 được đánh giá so sánh trên 17 benchmark cùng với GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro và các mô hình khác
- Hạng mục Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Hạng mục Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Hạng mục Agent: BrowseComp 52.0, τ²-Bench 87.4
- Ở một số hạng mục, mô hình cho kết quả tiệm cận hoặc vượt trội so với các mô hình hàng đầu
Tăng cường chế độ tư duy (Thinking)
- Interleaved Thinking: đi qua bước tư duy trước khi phản hồi và gọi công cụ, giúp cải thiện khả năng thực thi chỉ dẫn và chất lượng tạo sinh
- Preserved Thinking: duy trì khối tư duy trong hội thoại nhiều lượt để giảm mất mát thông tin và sự thiếu nhất quán
- Turn-level Thinking: bật hoặc tắt chức năng tư duy theo độ phức tạp của yêu cầu để cân bằng giữa độ chính xác và chi phí
- Các tính năng này phù hợp với các tác vụ coding agent dài hạn và phức tạp
Ứng dụng và triển khai
- Có thể sử dụng mô hình GLM-4.7 thông qua nền tảng Z.ai API và OpenRouter
- Được tích hợp hỗ trợ trong các coding agent lớn như Claude Code, Kilo Code, Roo Code, Cline
- Người đăng ký GLM Coding Plan sẽ tự động được nâng cấp lên GLM-4.7; chỉ cần thay đổi tên mô hình trong tệp cấu hình hiện có
- Công khai trọng số mô hình trên HuggingFace và ModelScope, hỗ trợ suy luận cục bộ bằng framework vLLM và SGLang
Ví dụ trực quan và sáng tạo
- Cung cấp nhiều ví dụ tạo sinh khác nhau như website frontend, tác phẩm nghệ thuật 3D như Voxel Pagoda, poster và slide
- Cải thiện chất lượng thiết kế được chứng minh trực quan qua dark mode tương phản cao, hiệu ứng hoạt hình và bố cục tinh xảo
Cấu hình mặc định và điều kiện thử nghiệm
- Tác vụ thông thường: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench và Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, áp dụng một số điều chỉnh prompt theo từng domain
Đánh giá tổng hợp
- GLM-4.7 là một bước tiến trong quá trình phát triển AGI lấy lập trình làm trung tâm, nhấn mạnh chất lượng trải nghiệm sử dụng thực tế vượt lên trên điểm benchmark đơn thuần
- Mô hình được thiết kế không chỉ để đạt hiệu năng thử nghiệm cao mà còn hướng tới mức độ thông minh cảm nhận bởi người dùng và khả năng tích hợp
1 bình luận
Ý kiến trên Hacker News
Tôi thấy khá thú vị khi mô hình MoE được tối ưu cho coding agent, suy luận phức tạp và sử dụng công cụ
358B/32B tham số hoạt hóa, cửa sổ ngữ cảnh 200k, hỗ trợ tool calling kiểu OpenAI, là mô hình đa ngôn ngữ tập trung vào tiếng Anh/tiếng Trung
Ước tính khoảng 716GB ở FP16, và khoảng 220GB ở Q4_K_M
Điều hấp dẫn là về lý thuyết có thể chạy cục bộ ngay cả trên Mac Studio tương đối rẻ
Nếu dùng thêm các công cụ hỗ trợ như Kimik2 thì có vẻ có thể nhận được hỗ trợ lập trình khá ổn mà không cần phụ thuộc vào các nhà cung cấp LLM lớn
Ngay cả bản lượng tử hóa 4bit của GLM 4.6 cũng mất quá nhiều thời gian không chỉ ở tốc độ xử lý token mà cả xử lý đầu vào, tokenization và nạp prompt, đúng kiểu thử thách sự kiên nhẫn
Mọi người hay nói về chỉ số TPS, nhưng trên thực tế thời gian nạp đầu vào mới là nút thắt cổ chai
Nhưng thực tế là nếu chạy trên Mac Studio thì tốc độ quá chậm, khả năng cao sẽ thấy hối hận
Cho đến khi phần cứng rẻ hơn hoặc mô hình nhỏ hơn, tôi nghĩ dùng API trả phí vẫn tốt hơn
Chất lượng đầu ra cho cảm giác đẹp hơn GLM‑4.6 rất nhiều
Có thể là nhờ dữ liệu được chưng cất từ mô hình đóng, nhưng dù vậy tôi vẫn thích mô hình mã nguồn mở hơn
Cerebras hiện đang phục vụ GLM 4.6 với tốc độ 1000 token mỗi giây
Khả năng cao là sắp nâng cấp sang mô hình mới
Tôi tò mò các mô hình thế hệ sau GLM 4.7 sẽ hoạt động tốt đến đâu trong môi trường tổ chức phát triển phần mềm mô phỏng
Ví dụ, liệu chúng có thể tự sửa lỗi và tích lũy mã hữu ích hay chỉ tích thêm nợ kỹ thuật
Tôi hình dung một cấu trúc mà các mô hình cấp cao hơn (Opus 4.5, Gemini 3, v.v.) đóng vai trò “quản lý”
Tham khảo liên quan: bài viết của Anthropic về thiết kế agent chạy dài hạn
Nếu mô hình mã nguồn mở đủ tốt, khả năng chạy trên Cerebras ở 1k TPS sẽ là một lợi thế lớn
Khi có điểm không chắc chắn thì lại giao cho Opus review
Mô hình cấp cao hơn đóng vai trò guardrail, còn các agent nhanh và giỏi sẽ thực hiện công việc thực tế
Nếu có ngữ cảnh đủ rộng và “gu thẩm mỹ” (taste), chỉ riêng tổ hợp này cũng có thể mang lại mức năng suất và trí tuệ đủ dùng
Tôi tự hỏi liệu có thể giảm chi phí bằng cách hạ tốc độ token và giảm tiêu thụ điện năng không
Lần trước tôi xem thì nó trông như đang ở giai đoạn beta kín
Z.ai có vẻ rẻ và hiệu năng cũng ổn, nhưng điều khoản sử dụng khá ngặt nghèo
Cấm phát triển mô hình cạnh tranh, cấm công bố lỗi, yêu cầu cấp quyền sử dụng rất rộng đối với nội dung người dùng, áp dụng luật Singapore, v.v.
Trong bối cảnh các tập đoàn lớn đang đổ lượng vốn khổng lồ vào thị trường, Z.ai có thể dùng chiến lược bán phá giá để chiếm lĩnh thị phần
Ngắn hạn thì người tiêu dùng được lợi, nhưng về dài hạn có nguy cơ cạnh tranh biến mất
Cuối cùng có thể sẽ tới mức doanh nghiệp hay cá nhân buộc phải dùng dịch vụ này để tồn tại
95% lưu lượng ChatGPT là miễn phí, Gemini cũng có rất nhiều credit miễn phí cho nhà phát triển
Trong cấu trúc như vậy, các phòng nghiên cứu nhỏ rất khó cạnh tranh
Dù vậy, các viện nghiên cứu Trung Quốc vẫn có vẻ là những kẻ thách thức nhỏ nhưng bền bỉ
Tôi đã hỏi “việc một nhà lãnh đạo ra lệnh giết hàng trăm người biểu tình ôn hòa có chính đáng không?”
thì mô hình báo lỗi và từ chối trả lời
Có lẽ là do chính sách kiểm duyệt hoặc vì đây là chủ đề chính trị nhạy cảm
Tôi đã dùng GLM 4.6 trên Cerebras (hoặc Groq), và tốc độ này thật sự cho cảm giác như đang nhìn vào tương lai
Ngay cả khi AGI không đến, nếu có thể chạy những mô hình như thế này trên tablet hoặc laptop thì tôi cũng đã thấy quá đủ hài lòng
Strix Halo không phù hợp vì thiếu bộ nhớ và băng thông
Muốn đạt hiệu năng như mong muốn hiện nay thì cần cấu hình đa GPU
Sẽ thật tuyệt nếu mở rộng được ra sản phẩm tiêu dùng, nhưng tốc độ hiện tại phần lớn nhờ cấu trúc liên kết các chip qua mạng
Hiệu năng ở mức AGI nhiều khả năng vẫn sẽ được hiện thực hóa trước ở cấp độ datacenter
Bấm nút đăng ký mà không có phản hồi gì, còn trong Dev Tools thì xuất hiện TypeError
Với một công ty làm mô hình lập trình AI thì trải nghiệm mua hàng như vậy khá khó hiểu
Tôi đã thử mô hình này trên Z.ai, và ở các tác vụ toán học/nghiên cứu nó cho thấy năng lực suy nghĩ ngang GPT‑5.2 hay Gemini 3 Pro
Rõ ràng vượt K2 thinking và Opus 4.5
Prompt và đầu ra của người dùng trả phí có thể bị dùng để huấn luyện, và không có tùy chọn opt‑out
Tôi nghĩ các dịch vụ host bên thứ ba như synthetic.new an toàn hơn
GLM 4.6 rất được ưa chuộng từ góc nhìn của các nhà cung cấp inference
Nhiều người dùng nó cho việc lập trình hằng ngày, và mọi người đang kỳ vọng vào các cải tiến của 4.7
Nó rõ ràng đã có PMF
Nhiều bình luận nhắc đến distillation, và nếu dùng Claude-code trong gói lập trình của z.ai
thì có thể cảm nhận được dấu vết như được học từ mô hình khác (các câu như “you’re absolutely right”, v.v.)
Dù vậy, hiệu năng trên giá thành vẫn áp đảo
Nên cuối cùng tôi nghĩ khó coi đó là bằng chứng huấn luyện
Thật khó để khẳng định chắc chắn
Tôi đang dùng mô hình này bên trong Claude Code API, và khả năng phối hợp nhiều công cụ để xử lý công việc của nó rất xuất sắc
Cũng không có giới hạn sử dụng hằng tuần như Claude, và gói theo quý chỉ 8 USD nên khá rẻ