Ra mắt mô hình GLM-4.7-Flash

(huggingface.co)

11 điểm bởi GN⁺ 2026-01-20 | 3 bình luận | Chia sẻ qua WhatsApp

GLM-4.7-Flash là mô hình ngôn ngữ lớn với kiến trúc MoE 30B-A3B, cung cấp sự cân bằng hài hòa giữa hiệu năng và hiệu quả như một mô hình nhẹ để triển khai
Ghi nhận điểm số cao trong nhiều bài kiểm tra benchmark như AIME 25, GPQA, SWE-bench, cho thấy kết quả cạnh tranh so với các mô hình cùng phân khúc (Qwen3-30B/GPT-OSS-20B)
Hướng tới hiệu năng hàng đầu trong nhóm mô hình 30B, là bước tiến quan trọng cho nghiên cứu AI mã nguồn mở và tối ưu hiệu quả triển khai

Giới thiệu (Introduction)

GLM-4.7-Flash là mô hình Mixture-of-Experts (MoE) 30B-A3B, hướng tới hiệu năng mạnh nhất trong nhóm mô hình 30B
- Cung cấp tùy chọn triển khai nhẹ chú trọng sự cân bằng giữa hiệu năng và hiệu quả
- Thiết kế giúp khai thác các mô hình quy mô lớn hiệu quả hơn

Hiệu năng benchmark (Performances on Benchmarks)

Trình bày các chỉ số hiệu năng của GLM-4.7-Flash trên nhiều bài kiểm tra benchmark tiêu chuẩn
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 là 85.0, GPT-OSS-20B là 91.7)
- GPQA: 75.2 (cao hơn các mô hình so sánh)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (chênh lệch lớn so với các mô hình khác)
- τ²-Bench: 79.5
- BrowseComp: 42.8
Ở nhiều hạng mục, mô hình cho kết quả vượt trội hơn Qwen3-30B-A3B-Thinking-2507 và GPT-OSS-20B

Triển khai cục bộ (Serve GLM-4.7-Flash Locally)

GLM-4.7-Flash hỗ trợ các framework suy luận vLLM và SGLang
- Cả hai framework hiện chỉ được hỗ trợ trên nhánh main
- Xem hướng dẫn triển khai tại kho GitHub chính thức (zai-org/GLM-4.5)

3 bình luận

crawler 2026-01-21

Vì là 30B A3B nên cũng không quá nặng.
Dù vẫn cần bảo đảm có sẵn dung lượng cho 30B, nhưng một khi đã có đủ chỗ thì tham số hoạt động chỉ là 3B nên tốc độ khá nhanh.

Vì vậy tôi nghĩ mình cũng từng thấy cách tối ưu kiểu chỉ nạp những layer được dùng nhiều vào VRAM.

geekygeek 2026-01-20

VRAM 24GB..? Hoặc nếu là Mac thì có vẻ RAM 32GB sẽ là mức tối thiểu.

GN⁺ 2026-01-20

Ý kiến Hacker News

Gần đây tôi đang thử nghiệm với OpenCode, chạy mô hình 30B-A3B bằng llama.cpp (4bit) trên GPU 32GB
VRAM đủ rộng nên có thể thoải mái dùng cả ngữ cảnh 128k
Cho đến nay, Qwen3-coder cho kết quả tốt nhất. Nemotron 3 Nano được nói là tốt hơn trên benchmark, nhưng với tác vụ tôi làm chủ yếu là “viết mã kiểm thử” thì tôi không thấy khác biệt lớn
Nếu ai đó lượng tử hóa nó sang 4bit GGUF thì tôi sẽ thử. Codex có chất lượng cao nhưng quá chậm. Tôi mong các mô hình nhỏ không chỉ giỏi benchmark mà chất lượng thực tế cũng ngày càng tốt hơn
- Tôi đề xuất mô hình GLM-4.7-GGUF. Bạn cũng có thể xem thêm các bản lượng tử hóa tốt khác từ 0xSero
- Codex thường cho chất lượng cao hơn, nhưng đôi khi lại cho ra kết quả ở mức AI slop, khiến tôi phải chờ rất lâu cho việc mà dùng Opus chỉ mất vài phút là xong
Tôi đang dùng GLM-4.7 qua gói coding của z.ai, và hiệu năng trên giá thành thật sự đáng kinh ngạc
Tôi dùng cả claude-code và opencode, nhưng gần đây dùng opencode nhiều hơn. claude-code được tối ưu cho các mô hình Anthropic
Bản phát hành này là phiên bản “-Flash”, nhảy thẳng từ 4.5-Flash lên mà bỏ qua 4.6-Flash. Theo tài liệu, đây là mô hình ngang với Haiku, và được đặt là ANTHROPIC_DEFAULT_HAIKU_MODEL
- Tôi tò mò không biết hiệu năng gần đây thế nào. Tôi nghe nói một số người gần như không dùng được vì giới hạn đã thay đổi
- Tôi cũng dùng cùng gói đó. Tôi mua khuyến mãi 12 tháng với giá $28, và nó cho lượng sử dụng gấp 5 lần Claude Pro. Hiện giờ tôi chỉ dùng claude code
GLM-4.7 là một cải tiến dần dần, nhưng trông khá vững chắc. Bản demo UI oneshot tốt hơn 4.6 rất nhiều
Các mô hình mở vẫn chậm hơn benchmark khoảng 1 năm, nhưng về dài hạn thì rất đáng chú ý
GLM có 355B tham số nhưng chỉ 31B được kích hoạt nên khó tự host, tuy vậy tôi nghĩ nó là ứng viên ổn để dùng qua endpoint Cerebras
- Hôm qua tôi đã thử GLM-4.7 trên Cerebras (không phải Flash) bằng $10 credit. Tốc độ 1000 token/giây nên rất nhanh, nhưng rate limit khiến việc dùng thực tế khá bất tiện. Ngay cả token đã cache cũng tính vào giới hạn, nên đầu mỗi phút tôi lại bị chặn và phải đợi
  Token đã cache cũng bị tính phí, nên chỉ một tác vụ đơn giản mà tôi đã tốn $4. Nếu dùng GPT-5.2-Codex chắc còn chưa đến $0.5
- Người ta nói nhiều về benchmark, nhưng khác xa tải công việc thực tế. Tôi đã bỏ claude và chuyển sang minimax m2.1. Dùng cùng open code thấy còn hợp hơn. Gói $10 là đủ
- Mô hình mở rốt cuộc vẫn là kiểu đuổi theo bằng distillation, nên trừ khi có đột phá thì chúng sẽ luôn ở phía sau. Không phải “bắt kịp”, mà giống như cái rơ-moóc bị kéo theo sau xe tải hơn
- Đánh giá chất lượng mô hình bằng demo UI là không phù hợp. Nếu UI nằm ngoài phân phối thì đa số sẽ thất bại. Ngay cả Codex cũng không hoàn hảo
Tôi đã thử chạy nó trong LMStudio trên M4 MacBook Pro, và nó tệ hơn gpt-oss-20b rất nhiều
Cả hai prompt về code đều tạo ra mã sai và vòng lặp vô hạn. Có thể là vấn đề ở cách LMStudio lượng tử hóa, nhưng ấn tượng đầu tiên không tốt
- Tôi muốn hỏi là bạn đang dùng toàn bộ mô hình BF16, hay bản mlx4 lượng tử hóa
Tôi muốn hỏi những ai đã chạy cục bộ rồi — hiện tại thiết lập đơn giản nhất (tooling + định dạng lượng tử hóa) là gì? Nếu có ví dụ lệnh chạy được thì xin chia sẻ
- Tôi đang dùng llama-server được biên dịch với backend CUDA của llama.cpp. Tôi chạy bản Q4_K_M quant trên môi trường Lubuntu + RTX 3090
  Liên kết liên quan: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
```
llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
```
  Sau đó có thể chat tại http://127.0.0.1:8080 hoặc truy cập qua API tương thích OpenAI
  Tuy nhiên ngay sau khi có mô hình mới phát hành thì có thể có bug, nên nên cập nhật sau vài ngày
- Cũng có thể chạy bằng lệnh ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. Tốc độ nhanh nhưng template vẫn chưa hoàn thiện nên đầu ra khá lộn xộn. Tôi đang chờ template chính thức được đưa lên ollama.com
- Trong LM Studio, chỉ cần tìm “4.7-flash” rồi cài bản community của mlx là được
- Cá nhân tôi khuyên dùng llama.cpp 4bit quant hoặc các wrapper của nó
Theo mô tả của bản phát hành này,
“GLM-4.7-Flash là mô hình nhẹ, hiệu quả cao, là phiên bản miễn phí của GLM-4.7, cung cấp độ trễ thấp và thông lượng cao cho các tác vụ lập trình, suy luận và tạo sinh.
Nó cũng cho thấy hiệu năng mạnh trong dịch thuật, nhập vai và tạo sinh thẩm mỹ.”
Xem thêm ở ghi chú phát hành chính thức
- Hai ghi chú được đăng trong năm nay lại bị ghi nhầm là 2025. Có vẻ đây là trang được viết thủ công
Để giải thích cho ai thắc mắc vì sao bản phát hành này quan trọng,
giờ đây có thể chạy cục bộ AI cấp độ GPT-5-mini ngay trên MacBook RAM 32GB
Ngoài ra chi phí LLM-as-a-service cũng rẻ hơn rất nhiều — chỉ khoảng 1/10 giá so với Haiku 4.5
Điểm SWE-bench Verified là 59.2, khá ấn tượng với một mô hình 30B. Cao hơn mức 55.4 của Qwen3-Coder 480B
- Devstral 2 Small (24B) cao hơn với 68.0%. Liên kết chính thức
- Nhưng SWE-Bench Verified giờ đã khó tin cậy. Repository và ngôn ngữ bị giới hạn, lại còn có vấn đề ghi nhớ dữ liệu. SWE-Bench Pro có vẻ hứa hẹn hơn nhưng cũng chưa hoàn hảo
Khi cần tác vụ nhanh, tôi dùng Gemini hoặc Cerebras. Xem blog Cerebras
GLM 4.7 đủ dùng hằng ngày, nhưng đôi lúc khả năng hiểu chỉ dẫn còn yếu nên khá bực
- Với tôi, lý do Opus 4.5 tốt là chính ở khả năng xử lý chỉ dẫn đó. Mong bản sau sẽ cải thiện
Việc GLM 4.7 được so với GPT-OSS-20B làm tôi thấy kém thuyết phục. Nếu nó ở mức Sonnet 4/4.5 thì bản Flash phải vượt trội GPT-OSS-120B mới đúng. Tôi cũng muốn có thêm kết quả Aider
- Kỳ vọng 30-A3B vượt 117-A5.1B thì hơi quá. Tuy nhiên ở mảng gọi agent thì có vẻ nó tốt hơn GPT-20B
- Dùng thực tế thì benchmark có vẻ bị thổi phồng. Với tác vụ đơn giản thì ổn, nhưng còn kém Sonnet rất xa. Dù vậy giá trị trên chi phí thì tốt
- Nếu xét theo chất lượng code, nó ở mức Sonnet 3.5. Vẫn còn cách khá xa Sonnet 4/4.5