- GLM-4.7-Flash là mô hình ngôn ngữ lớn với kiến trúc MoE 30B-A3B, cung cấp sự cân bằng hài hòa giữa hiệu năng và hiệu quả như một mô hình nhẹ để triển khai
- Ghi nhận điểm số cao trong nhiều bài kiểm tra benchmark như AIME 25, GPQA, SWE-bench, cho thấy kết quả cạnh tranh so với các mô hình cùng phân khúc (Qwen3-30B/GPT-OSS-20B)
- Hướng tới hiệu năng hàng đầu trong nhóm mô hình 30B, là bước tiến quan trọng cho nghiên cứu AI mã nguồn mở và tối ưu hiệu quả triển khai
Giới thiệu (Introduction)
- GLM-4.7-Flash là mô hình Mixture-of-Experts (MoE) 30B-A3B, hướng tới hiệu năng mạnh nhất trong nhóm mô hình 30B
- Cung cấp tùy chọn triển khai nhẹ chú trọng sự cân bằng giữa hiệu năng và hiệu quả
- Thiết kế giúp khai thác các mô hình quy mô lớn hiệu quả hơn
Hiệu năng benchmark (Performances on Benchmarks)
- Trình bày các chỉ số hiệu năng của GLM-4.7-Flash trên nhiều bài kiểm tra benchmark tiêu chuẩn
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 là 85.0, GPT-OSS-20B là 91.7)
- GPQA: 75.2 (cao hơn các mô hình so sánh)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (chênh lệch lớn so với các mô hình khác)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- Ở nhiều hạng mục, mô hình cho kết quả vượt trội hơn Qwen3-30B-A3B-Thinking-2507 và GPT-OSS-20B
Triển khai cục bộ (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash hỗ trợ các framework suy luận vLLM và SGLang
3 bình luận
Vì là 30B A3B nên cũng không quá nặng.
Dù vẫn cần bảo đảm có sẵn dung lượng cho 30B, nhưng một khi đã có đủ chỗ thì tham số hoạt động chỉ là 3B nên tốc độ khá nhanh.
Vì vậy tôi nghĩ mình cũng từng thấy cách tối ưu kiểu chỉ nạp những layer được dùng nhiều vào VRAM.
VRAM 24GB..? Hoặc nếu là Mac thì có vẻ RAM 32GB sẽ là mức tối thiểu.
Ý kiến Hacker News
VRAM đủ rộng nên có thể thoải mái dùng cả ngữ cảnh 128k
Cho đến nay, Qwen3-coder cho kết quả tốt nhất. Nemotron 3 Nano được nói là tốt hơn trên benchmark, nhưng với tác vụ tôi làm chủ yếu là “viết mã kiểm thử” thì tôi không thấy khác biệt lớn
Nếu ai đó lượng tử hóa nó sang 4bit GGUF thì tôi sẽ thử. Codex có chất lượng cao nhưng quá chậm. Tôi mong các mô hình nhỏ không chỉ giỏi benchmark mà chất lượng thực tế cũng ngày càng tốt hơn
Tôi dùng cả claude-code và opencode, nhưng gần đây dùng opencode nhiều hơn. claude-code được tối ưu cho các mô hình Anthropic
Bản phát hành này là phiên bản “-Flash”, nhảy thẳng từ 4.5-Flash lên mà bỏ qua 4.6-Flash. Theo tài liệu, đây là mô hình ngang với Haiku, và được đặt là
ANTHROPIC_DEFAULT_HAIKU_MODELCác mô hình mở vẫn chậm hơn benchmark khoảng 1 năm, nhưng về dài hạn thì rất đáng chú ý
GLM có 355B tham số nhưng chỉ 31B được kích hoạt nên khó tự host, tuy vậy tôi nghĩ nó là ứng viên ổn để dùng qua endpoint Cerebras
Token đã cache cũng bị tính phí, nên chỉ một tác vụ đơn giản mà tôi đã tốn $4. Nếu dùng GPT-5.2-Codex chắc còn chưa đến $0.5
Cả hai prompt về code đều tạo ra mã sai và vòng lặp vô hạn. Có thể là vấn đề ở cách LMStudio lượng tử hóa, nhưng ấn tượng đầu tiên không tốt
Liên kết liên quan: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends Sau đó có thể chat tại http://127.0.0.1:8080 hoặc truy cập qua API tương thích OpenAI
Tuy nhiên ngay sau khi có mô hình mới phát hành thì có thể có bug, nên nên cập nhật sau vài ngày
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M. Tốc độ nhanh nhưng template vẫn chưa hoàn thiện nên đầu ra khá lộn xộn. Tôi đang chờ template chính thức được đưa lên ollama.com“GLM-4.7-Flash là mô hình nhẹ, hiệu quả cao, là phiên bản miễn phí của GLM-4.7, cung cấp độ trễ thấp và thông lượng cao cho các tác vụ lập trình, suy luận và tạo sinh.
Nó cũng cho thấy hiệu năng mạnh trong dịch thuật, nhập vai và tạo sinh thẩm mỹ.”
Xem thêm ở ghi chú phát hành chính thức
giờ đây có thể chạy cục bộ AI cấp độ GPT-5-mini ngay trên MacBook RAM 32GB
Ngoài ra chi phí LLM-as-a-service cũng rẻ hơn rất nhiều — chỉ khoảng 1/10 giá so với Haiku 4.5
GLM 4.7 đủ dùng hằng ngày, nhưng đôi lúc khả năng hiểu chỉ dẫn còn yếu nên khá bực