GLM-4.6: AI lập trình rẻ hơn Claude 10 lần
(secondb.ai)Mô hình ZAI GLM 4.6: Tổng hợp hiệu năng, chi phí và đánh giá sử dụng thực tế
Trên một số cộng đồng như Reddit, có ý kiến bày tỏ lo ngại về quyền riêng tư dữ liệu cá nhân. Tuy vậy, kết quả thử nghiệm thực tế cho thấy bản thân hiệu năng lập trình là rất ấn tượng. So với Claude, hiệu năng không hề thua kém, trong khi hiện có thể đăng ký gói GLM Coding Lite với giá $36/năm thông qua chương trình giảm giá 50% hiện tại. (khoảng $33 nếu áp dụng referral)
Tóm tắt cốt lõi: Mô hình GLM 4.6 của ZAI cho thấy hiệu năng tương đương Claude Sonnet 4, nhưng chi phí token chỉ ở mức 1/8. Mô hình hỗ trợ cửa sổ ngữ cảnh dài và đặc biệt thể hiện sức mạnh ở các benchmark liên quan đến mã nguồn, nên đang được chú ý như một lựa chọn thay thế có hiệu quả chi phí cao.
1. Giới thiệu và bối cảnh AI hiện tại
Trong bối cảnh gần đây thiếu vắng các mô hình open-weight mới, sự xuất hiện của GLM 4.6 do ZAI phát triển đang mang lại sinh khí mới cho thị trường. Thị trường mô hình AI trước đây chủ yếu do các Frontier Labs với nguồn vốn khổng lồ dẫn dắt, nhưng luôn tồn tại rào cản là chi phí cao. Ngược lại, các phòng lab thiên về nghiên cứu như Deepseek lại có hạn chế về năng lực phát triển phần mềm nên thường cung cấp giao diện kém thân thiện với người dùng. ZAI khắc phục những điểm yếu này bằng cách cung cấp cách tiếp cận thân thiện hơn qua API và dịch vụ thuê bao. Đặc biệt, GLM 4.6 cho thấy tiềm năng nâng cao khả năng tiếp cận AI và thúc đẩy ứng dụng công nghệ trong nhiều lĩnh vực nhờ cung cấp hiệu năng ngang Claude Sonnet 4 với chi phí thấp hơn rất nhiều.
2. GLM 4.6 của ZAI và những lợi thế của nó
ZAI không chỉ phát triển mô hình đạt điểm cao trên nhiều benchmark mà còn cung cấp dịch vụ lấy người dùng làm trung tâm dựa trên sự thấu hiểu sâu sắc về sản phẩm thực tế. Khác với nhiều viện nghiên cứu khác, ZAI cung cấp API và dịch vụ thuê bao mà người dùng có thể dễ dàng tiếp cận và sử dụng, từ đó góp phần giảm chi phí code trên đám mây. Ở benchmark Kilo code, mô hình GLM 4.6 đạt tỷ lệ thắng 48,6% trước Claude Sonnet 4 và cung cấp hiệu năng tương tự với mức giá chưa tới 1/5. Đặc biệt, chi phí token đầu ra chỉ ở mức 1/8, rất rẻ, nên được đánh giá là một lựa chọn thay thế hợp lý cho các mô hình cloud.
4. GLM 4.6: Các tính năng nâng cao và cải tiến
GLM 4.6 bao gồm nhiều cải tiến quan trọng so với phiên bản trước.
- Cửa sổ ngữ cảnh dài: hỗ trợ tối đa 200k token, cho phép xử lý nhiều thông tin hơn trong một lần và cải thiện khả năng thực hiện các tác vụ phức tạp.
- Hiệu năng được cải thiện: đạt điểm cao hơn trên các benchmark mã nguồn và cũng cho thấy hiệu năng tốt hơn trong các ứng dụng thực tế.
- Khả năng tương thích: cung cấp endpoint tương tự Claude Code, giúp người dùng dễ dàng tích hợp vào workflow hiện có.
- Tăng cường năng lực suy luận: khả năng suy luận được cải thiện, đồng thời hỗ trợ sử dụng công cụ trong quá trình suy luận, giúp hoạt động hiệu quả hơn trong framework agent, và khả năng viết cũng được cải thiện.
5. Benchmark hiệu năng và so sánh
GLM 4.6 cho thấy hiệu năng ấn tượng trên nhiều benchmark khác nhau. Ở benchmark AIME, mô hình vượt qua Sonic 4.5, còn ở GPQA thì vượt Sonic 4. Trong Live code bench và benchmark HL, mô hình cũng thể hiện kết quả nổi bật; khi so với các mô hình của Anthropic, GLM 4.6 đạt kết quả tương đương hoặc tốt hơn ở hầu hết benchmark ngoại trừ SWE bench. Mô hình đặc biệt mạnh ở các benchmark liên quan đến code và đã có cải thiện đáng kể so với phiên bản trước.
6. Hiệu năng thực tế và mức sử dụng token
Quan trọng hơn điểm benchmark là hiệu năng trong môi trường sử dụng thực tế. GLM 4.6 giữ được tính nhất quán ngay cả trong các tác vụ phức tạp liên quan đến nhiều tệp, không gặp vấn đề mất ngữ cảnh hay ảo giác. ZAI cũng đảm bảo tính minh bạch bằng cách công khai toàn bộ câu hỏi kiểm thử và agent trajectory trên Hugging Face.
Thông qua gói lập trình giá rẻ chỉ $3/tháng, người dùng có thể dùng GPT-4 cho các tác vụ phức tạp như thiết kế kiến trúc và dùng GLM 4.6 cho phần triển khai thực tế, từ đó giảm chi phí công việc lập trình hằng ngày từ 50 đến 100 lần. Ngay cả khi chỉ xử lý được 80% tổng khối lượng công việc, hiệu quả đầu tư vẫn rất cao.
7. Thử nghiệm GLM 4.6 với Kilo Code và Open Code
Trong các bài test thực tế dùng Kilo code và Open Code, GLM 4.6 đã thể hiện hiệu năng ấn tượng.
- Kilo code: trong quá trình tạo demo Activity API mới, mô hình chứng minh được khả năng tìm thông tin cần thiết qua web search và tạo ra mã chính xác.
- Open Code: khi chạy demo image studio, mô hình đã đi xa hơn các mô hình khác một bước bằng cách tự triển khai thêm các tính năng như zoom. Ngoài ra, mô hình còn thể hiện năng lực giải quyết vấn đề xuất sắc như xử lý ngoại lệ phía client và sửa lỗi trong file cấu hình.
Tốc độ làm việc hơi chậm, nhưng đôi khi mô hình vẫn tạo ra kết quả tốt hơn cả các mô hình Cloud về mặt chất lượng UI.
2 bình luận
Năng lực công nghệ của Trung Quốc đang tiến bộ từng ngày..
Mô hình cloud đỉnh thật đó đó