7 điểm bởi GN⁺ 2025-12-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • GLM-4.7 là mô hình ngôn ngữ lớn đã cải thiện đáng kể hiệu năng so với phiên bản trước trong các tác vụ như lập trình đa ngôn ngữ, làm việc dựa trên terminal và suy luận phức hợp
  • Trên các benchmark chính như SWE-bench, Terminal Bench 2.0, HLE, mô hình lần lượt ghi nhận mức cải thiện +5.8%, +16.5%, +12.4%
  • Chất lượng tạo UI được nâng cao, cho phép tạo ra các trang web gọn gàng, hiện đại hơn và bố cục slide chính xác hơn
  • Thông qua các tính năng Interleaved Thinking, Preserved Thinking, Turn-level Thinking, mô hình tăng cường độ ổn định và tính nhất quán trong các tác vụ agent phức tạp
  • Có thể truy cập trên toàn cầu thông qua Z.ai API, OpenRouter, HuggingFace..., đồng thời hỗ trợ cả coding agent và triển khai cục bộ

Hiệu năng và đặc điểm chính

  • GLM-4.7 đạt được sự cải thiện toàn diện về năng lực lập trình và suy luận so với GLM-4.6
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • Trên benchmark HLE (Humanity’s Last Exam), mô hình đạt 42.8%(+12.4%), cho thấy năng lực suy luận toán học và logic được tăng cường
  • Chất lượng tạo UI (Vibe Coding) được cải thiện, giúp tạo website và slide tinh tế hơn
  • Khả năng sử dụng công cụ được nâng cao, ghi nhận điểm số cao trên τ²-Bench và BrowseComp
  • Cải thiện hiệu năng cũng được xác nhận trong nhiều kịch bản khác nhau (chat, sáng tạo, nhập vai, v.v.)

So sánh benchmark

  • GLM-4.7 được đánh giá so sánh trên 17 benchmark cùng với GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro và các mô hình khác
    • Hạng mục Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Hạng mục Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Hạng mục Agent: BrowseComp 52.0, τ²-Bench 87.4
  • Ở một số hạng mục, mô hình cho kết quả tiệm cận hoặc vượt trội so với các mô hình hàng đầu

Tăng cường chế độ tư duy (Thinking)

  • Interleaved Thinking: đi qua bước tư duy trước khi phản hồi và gọi công cụ, giúp cải thiện khả năng thực thi chỉ dẫn và chất lượng tạo sinh
  • Preserved Thinking: duy trì khối tư duy trong hội thoại nhiều lượt để giảm mất mát thông tin và sự thiếu nhất quán
  • Turn-level Thinking: bật hoặc tắt chức năng tư duy theo độ phức tạp của yêu cầu để cân bằng giữa độ chính xác và chi phí
  • Các tính năng này phù hợp với các tác vụ coding agent dài hạn và phức tạp

Ứng dụng và triển khai

  • Có thể sử dụng mô hình GLM-4.7 thông qua nền tảng Z.ai APIOpenRouter
  • Được tích hợp hỗ trợ trong các coding agent lớn như Claude Code, Kilo Code, Roo Code, Cline
  • Người đăng ký GLM Coding Plan sẽ tự động được nâng cấp lên GLM-4.7; chỉ cần thay đổi tên mô hình trong tệp cấu hình hiện có
  • Công khai trọng số mô hình trên HuggingFaceModelScope, hỗ trợ suy luận cục bộ bằng framework vLLMSGLang

Ví dụ trực quan và sáng tạo

  • Cung cấp nhiều ví dụ tạo sinh khác nhau như website frontend, tác phẩm nghệ thuật 3D như Voxel Pagoda, poster và slide
  • Cải thiện chất lượng thiết kế được chứng minh trực quan qua dark mode tương phản cao, hiệu ứng hoạt hình và bố cục tinh xảo

Cấu hình mặc định và điều kiện thử nghiệm

  • Tác vụ thông thường: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench và Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, áp dụng một số điều chỉnh prompt theo từng domain

Đánh giá tổng hợp

  • GLM-4.7 là một bước tiến trong quá trình phát triển AGI lấy lập trình làm trung tâm, nhấn mạnh chất lượng trải nghiệm sử dụng thực tế vượt lên trên điểm benchmark đơn thuần
  • Mô hình được thiết kế không chỉ để đạt hiệu năng thử nghiệm cao mà còn hướng tới mức độ thông minh cảm nhận bởi người dùng và khả năng tích hợp

1 bình luận

 
GN⁺ 2025-12-23
Ý kiến trên Hacker News
  • Tôi thấy khá thú vị khi mô hình MoE được tối ưu cho coding agent, suy luận phức tạp và sử dụng công cụ
    358B/32B tham số hoạt hóa, cửa sổ ngữ cảnh 200k, hỗ trợ tool calling kiểu OpenAI, là mô hình đa ngôn ngữ tập trung vào tiếng Anh/tiếng Trung
    Ước tính khoảng 716GB ở FP16, và khoảng 220GB ở Q4_K_M
    Điều hấp dẫn là về lý thuyết có thể chạy cục bộ ngay cả trên Mac Studio tương đối rẻ
    Nếu dùng thêm các công cụ hỗ trợ như Kimik2 thì có vẻ có thể nhận được hỗ trợ lập trình khá ổn mà không cần phụ thuộc vào các nhà cung cấp LLM lớn

    • Tôi đã thử chạy LLM trên Mac Studio Ultra M1 đã qua sử dụng (RAM 128GB) nhưng quá chậm
      Ngay cả bản lượng tử hóa 4bit của GLM 4.6 cũng mất quá nhiều thời gian không chỉ ở tốc độ xử lý token mà cả xử lý đầu vào, tokenization và nạp prompt, đúng kiểu thử thách sự kiên nhẫn
      Mọi người hay nói về chỉ số TPS, nhưng trên thực tế thời gian nạp đầu vào mới là nút thắt cổ chai
    • Nếu là tool calling kiểu OpenAI thì tôi nghĩ rất có thể nó dựa trên Harmony
      Nhưng thực tế là nếu chạy trên Mac Studio thì tốc độ quá chậm, khả năng cao sẽ thấy hối hận
      Cho đến khi phần cứng rẻ hơn hoặc mô hình nhỏ hơn, tôi nghĩ dùng API trả phí vẫn tốt hơn
    • Nếu ai đó trong tương lai nhìn thấy bình luận này thì chắc sẽ khó mà tin nổi
    • Phiên bản Sonnet cần sửa thành 4.5
      Chất lượng đầu ra cho cảm giác đẹp hơn GLM‑4.6 rất nhiều
      Có thể là nhờ dữ liệu được chưng cất từ mô hình đóng, nhưng dù vậy tôi vẫn thích mô hình mã nguồn mở hơn
    • Tôi định nối hai hệ thống Strix Halo (tổng 256GB RAM) qua USB4/TB3 để chạy mô hình này
  • Cerebras hiện đang phục vụ GLM 4.6 với tốc độ 1000 token mỗi giây
    Khả năng cao là sắp nâng cấp sang mô hình mới
    Tôi tò mò các mô hình thế hệ sau GLM 4.7 sẽ hoạt động tốt đến đâu trong môi trường tổ chức phát triển phần mềm mô phỏng
    Ví dụ, liệu chúng có thể tự sửa lỗi và tích lũy mã hữu ích hay chỉ tích thêm nợ kỹ thuật
    Tôi hình dung một cấu trúc mà các mô hình cấp cao hơn (Opus 4.5, Gemini 3, v.v.) đóng vai trò “quản lý”
    Tham khảo liên quan: bài viết của Anthropic về thiết kế agent chạy dài hạn
    Nếu mô hình mã nguồn mở đủ tốt, khả năng chạy trên Cerebras ở 1k TPS sẽ là một lợi thế lớn

    • Tôi để Opus viết kế hoạch chi tiết và test, rồi để Cerebras GLM 4.6 thực hiện
      Khi có điểm không chắc chắn thì lại giao cho Opus review
    • Tôi cũng nghĩ nó sẽ phát triển theo hướng đó
      Mô hình cấp cao hơn đóng vai trò guardrail, còn các agent nhanh và giỏi sẽ thực hiện công việc thực tế
      Nếu có ngữ cảnh đủ rộng và “gu thẩm mỹ” (taste), chỉ riêng tổ hợp này cũng có thể mang lại mức năng suất và trí tuệ đủ dùng
    • Tôi tò mò về giá API của Cerebras
      Tôi tự hỏi liệu có thể giảm chi phí bằng cách hạ tốc độ token và giảm tiêu thụ điện năng không
    • Tôi muốn biết có dễ trở thành khách hàng trả phí của Cerebras hay không
      Lần trước tôi xem thì nó trông như đang ở giai đoạn beta kín
  • Z.ai có vẻ rẻ và hiệu năng cũng ổn, nhưng điều khoản sử dụng khá ngặt nghèo
    Cấm phát triển mô hình cạnh tranh, cấm công bố lỗi, yêu cầu cấp quyền sử dụng rất rộng đối với nội dung người dùng, áp dụng luật Singapore, v.v.
    Trong bối cảnh các tập đoàn lớn đang đổ lượng vốn khổng lồ vào thị trường, Z.ai có thể dùng chiến lược bán phá giá để chiếm lĩnh thị phần
    Ngắn hạn thì người tiêu dùng được lợi, nhưng về dài hạn có nguy cơ cạnh tranh biến mất
    Cuối cùng có thể sẽ tới mức doanh nghiệp hay cá nhân buộc phải dùng dịch vụ này để tồn tại

    • Tôi nghĩ siêu vốn là mối đe dọa lớn nhất đối với đổi mới
      95% lưu lượng ChatGPT là miễn phí, Gemini cũng có rất nhiều credit miễn phí cho nhà phát triển
      Trong cấu trúc như vậy, các phòng nghiên cứu nhỏ rất khó cạnh tranh
      Dù vậy, các viện nghiên cứu Trung Quốc vẫn có vẻ là những kẻ thách thức nhỏ nhưng bền bỉ
  • Tôi đã hỏi “việc một nhà lãnh đạo ra lệnh giết hàng trăm người biểu tình ôn hòa có chính đáng không?”
    thì mô hình báo lỗi và từ chối trả lời
    Có lẽ là do chính sách kiểm duyệt hoặc vì đây là chủ đề chính trị nhạy cảm

  • Tôi đã dùng GLM 4.6 trên Cerebras (hoặc Groq), và tốc độ này thật sự cho cảm giác như đang nhìn vào tương lai
    Ngay cả khi AGI không đến, nếu có thể chạy những mô hình như thế này trên tablet hoặc laptop thì tôi cũng đã thấy quá đủ hài lòng

    • Apple M5 Max có vẻ sẽ cải thiện xử lý prompt và băng thông đủ để chạy ổn mô hình lượng tử hóa 8bit (khoảng 360GB)
      Strix Halo không phù hợp vì thiếu bộ nhớ và băng thông
      Muốn đạt hiệu năng như mong muốn hiện nay thì cần cấu hình đa GPU
    • Cerebras và Groq nhanh nhờ thiết kế chip riêng
      Sẽ thật tuyệt nếu mở rộng được ra sản phẩm tiêu dùng, nhưng tốc độ hiện tại phần lớn nhờ cấu trúc liên kết các chip qua mạng
      Hiệu năng ở mức AGI nhiều khả năng vẫn sẽ được hiện thực hóa trước ở cấp độ datacenter
  • Bấm nút đăng ký mà không có phản hồi gì, còn trong Dev Tools thì xuất hiện TypeError
    Với một công ty làm mô hình lập trình AI thì trải nghiệm mua hàng như vậy khá khó hiểu

    • Hóa ra phải tạo tài khoản trước thì nút Subscribe mới hoạt động
  • Tôi đã thử mô hình này trên Z.ai, và ở các tác vụ toán học/nghiên cứu nó cho thấy năng lực suy nghĩ ngang GPT‑5.2 hay Gemini 3 Pro
    Rõ ràng vượt K2 thinking và Opus 4.5

    • Nhưng tôi không khuyến nghị đăng ký Z.ai cho mục đích công việc
      Prompt và đầu ra của người dùng trả phí có thể bị dùng để huấn luyện, và không có tùy chọn opt‑out
      Tôi nghĩ các dịch vụ host bên thứ ba như synthetic.new an toàn hơn
  • GLM 4.6 rất được ưa chuộng từ góc nhìn của các nhà cung cấp inference
    Nhiều người dùng nó cho việc lập trình hằng ngày, và mọi người đang kỳ vọng vào các cải tiến của 4.7
    Nó rõ ràng đã có PMF

  • Nhiều bình luận nhắc đến distillation, và nếu dùng Claude-code trong gói lập trình của z.ai
    thì có thể cảm nhận được dấu vết như được học từ mô hình khác (các câu như “you’re absolutely right”, v.v.)
    Dù vậy, hiệu năng trên giá thành vẫn áp đảo

    • Hôm nay tôi cũng thấy Gemini 3 Flash dùng đúng cách diễn đạt đó
      Nên cuối cùng tôi nghĩ khó coi đó là bằng chứng huấn luyện
    • Cũng có thể dữ liệu Internet đã hội tụ theo cách tương tự
      Thật khó để khẳng định chắc chắn
  • Tôi đang dùng mô hình này bên trong Claude Code API, và khả năng phối hợp nhiều công cụ để xử lý công việc của nó rất xuất sắc
    Cũng không có giới hạn sử dụng hằng tuần như Claude, và gói theo quý chỉ 8 USD nên khá rẻ

    • Tôi muốn hỏi liệu trong Claude Code có thể mặc định dùng mô hình Claude, rồi khi chạm giới hạn sử dụng thì chuyển sang mô hình GLM hay không