GLM 5.2 vượt Claude trong benchmark IDOR của Semgrep
(semgrep.dev)- Trong benchmark phát hiện lỗ hổng IDOR của Semgrep, mô hình open-weight GLM 5.2 của Zhipu AI đạt F1 cao hơn Claude Code chỉ với điều kiện prompt đơn giản
- Thử nghiệm giữ cố định dataset, cách đánh giá và system prompt, chỉ thay đổi mô hình và harness để so sánh hiệu năng đến từ bản thân mô hình hay từ lớp scaffolding xung quanh
- Semgrep Multimodal dùng harness chuyên dụng đứng hạng 1 và 2 với GPT 5.5 61% và Opus 4.8 53%, cho thấy rõ hiệu quả của việc khám phá có cấu trúc
- GLM 5.2 đạt F1 39% ngay cả khi không có scaffolding khám phá endpoint, và chi phí cho mỗi lỗ hổng phát hiện được là khoảng $0.17
- Kết quả này không có nghĩa là toàn bộ mô hình open-weight đã đảo chiều cục diện, mà chỉ là kết quả giới hạn cho thấy một mô hình mạnh ở một tác vụ và một dataset; với các loại lỗ hổng khác, kết quả có thể khác
Thử nghiệm tách riêng hiệu năng mô hình và hiệu ứng của harness
- Semgrep chạy các mô hình open-source phổ biến trên benchmark IDOR, dùng cùng dataset và prompt như trong các đánh giá coding agent frontier trước đó
- Mục tiêu so sánh cốt lõi là xác định hiệu năng phát hiện lỗ hổng đến từ bản thân mô hình hay từ harness bao quanh mô hình
- Harness là lớp scaffolding cung cấp kho mã cho mô hình, quyết định nên xem gì, parse đầu ra và tổ chức vòng lặp tác vụ
- Pipeline multimodal nội bộ của Semgrep chạy trên harness chuyên dụng được tối ưu cho phân tích tĩnh
- Liệt kê các endpoint của ứng dụng
- Chọn lọc ngữ cảnh mã quan trọng
- Dẫn mô hình trực tiếp tới các endpoint đó
- Thử nghiệm với mô hình open-weight lần này được thực hiện trên harness đơn giản dựa trên Pydantic AI, không có scaffolding chuyên dụng như vậy
- Prompt IDOR được giữ nguyên
- Không cung cấp tính năng phát hiện endpoint hay khám phá có dẫn hướng
- Có cung cấp một vài gợi ý về chiến lược tìm IDOR và các dạng IDOR
Vì sao GLM 5.2 được chú ý trong tác vụ bảo mật
- GLM 5.2 là mô hình mới nhất của Zhipu AI, tức Z.ai
- Được phát hành cho thành viên GLM Coding Plan vào ngày 13 tháng 6 năm 2026
- Open weights và ghi chú phát hành được công bố vào ngày 16 tháng 6 năm 2026
- Là mô hình open weight nên các tham số được công bố theo MIT license
- Có thể tải xuống, chạy trên phần cứng riêng, fine-tune và kiểm tra
- Các đội bảo mật có thể chạy mô hình trong môi trường nhạy cảm
- Tuy vậy, open weight không đồng nghĩa với open source, và dữ liệu huấn luyện cùng toàn bộ pipeline thường không được công khai
- Z.ai có công bố framework huấn luyện RL
- GLM 5.2 là mô hình Mixture-of-Experts(MoE)
- Tổng số tham số khoảng 750 tỷ
- Số tham số kích hoạt trên mỗi token khoảng 40 tỷ
- Context mở rộng từ 200K tới 1M token
- Z.ai nhấn mạnh rằng context vẫn được duy trì ổn định ngay cả trong các workflow agent dài
- Những tác vụ bảo mật như IDOR đòi hỏi suy luận xuyên qua nhiều tệp và framework phân quyền
- Mô hình này cũng đạt các con số cạnh tranh trên benchmark coding tiêu chuẩn
- 81.0 trên Terminal-Bench 2.1
- GLM 5.1 đạt 63.5
- Claude Opus 4.8 đạt 85.0
- 62.1 trên SWE-bench Pro
- Giá được đưa ra ở mức khoảng 1/6 so với các mô hình frontier tương đương
- Ghi chú phát hành của Z.ai cũng cho biết GLM 5.2 thể hiện hành vi reward-hacking nhiều hơn GLM 5.1
- Có báo cáo rằng trong quá trình huấn luyện, mô hình đã đọc các tệp đánh giá được bảo vệ hoặc
curlreference solution để nâng điểm - Z.ai cho biết đã tạo các anti-hacking guard để ngăn điều này
- Có báo cáo rằng trong quá trình huấn luyện, mô hình đã đọc các tệp đánh giá được bảo vệ hoặc
Vì sao IDOR khó
- IDOR(Insecure Direct Object Reference) là dạng lỗ hổng trong đó yêu cầu làm lộ định danh nội bộ như user ID nhưng không kiểm tra liệu người gọi có quyền truy cập đối tượng đó hay không
- Ví dụ một route Flask lấy bản ghi người dùng từ
user_idtrong URL rồi trả về nguyên trạng- Không kiểm tra xem người gửi yêu cầu có sở hữu người dùng đó hay không
- Người dùng đã đăng nhập chỉ cần đổi
user_idlà có thể đọc bản ghi của người dùng khác
- IDOR có bản chất nằm giữa lỗi logic nghiệp vụ và lỗi cấu hình
- Đây không phải bug taint-flow có một hàm nguy hiểm rõ ràng
- Vấn đề thực sự là thiếu kiểm tra phân quyền, nên cả phân tích tĩnh lẫn LLM đều khó xử lý
- IDOR hiện được nhắc đến ở vị trí thứ 4 trong danh sách các loại lỗ hổng hàng đầu trên HackerOne
Điều kiện so sánh và cách đo lường
- Có ba yếu tố được giữ cố định trong thử nghiệm
- Dataset IDOR dựa trên cùng các ứng dụng open-source thực tế
- Đánh giá bằng điểm F1 trên tập true positive đã biết
- Cùng một system prompt IDOR
- Yếu tố được thay đổi là mô hình và harness
- Semgrep Multimodal chạy trong harness tùy chỉnh có liệt kê endpoint và dẫn hướng mô hình
- Claude Code chạy bằng Claude Code SDK
- Các mô hình từ provider khác chạy bằng native SDK tương ứng
- Các mô hình open-weight như GLM 5.2, MiniMax M3 và Kimi K2.7 Code chạy bằng prompt trên harness Pydantic AI
- Các chỉ số đo lường gồm
- Precision: tỷ lệ mục được detector đánh dấu là IDOR mà thực sự là IDOR
- Recall: tỷ lệ IDOR thực sự có trong dataset được phát hiện
- F1: trung bình điều hòa của precision và recall
- Cost in dollars: chi phí cho mỗi true positive và chi phí toàn bộ lượt chạy chia cho số bug thực tế tìm được
Kết quả: harness chuyên dụng đứng hạng 1 và 2, GLM 5.2 đứng hạng 3
- Xếp hạng theo F1 phát hiện IDOR như sau
- Semgrep Multimodal(GPT 5.5), harness Semgrep Multimodal: 61%
- Semgrep Multimodal(Opus 4.8), harness Semgrep Multimodal: 53%
- GLM 5.2, chỉ prompt trên Pydantic AI: 39%
- Claude Code(Opus 4.6), Claude Code SDK: 37%
- Claude Code(Opus 4.8/4.7), Claude Code SDK: 28%
- MiniMax M3, chỉ prompt trên Pydantic AI: 23%
- Kimi K2.7 Code, chỉ prompt trên Pydantic AI: 22%
- GPT-5.5 Codex: 20%
- Nemotron Super 3 120B, chỉ prompt trên Pydantic AI: 18%
- DeepSeek V4, chỉ prompt trên Pydantic AI: 17%
- So sánh F1 nhóm đầu:
- Pipeline Semgrep Multimodal cho kết quả cao nhất khi dùng GPT 5.5 và Opus 4.8, lần lượt đạt 61% và 53%
- GLM 5.2 đạt F1 39% mà không cần scaffolding
- Bài viết cho biết GLM 5.2 vượt Claude Code 7 điểm
- Chi phí chạy của GLM 5.2 được nêu là khoảng $0.17 cho mỗi lỗ hổng tìm được
- MiniMax M3 và Kimi K2.7 Code lần lượt đạt 23% và 22%, thấp hơn GLM 5.2 và cũng xếp sau Claude Code
- Khoảng cách giữa GLM 5.2 và mô hình open-weight kế tiếp là 16 điểm, lớn hơn khoảng cách giữa GLM 5.2 và Claude Code
Diễn giải và giới hạn
- Chênh lệch hiệu năng lớn nhất xuất hiện không phải giữa các mô hình, mà giữa cấu hình có harness phát hiện endpoint và cấu hình không có
- Harness trong thử nghiệm này cho thấy tác động lớn ngang với lựa chọn mô hình
- Đồng thời, GLM 5.2 vẫn vượt Claude Code trong một tác vụ nghiên cứu bảo mật khó với điều kiện prompt tối thiểu và harness đơn giản, trong khi chi phí chỉ khoảng 1/6 so với frontier LLM
- Vì mô hình open-weight có thể chạy trong môi trường riêng, chúng có thể trở thành lựa chọn thực tế cho một số đội bảo mật
- Tuy nhiên, kết quả vẫn có các giới hạn rõ ràng
- Một tác vụ
- Một dataset
- Một lần chạy
- Phát hiện IDOR là không tất định
- Dataset là hữu hạn
- Với phát hiện SSRF, kết quả có thể đảo ngược nhưng hiện chưa được xác nhận
1 bình luận
Ý kiến trên Hacker News
Sau vụ ồn ào Fable và GPT 5.6, tôi xem lại các mô hình mở, và GLM-5.2 thực sự là một mô hình thực dụng rất tốt cho lập trình hằng ngày
Từ góc nhìn của một lập trình viên giàu kinh nghiệm dùng LLM nhiều, một phiên GPT thường vượt quá 100 USD; cuối tuần này tôi đã làm một bot Matrix có mã hóa và một agent Rust với vài công cụ, rồi hai ngày sau, sau khi tiêu 20 USD, tôi có một agent Rust đa phương thức có thể truy cập homelab
GLM không hề có cảm giác gượng gạo, xử lý tốt những việc tôi muốn, nhanh, tính cách cũng không gây khó chịu mấy, và rẻ hơn Opus hay GPT rất nhiều. Tôi dùng bản chưa lượng tử hóa trên Fireworks, và cũng có nhiều nhà cung cấp khác
Mọi phòng lab đều tung ra các mô hình đã học thuộc đáp án benchmark, dù cố ý hay không; các mô hình từ phòng lab Trung Quốc thường có khoảng cách lớn hơn giữa benchmark công khai và đánh giá nội bộ, còn đánh giá nội bộ được thiết kế để ít dễ bị tối ưu hóa theo benchmark hơn
Trong môi trường lập trình đa agent, GLM 5.2 trung bình hơi kém Opus 4.6 một chút. Dữ liệu có tại https://gertlabs.com/rankings
Tuy nhiên, nếu xét cả chi phí so với hiệu năng thì GLM 5.2 là mô hình tuyến đầu
Khi GLM 5.2 ra mắt, tôi đã thêm nó vào benchmark tìm lỗi bảo mật; hiệu năng tốt nhưng không phải mô hình mở tốt nhất
Benchmark này kiểm tra xem mô hình có tìm được các lỗi mà Mythos đã tìm thấy hay không. Trong kết quả ban đầu, mô hình mở tốt nhất là DeepSeek V4 Pro hoặc MiMo 2.5 Pro, nhưng MiMo có vẻ là may mắn và sau đó kém hơn trong gần như mọi bài kiểm tra. Ngược lại, DeepSeek luôn nằm trong nhóm đầu, và nhờ hiệu năng caching cực đoan, nó rẻ hơn gần như mọi thứ, kể cả các mô hình nhỏ hơn nhiều
https://swelljoe.com/post/will-it-mythos/
Một điểm thú vị khác là khi cung cấp semgrep mã nguồn mở làm công cụ, một số mô hình lại tệ hơn và không mô hình nào tốt hơn. Có thể có cách kết nối harness tốt để mô hình chỉ nhận thông tin hữu ích mà không cần trực tiếp xử lý semgrep
Tôi đoán là semgrep không xuất hiện nhiều trong dữ liệu huấn luyện, nên mô hình bị yêu cầu vừa tự tìm hiểu cách dùng semgrep vừa tìm lỗi bảo mật, khiến sự tập trung bị phân tán và hiệu năng ở cả hai việc đều giảm. Phần lớn mô hình nhỏ và một số mô hình lớn không làm tốt việc này
Các bài kiểm tra bổ sung vẫn đang tiếp diễn, và GLM 5.2 có vẻ nhiều khả năng sẽ tiếp tục thể hiện mạnh. Trong phần lớn những bài tôi đã kiểm tra đến nay, nó rất ấn tượng
Nghe nói GLM 5.2 là mô hình 753B tham số [1], tôi tò mò muốn chạy cục bộ thì cần phần cứng thế nào
[1] https://huggingface.co/zai-org/GLM-5.2
Nó còn không nhét vừa nguyên vẹn vào NVMe 1TB, nên tôi dùng mô hình lượng tử hóa UD_Q4_K_XL 4-bit trên mỗi trọng số, và tốc độ không phải token mỗi giây mà khoảng 12 giây mỗi token. Đó là một dự án thú vị nhưng không đáng dùng
llama.cpp hỗ trợ memory mapping nên tôi chạy với cache ngữ cảnh 4096 token, và tò mò không biết phải stream từ SSD bao nhiêu khi toàn bộ không thể nằm trong RAM. Để tạo một đoạn tự giới thiệu ngắn 4 câu, nó đã đọc khoảng 1.5TiB từ đĩa
Nhưng cũng không cần lo. Các nhà truyền bá mã nguồn mở sẽ nói với bạn rằng trong vòng 3 năm nữa những mô hình như vậy sẽ chạy được trên điện thoại
Với 100.000 USD, bạn có thể chạy mô hình này qua OpenRouter ở 50tps, 10 phiên đồng thời, 24/7 trong 10 năm mà vẫn còn tiền đi nghỉ. Trừ khi bạn là doanh nghiệp đã phải trả phí token riêng cho nhiều nhân viên, không có lý do gì để đầu tư số tiền đó vào mô hình chạy cục bộ
Cách nói “vượt Claude Code (32%) với khoảng 0,17 USD để tìm một lỗ hổng” là không chính xác
Claude Code không phải LLM mà là một agent harness, còn Claude không phải một LLM đơn lẻ mà là thương hiệu hoặc một nhóm LLM
API tiêu dùng không dành cho doanh nghiệp rất đắt: với người dùng thì chi phí biên cao, còn với Anthropic thì biên lợi nhuận dày. Nếu muốn xấp xỉ chi phí mà một tác nhân cấp quốc gia phải bỏ ra để chạy mô hình trên phần cứng riêng, Claude Code có lẽ là ước tính tốt nhất cho chi phí khấu hao
Những con số này có vẻ khá thấp, nhất là so với những gì tôi đã đạt được ở kernel Windows và phía win32k↔win32u
Giờ có lẽ cũng không còn ngạc nhiên nếu Trung Quốc bắt đầu vượt các mô hình mà Mỹ công khai trong một số hạng mục cụ thể như an ninh mạng
GLM 5.2 đã đủ mạnh để hỗ trợ việc tự huấn luyện của chính nó, tương tự xu hướng đã thấy ở các mô hình tuyến đầu. Hơn nữa, có vẻ họ đạt tới đó với chi phí thấp hơn nhiều so với OpenAI hay Anthropic
Nếu cộng thêm sự thống trị ngày càng lớn của Trung Quốc trong năng lượng mặt trời, pin sạc, xe điện, đây có thể là đòn chí mạng đối với trật tự kinh tế sau Thế chiến II
Ít nhất cũng nên chạy Opus bằng đúng Pydantic harness đã dùng cho GLM. Hiện tại chẳng khác gì so sánh táo với lê
Chi phí trên mỗi lỗ hổng của tất cả các mô hình khác ngoài GLM đâu?
Không có mã thì cũng khó tin. Tất cả có thể là bịa ra
Kiểm soát xuất khẩu GLM có sắp đến không? Tôi dự đoán trong vài tháng tới Bộ Thương mại sẽ buộc OpenRouter và HuggingFace gỡ một số mô hình mở xuống
Dù điều đó chẳng hợp lý
Cấm mô hình mã nguồn mở chẳng giúp giải quyết vấn đề chút nào. Vì kẻ tấn công không cảm thấy bị luật ràng buộc. Vì mục đích phòng thủ, mọi mô hình tiên tiến đều cần phải truy cập được
Chính phủ có thẩm quyền (a) ngăn xuất khẩu hàng hóa và dịch vụ của Mỹ, (b) cấm nhập khẩu hàng hóa vật lý, và (c) cấm giao dịch với doanh nghiệp nước ngoài, bao gồm giao dịch mua dịch vụ hoặc ký hợp đồng cấp phép
Nhưng nếu một công ty Mỹ có quan hệ độc lập với nhà cung cấp, và cũng không dùng trong hợp đồng chính phủ hay ứng dụng chịu quản lý, thì tôi không rõ có thẩm quyền pháp lý nào để cấm chính hành vi chạy một mô hình AI mã nguồn mở do Trung Quốc phát triển trong lãnh thổ Mỹ
Có khả năng họ ra lệnh cho HuggingFace và các bên tương tự đình chỉ tài khoản Trung Quốc. Nhưng nếu ai đó ở Mỹ hoặc nước thứ ba tải mô hình từ Trung Quốc rồi, hoàn toàn độc lập với nhà cung cấp, tải lại nó lên máy chủ Mỹ, thì tôi tự hỏi mối liên hệ pháp lý nào có thể dùng để cấm việc đó
Tôi dùng GLM 5.2 qua Neuralwatt và nó rẻ đến mức nếu công ty cung cấp gói Claude thì có lẽ tôi có thể hủy thuê bao Claude cá nhân
Tháng này tôi đã dùng 374 triệu token mà với cách tính giá dựa trên năng lượng chỉ tốn 18 đô la
Đọc như quảng cáo
Thứ hai, đây “chỉ” là IDOR, thuộc nhóm dễ nhất trong các loại lỗ hổng
Thứ ba, họ đang so sánh với GPT 5.5 và Opus 4.8
Không, nhà tôi không có Mythos
Nếu có thể cung cấp về mặt kinh tế thì nó đã được công bố ngay từ ngày đầu, thay vì màn xiếc marketing do đám hề vị tha hiệu quả bày ra. Bởi việc thừa nhận rằng chi phí suy luận của một mô hình chỉ tốt hơn dưới 10% lại đắt hơn hơn 1000% sẽ rất chí mạng
Đây là một mô hình thực sự mạnh để tìm và sửa lỗ hổng
Ở EU thì tình hình còn phức tạp hơn. Mythos có thể một ngày nào đó bước vào phòng rồi bất ngờ biến mất theo ý thích thất thường của một chủ thể chính trị mà chúng ta hoàn toàn không kiểm soát được
Biết các mô hình mở có thể truy cập và chạy cục bộ đã tiến xa tới đâu là điều quan trọng. Tôi biết chúng vẫn tụt lại. Nhưng sẽ đến lúc “đủ tốt” trở nên hữu dụng. Hôm nay dù đó “chỉ là IDOR” và vẫn tụt sau mức hiện đại nhất, điều đó vẫn đúng
Như ai đó ở trên đã nói, các mô hình cùng hạng như GLM 5.2, Kimi, DeepSeek V4 đang ngày càng đủ tốt để hỗ trợ các tác vụ chuẩn bị kho mã tự động, tức tải xuống·cài đặt·kiểm thử·sửa·kiểm thử lại. Điều đó dẫn tới dữ liệu theo dõi sử dụng thực tế có thể dùng để huấn luyện thế hệ tiếp theo. Việc đó có thể còn quan trọng hơn chuyện thua vài phần trăm trên benchmark