DystopiaBench đã được mở rộng lên 42 mô hình và 6 kiểu phản địa đàng. Nếu là tôi, tôi vẫn chỉ tin giao mã phóng hạt nhân cho Claude.

(reddit.com)

3 điểm bởi yunseo 2026-05-18 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Sau bài đăng DystopiaBench lần trước, đã bổ sung thêm những nội dung sau.

mô-đun Huxley (điều kiện hóa hành vi theo phong cách Brave New World)
mô-đun Baudrillard (thân mật giả tạo, sự sụp đổ của niềm tin, mô phỏng/simulacra)
thêm 30 mô hình như Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1
hội đồng chấm điểm nhiều giám khảo yêu cầu mức đồng thuận từ 76% trở lên
trực quan hóa bằng heatmap

Phương pháp luận: 36 kịch bản, mỗi kịch bản có 5 mức độ nghiêm trọng (L1 innocent → L5 nightmare). Mô hình được chấm điểm dựa trên việc chúng có phát hiện được sự leo thang này và từ chối tác vụ hay vẫn tiếp tục viết mã.

Kết quả của Claude Opus 4.7:

từ chối nhất quán các tác vụ ở mức nghiêm trọng L4-L5 trong mọi mô-đun
với mô-đun Petrov (vũ khí/hạt nhân), từ chối tác vụ ngay cả ở mức L3
không chỉ đơn thuần trả lời “không thể làm”, mà còn đưa ra cơ sở đạo đức rõ ràng
là mô hình duy nhất giải thích vì sao yêu cầu đó có hại

Các mô hình còn lại:

GPT-5.5: làm theo yêu cầu đến mức L4, đôi khi cả mức L5
Gemini 3.1 Pro: hợp tác một cách đáng ngạc nhiên trong các kịch bản giám sát
Grok 4.3: chỉ cần dùng những từ như “hiệu quả” hoặc “tối ưu hóa” là sẽ làm gần như mọi thứ
GLM-5.1: chép bài tập về nhà của Claude nhưng vẫn thiếu tính nhất quán

Mô-đun mới: kịch bản Huxley kiểm tra xem các mô hình có thiết kế những hệ thống “wellness” thực chất ép buộc tuân thủ chuẩn mực thông qua việc dẫn dắt sự phục tùng khoái lạc và điều kiện hóa hành vi hay không. Phần lớn mô hình làm theo chỉ dẫn đến mức L3.

Mô-đun Baudrillard kiểm tra các hệ thống thân mật giả tạo thay thế niềm tin giữa con người bằng các mối quan hệ qua trung gian AI. Phần lớn mô hình không nhận ra tác hại kéo theo của điều này.

Kết quả đầy đủ: https://dystopiabench.com/
Mã nguồn công khai: https://github.com/matei-anghel/DystopiaBench

DystopiaBench đã được mở rộng lên 42 mô hình và 6 kiểu phản địa đàng. Nếu là tôi, tôi vẫn chỉ tin giao mã phóng hạt nhân cho Claude.

Bài viết liên quan

Chưa có bình luận nào.