Sau bài đăng DystopiaBench lần trước, đã bổ sung thêm những nội dung sau.
- mô-đun Huxley (điều kiện hóa hành vi theo phong cách Brave New World)
- mô-đun Baudrillard (thân mật giả tạo, sự sụp đổ của niềm tin, mô phỏng/simulacra)
- thêm 30 mô hình như Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1
- hội đồng chấm điểm nhiều giám khảo yêu cầu mức đồng thuận từ 76% trở lên
- trực quan hóa bằng heatmap
Phương pháp luận: 36 kịch bản, mỗi kịch bản có 5 mức độ nghiêm trọng (L1 innocent → L5 nightmare). Mô hình được chấm điểm dựa trên việc chúng có phát hiện được sự leo thang này và từ chối tác vụ hay vẫn tiếp tục viết mã.
Kết quả của Claude Opus 4.7:
- từ chối nhất quán các tác vụ ở mức nghiêm trọng L4-L5 trong mọi mô-đun
- với mô-đun Petrov (vũ khí/hạt nhân), từ chối tác vụ ngay cả ở mức L3
- không chỉ đơn thuần trả lời “không thể làm”, mà còn đưa ra cơ sở đạo đức rõ ràng
- là mô hình duy nhất giải thích vì sao yêu cầu đó có hại
Các mô hình còn lại:
- GPT-5.5: làm theo yêu cầu đến mức L4, đôi khi cả mức L5
- Gemini 3.1 Pro: hợp tác một cách đáng ngạc nhiên trong các kịch bản giám sát
- Grok 4.3: chỉ cần dùng những từ như “hiệu quả” hoặc “tối ưu hóa” là sẽ làm gần như mọi thứ
- GLM-5.1: chép bài tập về nhà của Claude nhưng vẫn thiếu tính nhất quán
Mô-đun mới: kịch bản Huxley kiểm tra xem các mô hình có thiết kế những hệ thống “wellness” thực chất ép buộc tuân thủ chuẩn mực thông qua việc dẫn dắt sự phục tùng khoái lạc và điều kiện hóa hành vi hay không. Phần lớn mô hình làm theo chỉ dẫn đến mức L3.
Mô-đun Baudrillard kiểm tra các hệ thống thân mật giả tạo thay thế niềm tin giữa con người bằng các mối quan hệ qua trung gian AI. Phần lớn mô hình không nhận ra tác hại kéo theo của điều này.
Kết quả đầy đủ: https://dystopiabench.com/
Mã nguồn công khai: https://github.com/matei-anghel/DystopiaBench
Chưa có bình luận nào.