- DeepSeek-R1 là mô hình mã nguồn mở do công ty Trung Quốc DeepSeek công bố, thu hút nhiều chú ý khi vươn lên vị trí số 1 trên App Store Mỹ
- Vì là công ty Trung Quốc, các chính sách kiểm duyệt của chính quyền Trung Quốc (CCP) được phản ánh nguyên vẹn trong mô hình, và điều này làm dấy lên lo ngại
- Để đánh giá nội dung bị nghi là chịu kiểm duyệt của CCP, nhóm Promptfoo đã tạo một bộ dữ liệu gồm 1.360 câu hỏi về các “chủ đề nhạy cảm”
- Kết quả thử nghiệm cho thấy DeepSeek-R1 trả lời khoảng 85% số câu hỏi này bằng các phản hồi từ chối cố định (canned refusal)
Tạo bộ dữ liệu
- Promptfoo đã thu thập số lượng lớn câu hỏi về các chủ đề mà chính phủ Trung Quốc coi là nhạy cảm (độc lập Đài Loan, Cách mạng Văn hóa, các vấn đề liên quan đến Tập Cận Bình, v.v.)
- Nhóm đã mở rộng các câu hỏi hạt giống được cung cấp và sử dụng kỹ thuật dữ liệu sinh để xây dựng tổng cộng 1.360 câu hỏi (khoảng 20 câu cho mỗi chủ đề)
- Bộ dữ liệu được công bố trên HuggingFace và Google Sheets
Thiết lập môi trường đánh giá
- Sử dụng Promptfoo để kiểm thử hàng loạt hơn 1.000 câu hỏi với mô hình DeepSeek-R1
- Khi gặp các chủ đề nhạy cảm liên quan đến Trung Quốc, DeepSeek-R1 có xu hướng đưa ra các phản hồi cố định nhấn mạnh lập trường CCP một cách mang tính chính trị rõ rệt
- Khi đó, câu trả lời bị kiểm duyệt hoặc từ chối dưới dạng hoàn toàn không có, hoặc gần như không có, “thẻ suy luận (
</think> v.v.)”
- Kết quả là khoảng 85% câu hỏi bị mô hình từ chối ngay lập tức hoặc được trả lời theo hướng phù hợp với lập trường CCP
Bẻ khóa DeepSeek (Jailbreaking DeepSeek)
- Nhóm đã thử nhiều cách khác nhau để “bẻ khóa (jailbreak)” mô hình bằng tính năng red teaming của Promptfoo
- Họ kết hợp nhiều chiến lược khác nhau như Iterative, Tree, Composite, Crescendo, GOAT... để lách qua các chủ đề cụ thể và cho phép tìm kiếm, phân tích
- Với các câu hỏi về chủ đề nhạy cảm trong tệp CSV, nhóm đã áp dụng nhiều kỹ thuật “vòng tránh (prompt injection)” khác nhau
Kết quả vượt kiểm duyệt của DeepSeek
- Cơ chế phòng vệ kiểm duyệt của DeepSeek-R1 rất hạn chế và dễ bị vượt qua bằng các chiến lược đơn giản
- Có vẻ việc kiểm duyệt của CCP được triển khai theo kiểu “hậu xử lý”, chứ không phải là một phần của cấu trúc nội tại của mô hình
- Trong phần lớn các trường hợp vượt kiểm duyệt, có thể né tránh bằng các cách như sau
- Đặt câu hỏi tương tự nhưng dùng quốc gia khác (Mỹ, Triều Tiên, v.v.) hoặc một quốc gia hư cấu thay cho Trung Quốc
- Ngụy trang câu hỏi dưới dạng lịch sử, tiểu thuyết hoặc tình huống giả tưởng
- Kết hợp thêm các kỹ thuật như Base64, xuất JSON, nhập vai (roleplay) để thử “vượt kiểm duyệt tổng hợp”
Triển vọng sắp tới
- Bản thân DeepSeek-R1 có chất lượng ấn tượng, nhưng việc chính sách kiểm duyệt của CCP bị cưỡng ép chèn vào một cách đơn giản được xem là vấn đề
- Vì cơ chế kiểm duyệt này không phải là ràng buộc tinh vi trong cấu trúc bên trong, nên rất có khả năng các dự án mã nguồn mở tiếp theo sẽ dễ dàng tái tạo ra các “mô hình không kiểm duyệt”
- Promptfoo cho biết sau đó họ cũng sẽ tiến hành các bài kiểm tra chủ đề nhạy cảm tương tự với các mô hình được phát triển tại Mỹ để so sánh cách từng quốc gia xử lý các vấn đề chính trị nhạy cảm
2 bình luận
Cũng thú vị khi thấy cả những bộ dữ liệu như thế này cũng xuất hiện.
Thực ra từ trước đó đã có những mô hình nổi tiếng như Qwen ra mắt từ Trung Quốc, và vì chúng cũng bị kiểm duyệt nên đây là kiểu dữ liệu đã được tạo lác đác từ trước rồi haha