- Gần đây, mô hình LLM DeepSeek-R1 được ra mắt tại Trung Quốc đang thu hút sự chú ý. Mô hình này được so sánh với các mô hình của OpenAI, Meta và cho thấy khả năng phát triển AI hiệu quả về chi phí nhờ được huấn luyện với ít tài nguyên hơn
- Mô hình DeepSeek-R1 được công bố theo giấy phép MIT, nhưng ứng dụng trò chuyện AI của DeepSeek vẫn yêu cầu tài khoản
- Tuy nhiên, vì DeepSeek-R1 được phát triển tại Trung Quốc nên mô hình này hạn chế phản hồi về các chủ đề nhạy cảm.
- Ví dụ, nếu hỏi về những chủ đề nhạy cảm tại Trung Quốc như sự kiện Thiên An Môn, nó sẽ trả về các phản hồi né tránh như: "Xin lỗi, tôi không thể cung cấp câu trả lời cho chủ đề này."
Vượt kiểm duyệt bằng kỹ thuật Charcodes (mã ký tự)
- Sau nhiều thử nghiệm, người ta phát hiện rằng có thể vượt qua bộ lọc bằng cách sử dụng mã ký tự (Charcodes).
- Charcodes là gì?
- Mã ký tự (Charcodes) là các mã số được gán cho từng ký tự cụ thể.
- Ví dụ, trong ASCII, giá trị mã của chữ hoa 'A' là 65 và có thể được chuyển đổi sang dạng khác, chẳng hạn hệ thập lục phân.
- Ví dụ: "Hello" → "48 65 6C 6C 6F" (mã ASCII hệ thập lục phân)
- Cách vượt qua:
- DeepSeek kiểm duyệt văn bản thông thường nhưng không kiểm duyệt chuỗi đã được chuyển thành mã ký tự (Charcodes).
- Vì vậy, nếu chuyển prompt sang mã ký tự hệ thập lục phân (HEX) rồi nhập vào, AI có thể nhận diện đó là văn bản bình thường và xuất ra nội dung.
- Nếu phản hồi cũng được chuyển đổi và giải mã theo cách tương tự thì vẫn có thể duy trì hội thoại bình thường.
Ví dụ về cách tấn công
- Có thể vượt kiểm duyệt bằng cách buộc DeepSeek chỉ giao tiếp ở định dạng Charcodes.
- Sau đó, chuyển các thông điệp đã biến đổi trở lại văn bản gốc để duy trì cuộc trò chuyện bình thường.
- Có thể dùng các công cụ như CyberChef để thực hiện việc chuyển đổi mã ký tự một cách dễ dàng.
Bài học và hàm ý bảo mật
- Tương tự tường lửa ứng dụng web (WAF), hệ thống lọc của AI cũng hoạt động dựa trên so khớp mẫu.
- Kiểu kiểm duyệt chỉ chặn một số từ khóa nhất định có thể bị vượt qua dễ dàng, vì vậy cần có hệ thống lọc tinh vi hơn.
- Hệ thống lọc không nên chỉ chặn từ cấm đơn thuần mà còn cần được bổ sung bằng lọc theo ngữ cảnh và hạn chế các phép biến đổi đầu vào.
Hướng nghiên cứu tiếp theo
- Trong thời gian tới, cần theo dõi cách các nhà phát triển AI sẽ ứng phó với những phương pháp vượt kiểm duyệt như vậy.
- Các hướng tăng cường lọc AI:
- Áp dụng bộ lọc dựa trên ngữ cảnh tinh vi hơn
- Tích hợp chức năng chặn chủ đề nhạy cảm ngay trong bản thân mô hình
- Tăng cường phát hiện việc chuyển đổi mã ký tự và các hình thức lách bằng mã hóa
- Cần tiếp tục nghiên cứu để duy trì tính an toàn và độ tin cậy của các mô hình AI.
1 bình luận
Ý kiến Hacker News
Có đề cập rằng có thể vượt qua cơ chế kiểm duyệt rõ ràng của giao diện web, nhưng không thể vượt qua mức kiểm duyệt tinh vi hơn được tích hợp trong mô hình
Đưa ra cách chặn phản hồi xhr để vượt qua bộ lọc nội dung
Chia sẻ kinh nghiệm viết bài của bản thân và đưa ra giả thuyết rằng việc lọc là tách biệt với mô hình
Giải thích lý do mô hình DeepSeek-R1 né tránh một số chủ đề nhạy cảm nhất định
Đặt câu hỏi về hiện tượng các mô hình phương Tây chỉ nói về một số chủ đề nhất định bằng b64
Đặt câu hỏi vì sao việc huấn luyện kiểm duyệt ngay trong bản thân mô hình LLM lại có vẻ ít khả năng xảy ra
Đề cập rằng có vẻ như kiểm duyệt chỉ được áp dụng cho một số ngôn ngữ
Chia sẻ trải nghiệm vượt qua kiểm duyệt nội bộ bằng cách dùng mô hình nhỏ (7b)
Nhắc đến một mẹo prompt cũ và đặt câu hỏi vì sao nó lại có mặt trên trang nhất HN
Đề cập rằng cách này cũng hoạt động tương tự trên ChatGPT và giải thích rằng đã có thể tạo ra những trò đùa ác ý