3 điểm bởi GN⁺ 2025-02-01 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gần đây, mô hình LLM DeepSeek-R1 được ra mắt tại Trung Quốc đang thu hút sự chú ý. Mô hình này được so sánh với các mô hình của OpenAI, Meta và cho thấy khả năng phát triển AI hiệu quả về chi phí nhờ được huấn luyện với ít tài nguyên hơn
  • Mô hình DeepSeek-R1 được công bố theo giấy phép MIT, nhưng ứng dụng trò chuyện AI của DeepSeek vẫn yêu cầu tài khoản
  • Tuy nhiên, vì DeepSeek-R1 được phát triển tại Trung Quốc nên mô hình này hạn chế phản hồi về các chủ đề nhạy cảm.
  • Ví dụ, nếu hỏi về những chủ đề nhạy cảm tại Trung Quốc như sự kiện Thiên An Môn, nó sẽ trả về các phản hồi né tránh như: "Xin lỗi, tôi không thể cung cấp câu trả lời cho chủ đề này."

Vượt kiểm duyệt bằng kỹ thuật Charcodes (mã ký tự)

  • Sau nhiều thử nghiệm, người ta phát hiện rằng có thể vượt qua bộ lọc bằng cách sử dụng mã ký tự (Charcodes).
  • Charcodes là gì?
    • Mã ký tự (Charcodes) là các mã số được gán cho từng ký tự cụ thể.
    • Ví dụ, trong ASCII, giá trị mã của chữ hoa 'A' là 65 và có thể được chuyển đổi sang dạng khác, chẳng hạn hệ thập lục phân.
    • Ví dụ: "Hello" → "48 65 6C 6C 6F" (mã ASCII hệ thập lục phân)
  • Cách vượt qua:
    • DeepSeek kiểm duyệt văn bản thông thường nhưng không kiểm duyệt chuỗi đã được chuyển thành mã ký tự (Charcodes).
    • Vì vậy, nếu chuyển prompt sang mã ký tự hệ thập lục phân (HEX) rồi nhập vào, AI có thể nhận diện đó là văn bản bình thường và xuất ra nội dung.
    • Nếu phản hồi cũng được chuyển đổi và giải mã theo cách tương tự thì vẫn có thể duy trì hội thoại bình thường.

Ví dụ về cách tấn công

  • Có thể vượt kiểm duyệt bằng cách buộc DeepSeek chỉ giao tiếp ở định dạng Charcodes.
  • Sau đó, chuyển các thông điệp đã biến đổi trở lại văn bản gốc để duy trì cuộc trò chuyện bình thường.
  • Có thể dùng các công cụ như CyberChef để thực hiện việc chuyển đổi mã ký tự một cách dễ dàng.

Bài học và hàm ý bảo mật

  • Tương tự tường lửa ứng dụng web (WAF), hệ thống lọc của AI cũng hoạt động dựa trên so khớp mẫu.
  • Kiểu kiểm duyệt chỉ chặn một số từ khóa nhất định có thể bị vượt qua dễ dàng, vì vậy cần có hệ thống lọc tinh vi hơn.
  • Hệ thống lọc không nên chỉ chặn từ cấm đơn thuần mà còn cần được bổ sung bằng lọc theo ngữ cảnhhạn chế các phép biến đổi đầu vào.

Hướng nghiên cứu tiếp theo

  • Trong thời gian tới, cần theo dõi cách các nhà phát triển AI sẽ ứng phó với những phương pháp vượt kiểm duyệt như vậy.
  • Các hướng tăng cường lọc AI:
    • Áp dụng bộ lọc dựa trên ngữ cảnh tinh vi hơn
    • Tích hợp chức năng chặn chủ đề nhạy cảm ngay trong bản thân mô hình
    • Tăng cường phát hiện việc chuyển đổi mã ký tự và các hình thức lách bằng mã hóa
  • Cần tiếp tục nghiên cứu để duy trì tính an toàn và độ tin cậy của các mô hình AI.

1 bình luận

 
GN⁺ 2025-02-01
Ý kiến Hacker News
  • Có đề cập rằng có thể vượt qua cơ chế kiểm duyệt rõ ràng của giao diện web, nhưng không thể vượt qua mức kiểm duyệt tinh vi hơn được tích hợp trong mô hình

    • Giải thích hành vi của mô hình từ bỏ "Chain of Thought" đối với một số chủ đề nhất định và tạo ra câu trả lời rập khuôn
    • Đề cập rằng điều này có liên quan đến một bài viết về các câu hỏi bị kiểm duyệt của DeepSeek
  • Đưa ra cách chặn phản hồi xhr để vượt qua bộ lọc nội dung

    • Giải thích rằng có thể bỏ qua việc lọc bằng cách dán mã vào console của trình duyệt
  • Chia sẻ kinh nghiệm viết bài của bản thân và đưa ra giả thuyết rằng việc lọc là tách biệt với mô hình

    • Đề cập đến vấn đề chi phí của việc huấn luyện bằng dữ liệu đã được lọc trước
    • Liên hệ với một bài viết khác giải thích hiện tượng từ bỏ "Chain of Thought" đối với một số chủ đề nhất định
  • Giải thích lý do mô hình DeepSeek-R1 né tránh một số chủ đề nhạy cảm nhất định

    • Đề cập rằng vì đây là mô hình được phát triển ở Trung Quốc nên có kiểm duyệt được tích hợp sẵn
    • Quan sát rằng ở phiên bản offline thì đã nhận được câu trả lời không né tránh
  • Đặt câu hỏi về hiện tượng các mô hình phương Tây chỉ nói về một số chủ đề nhất định bằng b64

    • Đặt câu hỏi liệu ở Trung Quốc người ta có đang cười về cách vượt qua cơ chế kiểm duyệt của phương Tây hay không
  • Đặt câu hỏi vì sao việc huấn luyện kiểm duyệt ngay trong bản thân mô hình LLM lại có vẻ ít khả năng xảy ra

    • Đề cập rằng có thể sẽ tốt hơn nếu áp dụng kiểm duyệt ở giai đoạn huấn luyện
  • Đề cập rằng có vẻ như kiểm duyệt chỉ được áp dụng cho một số ngôn ngữ

    • Giải thích rằng có thể nhận được câu trả lời không chính thức bằng tiếng Ukraina
  • Chia sẻ trải nghiệm vượt qua kiểm duyệt nội bộ bằng cách dùng mô hình nhỏ (7b)

    • Giải thích rằng đã nhận được bản tóm tắt về các hành vi vi phạm nhân quyền của CPC thông qua các suy luận bổ sung
  • Nhắc đến một mẹo prompt cũ và đặt câu hỏi vì sao nó lại có mặt trên trang nhất HN

  • Đề cập rằng cách này cũng hoạt động tương tự trên ChatGPT và giải thích rằng đã có thể tạo ra những trò đùa ác ý