- Kết quả thử nghiệm của một nơi tên là Rumi với các mô hình GPT-o3 và o4-mini cho thấy,
trong các câu trả lời dài (ví dụ: viết bài luận, v.v.), có watermark bằng ký tự đặc biệt được chèn vào. - Watermark này được tạo bằng các ký tự khoảng trắng đặc biệt Unicode như "Narrow No-Break Space (U+202F)".
- Hoàn toàn không thể nhìn thấy bằng mắt thường, nhưng sẽ lộ ra khi xem bằng trình soạn thảo mã như Sublime Text, VS Code hoặc trình xem ký tự đặc biệt.
- Watermark này vẫn tồn tại sau khi sao chép-dán (ví dụ: vẫn còn khi sao chép sang Google Docs).
- Tuy nhiên, vì watermark có thể bị xóa bằng thao tác find-and-replace đơn giản, nên đây không phải là biện pháp phòng vệ hoàn hảo.
- OpenAI chưa chính thức công bố tính năng watermark này. (Được cho là đang âm thầm thử nghiệm)
- Có báo cáo rằng trên mô hình GPT-4o không quan sát thấy watermark kiểu này.
Ngoài ra
- Watermark có xu hướng chỉ được chèn vào văn bản dài (đặc biệt là bài tập hoặc báo cáo), và
- hầu như không được chèn trong các cuộc trò chuyện ngắn hoặc hỏi-đáp thông thường.
Tóm tắt một dòng
"Một số mô hình mới đã bắt đầu watermark bằng ký tự đặc biệt, nhưng chưa hoàn hảo vì dễ phát hiện và xóa bỏ."
6 bình luận
[Cập nhật] OpenAI đã chính thức phản hồi với Lummi
OpenAI đã liên hệ với chúng tôi về bài đăng này và cho biết ký tự đặc biệt đó không phải là watermark. Theo OpenAI, đó đơn giản chỉ là “một hiện tượng kỳ lạ của học tăng cường quy mô lớn”. Tuy nhiên, chúng tôi vẫn giữ nguyên bài đăng này để độc giả trong tương lai vẫn có thể thấy vấn đề về những ký tự đặc biệt này (và có khả năng là không mong muốn) trong các phản hồi của ChatGPT o3/o4.
Lần này o3 có vấn đề là mức độ ảo giác cực kỳ nghiêm trọng.
Tôi đã nghĩ có lẽ đây cũng là một trong số đó, nhưng việc họ trực tiếp liên hệ thì khá thú vị.
Có lẽ là để tránh dùng dữ liệu do AI tạo ra làm dữ liệu huấn luyện (model collapse) chăng.
Có lẽ đây không phải watermark mà là lỗi thì đúng hơn? Dù có xem là thử nghiệm đi nữa thì nó vẫn đơn giản đến mức khó tin so với các kỹ thuật watermark cho LLM đang được bàn tới hiện nay..
Tôi cứ nghĩ họ sẽ nói đến những khuynh hướng kỳ lạ trong lập luận, nhưng hóa ra không phải. Có phải đây là một giải pháp quá đơn giản không?
Ừm... có lẽ là vì kiểu watermark này chăng? Gần đây tôi khá nhiều lần gặp hiện tượng trên ChatGPT là tiếng Hàn nhìn vẫn bình thường, nhưng khi chọn sao chép rồi dán thì lại bị vỡ ký tự.