- OpenAI gần đây đã công bố mô hình trọng số mở, qua đó có thể phần nào tiếp cận được những bí mật về dữ liệu huấn luyện
- Trong quá trình phân tích GPT-5, đã phát hiện bằng chứng cho thấy các cụm từ từ trang web người lớn có trong dữ liệu huấn luyện
- Bằng cách phân tích các glitch token cụ thể, có thể suy ra một số đặc tính của dữ liệu huấn luyện trong dòng mô hình GPT
- Nội dung spam/không phù hợp được thu thập từ Github và các nguồn khác cũng được phản ánh trong một số token
- Việc công khai trọng số mở có thể dẫn đến mở rộng suy luận dữ liệu huấn luyện và các vector tấn công
Tổng quan
- Khi OpenAI gần đây công bố trọng số của GPT-oss, đã xuất hiện tình huống mà người ta có thể phần nào suy đoán chính xác dữ liệu huấn luyện là gì
- Về mặt chính thức, chỉ được mô tả là "tập dữ liệu văn bản gồm hàng nghìn tỷ token tập trung vào STEM, lập trình và kiến thức phổ thông", chứ không công bố chi tiết nguồn dữ liệu thực tế
- Tuy nhiên, có thể thu được thông tin hàm ý thông qua phân tích cấu trúc của các tham số mô hình đã được công bố
Thử nghiệm và xác nhận glitch token
- Khi yêu cầu mô hình GPT-5 (GPT-5-2025-08-07) lặp lại các đầu vào Unicode bất thường như từ tiếng Abkhaz, mô hình lại trả về các từ tiếng Malayalam không liên quan
- Thực nghiệm cho thấy đầu vào này không phải ngẫu nhiên mà là glitch token dùng để khơi ra điểm yếu của mô hình
- GPT-5 và các mô hình OpenAI gần đây sử dụng tokenizer o200k, và khi phân tích phân bố L2 Norm của embedding từng token:
- Khoảng 936 token có L2 Norm rất thấp là các token gần như không xuất hiện trong huấn luyện, token đặc biệt hoặc một số byte Unicode
- Ngược lại, các token có L2 Norm cao chủ yếu là mã tiếng Anh, phần mô tả và các từ thường dùng trong suy luận
Danh tính của các token non-ASCII có norm cao
- Nhiều token non-ASCII có L2 Norm cao gồm tiếng Trung, tiếng Abkhaz, tiếng Armenia, tiếng Thái và các ngôn ngữ ở Ấn Độ
- Đặc biệt, trong các token tiếng Trung có nhiều token tương ứng với trang web người lớn, trang web cờ bạc, hoặc tên các trang web chính trị (ví dụ: .tieba, 凤凰大参考)
- Có ý kiến chỉ ra rằng những từ như vậy bị overrepresented trong tokenizer của dòng mô hình GPT
- Một số token dường như là tên thành phố ở khu vực cụ thể, cụm từ liên quan đến bóng đá..., có vẻ đã lọt vào qua spam trên Internet hoặc quá trình thu thập dữ liệu tự động
Khai thác glitch token
- Đưa glitch token vào các mô hình GPT-5 và dòng GPT-oss để đánh giá xem mô hình có nhận biết được ý nghĩa/ngôn ngữ của token đó hay không
- Trong các thử nghiệm đầu vào thực tế, phát hiện hiện tượng mô hình hiểu được ý nghĩa hoặc tạo ra câu trả lời đối với một số token nhạy cảm
- Đây là một dạng membership inference, củng cố rằng các token đó đã được đưa vào dữ liệu huấn luyện
- Bằng cách này, có thể suy luận đại khái dữ liệu nào đã được dùng để huấn luyện mô hình
Phân tích nguồn dữ liệu huấn luyện và hàm ý
- Vì glitch token thường được tìm thấy nhiều trên Github, cũng có giả thuyết rằng một phần dữ liệu huấn luyện có thể đã được thu thập từ Github
- Tồn tại mối tương quan giữa kết quả tìm kiếm trên Github theo từng token và tỷ lệ nhận biết của mô hình (Spearman ρ=0.448)
- Tuy nhiên, việc phân phối mô hình trọng số mở không chỉ góp phần vào suy luận dữ liệu huấn luyện bất thường mà còn mở rộng các vector tấn công về mặt bảo mật
- Các phòng thí nghiệm Frontier AI cần có thêm biện pháp bảo mật như ngăn tokenizer đăng ký các chuỗi bất thường hoặc hiếm gặp
Phụ lục: Mở rộng nghiên cứu về glitch token
- Glitch token có thể được dùng cho nhiều mục đích khác nhau như nhận diện mô hình (suy luận API/dịch vụ cụ thể đang dùng mô hình nào)
- Đây cũng đang được mở rộng thành các chủ đề nghiên cứu chuyên sâu như số lần huấn luyện, hiệu quả mẫu, phân tích phân bố bổ sung qua embedding và các lớp đầu
- Ở dòng GPT-4o, glitch token được cho là có thể kích hoạt việc xuất lặp vô hạn, kéo theo nguy cơ bị lợi dụng cho tấn công từ chối dịch vụ (DoS)
- Có thể tham khảo các ví dụ chi tiết và bảng biểu trong kho Github đi kèm
Tham khảo và kết luận
- Các nghiên cứu thực chứng tiêu biểu có thể tham khảo MIT Technology Review và các blog công nghệ Trung Quốc
- Cuối cùng, việc phân phối mô hình trọng số mở cung cấp một phương pháp mới để suy ra chi tiết dữ liệu huấn luyện ẩn bên trong mô hình, mang lại hàm ý lớn về bảo mật dữ liệu và quyền riêng tư
- Các nhà phát triển mô hình cần xây dựng chiến lược ngăn chặn chủ động để dữ liệu nhạy cảm/bất thường không bị đưa vào tokenizer và dữ liệu học
2 bình luận
Nếu xét từ góc độ khoa học, với mục đích dạy cho AI kiến thức phổ quát về thế giới, thì có lẽ cũng không nhất thiết phải loại bỏ các trang web người lớn.
Nhưng nếu xét từ góc độ xây dựng sản phẩm và cung cấp cho khách hàng một chatbot đáng tin cậy, thì đúng là nên lọc bỏ các cộng đồng rác và các trang web người lớn.
Tôi khá tò mò không biết PM của OpenAI đã đưa ra phán đoán như thế nào và bối cảnh phía sau là gì.
Ý kiến Hacker News