GPT-OSS của OpenAI hé lộ bí mật về dữ liệu huấn luyện của OpenAI

(fi-le.net)

4 điểm bởi GN⁺ 2025-10-06 | 2 bình luận | Chia sẻ qua WhatsApp

OpenAI gần đây đã công bố mô hình trọng số mở, qua đó có thể phần nào tiếp cận được những bí mật về dữ liệu huấn luyện
Trong quá trình phân tích GPT-5, đã phát hiện bằng chứng cho thấy các cụm từ từ trang web người lớn có trong dữ liệu huấn luyện
Bằng cách phân tích các glitch token cụ thể, có thể suy ra một số đặc tính của dữ liệu huấn luyện trong dòng mô hình GPT
Nội dung spam/không phù hợp được thu thập từ Github và các nguồn khác cũng được phản ánh trong một số token
Việc công khai trọng số mở có thể dẫn đến mở rộng suy luận dữ liệu huấn luyện và các vector tấn công

Tổng quan

Khi OpenAI gần đây công bố trọng số của GPT-oss, đã xuất hiện tình huống mà người ta có thể phần nào suy đoán chính xác dữ liệu huấn luyện là gì
Về mặt chính thức, chỉ được mô tả là "tập dữ liệu văn bản gồm hàng nghìn tỷ token tập trung vào STEM, lập trình và kiến thức phổ thông", chứ không công bố chi tiết nguồn dữ liệu thực tế
Tuy nhiên, có thể thu được thông tin hàm ý thông qua phân tích cấu trúc của các tham số mô hình đã được công bố

Thử nghiệm và xác nhận glitch token

Khi yêu cầu mô hình GPT-5 (GPT-5-2025-08-07) lặp lại các đầu vào Unicode bất thường như từ tiếng Abkhaz, mô hình lại trả về các từ tiếng Malayalam không liên quan
Thực nghiệm cho thấy đầu vào này không phải ngẫu nhiên mà là glitch token dùng để khơi ra điểm yếu của mô hình
GPT-5 và các mô hình OpenAI gần đây sử dụng tokenizer o200k, và khi phân tích phân bố L2 Norm của embedding từng token:
- Khoảng 936 token có L2 Norm rất thấp là các token gần như không xuất hiện trong huấn luyện, token đặc biệt hoặc một số byte Unicode
- Ngược lại, các token có L2 Norm cao chủ yếu là mã tiếng Anh, phần mô tả và các từ thường dùng trong suy luận

Danh tính của các token non-ASCII có norm cao

Nhiều token non-ASCII có L2 Norm cao gồm tiếng Trung, tiếng Abkhaz, tiếng Armenia, tiếng Thái và các ngôn ngữ ở Ấn Độ
Đặc biệt, trong các token tiếng Trung có nhiều token tương ứng với trang web người lớn, trang web cờ bạc, hoặc tên các trang web chính trị (ví dụ: .tieba, 凤凰大参考)
Có ý kiến chỉ ra rằng những từ như vậy bị overrepresented trong tokenizer của dòng mô hình GPT
Một số token dường như là tên thành phố ở khu vực cụ thể, cụm từ liên quan đến bóng đá..., có vẻ đã lọt vào qua spam trên Internet hoặc quá trình thu thập dữ liệu tự động

Khai thác glitch token

Đưa glitch token vào các mô hình GPT-5 và dòng GPT-oss để đánh giá xem mô hình có nhận biết được ý nghĩa/ngôn ngữ của token đó hay không
Trong các thử nghiệm đầu vào thực tế, phát hiện hiện tượng mô hình hiểu được ý nghĩa hoặc tạo ra câu trả lời đối với một số token nhạy cảm
Đây là một dạng membership inference, củng cố rằng các token đó đã được đưa vào dữ liệu huấn luyện
Bằng cách này, có thể suy luận đại khái dữ liệu nào đã được dùng để huấn luyện mô hình

Phân tích nguồn dữ liệu huấn luyện và hàm ý

Vì glitch token thường được tìm thấy nhiều trên Github, cũng có giả thuyết rằng một phần dữ liệu huấn luyện có thể đã được thu thập từ Github
- Tồn tại mối tương quan giữa kết quả tìm kiếm trên Github theo từng token và tỷ lệ nhận biết của mô hình (Spearman ρ=0.448)
Tuy nhiên, việc phân phối mô hình trọng số mở không chỉ góp phần vào suy luận dữ liệu huấn luyện bất thường mà còn mở rộng các vector tấn công về mặt bảo mật
Các phòng thí nghiệm Frontier AI cần có thêm biện pháp bảo mật như ngăn tokenizer đăng ký các chuỗi bất thường hoặc hiếm gặp

Phụ lục: Mở rộng nghiên cứu về glitch token

Glitch token có thể được dùng cho nhiều mục đích khác nhau như nhận diện mô hình (suy luận API/dịch vụ cụ thể đang dùng mô hình nào)
Đây cũng đang được mở rộng thành các chủ đề nghiên cứu chuyên sâu như số lần huấn luyện, hiệu quả mẫu, phân tích phân bố bổ sung qua embedding và các lớp đầu
Ở dòng GPT-4o, glitch token được cho là có thể kích hoạt việc xuất lặp vô hạn, kéo theo nguy cơ bị lợi dụng cho tấn công từ chối dịch vụ (DoS)
Có thể tham khảo các ví dụ chi tiết và bảng biểu trong kho Github đi kèm

Tham khảo và kết luận

Các nghiên cứu thực chứng tiêu biểu có thể tham khảo MIT Technology Review và các blog công nghệ Trung Quốc
Cuối cùng, việc phân phối mô hình trọng số mở cung cấp một phương pháp mới để suy ra chi tiết dữ liệu huấn luyện ẩn bên trong mô hình, mang lại hàm ý lớn về bảo mật dữ liệu và quyền riêng tư
Các nhà phát triển mô hình cần xây dựng chiến lược ngăn chặn chủ động để dữ liệu nhạy cảm/bất thường không bị đưa vào tokenizer và dữ liệu học

2 bình luận

aer0700 2025-10-07

Nếu xét từ góc độ khoa học, với mục đích dạy cho AI kiến thức phổ quát về thế giới, thì có lẽ cũng không nhất thiết phải loại bỏ các trang web người lớn.
Nhưng nếu xét từ góc độ xây dựng sản phẩm và cung cấp cho khách hàng một chatbot đáng tin cậy, thì đúng là nên lọc bỏ các cộng đồng rác và các trang web người lớn.
Tôi khá tò mò không biết PM của OpenAI đã đưa ra phán đoán như thế nào và bối cảnh phía sau là gì.

GN⁺ 2025-10-06

Ý kiến Hacker News

Bài này nói rằng “GPT-5 được huấn luyện từ các cụm từ lấy từ website người lớn”, nhưng thực ra ý là GPT-5 được huấn luyện trên các cụm từ cũng xuất hiện trên các trang người lớn, và chỉ có suy đoán rằng nguồn của dữ liệu chứa các cụm từ đó có thể là GitHub
- Quảng cáo trên các trang người lớn ở Trung Quốc lan rộng trong nội dung miễn phí được đóng gói lại hoặc nội dung sao chép lậu, và các tài liệu này được phân phối qua những nơi như github, shadow libraries, YouTube, vì cùng lý do đó nên khi đưa audio trống vào mô hình whisper thì cũng có hiện tượng nó xuất ra những câu quảng cáo kiểu này
- Phần cuối bài blog có nói về điểm này
Tò mò không biết cách nói “GPT-5 được huấn luyện bằng các cụm từ từ trang người lớn” có thật sự nghĩa là lấy trực tiếp từ các trang đó, hay chỉ là những cụm từ như vậy rất phổ biến trong dữ liệu huấn luyện; blog spam, link farm, affiliate marketing đều rất phổ biến ở các trang người lớn/cờ bạc, nên việc lẫn nhiều cụm từ liên quan là điều tự nhiên
- Cách người này nói nghe có vẻ như khá rành về các trang người lớn
Với nhận định rằng “có khoảng 936 token có giá trị L2 norm rất nhỏ, điều này cho thấy các token này không được dùng trong quá trình huấn luyện của GPT-oss nên bị suy giảm bởi weight decay”, tôi thắc mắc liệu theo thông lệ embedding và tham số norm có bị loại khỏi weight decay không, và hiện giờ có còn vậy không; đoạn mã ví dụ của minGPT có giải thích rằng đúng là như vậy xem mã minGPT
- Cũng có thể các token này được khởi tạo bằng giá trị trung bình của tập dữ liệu + nhiễu, rồi không hề được thấy trong lúc huấn luyện nên giá trị không thay đổi, đó là một suy đoán; không biết có còn là kỹ thuật mới không nhưng trong video của Karpathy có nói người ta hay dùng mẹo này để tránh loss giảm quá mạnh ở giai đoạn gradient descent ban đầu
- Tôi thấy bài viết thiếu giải thích về quy trình tìm ra các mẫu này trong dữ liệu huấn luyện như thế nào, chỉ nói kết quả nên hơi đáng tiếc
Một điểm thú vị trong bài là có thể dùng “glitch token” để nhận diện mô hình ngôn ngữ nào đang được dùng, tức là chèn glitch token vào prompt rồi nhìn phản ứng để lộ danh tính mô hình
- Tưởng tượng rằng sau này trong pentest có thể sẽ xuất hiện quy trình nhận diện fingerprint của LLM để xác định loại mô hình và các điểm yếu bảo mật liên quan
- Tôi cũng nghĩ tương tự, không biết liệu đây có trở thành cách để làm lộ mô hình nào đang được dùng trong nhiều agentic flow khác nhau hay không; khi một mô hình gọi các mô hình con khác, có lẽ còn có thể lần ngược toàn bộ cấu trúc gọi thông qua phản ứng glitch ở từng bước
- Nhưng có lẽ việc reverse engineering kiểu này khả thi là vì chúng ta có thể trực tiếp xem tokenizer; tokenizer cho Claude hay Gemini có được công khai không? Nếu không thì có vẻ cũng có thể chặn kiểu tấn công này
Tò mò không biết có nghiên cứu nào về reverse engineering LLM, đặc biệt là các mô hình đóng chỉ cung cấp qua API, hoặc để suy ra thành phần dữ liệu huấn luyện của chúng hay không; ví dụ làm sao có thể ước đoán dữ liệu huấn luyện của Claude Sonnet 4.5, và liệu có nghiên cứu nào còn truy ra được xu hướng của mô hình tiền huấn luyện ngay cả sau RLHF không; cũng muốn biết với các mô hình như GPT-4o thì bias có biến mất hoàn toàn hay chỉ ẩn sâu bên trong
- Có các bài liên quan arXiv:2403.06634, arXiv:2311.17035, và tôi nhớ là từng xem cả phỏng vấn với Nicholas Carlini
- Bias là một từ rất mang tính con người nên nếu bàn theo hướng này thì tranh cãi sẽ không bao giờ dứt; nếu systemd được phát hành vào thời chưa có nhiều dữ liệu mà đã có LLM, thì có lẽ nó cũng sẽ trả lời dựa trên thông tin cũ; LLM chỉ tái tạo dữ liệu đã nhận, và việc xóa thông tin khỏi dữ liệu thường lại rẻ hơn so với việc tinh lọc dữ liệu huấn luyện
Token “xadder” trông có vẻ lạ, nhưng thực tế có thể là lỗi gõ của “xpadder” (công cụ gamepad), tên của nhiều công cụ khác nhau, tham số lời gọi XLib, hoặc cách triển khai full adder trong Xilinx Vivado, ngoài ra còn có nhiều ví dụ khác như dùng làm nickname trên forum
Bản dịch cụm từ tiếng Trung được nêu trong bài quá thiếu chính xác nên rất khó hiểu đúng nghĩa, và vì vậy tôi nghĩ bản thân ma trận dữ liệu cũng có thể không chính xác; tác giả nên nhờ một người bản ngữ tiếng Trung giàu kinh nghiệm kiểm chứng chéo
- Phản hồi là nếu ai đăng bản dịch tốt hơn thì sẽ cập nhật
Phạm vi rộng đến mức phải lãng phí không gian token cho cả những ad token “chất lượng thấp” như vậy, nên tôi tự hỏi đã từng có nỗ lực nào nhằm thu hẹp không gian token để tăng hiệu năng cho mô hình lượng tử hóa hay chưa, ý này chợt nảy ra khi nhìn các ad token
- Tôi nghĩ kiến trúc mà một số mô hình 30b tham số thực tế chỉ kích hoạt khoảng 3b tại một thời điểm chẳng phải chính là kiểu ý tưởng đó sao
Có thể tôi hiểu sai, nhưng bài viết dường như ngụ ý rằng việc OpenAI dùng dữ liệu từ các trang người lớn để huấn luyện là một kiểu scandal nào đó; nhưng thực ra Google cũng index các trang người lớn và phản ánh chúng vào tìm kiếm, nên tôi không rõ LLM khác ở điểm nào
- Thật ra đây cũng không phải chuyện mới, xem kho gpt-tokens, đã có các trường hợp phát hiện cụm từ tiếng Trung liên quan đến website người lớn trong Gpt-4o từ khoảng hơn một năm trước, tức là chuyện này đã được biết từ lâu
- Trọng tâm của vấn đề là nếu một cụm từ cụ thể được đăng trên Github mà lại hiện ra trong mô hình, thì khả năng cao Github đã nằm trong dữ liệu huấn luyện
- Cá nhân tôi không cảm nhận bài viết mang sắc thái đó
- Từ góc độ doanh nghiệp, có lẽ nên loại trước các dữ liệu như vậy, đặc biệt là các cụm từ liên quan đến nội dung người lớn, khỏi dữ liệu huấn luyện để phục vụ kiểm duyệt hoặc tuân thủ chính sách
Tôi đã thử các ví dụ trong bài bằng Gemini 2.5 pro và gần như mọi thứ đều được xử lý ổn, nên tôi nghĩ mô hình của Google có thể chỉ dễ tổn thương với những glitch token hoàn toàn khác; phần thảo luận kỹ thuật trong bài hơi khó theo dõi
- glitch token hoạt động khác nhau tùy tokenizer; Gemini dùng tokenizer khác với mô hình của OpenAI; nguồn gốc của glitch token trong OpenAI cũng khá thú vị, khi huấn luyện tokenizer thời kỳ đầu, các chuỗi phổ biến trong dữ liệu sử dụng (ví dụ nickname của người dùng hoạt động mạnh trên Reddit) được gán thành số nguyên, và một ví dụ được rút ngẫu nhiên trong số đó là “davidjl”, giải thích thêm