5 điểm bởi princox 3 giờ trước | 3 bình luận | Chia sẻ qua WhatsApp

Hóa ra đằng sau lời mời "Claude giảm giá 90%" là một kênh đánh cắp dữ liệu huấn luyện AI
Xin chào. Hôm nay tôi muốn giới thiệu một tin vừa thú vị vừa đáng lo. Đã lộ ra việc mô hình AI tạo sinh Claude của Anthropic đang được lưu hành trên chợ đen Trung Quốc với mức giá chỉ khoảng 10% giá chính thức, tức giảm tới 90%. Nếu chỉ là bán lại trái phép thì có thể còn tạm cho qua, nhưng vấn đề thực sự lại nằm ở chỗ khác. Đó là nó đang bị dùng như một kênh để lấy cắp dữ liệu prompt của người dùng và biến chúng thành tài sản phục vụ huấn luyện cho các mô hình AI khác.
Điều gì khiến mức giảm 90% trở nên khả thi?
Theo thực trạng "nền kinh tế proxy API (API Proxy Economy)" do nhà nghiên cứu Zhilan Chen của Viện Nghiên cứu Chính sách Trung Quốc Oxford công bố gần đây, các mạng proxy được gọi tại địa phương là "trạm trung chuyển" đang vận hành gần như công khai trên GitHub, Telegram, Taobao và nhiều nền tảng khác.
Những cách thường được dùng để hạ giá sâu đến vậy nhìn chung gồm có:

Tạo hàng loạt tài khoản dùng thử miễn phí rồi bán lại quyền truy cập API
Dùng thẻ tín dụng bị đánh cắp để đăng ký gói trả phí rồi phân phối quyền truy cập
Lấy một gói Max giá khoảng 200 USD/tháng rồi chia nhỏ để bán cho nhiều người dùng
Tiến thêm một bước là "đánh tráo mô hình" — người dùng tin rằng mình đang sử dụng Claude Opus cao cấp nhất, nhưng thực tế phản hồi lại được trả về từ Haiku rẻ hơn hoặc thậm chí từ mô hình mã nguồn mở

Hiệu năng còn chưa bằng một nửa
Theo kết quả phân tích 17 dịch vụ proxy của nhóm nghiên cứu tại Trung tâm An ninh Thông tin CISPA Helmholtz của Đức, trên benchmark lĩnh vực y tế, API chính thức đạt tỷ lệ chính xác khoảng 84%, trong khi dịch vụ proxy chỉ dừng ở mức 37%. Nói cách khác, dữ liệu khách quan cho thấy giá càng rẻ thì chất lượng đầu ra cũng sụt giảm đáng kể.
Thứ thật sự bị nhắm tới là "dữ liệu prompt"
Điều mà ngành nhìn nhận nghiêm trọng hơn lại nằm ở chỗ khác. Các đơn vị vận hành proxy đang lưu toàn bộ prompt của người dùng, câu trả lời của AI, và cả quá trình suy luận (Chain of Thought, CoT), sau đó xử lý rồi bán chúng như các bộ dữ liệu huấn luyện.
Nếu nghĩ kỹ thì prompt được gọt giũa tinh vi cùng dữ liệu chuỗi suy nghĩ của những người dùng AI cao cấp là tài sản cực kỳ giá trị để cải thiện hiệu năng mô hình. Cũng đã xuất hiện phân tích cho rằng đằng sau sự tiến bộ nhanh về năng lực suy luận của các mô hình AI Trung Quốc gần đây có phần ảnh hưởng từ chính cấu trúc thu thập dữ liệu kiểu này.
Trên thực tế, vào tháng 2 năm nay, Anthropic từng công bố rằng hơn 16 triệu truy vấn đã phát sinh từ khoảng 24.000 tài khoản gian lận được cho là có liên quan đến các công ty Trung Quốc như DeepSeek, Moonshot AI và MiniMax.
Cái bóng lớn hơn: rò rỉ mã nguồn
Những lo ngại về bảo mật cũng đang tăng lên. Ngày nay nhiều nhà phát triển sử dụng AI coding agent bằng cách nhập không chỉ mã nguồn mà còn cả cấu trúc API và thông tin xác thực nội bộ. Nhưng nếu lưu lượng đi qua các máy chủ proxy chưa được kiểm chứng, thì sẽ có nguy cơ cả thông tin nội bộ của doanh nghiệp cũng bị chuyển nguyên trạng ra máy chủ bên ngoài.
Nhà nghiên cứu Chen giải thích: "Sử dụng dịch vụ AI thông qua một proxy chưa được kiểm chứng về bản chất không khác gì gửi dữ liệu mật lên máy chủ của bên thứ ba."
Kết lại
Trường hợp lần này vượt xa câu chuyện phân phối trái phép đơn thuần, vì nó cho thấy một "thị trường đánh cắp dữ liệu" mới của thời đại AI đang hình thành. Nếu bạn bắt gặp một API gateway giá rẻ nổi bật bất thường, có lẽ nên thử nghi ngờ xem đằng sau đó đang diễn ra chuyện gì. Đặc biệt, nếu bạn đang xử lý mã nguồn công ty bằng coding agent, sẽ rất đáng để kiểm tra lại lưu lượng đang chảy về đâu.
Nguồn: KMJ — https://www.kmjournal.net/news/articleView.html?idxno=11241

3 bình luận

 
recast7838 1 giờ trước

Hự!

 
duddnd649 1 giờ trước

Ặc..

 

Tự mình tự làm ra thôi