Đằng sau lời rao “Claude giảm 90%”: hóa ra là kênh đánh cắp dữ liệu huấn luyện AI

(kmjournal.net)

14 điểm bởi princox 2026-05-13 | 8 bình luận | Chia sẻ qua WhatsApp

Xin chào. Hôm nay tôi xin giới thiệu một tin tức vừa thú vị vừa đáng lo ngại. Người ta đã phát hiện mô hình AI tạo sinh Claude của Anthropic đang được lưu hành trên chợ đen Trung Quốc với mức giá chỉ khoảng 10% giá chính thức, tức giảm tới 90%. Nếu chỉ là bán lại trái phép thì có thể còn tạm cho qua, nhưng vấn đề thực sự lại nằm ở chỗ khác. Đó là nó đang bị dùng như một kênh để lấy cắp dữ liệu prompt của người dùng rồi tận dụng làm tài sản huấn luyện cho các mô hình AI khác.
Làm sao có thể giảm giá tới 90%?
Theo thực trạng của "nền kinh tế proxy API (API Proxy Economy)" do nhà nghiên cứu Zhilan Chen thuộc Viện Nghiên cứu Chính sách Trung Quốc Oxford gần đây công bố, các mạng proxy được gọi tại địa phương là "trạm trung chuyển" đang hoạt động gần như công khai trên GitHub, Telegram, Taobao và nhiều nơi khác.
Các cách để hạ giá sâu như vậy nhìn chung gồm những kiểu sau.

Tạo hàng loạt tài khoản dùng thử miễn phí rồi bán lại quyền API
Đăng ký gói trả phí bằng thẻ tín dụng bị đánh cắp rồi phân phối quyền truy cập
Chia nhỏ một gói Max giá khoảng 200 USD/tháng để bán cho nhiều người dùng
Tiến thêm một bước là kiểu "đánh tráo mô hình" — người dùng tin rằng mình đang dùng Claude Opus, mẫu cao cấp nhất, nhưng thực tế phản hồi lại được trả về từ Haiku rẻ hơn hoặc thậm chí từ mô hình mã nguồn mở

Hiệu năng còn chưa bằng một nửa
Theo kết quả phân tích 17 dịch vụ proxy của nhóm nghiên cứu tại Trung tâm An ninh Thông tin CISPA Helmholtz của Đức, với benchmark trong lĩnh vực y tế, API chính thức đạt tỷ lệ trả lời đúng khoảng 84%, trong khi dịch vụ proxy chỉ đạt mức 37%. Con số khách quan này cho thấy tiết kiệm được bao nhiêu tiền thì chất lượng đầu ra cũng giảm mạnh tương ứng.
Thứ thực sự bị nhắm tới là "dữ liệu prompt"
Phần mà ngành công nghiệp nhìn nhận nghiêm trọng hơn lại nằm ở chỗ khác. Các nhà vận hành proxy được cho là lưu toàn bộ prompt của người dùng, câu trả lời của AI, thậm chí cả quá trình suy luận (Chain of Thought, CoT), rồi xử lý chúng để bán thành bộ dữ liệu huấn luyện.
Nếu nghĩ kỹ thì prompt được tinh chỉnh công phu bởi người dùng AI cao cấp cùng với dữ liệu chuỗi suy luận là tài sản cực kỳ có giá trị để cải thiện hiệu năng mô hình. Gần đây cũng đã xuất hiện phân tích cho rằng cấu trúc thu thập dữ liệu kiểu này phần nào ảnh hưởng đến việc năng lực suy luận của các mô hình AI Trung Quốc tăng lên rất nhanh.
Trên thực tế, Anthropic từng công bố rằng vào tháng 2 năm nay, hơn 16 triệu truy vấn đã phát sinh từ khoảng 24.000 tài khoản gian lận được cho là có liên quan tới các công ty Trung Quốc như DeepSeek, Moonshot AI và MiniMax.
Cái bóng lớn hơn: rò rỉ mã nguồn
Những lo ngại về mặt bảo mật cũng đang tăng lên. Hiện nay nhiều lập trình viên sử dụng AI coding agent bằng cách nhập không chỉ mã nguồn mà còn cả cấu trúc API và thông tin xác thực nội bộ. Nhưng nếu đi qua máy chủ proxy chưa được kiểm chứng, sẽ có nguy cơ ngay cả thông tin nội bộ của doanh nghiệp cũng bị chuyển nguyên vẹn ra máy chủ bên ngoài.
Nhà nghiên cứu Chen giải thích: "Sử dụng dịch vụ AI thông qua proxy chưa được kiểm chứng về bản chất không khác gì gửi dữ liệu mật lên máy chủ của bên thứ ba."
Kết lại
Vụ việc lần này cho thấy nhiều điều đáng suy ngẫm, vì nó không chỉ là vấn đề phân phối bất hợp pháp đơn thuần mà còn cho thấy một "thị trường đánh cắp dữ liệu" mới đang hình thành trong kỷ nguyên AI. Nếu bạn bắt gặp một cổng API giá rẻ bất thường, có lẽ nên tự hỏi một lần xem điều gì đang diễn ra phía sau nó. Đặc biệt, nếu bạn đang xử lý mã của công ty bằng coding agent, sẽ rất đáng để kiểm tra lại xem lưu lượng đang chảy về đâu.
Nguồn: KMJ — https://www.kmjournal.net/news/articleView.html?idxno=11241

8 bình luận

kimjoin2 2026-05-14

Nhiều người thật ngây thơ.

sacru2red 2026-05-14

Hức.. cái này chẳng phải về bản chất là mức độ hack rồi sao

loblue 2026-05-14

OpenRouter thì chắc không có vấn đề gì đâu nhỉ? -.-

gpdir16 2026-05-14

Chỗ đó là chính thức nên chắc không có vấn đề gì đâu

hshim 2026-05-14

Thật đáng tiếc khi họ lại trơ trẽn làm ra chuyện như vậy..

recast7838 2026-05-13

Hự!

duddnd649 2026-05-13

Ặc..

ligion 2026-05-13

Tự mình tự làm ra thôi

Đằng sau lời rao “Claude giảm 90%”: hóa ra là kênh đánh cắp dữ liệu huấn luyện AI

Bài viết liên quan

8 bình luận