Rò rỉ thông tin nhạy cảm, cơ sở dữ liệu DeepSeek chứa cả lịch sử trò chuyện bị lộ

(wiz.io)

1 điểm bởi GN⁺ 2025-01-30 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Trong quá trình kiểm tra bề mặt tấn công bên ngoài của DeepSeek, một cơ sở dữ liệu ClickHouse mở không cần xác thực đã được phát hiện, và DeepSeek đã chặn ngay điểm lộ sau khi nhận được báo cáo
Điểm bị lộ nằm ở các cổng 8123 và 9000 trên oauth2callback.deepseek.com và dev.deepseek.com, cho phép từ bên ngoài kiểm soát toàn bộ cơ sở dữ liệu và truy cập dữ liệu nội bộ
Bảng log_stream chứa hơn 1 triệu bản ghi log, bao gồm lịch sử trò chuyện từ ngày 6 tháng 1 năm 2025, API Keys, chi tiết backend và metadata vận hành ở dạng văn bản thuần
Qua đường dẫn /play của giao diện HTTP ClickHouse, có thể thực thi truy vấn SQL tùy ý ngay trên trình duyệt, nhưng Wiz Research đã giới hạn phạm vi kiểm tra ở mức liệt kê theo đúng thực hành nghiên cứu có đạo đức
Trong làn sóng triển khai nhanh các dịch vụ AI, rủi ro trước mắt không chỉ đến từ chính mô hình mà còn từ các vấn đề bảo mật hạ tầng cơ bản như vô tình để lộ cơ sở dữ liệu ra bên ngoài

Cơ sở dữ liệu ClickHouse của DeepSeek mở không cần xác thực

Wiz Research đã xác định một cơ sở dữ liệu ClickHouse có thể truy cập công khai thuộc DeepSeek
Cơ sở dữ liệu này có thể bị truy cập mà không cần xác thực, và không chỉ cho phép xem dữ liệu nội bộ mà còn ở trạng thái có thể kiểm soát hoàn toàn các thao tác trên cơ sở dữ liệu
Thông tin bị lộ bao gồm lịch sử trò chuyện, API Keys, chi tiết backend, luồng log và chi tiết vận hành
Wiz Research đã lập tức báo cáo vấn đề cho DeepSeek, và DeepSeek nhanh chóng chặn điểm lộ

DeepSeek là một startup AI của Trung Quốc, gần đây thu hút nhiều chú ý nhờ mô hình suy luận DeepSeek-R1
- DeepSeek-R1 được cho là có năng lực cạnh tranh với các hệ thống AI hàng đầu như o1 của OpenAI
- Hiệu quả chi phí và hiệu suất là những đặc điểm nổi bật thường được nhắc đến
Wiz Research đã khảo sát các miền công khai để đánh giá bề mặt tấn công bên ngoài của DeepSeek
Thông qua khám phá subdomain thụ động và chủ động, nhóm đã xác định khoảng 30 subdomain lộ ra Internet
- Phần lớn là các thành phần ban đầu không có vẻ là lộ lọt rủi ro cao, như giao diện chatbot, trang trạng thái và tài liệu API
Khi mở rộng kiểm tra vượt ngoài các cổng HTTP tiêu chuẩn 80/443, nhóm xác nhận rằng cổng 8123 và 9000 đang mở
- Các host mục tiêu là oauth2callback.deepseek.com và dev.deepseek.com

Các cổng được xác định dẫn tới một cơ sở dữ liệu ClickHouse có thể truy cập mà không cần xác thực
ClickHouse là một hệ quản trị cơ sở dữ liệu cột mã nguồn mở được thiết kế cho các truy vấn phân tích nhanh trên tập dữ liệu lớn
- Được phát triển bởi Yandex
- Được sử dụng rộng rãi cho xử lý dữ liệu thời gian thực, lưu trữ log và phân tích dữ liệu lớn
Trên giao diện HTTP của ClickHouse, đường dẫn /play cho phép thực thi truy vấn SQL tùy ý trực tiếp từ trình duyệt
Truy vấn SHOW TABLES; đã trả về danh sách các dataset có thể truy cập, trong đó bảng log_stream đặc biệt chứa các log nhạy cảm

Bảng log_stream chứa hơn 1 triệu mục log
Các cột chính và thông tin bị lộ như sau
- timestamp: log từ ngày 6 tháng 1 năm 2025
- span_name: tham chiếu tới nhiều endpoint API nội bộ khác nhau của DeepSeek
- string.values: log dạng văn bản thuần bao gồm lịch sử trò chuyện, API Keys, chi tiết backend và metadata vận hành
- _service: cho biết dịch vụ DeepSeek đã tạo ra log
- _source: làm lộ nguồn gốc của yêu cầu log, bao gồm lịch sử trò chuyện, API Keys, cấu trúc thư mục và log metadata chatbot
Mức độ truy cập này có thể tạo ra rủi ro nghiêm trọng đối với chính bảo mật của DeepSeek và cả người dùng cuối
Kẻ tấn công có thể lấy đi các log nhạy cảm và các tin nhắn trò chuyện thực tế ở dạng văn bản thuần, đồng thời tùy theo cấu hình ClickHouse còn có thể trực tiếp làm lộ mật khẩu dạng văn bản thuần, tệp cục bộ và thông tin độc quyền trên máy chủ thông qua các truy vấn như SELECT * FROM file('filename')
Wiz Research không thực hiện các truy vấn xâm nhập vượt quá mức liệt kê nhằm tuân thủ thực hành nghiên cứu có đạo đức

Rủi ro bảo mật tức thời của các ứng dụng AI có thể đến từ hạ tầng và công cụ đứng sau chúng nhiều hơn là từ chính mô hình
Trong khi các cuộc thảo luận về bảo mật AI thường tập trung vào các mối đe dọa mang tính tương lai, những rủi ro bảo mật cơ bản như vô tình để lộ cơ sở dữ liệu ra bên ngoài vẫn phải là ưu tiên hàng đầu của các đội ngũ bảo mật
Khi các tổ chức nhanh chóng triển khai công cụ và dịch vụ AI từ nhiều startup và nhà cung cấp khác nhau, ngày càng nhiều dữ liệu nhạy cảm được giao cho các công ty này xử lý
Tốc độ triển khai nhanh có thể khiến bảo mật bị xem nhẹ, vì vậy bảo vệ dữ liệu khách hàng phải là ưu tiên
Đội ngũ bảo mật cần phối hợp chặt chẽ với các kỹ sư AI để bảo đảm khả năng quan sát đối với kiến trúc, công cụ và mô hình đang được sử dụng nhằm ngăn chặn lộ lọt dữ liệu
Các công ty AI đang nhanh chóng trở thành nhà cung cấp hạ tầng cốt lõi mà chưa có đầy đủ khung bảo mật vốn thường đi kèm với việc triển khai ở quy mô rộng, vì vậy cần có các thực hành bảo mật tương xứng với rủi ro xử lý dữ liệu nhạy cảm