-
Tóm tắt
- Wiz Research đã phát hiện một cơ sở dữ liệu ClickHouse của DeepSeek có thể truy cập công khai. Cơ sở dữ liệu này cho phép kiểm soát hoàn toàn các thao tác cơ sở dữ liệu, bao gồm khả năng truy cập dữ liệu nội bộ. Dữ liệu bị lộ bao gồm lịch sử trò chuyện, khóa bí mật, chi tiết backend và nhiều thông tin cực kỳ nhạy cảm khác. Nhóm Wiz Research đã ngay lập tức thông báo có trách nhiệm về vấn đề này cho DeepSeek, và DeepSeek đã nhanh chóng bảo vệ phần bị lộ.
-
Nội dung chính
- DeepSeek là một startup AI của Trung Quốc, đang thu hút nhiều sự chú ý, đặc biệt nhờ mô hình suy luận DeepSeek-R1. Mô hình này cạnh tranh về hiệu năng với các hệ thống AI hàng đầu như o1 của OpenAI, đồng thời nổi bật về hiệu quả chi phí và hiệu suất.
- Nhóm Wiz Research đã bắt đầu điều tra để đánh giá trạng thái bảo mật bên ngoài của DeepSeek và xác định các lỗ hổng tiềm ẩn. Chỉ trong vài phút, họ đã phát hiện một cơ sở dữ liệu ClickHouse có thể truy cập công khai liên kết với DeepSeek; cơ sở dữ liệu này hoàn toàn mở, không yêu cầu xác thực và đang làm lộ dữ liệu nhạy cảm.
- Cơ sở dữ liệu này chứa lịch sử trò chuyện, dữ liệu backend và thông tin nhạy cảm, bao gồm luồng log, bí mật API và chi tiết vận hành. Nghiêm trọng hơn, lỗ hổng này cho phép kiểm soát hoàn toàn cơ sở dữ liệu và khả năng leo thang đặc quyền trong môi trường DeepSeek mà không cần xác thực hay cơ chế phòng vệ nào.
-
Quá trình phát hiện lộ lọt
- Việc điều tra bắt đầu bằng cách đánh giá các tên miền có thể truy cập công khai của DeepSeek. Bằng cách lập bản đồ bề mặt tấn công bên ngoài, họ xác định được khoảng 30 tên miền phụ lộ ra trên Internet. Phần lớn trong số đó lưu trữ các thành phần như giao diện chatbot, trang trạng thái và tài liệu API, ban đầu không cho thấy dấu hiệu lộ lọt rủi ro cao.
- Tuy nhiên, khi mở rộng tìm kiếm vượt ra ngoài các cổng HTTP tiêu chuẩn (80/443), họ phát hiện hai cổng bất thường và đang mở (8123 & 9000). Các cổng này dẫn tới một cơ sở dữ liệu ClickHouse bị phơi bày công khai, có thể truy cập mà không cần xác thực.
- ClickHouse là một hệ quản trị cơ sở dữ liệu dạng cột mã nguồn mở, được thiết kế cho các truy vấn phân tích tốc độ cao trên các tập dữ liệu lớn. Nó được phát triển bởi Yandex và được sử dụng rộng rãi cho xử lý dữ liệu thời gian thực, lưu trữ log và phân tích dữ liệu lớn.
- Bằng cách tận dụng giao diện HTTP của ClickHouse, họ có thể truy cập đường dẫn
/play, cho phép chạy trực tiếp các truy vấn SQL tùy ý qua trình duyệt. Họ đã thực thi truy vấn đơn giảnSHOW TABLES;để trả về toàn bộ danh sách các tập dữ liệu có thể truy cập. - Bảng
log_streamđặc biệt đáng chú ý, chứa hơn một triệu mục log. Bảng này bao gồm các log dạng văn bản thuần như lịch sử trò chuyện, khóa API, chi tiết backend và metadata vận hành.
-
Hàm ý chính
- Việc áp dụng nhanh các dịch vụ AI vốn dĩ tiềm ẩn rủi ro nếu không đi kèm bảo mật. Sự cố này nhấn mạnh rằng rủi ro bảo mật trước mắt của các ứng dụng AI bắt nguồn từ hạ tầng và các công cụ hỗ trợ chúng.
- Dù phần lớn sự chú ý về bảo mật AI tập trung vào các mối đe dọa trong tương lai, rủi ro thực tế thường đến từ những nguy cơ cơ bản. Các rủi ro bảo mật nền tảng như việc cơ sở dữ liệu bị lộ ra bên ngoài phải là ưu tiên hàng đầu của các đội ngũ an ninh.
- Các tổ chức đang áp dụng công cụ và dịch vụ AI cần nhớ rằng họ đang giao dữ liệu nhạy cảm cho các công ty này. Tốc độ áp dụng nhanh có thể khiến bảo mật bị xem nhẹ, nhưng việc bảo vệ dữ liệu khách hàng phải là ưu tiên số một.
- Các đội ngũ an ninh cần phối hợp chặt chẽ với kỹ sư AI để có được khả năng quan sát đối với kiến trúc, công cụ và mô hình đang sử dụng, từ đó bảo vệ dữ liệu và ngăn chặn lộ lọt.
-
Kết luận
- AI là công nghệ đang được áp dụng nhanh hơn bao giờ hết. Nhiều công ty AI đã nhanh chóng phát triển thành các nhà cung cấp hạ tầng quan trọng mà không có khung bảo mật đầy đủ. Khi AI ngày càng được tích hợp sâu vào hoạt động kinh doanh trên toàn cầu, cần nhận thức rõ rủi ro khi xử lý dữ liệu nhạy cảm và áp dụng các thực hành bảo mật tương đương với những gì được yêu cầu đối với các nhà cung cấp đám mây công cộng và các nhà cung cấp hạ tầng chủ chốt.
1 bình luận
Ý kiến trên Hacker News
Nhận ra sự thiếu hiểu biết về kỹ thuật phần mềm ở các quốc gia không dùng tiếng Anh. Đặt câu hỏi vì sao schema cơ sở dữ liệu và log lại được viết bằng tiếng Anh
Ngạc nhiên trước sự thù địch trong các bình luận, xét đến việc DeepSeek đã gây tổn thất tài chính cho nhiều nhà đầu tư nhỏ lẻ tại Mỹ
Cho rằng việc công khai trực tiếp URL và cổng là hành động thiếu trách nhiệm
Có nhiều nỗ lực nhằm chỉ trích DeepSeek
Dòng thời gian của DeepSeek trong bối cảnh ethical hacking và responsible disclosure chưa được bàn luận đầy đủ
Tốt hơn là chạy mô hình cục bộ hoặc dùng mô hình chat từ xa không lưu trạng thái như AWS Bedrock
Có những điểm thú vị về hạ tầng phát triển và cơ sở dữ liệu observability
ClickHouse bị lộ của DeepSeek tương tự các vụ Elasticsearch bị lộ trước đây
Tò mò không biết DeepSeek có chương trình bug bounty hay không
Phù hợp với góc nhìn rằng DeepSeek là dự án phụ của các quant