1 điểm bởi GN⁺ 2025-01-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tóm tắt

    • Wiz Research đã phát hiện một cơ sở dữ liệu ClickHouse của DeepSeek có thể truy cập công khai. Cơ sở dữ liệu này cho phép kiểm soát hoàn toàn các thao tác cơ sở dữ liệu, bao gồm khả năng truy cập dữ liệu nội bộ. Dữ liệu bị lộ bao gồm lịch sử trò chuyện, khóa bí mật, chi tiết backend và nhiều thông tin cực kỳ nhạy cảm khác. Nhóm Wiz Research đã ngay lập tức thông báo có trách nhiệm về vấn đề này cho DeepSeek, và DeepSeek đã nhanh chóng bảo vệ phần bị lộ.
  • Nội dung chính

    • DeepSeek là một startup AI của Trung Quốc, đang thu hút nhiều sự chú ý, đặc biệt nhờ mô hình suy luận DeepSeek-R1. Mô hình này cạnh tranh về hiệu năng với các hệ thống AI hàng đầu như o1 của OpenAI, đồng thời nổi bật về hiệu quả chi phí và hiệu suất.
    • Nhóm Wiz Research đã bắt đầu điều tra để đánh giá trạng thái bảo mật bên ngoài của DeepSeek và xác định các lỗ hổng tiềm ẩn. Chỉ trong vài phút, họ đã phát hiện một cơ sở dữ liệu ClickHouse có thể truy cập công khai liên kết với DeepSeek; cơ sở dữ liệu này hoàn toàn mở, không yêu cầu xác thực và đang làm lộ dữ liệu nhạy cảm.
    • Cơ sở dữ liệu này chứa lịch sử trò chuyện, dữ liệu backend và thông tin nhạy cảm, bao gồm luồng log, bí mật API và chi tiết vận hành. Nghiêm trọng hơn, lỗ hổng này cho phép kiểm soát hoàn toàn cơ sở dữ liệu và khả năng leo thang đặc quyền trong môi trường DeepSeek mà không cần xác thực hay cơ chế phòng vệ nào.
  • Quá trình phát hiện lộ lọt

    • Việc điều tra bắt đầu bằng cách đánh giá các tên miền có thể truy cập công khai của DeepSeek. Bằng cách lập bản đồ bề mặt tấn công bên ngoài, họ xác định được khoảng 30 tên miền phụ lộ ra trên Internet. Phần lớn trong số đó lưu trữ các thành phần như giao diện chatbot, trang trạng thái và tài liệu API, ban đầu không cho thấy dấu hiệu lộ lọt rủi ro cao.
    • Tuy nhiên, khi mở rộng tìm kiếm vượt ra ngoài các cổng HTTP tiêu chuẩn (80/443), họ phát hiện hai cổng bất thường và đang mở (8123 & 9000). Các cổng này dẫn tới một cơ sở dữ liệu ClickHouse bị phơi bày công khai, có thể truy cập mà không cần xác thực.
    • ClickHouse là một hệ quản trị cơ sở dữ liệu dạng cột mã nguồn mở, được thiết kế cho các truy vấn phân tích tốc độ cao trên các tập dữ liệu lớn. Nó được phát triển bởi Yandex và được sử dụng rộng rãi cho xử lý dữ liệu thời gian thực, lưu trữ log và phân tích dữ liệu lớn.
    • Bằng cách tận dụng giao diện HTTP của ClickHouse, họ có thể truy cập đường dẫn /play, cho phép chạy trực tiếp các truy vấn SQL tùy ý qua trình duyệt. Họ đã thực thi truy vấn đơn giản SHOW TABLES; để trả về toàn bộ danh sách các tập dữ liệu có thể truy cập.
    • Bảng log_stream đặc biệt đáng chú ý, chứa hơn một triệu mục log. Bảng này bao gồm các log dạng văn bản thuần như lịch sử trò chuyện, khóa API, chi tiết backend và metadata vận hành.
  • Hàm ý chính

    • Việc áp dụng nhanh các dịch vụ AI vốn dĩ tiềm ẩn rủi ro nếu không đi kèm bảo mật. Sự cố này nhấn mạnh rằng rủi ro bảo mật trước mắt của các ứng dụng AI bắt nguồn từ hạ tầng và các công cụ hỗ trợ chúng.
    • Dù phần lớn sự chú ý về bảo mật AI tập trung vào các mối đe dọa trong tương lai, rủi ro thực tế thường đến từ những nguy cơ cơ bản. Các rủi ro bảo mật nền tảng như việc cơ sở dữ liệu bị lộ ra bên ngoài phải là ưu tiên hàng đầu của các đội ngũ an ninh.
    • Các tổ chức đang áp dụng công cụ và dịch vụ AI cần nhớ rằng họ đang giao dữ liệu nhạy cảm cho các công ty này. Tốc độ áp dụng nhanh có thể khiến bảo mật bị xem nhẹ, nhưng việc bảo vệ dữ liệu khách hàng phải là ưu tiên số một.
    • Các đội ngũ an ninh cần phối hợp chặt chẽ với kỹ sư AI để có được khả năng quan sát đối với kiến trúc, công cụ và mô hình đang sử dụng, từ đó bảo vệ dữ liệu và ngăn chặn lộ lọt.
  • Kết luận

    • AI là công nghệ đang được áp dụng nhanh hơn bao giờ hết. Nhiều công ty AI đã nhanh chóng phát triển thành các nhà cung cấp hạ tầng quan trọng mà không có khung bảo mật đầy đủ. Khi AI ngày càng được tích hợp sâu vào hoạt động kinh doanh trên toàn cầu, cần nhận thức rõ rủi ro khi xử lý dữ liệu nhạy cảm và áp dụng các thực hành bảo mật tương đương với những gì được yêu cầu đối với các nhà cung cấp đám mây công cộng và các nhà cung cấp hạ tầng chủ chốt.

1 bình luận

 
GN⁺ 2025-01-30
Ý kiến trên Hacker News
  • Nhận ra sự thiếu hiểu biết về kỹ thuật phần mềm ở các quốc gia không dùng tiếng Anh. Đặt câu hỏi vì sao schema cơ sở dữ liệu và log lại được viết bằng tiếng Anh

    • Thắc mắc liệu các lập trình viên trên toàn thế giới có phải học tiếng Anh hay có quy trình dịch thuật nào ở giữa hay không
  • Ngạc nhiên trước sự thù địch trong các bình luận, xét đến việc DeepSeek đã gây tổn thất tài chính cho nhiều nhà đầu tư nhỏ lẻ tại Mỹ

    • Có rất nhiều sự giận dữ về việc gần 70 tỷ USD vốn hóa của NVidia đã bốc hơi
  • Cho rằng việc công khai trực tiếp URL và cổng là hành động thiếu trách nhiệm

    • Không phải là đang bênh vực các thực tiễn sai lầm của DeepSeek, nhưng đây đúng là hành vi thiếu trách nhiệm
  • Có nhiều nỗ lực nhằm chỉ trích DeepSeek

  • Dòng thời gian của DeepSeek trong bối cảnh ethical hacking và responsible disclosure chưa được bàn luận đầy đủ

  • Tốt hơn là chạy mô hình cục bộ hoặc dùng mô hình chat từ xa không lưu trạng thái như AWS Bedrock

  • Có những điểm thú vị về hạ tầng phát triển và cơ sở dữ liệu observability

    • Việc log chứa dữ liệu chat gần như là điều khó tránh khỏi
    • Ảnh chụp màn hình prompt chế tạo tên lửa dường như cho thấy DeepSeek đã cung cấp dữ liệu huấn luyện để mô hình không hoàn thành những prompt như vậy
  • ClickHouse bị lộ của DeepSeek tương tự các vụ Elasticsearch bị lộ trước đây

  • Tò mò không biết DeepSeek có chương trình bug bounty hay không

    • Việc dò xét và truy cập hệ thống khi chưa được cho phép có thể dẫn đến vấn đề pháp lý
    • Nên tham gia chương trình bug bounty hoặc phối hợp trực tiếp với công ty để được cấp phép trước khi khám phá hệ thống
  • Phù hợp với góc nhìn rằng DeepSeek là dự án phụ của các quant

    • Có vẻ là những sai sót của người không quen với việc triển khai ứng dụng client-facing bên ngoài