7 điểm bởi GN⁺ 2023-09-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Nhóm nghiên cứu AI của Microsoft đã vô tình làm lộ 38 terabyte dữ liệu riêng tư khi công khai dữ liệu huấn luyện mã nguồn mở trên GitHub
  • Dữ liệu bị lộ bao gồm bản sao lưu ổ đĩa làm việc của hai nhân viên, thông tin bí mật, khóa riêng, mật khẩu và hơn 30.000 tin nhắn nội bộ trên Microsoft Teams
  • Dữ liệu này được chia sẻ bằng SAS token, một tính năng của Azure cho phép chia sẻ dữ liệu trong tài khoản Azure Storage. Tuy nhiên, liên kết đã được cấu hình để chia sẻ toàn bộ tài khoản lưu trữ nên dữ liệu bị phơi bày
  • Sự cố này nhấn mạnh những rủi ro mới mà các tổ chức phải đối mặt khi ứng dụng AI, đồng thời cho thấy cần có thêm các bước kiểm tra bảo mật và cơ chế bảo vệ khi ngày càng nhiều kỹ sư xử lý khối lượng lớn dữ liệu huấn luyện
  • Nhóm nghiên cứu Wiz đã phát hiện ra vụ lộ lọt này khi tìm thấy một container lưu trữ bị cấu hình sai trên internet
  • Họ phát hiện kho lưu trữ GitHub có tên robust-models-transfer thuộc tổ chức Microsoft; kho này được tạo ra để cung cấp mã nguồn mở và mô hình AI cho nhận dạng hình ảnh, nhưng do cấu hình sai đã cho phép một URL truy cập được nhiều hơn cả các mô hình mã nguồn mở
  • Token được sử dụng cũng bị cấu hình sai để cấp quyền "toàn quyền kiểm soát", khiến kẻ tấn công có thể xem, xóa và ghi đè các tệp hiện có
  • Vụ việc này làm nổi bật rủi ro bảo mật của SAS token, vốn có thể cấp mức truy cập cao vào tài khoản lưu trữ và có thể gặp vấn đề về thời hạn hết hiệu lực. Ngoài ra, chúng cũng khó quản lý và thu hồi
  • Nhóm nghiên cứu Wiz khuyến nghị tránh sử dụng Account SAS cho chia sẻ ra bên ngoài do thiếu bảo mật và quản trị, thay vào đó nên dùng Stored Access Policy hoặc User Delegation SAS cho chia sẻ có giới hạn thời gian
  • Nhóm cũng khuyến nghị tạo các tài khoản lưu trữ chuyên dụng cho việc chia sẻ ra bên ngoài và sử dụng CSPM để theo dõi và thực thi chính sách
  • Sự cố này cũng nhắc nhở các nhóm bảo mật cần hiểu các rủi ro bảo mật vốn có ở từng giai đoạn của quy trình phát triển AI, bao gồm nguy cơ chia sẻ dữ liệu quá mức và tấn công chuỗi cung ứng
  • Sau đó Microsoft đã vô hiệu hóa SAS token, thay thế nó trên GitHub và hoàn tất điều tra nội bộ về tác động tiềm ẩn

1 bình luận

 
GN⁺ 2023-09-19
Ý kiến trên Hacker News
  • Bài viết nói về sự cố lộ dữ liệu do các nhà nghiên cứu AI của Microsoft gây ra, nhưng những người bình luận chỉ ra rằng việc này không liên quan trực tiếp đến AI
  • Vấn đề chủ yếu nằm ở nhà cung cấp đám mây, các token bảo mật gây nhầm lẫn và cách xử lý việc tải xuống dữ liệu ở quy mô lớn
  • Một trong những rủi ro đặc thù của AI được nhấn mạnh là việc dùng các đối tượng Python được tuần tự hóa để lưu trữ các mô hình AI lớn; chúng có thể bị làm rối và có khả năng chứa mã độc
  • Sự cố này xảy ra do cấu hình sai token lưu trữ, và là một trường hợp điển hình cho thấy cần phải kiểm thử xâm nhập định kỳ
  • Việc sử dụng tệp Pickle và token SAS trong lưu trữ Azure bị chỉ trích, và có đề xuất nên dùng kiểm soát truy cập dựa trên vai trò (RBAC) thay thế
  • Sự cố này cho thấy thiếu cơ chế phòng thủ theo chiều sâu: token SAS không có thời hạn hết hạn, cấp quyền truy cập sâu và còn bao gồm cả các bản sao lưu máy với token riêng của chúng
  • Có ý kiến đề xuất hủy tất cả bí mật và biến môi trường, đồng thời cho rằng phần lớn hệ thống có thể vận hành theo mô hình dựa trên vai trò
  • Sự cố này có vẻ là thất bại trong việc con người tạo token bảo mật, và có đề xuất rằng các tổ chức nên thiết lập OrgPolicy để ngăn việc chia sẻ hàng loạt token/xác thực đăng nhập
  • Có sự ngạc nhiên rằng ai đó lại có thể xuất các tin nhắn Teams từ Teams
  • Việc lộ dữ liệu đã kéo dài suốt hai năm và được khắc phục cách đây hai tháng
  • Một số người bình luận không thích hệ thống quản lý khóa của Azure và đề xuất sẽ tốt hơn nếu mỗi container có số lượng khóa được đặt tên không giới hạn
  • Sự cố này dường như chứng minh mức độ khó khăn của bảo mật đám mây, khi chỉ một hoặc hai sai sót cũng có thể làm lộ hàng terabyte dữ liệu