Reverse engineer công cụ AI pháp lý trị giá 1 tỷ USD làm lộ hơn 100.000 tệp mật

(alexschapiro.com)

2 điểm bởi GN⁺ 2025-12-04 | 1 bình luận | Chia sẻ qua WhatsApp

Trong quá trình phân tích API của nền tảng AI pháp lý Filevine, đã phát hiện một lỗ hổng nghiêm trọng cho phép toàn quyền quản trị mà không cần xác thực
Nhà nghiên cứu đã dùng subdomain enumeration để tìm thấy tên miền phụ margolis.filevine.com, sau đó xác định điểm cuối AWS API và gửi yêu cầu thử nghiệm
Một yêu cầu POST đơn giản đã nhận được phản hồi mà không cần token xác thực, và trong đó có chứa token quản trị cho phép truy cập toàn bộ hệ thống tệp Box
Thông qua token này, có thể tìm kiếm khoảng 100.000 tài liệu được đánh dấu “confidential”, bao gồm các dữ liệu cực kỳ nhạy cảm như y tế, pháp lý và bảng lương
Sau khi nhận được báo cáo, Filevine đã phản ứng và khắc phục ngay lập tức, và vụ việc này cho thấy tầm quan trọng của quản lý bảo mật trong các dịch vụ pháp lý dựa trên AI

Quá trình phát hiện lỗ hổng và mốc công bố

Nhà nghiên cứu đã báo cáo lỗ hổng qua email cho đội ngũ bảo mật của Filevine vào ngày 27 tháng 10 năm 2025
- Ngày 4 tháng 11, Filevine xác nhận đã nhận diện vấn đề và phản hồi kế hoạch khắc phục nhanh chóng
- Ngày 20 tháng 11, nhà nghiên cứu xác nhận việc bản vá đã được áp dụng hay chưa và thông báo ý định công bố trên blog
- Ngày 21 tháng 11, Filevine xác nhận đã hoàn tất sửa lỗi và gửi lời cảm ơn
- Ngày 3 tháng 12, bài blog kỹ thuật được đăng tải
Filevine đã thể hiện phản ứng nhanh và chuyên nghiệp trong toàn bộ quá trình, và được đánh giá là một ví dụ điển hình về công bố bảo mật có trách nhiệm

Bối cảnh về Filevine và thị trường AI pháp lý

Filevine là nền tảng AI pháp lý được định giá hơn 1 tỷ USD và đang tăng trưởng nhanh
Các hãng luật tải lên nền tảng này những dữ liệu có mức độ mật cực cao để phục vụ công việc
Dựa trên kinh nghiệm từ dự án với Yale Law School, nhà nghiên cứu đã tiến hành xem xét cấu trúc bảo mật dữ liệu của Filevine

Quá trình reverse engineering

Do Filevine hạn chế quyền truy cập, nhà nghiên cứu đã sử dụng kỹ thuật subdomain enumeration để tìm môi trường demo công khai
Sau khi phát hiện tên miền phụ margolis.filevine.com nhưng trang không tải được, nhà nghiên cứu đã dùng Chrome DevTools để phân tích các yêu cầu mạng
Trong tệp JS, họ phát hiện đoạn mã POST await fetch(${BOX_SERVICE}/recommend) và xác nhận rằng biến BOX_SERVICE trỏ tới một điểm cuối AWS API
Khi gửi yêu cầu dạng {"projectName":"Very sensitive Project"} tới /prod/recommend, hệ thống đã trả về phản hồi mà không cần xác thực

Lộ token quản trị và tác động

Phản hồi có chứa token toàn quyền quản trị của Box API (boxToken)
Token này cung cấp quyền truy cập vào toàn bộ hệ thống tệp Box nội bộ của các hãng luật
- Có thể truy cập mọi dữ liệu như tài liệu, log và thông tin người dùng
Khi tìm kiếm với từ khóa “confidential”, nhà nghiên cứu xác nhận có khoảng 100.000 kết quả được trả về
Nhà nghiên cứu đã lập tức dừng thử nghiệm và báo cáo lỗ hổng cho Filevine
Nếu bị kẻ tấn công ác ý khai thác, token này có thể làm rò rỉ toàn bộ tài liệu được bảo vệ theo HIPAA, lệnh của tòa án, tài liệu lương nội bộ và nhiều dữ liệu khác

Bài học bảo mật

Trong cuộc đua ứng dụng AI, các doanh nghiệp bắt buộc phải củng cố hệ thống bảo vệ dữ liệu
Đặc biệt, các dịch vụ AI trong ngành có yêu cầu bảo mật cao như pháp lý và y tế cần duy trì quy trình kiểm chứng an ninh nghiêm ngặt
Vụ việc này cho thấy rõ mức độ rủi ro do thất bại trong xác thực và phân quyền của SaaS dựa trên AI có thể gây ra

1 bình luận

GN⁺ 2025-12-04

Ý kiến Hacker News

Tôi luôn ngạc nhiên vì việc phân loại và sửa những lỗ hổng bảo mật quá rõ ràng như thế này lại mất nhiều thời gian đến vậy
Công bố ngày 27 tháng 10 mà đến 4 tháng 11 mới xác nhận qua email, nghĩa là trong thời gian đó toàn bộ hệ thống tệp của khách hàng đều bị lộ
Việc sửa thực tế có lẽ chỉ là một bản vá trong chưa đến 1 giờ, kể cả tính cả kiểm thử QA thì cũng không nên mất lâu như vậy
Tự hỏi không biết có phải hộp thư security@ chẳng ai đọc, hay người phụ trách đang nghỉ phép, hay spam quá nhiều nên không tìm ra vấn đề thật
- Theo kinh nghiệm của tôi, kiểu chậm trễ này là do cơ cấu tổ chức và vấn đề quản lý dự án
  Nhóm bảo mật phụ trách email security@, nhưng nhóm thực sự sửa lỗi lại là nhóm khác nên quá trình chuyển tiếp trở nên phức tạp
  Chỉ riêng việc tìm đội sở hữu đoạn mã đó cũng có thể mất vài tuần, rồi lịch làm việc lại kín nên rất khó nâng mức ưu tiên
  Còn phải có cả phê duyệt từ bộ phận pháp lý nên phản ứng càng chậm hơn
  Công ty thông minh sẽ trao cho đội bảo mật quyền ứng phó khẩn cấp, nhưng nếu lạm dụng thì lại làm tăng mệt mỏi nội bộ
- Trong đa số trường hợp, không hẳn là “không ai xem hộp thư bảo mật”, mà là một người hiểu phần đó đang phải xử lý cùng lúc 12 việc khác
  Bản vá bảo mật chỉ mất 1 giờ để sửa, nhưng vì phê duyệt nội bộ và tìm chủ sở hữu mã nên kéo dài thành 2 tuần
  Cuối cùng vấn đề thật sự là entropy của tổ chức
- Dạo này hộp thư security@ có quá nhiều báo cáo giả
  LLM còn có thể tạo ra các báo cáo lỗ hổng nghe rất thuyết phục, khiến chuyên gia mất hàng giờ vô ích
  Vì vậy một số công ty áp dụng chính sách chỉ xem email trong giờ làm việc
- Thực ra spam thì nhiều thật, nhưng mỗi ngày chỉ vài email nên không phải lý do để không vá ngay một lỗ hổng nghiêm trọng như thế này
  Có lẽ đúng như bạn nói, khả năng cao là người phụ trách đang nghỉ phép
- Trung tâm ứng phó toàn cầu nơi tôi làm việc có 600 người, nhưng có tới 26.000 vấn đề ưu tiên
  Hệ thống càng phức tạp thì vấn đề không giảm mà chỉ tăng
  Cuối cùng chúng ta đang làm việc trong ảo tưởng rằng “mình vẫn xoay xở được”
Nếu công ty này được định giá 1 tỷ USD, thì chỉ một lỗ hổng cơ bản như vậy cũng có thể gây ra mức thiệt hại tương đương
Nếu người xấu phát hiện trước thì có lẽ đã không thể cứu vãn
Toàn bộ dữ liệu khách hàng có thể đã bị rò rỉ, nên người phát hiện đáng ra phải được thưởng
- Đúng vậy. Kiểu lỗ hổng này có thể bị bán cho các nhóm ransomware với giá hàng trăm nghìn USD
  Sau đó sẽ kéo theo rò rỉ dữ liệu, tống tiền, kiện tụng và tiền phạt
  Đó là lý do có những hacker thay vì chọn white-hat lại đi về phía thị trường xám
- Đáng ra phải có mức thưởng rất lớn
Tôi làm ở công ty tài chính, và ai cũng thắc mắc vì sao lại giao dữ liệu khách hàng cho SaaS X nhưng lại không thể tải hồ sơ thuế lên AI SaaS Y
Theo tôi, ngành AI hiện giờ giống như miền Viễn Tây hoang dã (Wild West)
Mọi thứ phát triển quá nhanh nên các quy trình bảo mật bị lược bỏ
Vụ này cho thấy điều đó rất rõ
- FileVine là công cụ AI cho ngành pháp lý, nhưng vấn đề lần này không liên quan đến AI
  Có vẻ chỉ là vấn đề tích hợp Box API
- Tham khảo thêm, công ty này được thành lập năm 2014 và chỉ gần đây mới thêm tính năng LLM
  Liên kết bài Reuters
- Nếu SaaS X cung cấp tính năng IAM và áp dụng chính sách truy cập riêng thì tương đối an toàn hơn
  Ngược lại, nếu SaaS Y chỉ nói đơn giản rằng “cứ giao dữ liệu cho chúng tôi là an toàn” thì rất đáng nghi
- Nhưng ngay từ đầu cũng phải hỏi là vì sao lại tin SaaS X
- Điều thú vị là lỗ hổng lần này hoàn toàn không liên quan đến AI mà là vấn đề có thể xảy ra ở bất kỳ công ty SaaS nào
Vụ này là sự va chạm giữa “văn hóa startup gắn API thật nhanh” và “ngành pháp lý/y tế nơi rò rỉ dữ liệu có thể phá hủy cả cuộc đời một người”
Vấn đề là kiểu lỗi mang đậm màu sắc thập niên 2010, nhưng lại được bọc bằng lớp marketing AI của năm 2025
Khi tập trung hóa tài liệu để huấn luyện mô hình AI, phạm vi thiệt hại khi có sự cố cũng lớn hơn rất nhiều
Bộ phận kinh doanh thì muốn việc truy cập dữ liệu phải thật dễ để chốt hợp đồng, nên các nguyên tắc như đặc quyền tối thiểu bị đẩy xuống sau
Kết quả là các luật sư nghĩ rằng mình đang mua một “trợ lý AI”, nhưng thực tế là đang cấp quyền truy cập từ bên ngoài vào toàn bộ ký ức của tổ chức
Câu hỏi thật sự là “trong số các hệ thống kiểu này, có bao nhiêu cái có thể vượt qua được một đợt kiểm thử red team đúng nghĩa?”
- Cũng hơi buồn cười. Công ty thì diễn đủ trò an ninh mạng, đồng thời lại tạo ra một wormhole LLM để bỏ qua tất cả
  Vấn đề là các lãnh đạo không chuyên kỹ thuật không hiểu AI nhưng vẫn chỉ hô hào marketing
  Dù vậy tôi khá thích việc mình đã dùng ẩn dụ vũ trụ hai lần
Đội Filevine đã phản hồi chuyên nghiệp và nhanh chóng trong suốt quá trình công bố
Họ thừa nhận mức độ nghiêm trọng của vấn đề, đã sửa nó và giao tiếp minh bạch
Vì vậy trong trường hợp như thế này, tôi nghĩ không nhất thiết phải công khai tên công ty
Nếu họ đã giải quyết vấn đề thì cũng không cần phải bêu xấu thêm
- Nhưng trong quy trình công bố có trách nhiệm, việc nêu tên công ty là điều bình thường
  Như vậy cả ngành mới biết công ty nào tiếp nhận báo cáo một cách nghiêm túc
- Công bố có đạo đức là khi hai bên cùng công khai chi tiết kỹ thuật
  Đây sẽ là một ví dụ tốt cho cả hacker lẫn công ty
- Che giấu sai sót sẽ làm mất tính minh bạch và niềm tin
- Với vấn đề nghiêm trọng như lần này, khách hàng cần phải biết
  Và các công ty AI SaaS khác cũng có thể đọc bài này để tránh lặp lại sai lầm tương tự
Các quy trình chứng nhận bảo mật như SOC2, HIPAA giống như một dạng ‘kịch bảo mật’
Những phần thực sự quan trọng bị bỏ qua, còn mọi thứ chỉ đầy ảnh chụp màn hình và giấy tờ hình thức
- SemiAnalysis từng đánh giá các chứng nhận này quan trọng như chứng chỉ FAA, nhưng rồi chính họ lại bị tấn công vì thiếu một biện pháp kiểm soát bảo mật rất cơ bản
  Liên kết bài liên quan
  Rốt cuộc đây không phải bảo mật thực sự mà chỉ là ô kiểm mua bằng tiền
Phần mềm bảo mật vẫn còn rất nhiều chỗ cần cải thiện về tính dễ dùng và độ phức tạp
Khi làm ở Google và Meta, tôi mất tới 4 năm mới hiểu được hệ thống ACL vì nó quá phức tạp
Các hệ thống như vậy thì doanh nghiệp không chuyên kỹ thuật hoàn toàn không thể dùng được
Vì thế đôi khi tôi lại muốn làm một startup đơn giản hóa bảo mật
Có cảm giác đây còn là bài toán khó hơn cả AI
Thật may là công ty này cho phép đăng bài blog
Trước đây tôi cũng từng phát hiện một lỗ hổng lớn, nhưng công ty đó đã chặn việc công bố
- “Có cần phải xin phép à?” Cứ công bố có trách nhiệm thôi
- Tại sao quyền kiểm soát công bố lại thuộc về công ty? Nếu đã tuân thủ quy trình báo cáo thì sau đó phải được tự do viết chứ
Cuộc tấn công lần này không hề tinh vi
Filevine còn viết trên website rằng họ có làm kiểm thử xâm nhập, nên thật khó tin là lại bỏ sót thứ như thế này
Có vẻ họ đã nhầm bug bounty với kiểm thử xâm nhập
Thật sự không có lời bào chữa nào cả
Dạo này có quá nhiều startup kiểu “healthcare + AI”, nên tôi lo chỉ trong vài tháng nữa sẽ có một vụ rò rỉ dữ liệu HIPAA quy mô lớn
Có thể xem thêm ví dụ liên quan trong chuỗi thảo luận này

Reverse engineer công cụ AI pháp lý trị giá 1 tỷ USD làm lộ hơn 100.000 tệp mật

Quá trình phát hiện lỗ hổng và mốc công bố

Bối cảnh về Filevine và thị trường AI pháp lý

Quá trình reverse engineering

Lộ token quản trị và tác động

Bài học bảo mật

Bài viết liên quan

1 bình luận

Ý kiến Hacker News