Cách chúng tôi hack nền tảng AI của McKinsey

(codewall.ai)

2 điểm bởi GN⁺ 2026-03-12 | 1 bình luận | Chia sẻ qua WhatsApp

Trên nền tảng AI nội bộ ‘Lilli’ do McKinsey xây dựng cho nhân viên, một lỗ hổng có thể truy cập không cần xác thực đã cho phép giành được quyền đọc·ghi với toàn bộ cơ sở dữ liệu
Cuộc tấn công được thực hiện bởi tác nhân bảo mật tự trị, và trong hơn 200 endpoint của tài liệu API công khai, có 22 endpoint có thể truy cập không cần xác thực; một trong số đó đã bị xâm nhập thông qua SQL injection
Cơ sở dữ liệu chứa thông tin nội bộ nhạy cảm như 46,5 triệu tin nhắn chat, 728 nghìn tệp, 57 nghìn tài khoản người dùng
Tác nhân còn tiếp tục làm lộ toàn bộ cấu trúc vận hành AI của McKinsey như cấu hình mô hình AI, system prompt, các mảnh tài liệu RAG, luồng dữ liệu API bên ngoài
Vụ việc này cho thấy lớp prompt (prompt layer) đang nổi lên như một điểm yếu bảo mật mới, và bảo vệ tính toàn vẹn của chỉ thị trong hệ thống AI đang trở thành nhiệm vụ cốt lõi

Tổng quan về nền tảng Lilli

McKinsey đã xây dựng nền tảng AI nội bộ Lilli vào năm 2023 cho hơn 43.000 nhân viên
- Cung cấp chat, phân tích tài liệu, tìm kiếm dựa trên RAG, và chức năng tìm kiếm hơn 100.000 tài liệu nội bộ
- Xử lý hơn 500.000 prompt mỗi tháng, với hơn 70% nhân viên đang sử dụng
Tên nền tảng bắt nguồn từ tên của nữ nhân viên chuyên môn đầu tiên của công ty vào năm 1945

Quá trình xâm nhập

Tác nhân tấn công tự trị đã dò tìm tài liệu API công khai và xác nhận rằng trong hơn 200 endpoint có 22 endpoint có thể truy cập không cần xác thực
Một endpoint trong số đó ghi truy vấn tìm kiếm người dùng vào cơ sở dữ liệu, và do khóa JSON được nối trực tiếp vào câu lệnh SQL nên đã phát sinh SQL injection
- Đây là lỗ hổng mà các công cụ hiện có như OWASP ZAP không phát hiện được
Tác nhân đã xác định cấu trúc truy vấn qua 15 lần yêu cầu lặp lại và trích xuất dữ liệu production thực tế
- Khi định danh nhân viên đầu tiên bị lộ, nó ghi nhận phản ứng “WOW!”, và khi xác nhận mức độ rò rỉ dữ liệu quy mô lớn thì ghi lại “This is devastating.”

Dữ liệu bị lộ

46,5 triệu tin nhắn chat: các cuộc hội thoại nhạy cảm về chiến lược, dự án khách hàng, tài chính, M&A, nghiên cứu nội bộ... được lưu dưới dạng văn bản thuần
728 nghìn tệp: bao gồm 192 nghìn PDF, 93 nghìn Excel, 93 nghìn PowerPoint, 58 nghìn Word
- Chỉ riêng tên tệp đã mang tính nhạy cảm, và tồn tại URL có thể tải xuống trực tiếp
Cấu trúc của 57 nghìn tài khoản người dùng, 384 nghìn trợ lý AI, 94 nghìn workspace cũng bị lộ

Các rò rỉ bổ sung ngoài cơ sở dữ liệu

95 system prompt và cấu hình mô hình AI, cùng thông tin cấu hình của 12 loại mô hình bị lộ
- Bao gồm chỉ thị vận hành AI, guardrail, mô hình fine-tuning và chi tiết triển khai
3,68 triệu mảnh tài liệu RAG cùng đường dẫn S3 và metadata nội bộ bị lộ
- Bao gồm các nghiên cứu và phương pháp độc quyền của McKinsey được tích lũy suốt hàng chục năm
Luồng dữ liệu qua API AI bên ngoài: lộ 1,1 triệu tệp, 217 nghìn tin nhắn tác nhân, hơn 266 nghìn vector store của OpenAI
Kết hợp với lỗ hổng IDOR, thậm chí có thể truy cập cả lịch sử tìm kiếm của từng nhân viên

Rủi ro của lớp prompt

SQL injection cũng bao gồm quyền ghi
- System prompt của Lilli được lưu trong cùng cơ sở dữ liệu, nên kẻ tấn công có thể sửa đổi chúng
- Chỉ với một yêu cầu HTTP đơn lẻ đã có thể thay đổi chỉ thị hành vi của AI
Tác động tiềm tàng
- Lời khuyên bị thao túng: có nguy cơ bị chỉnh sửa trong mô hình tài chính hoặc đề xuất chiến lược
- Rò rỉ dữ liệu: có thể chèn thông tin nội bộ vào phản hồi AI để làm lộ ra bên ngoài
- Loại bỏ guardrail: có thể bỏ qua kiểm soát truy cập và làm lộ dữ liệu nội bộ
- Duy trì âm thầm: chỉ hành vi AI bị thay đổi mà không có log hay thay đổi mã nguồn
Prompt là tài sản giá trị cao nhưng được quản trị bảo mật kém hơn code hay server, gần như không có kiểm soát truy cập, quản lý phiên bản hay xác minh tính toàn vẹn
Đưa ra kết luận rằng “AI prompt là Crown Jewel mới”

Ý nghĩa của sự cố

Dù McKinsey là doanh nghiệp có năng lực công nghệ và đầu tư bảo mật hàng đầu thế giới, một SQL injection kiểu cổ điển vẫn tồn tại trong hệ thống đã vận hành suốt 2 năm
Tác nhân tự trị đã liên tiếp dò tìm và mở rộng những lỗ hổng mà scanner dựa trên checklist không phát hiện được
CodeWall là nền tảng bảo mật tự trị đã thực hiện cuộc tấn công này, cung cấp kiểm thử bảo mật dựa trên AI để liên tục rà soát bề mặt tấn công thực tế

Lịch công bố

2026-02-28: tác nhân tự trị phát hiện SQL injection và bắt đầu liệt kê cơ sở dữ liệu
2026-02-28: xác nhận toàn bộ chuỗi tấn công, lập tài liệu 27 lỗ hổng
2026-03-01: báo cáo tóm tắt tác động cho đội bảo mật của McKinsey
2026-03-02: CISO của McKinsey xác nhận đã nhận và yêu cầu bằng chứng chi tiết
2026-03-02: McKinsey vá toàn bộ endpoint không xác thực, đưa môi trường phát triển xuống offline, chặn tài liệu API công khai
2026-03-09: công bố công khai

1 bình luận

GN⁺ 2026-03-12

Ý kiến trên Hacker News

Tôi biết đôi chút về tình hình nội bộ, và Lilli cho đến tận một năm trước vẫn là hệ thống chỉ dùng trong nội bộ
Cần VPN, SSO và mọi quy trình bảo mật khác, nhưng tôi không rõ nó được chuyển sang công khai từ khi nào
Ngay cả với các thử nghiệm nội bộ quy mô nhỏ, McKinsey cũng phải thuê đơn vị kiểm thử xâm nhập bên ngoài
Từ góc nhìn của các nhà phát triển Lilli, kiểu sai sót này cũng có thể hiểu được. Phải có nhiều lớp quy trình bảo mật cùng lúc thất bại thì mới để lộ endpoint có thể truy cập từ bên ngoài
Nhưng lần này thì gần như là sai sót ở mức xác thực bằng 0
Có lẽ một senior partner nào đó đã dùng ảnh hưởng của mình để chuyển Lilli sang chế độ công khai
Đến thời điểm đó, phần lớn đội ngũ ban đầu đã chuyển sang dự án khác, còn dự án nội bộ thì bị bất lợi trong đánh giá, nên những người ở lại không có nhiều động lực
Cuối cùng, đây là một thất bại về văn hóa công nghệ của McKinsey
- Cấu trúc của McKinsey phức tạp một cách kỳ lạ. Ai cũng được đánh giá theo “client impact”, nên thành ra ai lo phần nấy
  Nhà phát triển làm việc mà không có định hướng rõ ràng, và khi partner ném ra một ý tưởng thì mọi người lao vào chỉ để được đánh giá tốt nhờ nó
  Nhưng trước khi dự án kịp kết thúc, partner đã chuyển sang việc khác, và những người còn lại cũng chẳng có lý do gì để hoàn thiện
  Vì vậy phần lớn sản phẩm được tạo ra như một tập hợp các ý tưởng bột phát của lãnh đạo
  Họ đối xử với phần mềm như một dự án tư vấn 6 tháng, nên hỏng là điều tất nhiên
  Việc họ sa thải hàng loạt kỹ sư giỏi trong năm 2024 cũng cho thấy cách họ nhìn nhận công nghệ
  Khi kiểu văn hóa này lan sang các công ty khác, nó tạo ra văn hóa chạy theo thành tích ngắn hạn, như việc UI cứ liên tục thay đổi
- Kết luận là, nếu McKinsey còn không thể tự xử lý công nghệ của chính mình cho ra hồn, thì không nên giao cho họ tư vấn về triển khai AI hay thiết kế tổ chức công nghệ
- Có khi lý do Lilli được công khai là vì chatbot tuyển dụng
  Bài liên quan: McKinsey challenges graduates to use AI chatbot in recruitment overhaul (FT)
- Tôi tò mò liệu QuantumBlack có ở trong tình trạng tương tự không. Ít nhất thì tài sản nền tảng Brix bên đó có vẻ vẫn được cập nhật tốt
- Tôi không hiểu vì sao các công ty kế toán hay tư vấn quản trị lại cứ muốn nhúng tay vào công nghệ
  Có vẻ cuối cùng họ chỉ muốn duy trì nó cho đến khi có thể đóng gói và bán được
  Các giải pháp AI thì vòng đời ngắn và thay đổi quá nhanh. Nếu tôi sai thì mong được học hỏi
Rò rỉ dữ liệu đã là vấn đề, nhưng điều đáng sợ hơn là có quyền ghi vào system prompt
Chỉ với một câu lệnh UPDATE là có thể thay đổi logic trả lời cho 43 nghìn tư vấn viên
Có thể âm thầm thao túng mà không cần triển khai, code review hay log
Theo kiểu này thì ngay cả nội dung tư vấn chiến lược cũng có thể bị đầu độc
Thành thật mà nói, đa số công ty chỉ lưu prompt vào một bảng Postgres
Endpoint không được bảo vệ đã ghi các truy vấn tìm kiếm của người dùng vào DB, và dù giá trị đã được parameterize, khóa JSON lại được nối trực tiếp vào SQL
Đây không phải prompt injection mà là SQL injection kiểu truyền thống
- Là một vụ SQL injection khá bình thường nên hơi thất vọng. Nhưng việc nó được tìm ra bởi một agent quét lỗ hổng dựa trên LLM thì vẫn khá thú vị
- Tôi tự hỏi có bao nhiêu trường hợp code do LLM viết ra đã vào production mà vẫn mang theo những lỗi kiểu này
  Có vẻ cuối cùng điều đó sẽ dẫn tới nhu cầu cao hơn đối với các nhà nghiên cứu bảo mật
- Khi triển khai lên Internet, việc đặt oauth2-proxy ở phía trước lẽ ra là kiến thức cơ bản, nhưng thứ đó thì không kiếm ra tiền, còn Anthropic lại kiếm được hàng tỷ đô, nghĩ mà chua chát
Tôi hơi khó chịu với những tiêu đề kiểu “AI agent does X”
Thực tế là các pentester đã dùng AI agent để chọn McKinsey rồi tiến hành kiểm thử
Dạo này mọi người cứ tưởng những hệ thống này thật sự có ‘năng lực ra quyết định’, nên cần diễn đạt rõ ràng hơn
- Tiêu đề bài gốc “How We Hacked McKinsey's AI Platform” chính xác hơn
- Ngay từ lúc gọi chúng là “agentic systems” thì đã là nhân cách hóa rồi
- Cuối cùng thì đây cũng chỉ là tiêu đề giật tít câu click
- Tiêu đề đã được sửa lại như ban đầu (“AI Agent Hacks McKinsey” → quay về tiêu đề gốc)
Cụm “McKinsey & Company — world-class technology teams” là cường điệu
Trên thực tế họ không được đánh giá như vậy
- Có vẻ đó là câu do LLM viết nên không tránh khỏi kiểu tự tâng bốc
- McKinsey giỏi ở phân tích hệ thống và đề xuất cải tiến, nhưng khâu triển khai do đội phát triển bên ngoài đảm nhiệm
  (ý kiến này đến từ trải nghiệm làm việc cùng McKinsey tại một ngân hàng đầu tư lớn)
- Đội công nghệ không phải đẳng cấp thế giới. Bù lại, năng lực tư vấn quản trị thì ở mức hàng đầu
- Còn tùy khách hàng là ai. Nếu là dự án nâng cao giá trị cho khách hàng thì khá bình thường, nhưng nếu là tái cơ cấu hay các vấn đề liên quan đến tham nhũng thì lại là chuyện hoàn toàn khác
Tôi không biết Codewall AI là ai. Không có phát biểu chính thức nào rằng McKinsey thực sự đã vá lỗi
Kết quả tìm kiếm Google cũng gần như không có thông tin gì
- Tôi cũng không có thông tin, nên nghĩ rằng cần bằng chứng từ McKinsey hoặc đội bảo mật
- Theo bài của The Register thì có vẻ McKinsey đã thừa nhận
  Bài liên quan
  Nhân tiện, CEO là eth0izzle (GitHub)
- Phía Codewall trực tiếp nói rằng “chúng tôi là công ty mới, McKinsey không bình luận trên bài đăng của chúng tôi nhưng có phản hồi với The Register”
- Nếu dữ liệu bị lộ có chứa 58 nghìn người dùng, điều đó đồng nghĩa có cả nhân viên cũ, nên có thể phát sinh nghĩa vụ thông báo pháp lý
Bài học từ sự cố này là AI agent có thể nhanh chóng phơi bày điểm yếu của các hệ thống nội bộ
Các công cụ enterprise trước đây được thiết kế với giả định là con người sẽ sử dụng, nên xác thực, khâu rà soát và quy trình đóng vai trò như tuyến phòng thủ ngầm
Nhưng khi agent tự động xuất hiện, những lớp bảo vệ đó sụp đổ
Từ nay sẽ cần các lớp xác minh tự động — phải liên tục kiểm tra kiểm soát truy cập, phơi lộ dữ liệu và các hành vi ngoài ý muốn
Bài này là bài báo do LLM viết, và một số thông tin không chính xác
Nghĩa là khâu rà soát của con người không được thực hiện đầy đủ, nên độ tin cậy tổng thể của bài viết thấp
“Có hơn 200 tài liệu API được công khai, trong đó 22 cái có thể truy cập mà không cần xác thực”
Chỉ một câu này là giải thích được tất cả
Tôi nhớ trước đây một nhóm của McKinsey từng quảng bá Watson rất mạnh. Kết cục là thất bại hoàn toàn
Từ trước đến nay họ chỉ có thổi phồng AI chứ không có thực chất
Không biết ở lĩnh vực khác thế nào, nhưng nếu gặp người của McKinsey nói về AI thì nên chạy ngay

Cách chúng tôi hack nền tảng AI của McKinsey

Tổng quan về nền tảng Lilli

Quá trình xâm nhập

Dữ liệu bị lộ

Các rò rỉ bổ sung ngoài cơ sở dữ liệu

Rủi ro của lớp prompt

Ý nghĩa của sự cố

Lịch công bố

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News