- Đã xảy ra một vụ rò rỉ quy mô lớn, trong đó sinh trắc học giọng nói và giấy tờ tùy thân do chính phủ cấp bị gắn với nhau trong cùng một dòng dữ liệu; theo chỉ mục mẫu bị lộ, có hơn 40.000 lao động hợp đồng AI bị ảnh hưởng
- Mỗi lao động hợp đồng có trung bình 2~5 phút bản ghi âm sạch, vượt xa ngưỡng của sao chép giọng nói vốn chỉ cần khoảng 15 giây âm thanh tham chiếu
- Dữ liệu bị lộ cung cấp đồng thời giọng nói clone và danh tính đã được xác minh, có thể bị lạm dụng để vượt qua xác thực giọng nói của ngân hàng, vishing nhắm vào nơi làm việc, cuộc gọi video deepfake, gian lận yêu cầu bồi thường bảo hiểm và các cuộc gọi khẩn cấp mạo danh người thân
- Nếu đã tải mẫu giọng nói lên Mercor hoặc các công ty môi giới huấn luyện AI khác hoạt động đến năm 2025, cần coi chúng như mật khẩu đã bị lộ; nên xóa giọng nói công khai, đặt mã từ khóa, đăng ký lại voice print và vô hiệu hóa tính năng này khi cần
- Với các giọng nói đáng ngờ, cần kiểm tra pháp y để xác minh sự không khớp codec, kiểu thở, micro-jitter, quỹ đạo formant, tính nhất quán âm học trong phòng, cùng các bất thường về ngữ điệu và tốc độ nói; vụ việc này cũng phơi bày rõ hơn điểm yếu trên toàn bộ hệ thống xác thực bằng giọng nói
Tổng quan vụ xâm phạm
- Ngày 4 tháng 4 năm 2026, Lapsus$ đã đăng Mercor lên trang rò rỉ của mình, và quy mô dữ liệu bị lộ được cho là khoảng 4TB
- Kho lưu trữ bị rò rỉ chứa cả sinh trắc học giọng nói lẫn giấy tờ tùy thân do chính phủ cấp của cùng một người, và theo chỉ mục mẫu bị lộ, có hơn 40.000 lao động hợp đồng bị ảnh hưởng
- Những người này là các lao động hợp đồng đã đăng ký để gắn nhãn dữ liệu huấn luyện AI, ghi âm câu đọc mẫu và thực hiện các cuộc gọi xác minh
- Trong vòng 10 ngày sau khi bài đăng xuất hiện, đã có 5 vụ kiện từ phía lao động hợp đồng, cho rằng voice print đã bị thu thập làm "dữ liệu huấn luyện" mà không nêu rõ đây là một định danh sinh trắc học vĩnh viễn
Vì sao vụ rò rỉ này khác biệt
- Các vụ rò rỉ giọng nói trong 10 năm qua phần lớn hoặc là bản ghi cuộc gọi khó liên kết với danh tính hoặc là rò rỉ giấy tờ tùy thân và ảnh selfie nhưng không có âm thanh
- Quy trình đăng ký của Mercor kết hợp bản quét hộ chiếu hoặc bằng lái xe, ảnh selfie webcam và bản ghi âm đọc kịch bản trong môi trường yên tĩnh vào cùng một dòng dữ liệu
- Sự kết hợp này khớp chính xác với dạng đầu vào mà các dịch vụ sao chép giọng nói tổng hợp yêu cầu
- Theo bài viết của Wall Street Journal vào tháng 2 năm 2026, các công cụ thương mại chỉ cần khoảng 15 giây âm thanh tham chiếu sạch để tạo bản sao giọng nói chất lượng cao
- Các bản ghi âm của Mercor được cho là có trung bình 2~5 phút giọng nói chất lượng phòng thu cho mỗi lao động hợp đồng, vượt xa ngưỡng sao chép
- Khi kết hợp thêm giấy tờ tùy thân đã được xác minh, kẻ tấn công sẽ có cả giọng nói clone lẫn thông tin định danh để sử dụng trong tấn công thực tế
Các kiểu tấn công có thể thực hiện bằng dữ liệu giọng nói bị đánh cắp
-
Vượt qua xác thực ngân hàng
- Nhiều ngân hàng ở Mỹ và Anh vẫn coi đối sánh voice print là một trong hai yếu tố xác thực
- Nếu bản clone giọng nói của chủ tài khoản đọc câu thách thức xác minh, nó có thể vượt qua lớp kiểm tra âm thanh; khi đó chỉ còn lại các câu hỏi kiến thức, vốn cũng có thể được lấy từ cùng bộ dữ liệu bị lộ
-
Vishing nhắm vào nơi làm việc
- Kẻ tấn công có thể gọi cho bộ phận nhân sự hoặc tài chính, giả danh nhân viên để yêu cầu đổi tài khoản nhận lương, chuyển tiền hoặc mở khóa máy trạm
- Trong kho lưu trữ của Krebs on Security, đã có hơn 24 trường hợp được xác nhận từ năm 2023 trở đi
-
Cuộc gọi video deepfake
- Năm 2024 tại Arup, sau một cuộc gọi video deepfake nhiều nhân vật, một nhân viên tài chính đã chuyển khoảng 25 triệu USD
- Khi đó, giọng nói và khuôn mặt được tạo từ video công khai, nhưng dữ liệu rò rỉ của Mercor còn chứa âm thanh chất lượng phòng thu và giấy tờ tùy thân đã xác minh, tốt hơn cả video công khai
-
Gian lận yêu cầu bồi thường bảo hiểm
- Pindrop thống kê rằng trong suốt năm 2025, các cuộc tấn công bằng giọng nói tổng hợp nhắm vào tổng đài bảo hiểm đã tăng 475% so với năm trước
- Các yêu cầu bồi thường ô tô, nhân thọ và khuyết tật xử lý qua điện thoại là mục tiêu chính
-
Lừa đảo gọi điện khẩn cấp mạo danh người thân
- Trung tâm Khiếu nại Tội phạm Internet của FBI thống kê tổng thiệt hại của nạn nhân từ 60 tuổi trở lên trong năm 2026 là 2,3 tỷ USD
- Hạng mục tăng nhanh nhất là các cuộc gọi khẩn cấp mạo danh, tuyên bố rằng người thân đang gặp nguy hiểm
Cách xác minh việc lạm dụng giọng nói và ứng phó ngay lập tức
- Nếu từng tải mẫu giọng nói lên Mercor hoặc các công ty môi giới huấn luyện AI khác hoạt động đến năm 2025, bạn cần coi nó như một mật khẩu đã bị lộ
- Bản thân giọng nói không thể thay thế, nhưng bạn có thể thay đổi các phương thức xác thực mà giọng nói đó mở khóa
-
Kiểm tra dấu vết âm thanh công khai
- Cần tìm các mẫu giọng nói đang được lập chỉ mục công khai trên YouTube, thư mục podcast và các bản ghi Zoom cũ
- Nên xóa càng nhiều giọng nói công khai có thể gỡ xuống càng tốt
- Âm thanh tham chiếu công khai càng ít thì bản clone của kẻ tấn công càng kém ổn định
-
Thiết lập mã từ khóa bằng lời nói với gia đình và liên hệ tài chính
- Nên chọn một cụm từ chưa từng bị ghi âm và cũng chưa từng được nhập vào đoạn chat nào
- Cần chia sẻ trước với những người có thể thay bạn xử lý tiền bạc
- Với các cuộc gọi yêu cầu chuyển tiền, nên coi mã từ khóa là bước bắt buộc
-
Đăng ký lại ở những nơi sử dụng voice print
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice và đăng ký voice print ngân hàng đều có thể bị xóa rồi thay thế
- Tốt hơn nên đăng ký lại bằng bản ghi mới trong môi trường âm học khác với mẫu đã bị lộ
-
Vô hiệu hóa xác thực voice print tại ngân hàng
- Bạn có thể yêu cầu bằng văn bản để loại voice print khỏi các yếu tố xác thực
- Tốt hơn nên yêu cầu xác thực đa yếu tố kết hợp token ứng dụng hoặc khóa phần cứng với yếu tố kiến thức
- Nhiều ngân hàng có tùy chọn loại bỏ giọng nói khỏi yếu tố xác thực chính, nhưng không quảng bá rộng rãi điều này
-
Kiểm tra pháp y với bản ghi đáng ngờ
- Nếu nhận được tệp âm thanh hoặc tin nhắn thoại từ người tự xưng là người quen và yêu cầu tiền, quyền truy cập hoặc phản ứng khẩn cấp, đừng hành động ngay mà nên đưa vào trình phát hiện deepfake
- ORAVYS cung cấp kiểm tra miễn phí cho 3 mẫu đầu tiên do nạn nhân của vụ xâm phạm gửi lên
- Run a forensic check →
Danh sách kiểm tra phân tích pháp y
- Phân tích pháp y bắt đầu từ việc tìm các lỗi phổ biến của giọng nói tổng hợp
- Sự không khớp codec lộ ra khi chữ ký phổ của một tệp âm thanh được cho là cuộc gọi điện thoại không phù hợp với các codec điện thoại đã biết
- Kiểu thở của người nói thật thay đổi theo độ dài câu và dung tích phổi, trong khi giọng nói tổng hợp có thể bỏ qua hơi thở hoặc chèn vào ranh giới âm tiết sai
- Micro-jitter là những bất quy tắc rất nhỏ trong dao động tự nhiên của dây thanh quản; âm thanh được tạo sinh thường quá sạch ở cấp độ mili giây
- Quỹ đạo formant tuân theo đường chuyển tiếp nguyên âm do cơ quan phát âm của người thật tạo ra, trong khi giọng nói sao chép đôi khi nhảy giữa các formant theo cách không thể xảy ra về mặt vật lý
- Tính nhất quán âm học trong phòng đòi hỏi đặc tính vang dội phải giống nhau từ đầu tới cuối tệp, nhưng âm thanh tạo sinh có thể khô trong khi phần bối cảnh ghép nối lại có vang dội, gây lệch nhau
- Sự phẳng hóa ngữ điệu xuất hiện khi giọng nói tổng hợp có biên độ biến thiên cao độ và năng lượng hẹp hơn so với người thật
- Độ ổn định của tốc độ nói cũng là dấu hiệu: khác với con người tăng giảm tốc độ tự nhiên, giọng nói tạo sinh thường giữ nhịp đều như máy đếm trong các đoạn dài
Cách ORAVYS kiểm tra
- Với mỗi mẫu được gửi lên, hệ thống chạy song song hơn 3.000 công cụ pháp y trên các miền tín hiệu, ngữ điệu, phát âm, codec và nguồn gốc
- Phát hiện watermark AudioSeal có thể đánh dấu các tệp do các mô hình giọng nói thương mại lớn tạo ra nếu watermark còn được giữ lại, và khi có watermark thì cho kết quả dương tính mang tính quyết định
- Mô-đun chống giả mạo được huấn luyện dựa trên benchmark công khai ASVspoof và chấm điểm khả năng mẫu đó là âm thanh tổng hợp chứ không phải ghi âm thật
- Hệ thống áp dụng xử lý dữ liệu sinh trắc học tuân thủ RGPD, không dùng âm thanh để huấn luyện mô hình thương mại nếu không có sự đồng ý rõ ràng, và xóa dữ liệu theo lịch lưu giữ đã xác định
- Nếu bạn là lao động hợp đồng của Mercor và giọng nói có thể đã lưu hành, họ sẽ phân tích miễn phí 3 mẫu đáng ngờ đầu tiên
- Báo cáo miễn phí bao gồm phát hiện watermark, điểm chống giả mạo và danh sách kiểm tra các tạo tác nêu trên
- Họ cũng cho biết không yêu cầu thông tin thẻ và không đặt rào cản giới hạn mức sử dụng
Nguồn và giới hạn
- Các nguồn được nêu gồm chỉ mục trang rò rỉ của Lapsus$, Wall Street Journal tháng 2 năm 2026, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026 và kho lưu trữ Krebs on Security
- ORAVYS không lưu trữ hay phân phối lại bộ dữ liệu bị rò rỉ, và cũng không nhận nó làm đầu vào
1 bình luận
Ý kiến trên Hacker News
Thật trớ trêu. Để giảm thiệt hại vì giọng nói của tôi bị chuyển cho một công ty AI, giờ lại phải gửi giọng nói cho một công ty AI khác, nghe thật vô lý
Có vẻ rất có khả năng Mercor cũng đã chèn sự đồng ý rõ ràng vào điều khoản sử dụng để tự tạo lối thoát pháp lý cho mình
Họ yêu cầu bản ghi âm giọng nói chất lượng studio và bản quét giấy tờ tùy thân, nhưng thực tế công việc gán nhãn dữ liệu thì không cần cái nào trong hai, sự đồng ý lại bị chôn sâu trong điều khoản, và mọi người vì cần tiền công nên buộc phải bấm chấp nhận
Giờ thì 40.000 người đã học được rằng dữ liệu sinh trắc học không phải mật khẩu, và cũng lộ rõ việc giọng nói là thứ không thể thay thế
Về lý tưởng, luật pháp nên là phương tiện dễ tiếp cận để giải quyết tranh chấp thay vì bạo lực, nhưng hiện giờ nó thường được dùng như một hệ thống kiểu Kafka để duy trì quyền lực doanh nghiệp ở trên cá nhân
Trên thực tế, nó gần như chặn hết các biện pháp cứu trợ pháp lý, còn những cách ứng phó khác thì đòi hỏi chi phí lớn kéo dài, như duy trì nhiều nơi cư trú hay thuê bảo vệ
Không phải là cổ vũ bạo lực, mà là cần một hệ thống pháp lý bình đẳng hơn và dễ tiếp cận hơn
Nhiều người về cơ bản đã tự nghe lén chính mình và cả công ty của mình
Dù các nhà thầu Mercor có cáo buộc việc thu thập dữ liệu quá mức thông qua Insightful, từ góc nhìn công ty đây vẫn là một cấu trúc khá khôn ngoan. Vì nếu phản đối quá mạnh, họ không chỉ có thể mất công việc chính mà còn sợ phải gánh trách nhiệm vô hạn vì hành vi vi phạm có chủ ý
https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
Tôi là tác giả bài viết. Tôi viết bài này sau khi xem kho lưu trữ Mercor mà Lapsus$ đăng lên trang rò rỉ hồi đầu tháng này
Điều đặc biệt nổi bật là sự kết hợp giữa mẫu giọng nói và bản quét giấy tờ tùy thân. Thông thường các vụ rò rỉ chỉ có một trong hai, còn vụ này thì gần như giao nguyên một bộ công cụ có thể dùng ngay cho deepfake
Tôi muốn tổng hợp theo hướng thực tế những gì kẻ tấn công có thể làm với tổ hợp đó, ví dụ như vượt qua xác thực giọng nói của ngân hàng, mạo danh kiểu cuộc gọi video như vụ Arup, lừa đảo bảo hiểm, và cả checklist 5 bước mà các nhà thầu bị lộ dữ liệu nên làm theo
Cũng có thể bàn thêm về phía phát hiện pháp chứng. Watermark AudioSeal, chống giả mạo AASIST, và việc bối cảnh phát hiện sẽ thay đổi ra sao khi dữ liệu sinh trắc học giọng nói bắt đầu bị rò rỉ ở quy mô lớn đều là những điểm quan trọng
Bài đăng trên mạng xã hội có thể không phải thông báo chính thức, nhưng tôi có tìm thấy mẫu thông báo rò rỉ này được nộp ở California
Cũng phải chờ xem liệu các nhà lập pháp của chúng ta lần này có nghiêm túc với quyền riêng tư dữ liệu hay không
https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
Trên thiết bị Apple tôi cũng không dùng sinh trắc học mà chỉ dùng PIN 6 chữ số
Ngay từ đầu tôi đã thấy đó là một ý tưởng ngớ ngẩn
Cứ lặp đi lặp lại kiểu tư duy rằng khi phải chọn giữa tiện lợi và an toàn thì ai không chọn tiện lợi sẽ bị xem là hoang tưởng, rồi đến khi sự cố thật sự xảy ra thì họ vẫn tiếp tục bị xem là hoang tưởng, chỉ là vì một lý do khác
Chỉ có dữ liệu không tồn tại mới không thể bị đánh cắp hay rò rỉ. Đây là bài học đau đớn cho cả người dùng lẫn doanh nghiệp
Trong tiếng Đức còn có từ Datensparsamkeit để chỉ khái niệm này, gần với nghĩa sử dụng dữ liệu thật tiết kiệm
Ở Đức những năm 1970 đã có tranh luận lớn về quyền riêng tư và lưu trữ dữ liệu, và người ta cũng dùng những cách nói như Datenschatten
Truyền thống này có lẽ xuất phát từ sự phản tỉnh sau Thế chiến II và suy ngẫm về hệ thống hành chính
Giờ thì ai cũng muốn thu thêm mọi thứ thành dữ liệu cho AI
Nó có thể bị sao chép hoặc bị xóa, và đôi khi cả hai xảy ra cùng lúc
Chỉ khi bản sao cuối cùng cũng bị xóa thì mới có thể nói dữ liệu thật sự biến mất
Trong mô hình đe dọa cấp doanh nghiệp, chính người dùng của họ cũng nằm trong diện rủi ro, và cách vận hành thì lại nghiêng về việc tiếp tục tích lũy càng nhiều thông tin về mối đe dọa đó càng tốt
Ví dụ, bộ dữ liệu Common Voice của Mozilla không phải loại mà ai đó có thể “ăn cắp” được
Hôm qua ở Houston tôi ở gần các cựu nhân sự từ các agency và những người từng ở cấp GS15, và nghe họ giải thích rằng phía an ninh mạng Israel trong 20 năm qua đã chen vào đâu đó trong chuỗi cung ứng thư thoại để lấy voicemail của mọi người
Bây giờ thật đáng rợn khi có quá nhiều cách để tận dụng dữ liệu âm thanh
Vậy là giờ mọi người chỉ cần thay giọng thôi sao
Nói đùa vậy thôi, nhưng phần lớn người bình thường mà tôi biết đều giao nộp sinh trắc học chỉ vì dễ hơn
Có lẽ cần gắn nhãn sinh trắc học như một dạng mật khẩu vĩnh viễn, để mọi người hiểu chính xác họ đang giao ra thứ gì khi dùng nó để truy cập tài khoản ngân hàng hay vào Disney World
Dấu vân tay, DNA, mống mắt, dáng đi là những định danh vĩnh viễn gần như không thể thay đổi, và liên tục bị lộ ra ngoài thế giới giống như địa chỉ email
Hơn nữa, theo luật Mỹ, cảnh sát có thể buộc bạn đưa ra dấu vân tay, còn mật khẩu thì được Tu chính án thứ Năm bảo vệ
Họ sống khá ổn trong bầu không khí tin cậy xã hội và khả năng chối bỏ hợp lý, và có xu hướng không quá bận tâm chuyện gì xảy ra miễn là đó không phải lỗi của họ
Họ không xem việc tự đặt mình vào rủi ro và việc đó trở thành trách nhiệm của mình là một
Ở một góc độ nào đó cũng hơi đáng ghen tị. Nghĩa là họ sống với tiền đề rằng thế giới vốn dĩ nên như vậy
Ý là khách hàng sẽ không quên và cũng ít cần hỗ trợ hơn, nên nhiều người hoàn toàn có thể tiếp nhận cụm này theo hướng tốt
Việc Mercor lừa 40.000 nhà thầu rồi còn làm bảo mật dữ liệu tệ hại như vậy là cực kỳ tồi tệ
Những chuyện như thế này cần đi kèm trách nhiệm nặng hơn
Vì thế rất có thể kết cục của vụ ồn ào này lại là kinh doanh tăng thêm cho Mercor
Tôi đã thấy điều tương tự với Crowdstrike
Nếu kẻ tấn công có 30 giây giọng đọc rõ ràng của ai đó và bản quét bằng lái xe, chúng có thể làm được khá nhiều việc
Chỉ riêng ngân hàng và công ty môi giới của tôi thôi cũng đã dùng voice ID
Có lúc còn thấy như mục đích của công ty này chính là rút dữ liệu ra
Họ thu thập ồ ạt đủ thứ như video, giọng nói
Nếu chuyện này là thật, vấn đề lớn hơn có khi không nằm ở bản thân vụ rò rỉ
Chúng ta đang lặng lẽ bước vào một thế giới nơi chỉ với giọng nói + giấy tờ tùy thân là có thể mạo danh hoàn toàn một người, trong khi phần lớn hệ thống vẫn chưa được thiết kế dựa trên thực tế đó
Ở đây còn có một vấn đề lao động khó chịu
Những người gán nhãn và huấn luyện các hệ thống này lại chính là những người được bảo vệ kém nhất khi đường ống dữ liệu biến thành bề mặt tấn công