1 điểm bởi GN⁺ 21 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Đã xảy ra một vụ rò rỉ quy mô lớn, trong đó sinh trắc học giọng nóigiấy tờ tùy thân do chính phủ cấp bị gắn với nhau trong cùng một dòng dữ liệu; theo chỉ mục mẫu bị lộ, có hơn 40.000 lao động hợp đồng AI bị ảnh hưởng
  • Mỗi lao động hợp đồng có trung bình 2~5 phút bản ghi âm sạch, vượt xa ngưỡng của sao chép giọng nói vốn chỉ cần khoảng 15 giây âm thanh tham chiếu
  • Dữ liệu bị lộ cung cấp đồng thời giọng nói clone và danh tính đã được xác minh, có thể bị lạm dụng để vượt qua xác thực giọng nói của ngân hàng, vishing nhắm vào nơi làm việc, cuộc gọi video deepfake, gian lận yêu cầu bồi thường bảo hiểm và các cuộc gọi khẩn cấp mạo danh người thân
  • Nếu đã tải mẫu giọng nói lên Mercor hoặc các công ty môi giới huấn luyện AI khác hoạt động đến năm 2025, cần coi chúng như mật khẩu đã bị lộ; nên xóa giọng nói công khai, đặt mã từ khóa, đăng ký lại voice print và vô hiệu hóa tính năng này khi cần
  • Với các giọng nói đáng ngờ, cần kiểm tra pháp y để xác minh sự không khớp codec, kiểu thở, micro-jitter, quỹ đạo formant, tính nhất quán âm học trong phòng, cùng các bất thường về ngữ điệu và tốc độ nói; vụ việc này cũng phơi bày rõ hơn điểm yếu trên toàn bộ hệ thống xác thực bằng giọng nói

Tổng quan vụ xâm phạm

  • Ngày 4 tháng 4 năm 2026, Lapsus$ đã đăng Mercor lên trang rò rỉ của mình, và quy mô dữ liệu bị lộ được cho là khoảng 4TB
  • Kho lưu trữ bị rò rỉ chứa cả sinh trắc học giọng nói lẫn giấy tờ tùy thân do chính phủ cấp của cùng một người, và theo chỉ mục mẫu bị lộ, có hơn 40.000 lao động hợp đồng bị ảnh hưởng
  • Những người này là các lao động hợp đồng đã đăng ký để gắn nhãn dữ liệu huấn luyện AI, ghi âm câu đọc mẫu và thực hiện các cuộc gọi xác minh
  • Trong vòng 10 ngày sau khi bài đăng xuất hiện, đã có 5 vụ kiện từ phía lao động hợp đồng, cho rằng voice print đã bị thu thập làm "dữ liệu huấn luyện" mà không nêu rõ đây là một định danh sinh trắc học vĩnh viễn

Vì sao vụ rò rỉ này khác biệt

  • Các vụ rò rỉ giọng nói trong 10 năm qua phần lớn hoặc là bản ghi cuộc gọi khó liên kết với danh tính hoặc là rò rỉ giấy tờ tùy thân và ảnh selfie nhưng không có âm thanh
  • Quy trình đăng ký của Mercor kết hợp bản quét hộ chiếu hoặc bằng lái xe, ảnh selfie webcam và bản ghi âm đọc kịch bản trong môi trường yên tĩnh vào cùng một dòng dữ liệu
  • Sự kết hợp này khớp chính xác với dạng đầu vào mà các dịch vụ sao chép giọng nói tổng hợp yêu cầu
  • Theo bài viết của Wall Street Journal vào tháng 2 năm 2026, các công cụ thương mại chỉ cần khoảng 15 giây âm thanh tham chiếu sạch để tạo bản sao giọng nói chất lượng cao
  • Các bản ghi âm của Mercor được cho là có trung bình 2~5 phút giọng nói chất lượng phòng thu cho mỗi lao động hợp đồng, vượt xa ngưỡng sao chép
  • Khi kết hợp thêm giấy tờ tùy thân đã được xác minh, kẻ tấn công sẽ có cả giọng nói clone lẫn thông tin định danh để sử dụng trong tấn công thực tế

Các kiểu tấn công có thể thực hiện bằng dữ liệu giọng nói bị đánh cắp

  • Vượt qua xác thực ngân hàng

    • Nhiều ngân hàng ở Mỹ và Anh vẫn coi đối sánh voice print là một trong hai yếu tố xác thực
    • Nếu bản clone giọng nói của chủ tài khoản đọc câu thách thức xác minh, nó có thể vượt qua lớp kiểm tra âm thanh; khi đó chỉ còn lại các câu hỏi kiến thức, vốn cũng có thể được lấy từ cùng bộ dữ liệu bị lộ
  • Vishing nhắm vào nơi làm việc

    • Kẻ tấn công có thể gọi cho bộ phận nhân sự hoặc tài chính, giả danh nhân viên để yêu cầu đổi tài khoản nhận lương, chuyển tiền hoặc mở khóa máy trạm
    • Trong kho lưu trữ của Krebs on Security, đã có hơn 24 trường hợp được xác nhận từ năm 2023 trở đi
  • Cuộc gọi video deepfake

    • Năm 2024 tại Arup, sau một cuộc gọi video deepfake nhiều nhân vật, một nhân viên tài chính đã chuyển khoảng 25 triệu USD
    • Khi đó, giọng nói và khuôn mặt được tạo từ video công khai, nhưng dữ liệu rò rỉ của Mercor còn chứa âm thanh chất lượng phòng thugiấy tờ tùy thân đã xác minh, tốt hơn cả video công khai
  • Gian lận yêu cầu bồi thường bảo hiểm

    • Pindrop thống kê rằng trong suốt năm 2025, các cuộc tấn công bằng giọng nói tổng hợp nhắm vào tổng đài bảo hiểm đã tăng 475% so với năm trước
    • Các yêu cầu bồi thường ô tô, nhân thọ và khuyết tật xử lý qua điện thoại là mục tiêu chính
  • Lừa đảo gọi điện khẩn cấp mạo danh người thân

    • Trung tâm Khiếu nại Tội phạm Internet của FBI thống kê tổng thiệt hại của nạn nhân từ 60 tuổi trở lên trong năm 2026 là 2,3 tỷ USD
    • Hạng mục tăng nhanh nhất là các cuộc gọi khẩn cấp mạo danh, tuyên bố rằng người thân đang gặp nguy hiểm

Cách xác minh việc lạm dụng giọng nói và ứng phó ngay lập tức

  • Nếu từng tải mẫu giọng nói lên Mercor hoặc các công ty môi giới huấn luyện AI khác hoạt động đến năm 2025, bạn cần coi nó như một mật khẩu đã bị lộ
  • Bản thân giọng nói không thể thay thế, nhưng bạn có thể thay đổi các phương thức xác thực mà giọng nói đó mở khóa
  • Kiểm tra dấu vết âm thanh công khai

    • Cần tìm các mẫu giọng nói đang được lập chỉ mục công khai trên YouTube, thư mục podcast và các bản ghi Zoom cũ
    • Nên xóa càng nhiều giọng nói công khai có thể gỡ xuống càng tốt
    • Âm thanh tham chiếu công khai càng ít thì bản clone của kẻ tấn công càng kém ổn định
  • Thiết lập mã từ khóa bằng lời nói với gia đình và liên hệ tài chính

    • Nên chọn một cụm từ chưa từng bị ghi âm và cũng chưa từng được nhập vào đoạn chat nào
    • Cần chia sẻ trước với những người có thể thay bạn xử lý tiền bạc
    • Với các cuộc gọi yêu cầu chuyển tiền, nên coi mã từ khóa là bước bắt buộc
  • Đăng ký lại ở những nơi sử dụng voice print

    • Google Voice Match, Amazon Alexa Voice ID, Apple personal voice và đăng ký voice print ngân hàng đều có thể bị xóa rồi thay thế
    • Tốt hơn nên đăng ký lại bằng bản ghi mới trong môi trường âm học khác với mẫu đã bị lộ
  • Vô hiệu hóa xác thực voice print tại ngân hàng

    • Bạn có thể yêu cầu bằng văn bản để loại voice print khỏi các yếu tố xác thực
    • Tốt hơn nên yêu cầu xác thực đa yếu tố kết hợp token ứng dụng hoặc khóa phần cứng với yếu tố kiến thức
    • Nhiều ngân hàng có tùy chọn loại bỏ giọng nói khỏi yếu tố xác thực chính, nhưng không quảng bá rộng rãi điều này
  • Kiểm tra pháp y với bản ghi đáng ngờ

    • Nếu nhận được tệp âm thanh hoặc tin nhắn thoại từ người tự xưng là người quen và yêu cầu tiền, quyền truy cập hoặc phản ứng khẩn cấp, đừng hành động ngay mà nên đưa vào trình phát hiện deepfake
    • ORAVYS cung cấp kiểm tra miễn phí cho 3 mẫu đầu tiên do nạn nhân của vụ xâm phạm gửi lên
    • Run a forensic check →

Danh sách kiểm tra phân tích pháp y

  • Phân tích pháp y bắt đầu từ việc tìm các lỗi phổ biến của giọng nói tổng hợp
  • Sự không khớp codec lộ ra khi chữ ký phổ của một tệp âm thanh được cho là cuộc gọi điện thoại không phù hợp với các codec điện thoại đã biết
  • Kiểu thở của người nói thật thay đổi theo độ dài câu và dung tích phổi, trong khi giọng nói tổng hợp có thể bỏ qua hơi thở hoặc chèn vào ranh giới âm tiết sai
  • Micro-jitter là những bất quy tắc rất nhỏ trong dao động tự nhiên của dây thanh quản; âm thanh được tạo sinh thường quá sạch ở cấp độ mili giây
  • Quỹ đạo formant tuân theo đường chuyển tiếp nguyên âm do cơ quan phát âm của người thật tạo ra, trong khi giọng nói sao chép đôi khi nhảy giữa các formant theo cách không thể xảy ra về mặt vật lý
  • Tính nhất quán âm học trong phòng đòi hỏi đặc tính vang dội phải giống nhau từ đầu tới cuối tệp, nhưng âm thanh tạo sinh có thể khô trong khi phần bối cảnh ghép nối lại có vang dội, gây lệch nhau
  • Sự phẳng hóa ngữ điệu xuất hiện khi giọng nói tổng hợp có biên độ biến thiên cao độ và năng lượng hẹp hơn so với người thật
  • Độ ổn định của tốc độ nói cũng là dấu hiệu: khác với con người tăng giảm tốc độ tự nhiên, giọng nói tạo sinh thường giữ nhịp đều như máy đếm trong các đoạn dài

Cách ORAVYS kiểm tra

  • Với mỗi mẫu được gửi lên, hệ thống chạy song song hơn 3.000 công cụ pháp y trên các miền tín hiệu, ngữ điệu, phát âm, codec và nguồn gốc
  • Phát hiện watermark AudioSeal có thể đánh dấu các tệp do các mô hình giọng nói thương mại lớn tạo ra nếu watermark còn được giữ lại, và khi có watermark thì cho kết quả dương tính mang tính quyết định
  • Mô-đun chống giả mạo được huấn luyện dựa trên benchmark công khai ASVspoof và chấm điểm khả năng mẫu đó là âm thanh tổng hợp chứ không phải ghi âm thật
  • Hệ thống áp dụng xử lý dữ liệu sinh trắc học tuân thủ RGPD, không dùng âm thanh để huấn luyện mô hình thương mại nếu không có sự đồng ý rõ ràng, và xóa dữ liệu theo lịch lưu giữ đã xác định
  • Nếu bạn là lao động hợp đồng của Mercor và giọng nói có thể đã lưu hành, họ sẽ phân tích miễn phí 3 mẫu đáng ngờ đầu tiên
  • Báo cáo miễn phí bao gồm phát hiện watermark, điểm chống giả mạo và danh sách kiểm tra các tạo tác nêu trên
  • Họ cũng cho biết không yêu cầu thông tin thẻ và không đặt rào cản giới hạn mức sử dụng

Nguồn và giới hạn

  • Các nguồn được nêu gồm chỉ mục trang rò rỉ của Lapsus$, Wall Street Journal tháng 2 năm 2026, Pindrop Voice Intelligence Report 2025, FBI IC3 Elder Fraud Report 2026 và kho lưu trữ Krebs on Security
  • ORAVYS không lưu trữ hay phân phối lại bộ dữ liệu bị rò rỉ, và cũng không nhận nó làm đầu vào

1 bình luận

 
Ý kiến trên Hacker News
  • Thật trớ trêu. Để giảm thiệt hại vì giọng nói của tôi bị chuyển cho một công ty AI, giờ lại phải gửi giọng nói cho một công ty AI khác, nghe thật vô lý
    Có vẻ rất có khả năng Mercor cũng đã chèn sự đồng ý rõ ràng vào điều khoản sử dụng để tự tạo lối thoát pháp lý cho mình

    • Điều cay đắng hơn cả đề nghị phân tích miễn phí là, ngay từ đầu cấu trúc hợp đồng của Mercor đã đúng theo mô thức đó
      Họ yêu cầu bản ghi âm giọng nói chất lượng studiobản quét giấy tờ tùy thân, nhưng thực tế công việc gán nhãn dữ liệu thì không cần cái nào trong hai, sự đồng ý lại bị chôn sâu trong điều khoản, và mọi người vì cần tiền công nên buộc phải bấm chấp nhận
      Giờ thì 40.000 người đã học được rằng dữ liệu sinh trắc học không phải mật khẩu, và cũng lộ rõ việc giọng nói là thứ không thể thay thế
    • Cụm từ CYA có vẻ như là cách nói giảm nhẹ thực tế quá mức
      Về lý tưởng, luật pháp nên là phương tiện dễ tiếp cận để giải quyết tranh chấp thay vì bạo lực, nhưng hiện giờ nó thường được dùng như một hệ thống kiểu Kafka để duy trì quyền lực doanh nghiệp ở trên cá nhân
      Trên thực tế, nó gần như chặn hết các biện pháp cứu trợ pháp lý, còn những cách ứng phó khác thì đòi hỏi chi phí lớn kéo dài, như duy trì nhiều nơi cư trú hay thuê bảo vệ
      Không phải là cổ vũ bạo lực, mà là cần một hệ thống pháp lý bình đẳng hơn và dễ tiếp cận hơn
    • Nhìn vào bài WSJ tuần trước, có vẻ Mercor đang nhắm vào vùng xám của hợp đồng. Không chỉ là vấn đề giọng nói
      Nhiều người về cơ bản đã tự nghe lén chính mình và cả công ty của mình
      Dù các nhà thầu Mercor có cáo buộc việc thu thập dữ liệu quá mức thông qua Insightful, từ góc nhìn công ty đây vẫn là một cấu trúc khá khôn ngoan. Vì nếu phản đối quá mạnh, họ không chỉ có thể mất công việc chính mà còn sợ phải gánh trách nhiệm vô hạn vì hành vi vi phạm có chủ ý
      https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
    • Khi tôi từng định xóa tài khoản Airbnb, họ yêu cầu quét cả mặt trước lẫn mặt sau giấy tờ tùy thân, nên tôi bỏ luôn, và từ đó không dùng lại công ty đó nữa
    • Nghe giống tình huống phải xác minh danh tính trước thì mới được nhận khoản dàn xếp do bị đánh cắp danh tính
  • Tôi là tác giả bài viết. Tôi viết bài này sau khi xem kho lưu trữ Mercor mà Lapsus$ đăng lên trang rò rỉ hồi đầu tháng này
    Điều đặc biệt nổi bật là sự kết hợp giữa mẫu giọng nói và bản quét giấy tờ tùy thân. Thông thường các vụ rò rỉ chỉ có một trong hai, còn vụ này thì gần như giao nguyên một bộ công cụ có thể dùng ngay cho deepfake
    Tôi muốn tổng hợp theo hướng thực tế những gì kẻ tấn công có thể làm với tổ hợp đó, ví dụ như vượt qua xác thực giọng nói của ngân hàng, mạo danh kiểu cuộc gọi video như vụ Arup, lừa đảo bảo hiểm, và cả checklist 5 bước mà các nhà thầu bị lộ dữ liệu nên làm theo
    Cũng có thể bàn thêm về phía phát hiện pháp chứng. Watermark AudioSeal, chống giả mạo AASIST, và việc bối cảnh phát hiện sẽ thay đổi ra sao khi dữ liệu sinh trắc học giọng nói bắt đầu bị rò rỉ ở quy mô lớn đều là những điểm quan trọng

    • Tài liệu khá thú vị. Sau sự việc, Mercor gần như không đưa ra lập trường công khai nào
      Bài đăng trên mạng xã hội có thể không phải thông báo chính thức, nhưng tôi có tìm thấy mẫu thông báo rò rỉ này được nộp ở California
      Cũng phải chờ xem liệu các nhà lập pháp của chúng ta lần này có nghiêm túc với quyền riêng tư dữ liệu hay không
      https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
    • Khi HSBC đề xuất xác thực giọng nói vài năm trước, tôi từ chối ngay
      Trên thiết bị Apple tôi cũng không dùng sinh trắc học mà chỉ dùng PIN 6 chữ số
      Ngay từ đầu tôi đã thấy đó là một ý tưởng ngớ ngẩn
      Cứ lặp đi lặp lại kiểu tư duy rằng khi phải chọn giữa tiện lợi và an toàn thì ai không chọn tiện lợi sẽ bị xem là hoang tưởng, rồi đến khi sự cố thật sự xảy ra thì họ vẫn tiếp tục bị xem là hoang tưởng, chỉ là vì một lý do khác
  • Chỉ có dữ liệu không tồn tại mới không thể bị đánh cắp hay rò rỉ. Đây là bài học đau đớn cho cả người dùng lẫn doanh nghiệp
    Trong tiếng Đức còn có từ Datensparsamkeit để chỉ khái niệm này, gần với nghĩa sử dụng dữ liệu thật tiết kiệm

    • Việc tiếng Đức có hẳn một từ như vậy cũng có bối cảnh lịch sử
      Ở Đức những năm 1970 đã có tranh luận lớn về quyền riêng tư và lưu trữ dữ liệu, và người ta cũng dùng những cách nói như Datenschatten
      Truyền thống này có lẽ xuất phát từ sự phản tỉnh sau Thế chiến II và suy ngẫm về hệ thống hành chính
    • Trước thời LLM, người ta hoàn toàn có thể lập luận rằng dữ liệu không cần thiết chỉ làm tăng trách nhiệm và rủi ro
      Giờ thì ai cũng muốn thu thêm mọi thứ thành dữ liệu cho AI
    • Dữ liệu không phải vật thể vật lý, nên nói chính xác thì nó không phải thứ bị đánh cắp
      Nó có thể bị sao chép hoặc bị xóa, và đôi khi cả hai xảy ra cùng lúc
      Chỉ khi bản sao cuối cùng cũng bị xóa thì mới có thể nói dữ liệu thật sự biến mất
    • Thế nhưng doanh nghiệp hầu như không rút ra bài học này
      Trong mô hình đe dọa cấp doanh nghiệp, chính người dùng của họ cũng nằm trong diện rủi ro, và cách vận hành thì lại nghiêng về việc tiếp tục tích lũy càng nhiều thông tin về mối đe dọa đó càng tốt
    • Với dữ liệu đã công khai từ trước thì rất khó áp khái niệm rò rỉ hay đánh cắp
      Ví dụ, bộ dữ liệu Common Voice của Mozilla không phải loại mà ai đó có thể “ăn cắp” được
  • Hôm qua ở Houston tôi ở gần các cựu nhân sự từ các agency và những người từng ở cấp GS15, và nghe họ giải thích rằng phía an ninh mạng Israel trong 20 năm qua đã chen vào đâu đó trong chuỗi cung ứng thư thoại để lấy voicemail của mọi người
    Bây giờ thật đáng rợn khi có quá nhiều cách để tận dụng dữ liệu âm thanh

  • Vậy là giờ mọi người chỉ cần thay giọng thôi sao
    Nói đùa vậy thôi, nhưng phần lớn người bình thường mà tôi biết đều giao nộp sinh trắc học chỉ vì dễ hơn
    Có lẽ cần gắn nhãn sinh trắc học như một dạng mật khẩu vĩnh viễn, để mọi người hiểu chính xác họ đang giao ra thứ gì khi dùng nó để truy cập tài khoản ngân hàng hay vào Disney World

    • Xét về chức năng, sinh trắc học gần với tên người dùng hơn là mật khẩu
      Dấu vân tay, DNA, mống mắt, dáng đi là những định danh vĩnh viễn gần như không thể thay đổi, và liên tục bị lộ ra ngoài thế giới giống như địa chỉ email
      Hơn nữa, theo luật Mỹ, cảnh sát có thể buộc bạn đưa ra dấu vân tay, còn mật khẩu thì được Tu chính án thứ Năm bảo vệ
    • Những người nói vì dễ hơn thực sự có cách tư duy khác
      Họ sống khá ổn trong bầu không khí tin cậy xã hội và khả năng chối bỏ hợp lý, và có xu hướng không quá bận tâm chuyện gì xảy ra miễn là đó không phải lỗi của họ
      Họ không xem việc tự đặt mình vào rủi ro và việc đó trở thành trách nhiệm của mình là một
      Ở một góc độ nào đó cũng hơi đáng ghen tị. Nghĩa là họ sống với tiền đề rằng thế giới vốn dĩ nên như vậy
    • Khi tôi làm ở ngân hàng, cụm từ forever passwords thậm chí còn được dùng theo nghĩa tích cực
      Ý là khách hàng sẽ không quên và cũng ít cần hỗ trợ hơn, nên nhiều người hoàn toàn có thể tiếp nhận cụm này theo hướng tốt
  • Việc Mercor lừa 40.000 nhà thầu rồi còn làm bảo mật dữ liệu tệ hại như vậy là cực kỳ tồi tệ
    Những chuyện như thế này cần đi kèm trách nhiệm nặng hơn

    • Điều đang diễn ra lúc này là các CTO thiếu hiểu biết từng không biết tới công ty này giờ đã biết tên họ
      Vì thế rất có thể kết cục của vụ ồn ào này lại là kinh doanh tăng thêm cho Mercor
      Tôi đã thấy điều tương tự với Crowdstrike
    • Ít nhất thì nếu thu thập voiceprint thì phải có các yêu cầu về đồng ý, lưu trữ và bảo mật nghiêm ngặt hơn rất nhiều so với dữ liệu huấn luyện thông thường
  • Nếu kẻ tấn công có 30 giây giọng đọc rõ ràng của ai đó và bản quét bằng lái xe, chúng có thể làm được khá nhiều việc
    Chỉ riêng ngân hàng và công ty môi giới của tôi thôi cũng đã dùng voice ID

  • Có lúc còn thấy như mục đích của công ty này chính là rút dữ liệu ra

    • Nhìn vào chính sách quyền riêng tư thì càng rõ hơn
      Họ thu thập ồ ạt đủ thứ như video, giọng nói
  • Nếu chuyện này là thật, vấn đề lớn hơn có khi không nằm ở bản thân vụ rò rỉ
    Chúng ta đang lặng lẽ bước vào một thế giới nơi chỉ với giọng nói + giấy tờ tùy thân là có thể mạo danh hoàn toàn một người, trong khi phần lớn hệ thống vẫn chưa được thiết kế dựa trên thực tế đó

  • Ở đây còn có một vấn đề lao động khó chịu
    Những người gán nhãn và huấn luyện các hệ thống này lại chính là những người được bảo vệ kém nhất khi đường ống dữ liệu biến thành bề mặt tấn công