1 điểm bởi GN⁺ 2025-11-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các nhà nghiên cứu từ Đại học Vienna, Áo và SBA Research đã phát hiện một lỗ hổng quyền riêng tư quy mô lớn trong cơ chế tìm kiếm danh bạ của WhatsApp, có thể liệt kê 3,5 tỷ tài khoản
  • Nhóm nghiên cứu đã chứng minh có thể truy vấn hơn 100 triệu số điện thoại mỗi giờ, và Meta đã phối hợp với họ để khắc phục vấn đề
  • Dữ liệu có thể thu thập gồm số điện thoại, khóa công khai, dấu thời gian, thông tin hồ sơ được đặt ở chế độ công khai, từ đó có thể suy ra hệ điều hành, tuổi đời tài khoản, số thiết bị được kết nối
  • Kết quả phân tích cho thấy ngay cả tại các quốc gia cấm WhatsApp (Trung Quốc, Iran, Myanmar, v.v.) vẫn có hàng triệu tài khoản đang hoạt động, đồng thời xác nhận phân bố toàn cầu Android 81% · iOS 19%
  • Nghiên cứu này cho thấy nguy cơ lộ dữ liệu cá nhân vẫn tồn tại chỉ thông qua phân tích metadata, đồng thời nhấn mạnh tầm quan trọng của nghiên cứu bảo mật độc lập và liên tục

Phát hiện lỗ hổng trong tìm kiếm danh bạ của WhatsApp

  • Nhóm nghiên cứu xác nhận rằng bằng cách tận dụng cấu trúc của tính năng contact discovery trên WhatsApp, vốn tìm người dùng khác dựa trên danh bạ của người dùng, họ có thể truy vấn hơn 100 triệu số điện thoại mỗi giờ
    • Qua đó, họ đã xác định được hơn 3,5 tỷ tài khoản đang hoạt động tại 245 quốc gia và vùng lãnh thổ
    • Việc xử lý lượng yêu cầu lớn như vậy từ một nguồn duy nhất được xem là bộc lộ lỗi trong thiết kế hệ thống
  • Dữ liệu có thể truy cập gồm số điện thoại, khóa công khai, dấu thời gian, ảnh đại diện và phần giới thiệu được công khai, từ đó có thể suy ra loại hệ điều hành, thời điểm tạo tài khoản, số thiết bị đã kết nối

Các kết quả nghiên cứu chính

  • Ngay cả tại các quốc gia chính thức cấm WhatsApp (Trung Quốc, Iran, Myanmar) vẫn tồn tại hàng triệu tài khoản đang hoạt động
  • Tỷ lệ thiết bị toàn cầu là Android 81%, iOS 19%, đồng thời có sự khác biệt theo khu vực về hành vi công khai thông tin cá nhân (ví dụ: có công khai ảnh đại diện hay không, có dùng phần giới thiệu hay không)
  • Trong một số trường hợp, nhóm nghiên cứu phát hiện tái sử dụng khóa mã hóa, cho thấy khả năng tồn tại các client không chính thức hoặc hành vi sử dụng mang tính gian lận
  • Trong số 500 triệu số điện thoại nằm trong vụ rò rỉ dữ liệu Facebook năm 2021, khoảng một nửa được xác nhận là vẫn đang hoạt động trên WhatsApp
    • Điều này có nghĩa là các số bị rò rỉ vẫn tiếp tục đối mặt với nguy cơ bị lạm dụng thứ cấp như các cuộc gọi lừa đảo

Xử lý dữ liệu và tác động bảo mật

  • Trong quá trình nghiên cứu, nhóm nghiên cứu không truy cập nội dung tin nhắn, và toàn bộ dữ liệu thu thập đã được xóa trước khi công bố
  • Mã hóa đầu cuối (end-to-end encryption) của WhatsApp bảo vệ nội dung tin nhắn, nhưng metadata không nằm trong phạm vi được bảo vệ
  • Nhóm nghiên cứu xác nhận rằng chỉ riêng việc thu thập và phân tích metadata ở quy mô lớn cũng có thể tạo ra rủi ro xâm phạm quyền riêng tư

Hợp tác với Meta và các biện pháp ứng phó

  • Nghiên cứu được thực hiện theo nguyên tắc công bố có trách nhiệm (responsible disclosure), và kết quả đã được báo cáo ngay cho Meta
  • Sau đó, Meta đã triển khai các biện pháp ứng phó như giới hạn yêu cầu (rate-limiting)tăng cường kiểm soát truy cập thông tin hồ sơ
  • Meta cảm ơn sự hợp tác của nhóm nghiên cứu và thừa nhận rằng kỹ thuật liệt kê (enumeration) mới đã vượt qua giới hạn của các cơ chế phòng vệ hiện có
    • Kết quả nghiên cứu cũng góp phần xác minh hiệu quả của hệ thống chống scraping nội bộ
    • Không phát hiện trường hợp lạm dụng ác ý nào, và tin nhắn của người dùng vẫn được bảo vệ an toàn

Bối cảnh nghiên cứu và chuỗi nghiên cứu liên tiếp

  • Bài báo lần này là nghiên cứu bảo mật ứng dụng nhắn tin thứ ba do Đại học Vienna và SBA Research thực hiện, phân tích khả năng lộ dữ liệu cá nhân do lỗi thiết kế và triển khai trong WhatsApp và Signal
  • Nghiên cứu trước đó:
    • “Careless Whisper” (RAID 2025) : chứng minh có thể suy ra mẫu hoạt động của người dùng bằng cách tận dụng silent delivery receipts của WhatsApp
    • “Prekey Pogo” (USENIX WOOT 2025) : phân tích các điểm yếu trong triển khai của cơ chế phân phối prekey trên WhatsApp
  • Nghiên cứu lần này, “Hey there! You are using WhatsApp: Enumerating Three Billion Accounts for Security and Privacy”, mở rộng dòng nghiên cứu đó để thực chứng khả năng liệt kê người dùng ở quy mô toàn cầu
    • Kết quả nghiên cứu dự kiến sẽ được trình bày tại NDSS 2026

Ý nghĩa của nghiên cứu

  • Nhóm nghiên cứu chỉ ra rằng ngay cả các hệ thống trưởng thành cũng có thể tồn tại lỗi thiết kế, đồng thời nhấn mạnh rằng bảo mật và quyền riêng tư cần được tái đánh giá liên tục
  • Nghiên cứu cũng cho thấy sự hợp tác minh bạch giữa giới học thuật và ngành công nghiệp là yếu tố then chốt để bảo vệ người dùng và ngăn chặn lạm dụng
  • Nghiên cứu này cung cấp nền tảng để hiểu dài hạn về sự tiến hóa của các hệ thống nhắn tin và những điểm rủi ro mới

1 bình luận

 
GN⁺ 2025-11-22
Ý kiến Hacker News
  • Đúng là thời điểm quá trùng hợp. Gần đây chúng tôi vừa công bố một RFC về cách đối sánh danh bạ. Cách này có khả năng chống tấn công liệt kê (enumeration attack), nhưng đổi lại cấu trúc đó làm giảm khả năng khám phá (discovery). Hiện chúng tôi đang nhận phản hồi, ai quan tâm có thể xem — Contact Import RFC
    • Tôi cũng từng xử lý vấn đề tương tự và đã tìm hiểu về Private Set Intersection (liên kết wiki). Nó có liên quan đến Zero Knowledge Proofs và có thể ngăn chặn tận gốc kiểu tấn công này vì không cần chia sẻ số điện thoại ở dạng văn bản thuần. Tuy vậy, cách tiếp cận này có thể là quá mức cần thiết và với công nghệ hiện tại có thể còn hạn chế về khả năng mở rộng
    • RFC có nói về bảo mật nhưng không nhắc đến quyền riêng tư. Cuối cùng vẫn là mô hình phải tin tưởng máy chủ hoặc instance. Sẽ tốt hơn nếu dùng hash thay cho số thật, nhưng khi đó lại không thể xác minh số nên khó ngăn chặn spoofing. Có lẽ cũng có thể làm theo cách một bên thứ ba đáng tin cậy như EFF hoặc Let’s Encrypt xác minh số, còn ứng dụng chỉ lấy hash
    • Rất vui vì chủ đề này được nêu ra đúng lúc. Ứng dụng của tôi cũng sắp thêm đồng bộ danh bạ nên tôi đang cân nhắc giữa bảo mật và quyền riêng tư. Không biết có kế hoạch công bố RFC này dưới dạng mã nguồn mở hay không
  • Đoạn được trích trong bài khá thú vị. Trong 500 triệu số điện thoại bị lộ ở vụ rò rỉ dữ liệu Facebook năm 2021, có tới một nửa vẫn còn đang hoạt động trên WhatsApp. Điều đó cho thấy các số bị lộ có thể tiếp tục bị đem ra gọi rác hoặc lừa đảo trong nhiều năm. Có vẻ “chu kỳ bán rã” của số điện thoại vào khoảng 4–5 năm
    • Tôi luôn thấy ngạc nhiên khi người Mỹ giữ nguyên số được cấp từ lúc nhỏ cho tới khi trưởng thành. Trước đây tôi từng đổi số gần như mỗi năm
  • Lỗ hổng lần này là do một endpoint cho phép kiểm tra xem một số điện thoại có liên kết với tài khoản WhatsApp hay không. Có thể truy vấn với gần như mọi số, nhưng tôi không thấy nó giống một lỗ hổng nghiêm trọng lắm
    • Nhưng tôi vẫn thắc mắc vì sao lại cho phép xác nhận sự tồn tại của tài khoản qua số điện thoại. Với địa chỉ email, việc này bị xem là xâm phạm quyền riêng tư, nên tôi không hiểu vì sao số điện thoại lại là ngoại lệ
    • Gần đây tôi nhận rất nhiều SMS lừa đảo với tên như “WatApp”, “whtas app”. Có vẻ những vụ lộ lọt kiểu này đã làm tăng hiệu quả tấn công. Đây còn là tin nhắn không hiện số gửi nên cũng khó chặn
    • Thực ra với người như tôi thì đây lại là một tính năng tiện lợi. Tôi có thể nhập số của một thợ sửa ống nước tìm thấy trên mạng vào WhatsApp; nếu có hồ sơ thì nhắn ngay, còn không thì gọi điện hoặc gửi SMS
  • Đây không hẳn là một vụ rò rỉ lớn, mà chỉ là người dùng đã tạo hồ sơ công khai và hồ sơ đó có thể được tìm thấy bằng số điện thoại. Các nhà nghiên cứu chỉ truy vấn số ngẫu nhiên để thu thập thông tin đã công khai, chứ không phải dữ liệu riêng tư. Facebook không áp dụng rate limit nên việc thu thập ở quy mô lớn mới khả thi, nhưng dù sao đó vẫn là thông tin công khai. Nếu người dùng đưa thông tin nhạy cảm lên hồ sơ công khai thì đó là lựa chọn của họ
  • Đây là một trong những điều đáng tiếc nhất. Nhân loại từng có cơ hội sở hữu ứng dụng nhắn tin cá nhân phổ biến nhất, nhưng con số 19 tỷ USD năm 2014 đã làm Brian Acton mờ mắt. Những gì ông ấy đang làm ở Signal bây giờ không thể bù lại cái giá của việc đem niềm tin của hàng tỷ người dùng ra bán
    • EU lẽ ra phải chặn thương vụ này. Một công ty không có mô hình doanh thu mà được định giá 19 tỷ USD thì đã vô lý rồi, và điều Facebook nhắm tới chính là dữ liệu người dùng. Thế mà cuối cùng họ lại hài lòng với những thứ như ép dùng USB-C, thật quá chán
  • Đây đơn giản là vấn đề liệt kê số điện thoại (enumeration). Nó không phải lỗi code mà là một tính năng được thiết kế rõ ràng, nên gọi là “lỗ hổng bảo mật” thì cũng hơi gượng
    • Nhưng một endpoint nhạy cảm mà hoàn toàn không có rate limiting thì có thể xem là lỗi
    • Chỉ riêng việc có thể xác nhận một số có tài khoản hay không cũng đã là xâm phạm quyền riêng tư. Nếu dịch vụ đó là một trang không phù hợp hoặc nhạy cảm, thì chỉ từ số điện thoại mà biết ai đã đăng ký là vấn đề rất nghiêm trọng. Nguy cơ còn ở chỗ thông tin này có thể được tự động hóa để lập hồ sơ
    • Nghe nói có thể gửi tới 100 triệu request mỗi giây thì đúng là mức độ vô lý khó tin
  • Sáng nay tôi phát hiện mình đột nhiên bị đăng xuất khỏi WhatsApp. Tôi thử đăng nhập lại nhưng không nhận được SMS xác thực, may mà dùng tùy chọn “nhận cuộc gọi” nên lấy được mã khôi phục. Nhưng vì tôi chưa thiết lập mã PIN 2FA nên việc khôi phục lại bị chặn, mà email khôi phục cũng chưa cấu hình. Giờ tôi đang phải chờ 7 ngày. Số điện thoại vẫn thuộc sở hữu của tôi mà vẫn không khôi phục được tài khoản thì thật kỳ lạ. Tôi rất khuyến nghị mọi người bật 2FA và cấu hình email khôi phục
    • Nếu chỉ cần số điện thoại là có thể khôi phục tài khoản thì ngược lại còn là rủi ro bảo mật. Khi số bị cấp lại, người dùng mới có thể thừa hưởng cuộc trò chuyện và danh bạ của người dùng cũ
  • Việc này giống với bài nghiên cứu về tìm kiếm danh bạ trên WhatsApp, Telegram và Signal được công bố năm 2020 (liên kết). Cuối cùng thì cách duy nhất để ngăn việc liệt kê toàn bộ tập số điện thoại vẫn là rate limit phía máy chủ. Tôi khá tò mò không biết giới hạn của từng ứng dụng nhắn tin có đủ chặt hay không
  • Trước đây tôi từng tham gia một nghiên cứu kiểu này. Danh sách tiền tố số di động theo từng quốc gia rất hữu ích. Tuy nhiên tôi không tìm được liên kết libphonegen được nhắc tới
  • Vấn đề cốt lõi là rủi ro của các dịch vụ nhắn tin tập trung. Thực ra tập trung hóa là vấn đề ở mọi lĩnh vực, nhưng người dùng vẫn luôn muốn sự tiện lợi và tính tích hợp. Mà làm được điều đó trong hệ thống phân tán thì cực kỳ khó
    • Tôi hay nghĩ nếu ban đầu nó phát triển theo hướng mở như email thì sẽ ra sao. Nếu trong thập niên 90 mọi người hỏi nhau “địa chỉ email của bạn là gì?” bằng “khóa công khai của bạn là gì?” thì biết đâu giờ này chúng ta đã sống trong một không tưởng số
    • SimpleX Chat có vẻ là một ví dụ kết hợp khá tốt giữa bảo mật và phi tập trung
    • Thành thật mà nói, xét về năng lực kỹ thuật thì tôi còn tin Meta hơn chính phủ. Các dự án số của chính phủ có tỷ lệ thất bại rất cao, và dù có chỉ trích FAANG thì cũng khó mà làm ra kết quả tốt hơn họ
    • Tôi vừa đọc thread về Matrix đang lên trang chủ HN, và đó cũng là một cuộc thảo luận trong cùng mạch này