- Hơn 2.000 ứng dụng được phát hiện trên App Store và Google Play có dấu hiệu thu thập dữ liệu vị trí mà không có sự đồng ý của người dùng
- Tác giả bài viết này đã trực tiếp mua loại dữ liệu vị trí đó để thử nghiệm xem liệu có thể tự lần theo chính mình hay không
- Kết quả cho thấy địa chỉ IP và dữ liệu vị trí bị rò rỉ ở nhiều nơi, và một lượng khổng lồ thông tin người dùng được trao đổi qua các giao thức quảng cáo như OpenRTB
- Tuy nhiên, để thực sự mua dữ liệu thì cần chi phí từ hàng chục nghìn đến hàng trăm nghìn USD, và dữ liệu người dùng châu Âu đặc biệt đắt hơn
- Dù vậy, điều này vẫn một lần nữa xác nhận rằng dữ liệu đó có thể được mua ở khắp nơi
Điểm khởi đầu
- Một chiếc iPhone 11 dùng cho thử nghiệm đã được khôi phục cài đặt gốc và thiết lập bằng Apple ID mới
- Để phân tích lưu lượng mạng, tác giả đã cài Charles Proxy và chứng chỉ SSL để giải mã các yêu cầu HTTPS
- Khi chọn chạy một trò chơi đơn giản tên là “Stack” làm ứng dụng mẫu, rất nhiều yêu cầu phục vụ quảng cáo và phân tích đã phát sinh trong khoảng thời gian cực ngắn
Một khối lượng yêu cầu khổng lồ
- Chỉ sau 1 phút chạy ứng dụng, tác giả đã ghi nhận số lượng yêu cầu mạng nhiều đến choáng ngợp
- Mỗi yêu cầu đều chứa nhiều loại dữ liệu như vị trí, địa chỉ IP, mã định danh quảng cáo và chi tiết thiết bị
- Sau khi xem xét từng mục, tác giả nhận ra rằng ngay cả khi người dùng chưa đồng ý, thông tin nhạy cảm vẫn bị gửi tới nhiều nơi
Unity [ads]
- Nếu ứng dụng tích hợp Unity Ads SDK, nhiều thông tin như dữ liệu vị trí và địa chỉ IP sẽ được gửi tới máy chủ của Unity
- Dữ liệu được thu thập bao gồm mã định danh “ifv” (ID For Vendor), vị trí khi kết nối Wi‑Fi (kinh độ, vĩ độ), dấu thời gian và nhiều thông tin khác
- Khi Unity liên kết với các công ty DSP như Moloco Ads, các thông tin này còn được chuyển tiếp cho bên thứ ba trong quá trình đấu giá quảng cáo
Vì sao Facebook xuất hiện?
- Dù tác giả hoàn toàn không cài bất kỳ ứng dụng nào liên quan đến Meta hay Facebook, địa chỉ IP và dấu thời gian vẫn được gửi cho Facebook trong quá trình truyền thông quảng cáo trong ứng dụng
- Nếu Facebook có thể xác định tài khoản dùng cùng một địa chỉ IP qua con đường khác, khả năng cao họ có thể kết hợp dữ liệu đó với lịch sử sử dụng các dịch vụ Meta của người dùng
- Điều này không được thông báo đầy đủ trước cho người dùng, và trên thực tế cũng gần như không có quy trình xin đồng ý rõ ràng
Vì sao lại cần độ sáng màn hình?
- Unity Ads yêu cầu các thông tin về trạng thái thiết bị như độ sáng màn hình, tình trạng pin, dung lượng bộ nhớ, và việc có kết nối tai nghe hay không
- Có lo ngại rằng các dữ liệu này có thể bị lạm dụng cho quảng cáo cá nhân hóa hoặc đề xuất mức giá động
- Giống như tin đồn Uber điều chỉnh giá dựa trên trạng thái pin, về mặt kỹ thuật thì điều đó là hoàn toàn có thể
Tìm hiểu về các ID
ifv(ID for Vendor) là mã định danh được cấp theo từng nhà phát triển ứng dụngadvertisingTrackingId(IDFA) là mã định danh cho phép theo dõi cùng một người dùng trên nhiều ứng dụng- Nếu đặt chế độ từ chối theo dõi, IDFA sẽ được cấp dưới dạng “0000…”, nhưng IP và nhiều loại ID khác vẫn tiếp tục được gửi đi, khiến việc theo dõi lách luật trên thực tế vẫn khả thi
Sự khác biệt giữa cho phép và từ chối theo dõi
- Dù đặt theo dõi quảng cáo là “cho phép” hay “từ chối”, vị trí, IP và thông tin trình duyệt vẫn tiếp tục bị gửi đi
- Chỉ có IDFA là không bị lộ, nhưng vẫn còn đủ nhiều yếu tố định danh khác để có thể nhận ra cùng một người dùng
- Những nền tảng như Facebook có khả năng định danh gián tiếp người dùng thông qua IP
Dữ liệu chảy như thế nào?
- Dữ liệu được truyền theo chuỗi: ứng dụng → Unity [ads] → Molocoads → nhà quảng cáo (Bwin, v.v.)
- Các SSP (Supply-Side Platform) như Unity thu thập dữ liệu từ SDK trong ứng dụng, sau đó DSP (Demand-Side Platform) như Molocoads dùng dữ liệu đó để thực hiện đấu giá quảng cáo
- Trong quá trình trung gian hóa dữ liệu, không chỉ nhà quảng cáo mà còn vô số broker khác cũng có thể lấy được dữ liệu vị trí và thông tin thiết bị
Data broker
- Trên thị trường, các bên như Datarade hay Databricks đang giao dịch dữ liệu vị trí người dùng dựa trên MAID (advertising ID)
- Các công ty như Redmob thậm chí còn bán dữ liệu vị trí thời gian thực với tần suất cập nhật dưới 5 giây
- Những bên như AGR Marketing Solutions còn bán dữ liệu ghép nối MAID với PII thực tế (thông tin nhận dạng cá nhân), bao gồm tên, địa chỉ và số điện thoại
Tự lần theo chính mình
- Cài ứng dụng để dữ liệu vị trí được thu thập một cách thường nhật
- Các công ty quảng cáo hoặc broker sẽ nắm được dữ liệu IP + vị trí + advertising ID
- Sau đó, mua bộ dữ liệu MAID <> PII để ghép IDFA hoặc IP của chính mình với danh tính ngoài đời thực
- Kết quả là người dùng có thể tự mua, tự ghép nối và tự theo dõi dữ liệu vị trí của chính mình
Kết luận
- Việc mua bán dữ liệu trong hệ sinh thái quảng cáo toàn cầu, nếu nhìn từng bước riêng lẻ, có vẻ hợp pháp, nhưng nhìn toàn cục thì lại là một hành vi xâm phạm quyền riêng tư nghiêm trọng
- Vấn đề này gần đây đã được chú ý trở lại sau các vụ rò rỉ quy mô lớn như Gravy Analytics
- Ngay cả khi thiết lập từ chối theo dõi quảng cáo, người dùng vẫn không được đảm bảo bảo vệ hoàn toàn
- Rõ ràng người dùng rất khó biết được thông tin của mình đang chảy đi đâu và bằng cách nào khi sử dụng ứng dụng
1 bình luận
Ý kiến trên Hacker News
Do vấn đề quyền riêng tư, thông tin liên hệ có thể bị mua bán rất dễ dàng. Nếu chia sẻ danh bạ với các ứng dụng như TikTok, tên, số điện thoại, email v.v. có thể bị lộ. Khi gặp vấn đề với bộ phận chăm sóc khách hàng, đã từng dùng cách mua thông tin liên hệ của lãnh đạo để liên lạc trực tiếp. Tuy nhiên, có thể phát sinh tác dụng phụ như tài khoản CashApp bị đóng
Các bài viết về quyền riêng tư thường thiếu chi tiết kỹ thuật hoặc hay phóng đại. Có nghiên cứu của Mozilla về chính sách quyền riêng tư của ô tô, nhưng lại thiếu chi tiết kỹ thuật thực tế. Ví dụ như xe có ghi âm cuộc trò chuyện hay không, dữ liệu được lưu ở đâu, có được gửi cho bên thứ ba hay không. Nếu thiếu những chi tiết này, các bài báo chỉ có thể làm gia tăng sự mất lòng tin
Tôi dùng một công ty tên là Bilt để trả tiền thuê nhà, và mỗi lần mua sắm ở Walgreens thì lại nhận được email biên lai mua hàng. Tôi mong các mục nhạy cảm sẽ được loại trừ. Không rõ dữ liệu được chuyển từ Walgreens sang công ty cho thuê như thế nào, nhưng có lẽ dùng tiền mặt hoặc séc được chứng nhận sẽ tốt hơn
Thật thú vị khi những người làm trong ngành IT vừa xây dựng ngành quảng cáo, mua bán dữ liệu cá nhân và theo dõi, lại cũng là những người phàn nàn lớn tiếng nhất về nó
Những thông tin như độ sáng màn hình, dung lượng bộ nhớ, âm lượng hiện tại, việc có đang đeo tai nghe hay không đều có thể được dùng để khử định danh người dùng
Khẳng định rằng LTE sẽ cung cấp thông tin vị trí chính xác hơn là không đúng. Nếu ứng dụng không có quyền vị trí thì không thể lấy thông tin cellid. Có những ứng dụng miễn phí tuyên bố thu thập vị trí chính xác, nhưng trên thực tế thì không chính xác
Có lo ngại rằng các sàn giao dịch quảng cáo sẽ tìm ra cách theo dõi chéo ứng dụng ngay cả khi không có IDFA. Về lý thuyết thì điều này bị cấm, nhưng rất khó để thực thi
Ứng dụng Reddit trên điện thoại của tôi không có quyền, nhưng vẫn gợi ý cộng đồng dựa trên vị trí. Mỗi thành phố tôi ghé qua khi đi du lịch đều được đề xuất
Khuyến nghị nên tránh dùng ứng dụng di động khi có thể thay thế bằng website