- Lấy dấu vân tay trình duyệt là một phương thức theo dõi trực tuyến mà chỉ xóa cookie thôi thì không thể ngăn chặn được
- Nhóm nghiên cứu tại Đại học Texas đã dùng một framework đo lường tên là FPTrace để chứng minh các trường hợp được dùng trong thực tế thông qua đấu giá quảng cáo và thay đổi bản ghi HTTP
- Khi fingerprint (dấu vân tay) thay đổi, đã phát hiện hiện tượng giá thầu quảng cáo thay đổi và số lượng bản ghi HTTP giảm xuống
- Ngay cả khi từ chối theo dõi theo các luật quyền riêng tư như GDPR, CCPA, việc theo dõi dựa trên fingerprint vẫn tiếp tục diễn ra
- Nhóm nghiên cứu chỉ ra rằng các công cụ và chính sách quyền riêng tư hiện nay là chưa đủ, đồng thời nhấn mạnh sự cần thiết phải tăng cường quy định và các biện pháp phòng vệ kỹ thuật
Websites Are Tracking You Via Browser Fingerprinting
- Chỉ xóa cookie thôi thì không thể bảo vệ hoàn toàn quyền riêng tư trực tuyến
- Theo nghiên cứu mới nhất do Texas A&M University dẫn dắt, các trang web đang theo dõi người dùng xuyên suốt nhiều phiên và nhiều trang bằng phương pháp lấy dấu vân tay trình duyệt
- Lấy dấu vân tay trình duyệt tạo ra một giá trị nhận diện trình duyệt duy nhất bằng cách kết hợp nhiều loại thông tin như độ phân giải màn hình, múi giờ, mẫu thiết bị của người dùng
- Không giống cookie, người dùng không thể dễ dàng xóa hoặc chặn nó
- Phần lớn người dùng thậm chí còn không nhận ra rằng kiểu theo dõi này đang diễn ra
- Ngay cả các trình duyệt chú trọng quyền riêng tư cũng khó có thể chặn hoàn toàn
Điều tra sâu thực trạng theo dõi trên web bằng framework FPTrace
- Có thể xem nó như một chữ ký số mà bạn để lại mà không hề hay biết
- Chỉ với tổ hợp thiết bị và trình duyệt, người dùng vẫn có thể bị theo dõi dễ dàng ngay cả khi ẩn danh
- Nhóm nghiên cứu đã lần đầu tiên chứng minh thực nghiệm trên thế giới cách fingerprinting được sử dụng trong các hệ thống quảng cáo thực tế
- Họ đã phát triển framework đo lường FPTrace để phân tích tác động của dấu vân tay trình duyệt lên đấu giá quảng cáo và giao tiếp HTTP
- Bằng cách quan sát hiện tượng giá thầu quảng cáo, bản ghi HTTP và các sự kiện đồng bộ thay đổi khi fingerprint thay đổi, họ đã phơi bày thực trạng theo dõi
Kết quả nghiên cứu và hàm ý
- Ngay cả khi người dùng xóa hoặc chặn cookie, việc theo dõi thông qua fingerprinting vẫn tiếp diễn liên tục
- Khi sử dụng fingerprinting, một số trang web phản ánh dữ liệu dấu vân tay vào quy trình đấu giá quảng cáo ở backend, và trong quá trình này cũng xác nhận khả năng chuyển giao thông tin nhận diện cho bên thứ ba
- Ngay cả khi chọn từ chối theo dõi theo các luật quyền riêng tư như GDPR ở châu Âu hay CCPA ở Mỹ, việc theo dõi dựa trên fingerprinting vẫn không dừng lại
- Nhóm nghiên cứu nhấn mạnh rằng các công cụ và chính sách quyền riêng tư hiện tại là chưa đủ, đồng thời cho rằng cần có các biện pháp phòng vệ mạnh hơn cả về kỹ thuật lẫn thể chế
- Họ kỳ vọng framework FPTrace sẽ giúp kiểm toán việc theo dõi không có sự đồng ý của các website và nhà cung cấp quảng cáo
1 bình luận
Ý kiến Hacker News
Là người làm việc trong lĩnh vực này, tôi cảm thấy gần như không nghe ai nói về việc fingerprint thực sự tồn tại được bao lâu. Trên thực tế, ngay cả fingerprint rất chi tiết cũng chỉ có "thời gian bán rã" khoảng vài ngày mà thôi, đặc biệt nếu nó được tạo từ những yếu tố như kích thước cửa sổ hay phiên bản phần mềm. Hiện nay, các mạng quảng cáo lớn dường như phụ thuộc nhiều hơn vào dữ liệu vị trí. Đó cũng là lý do bạn thường thấy quảng cáo trong feed có vẻ như được liên kết giữa nhiều thiết bị, hoặc phản ánh mối quan tâm của vợ/chồng hay bạn bè. Chỉ riêng vị trí dựa trên IP cũng đã đủ để phân phát quảng cáo trên phạm vi rất rộng. Điều thú vị là FPTrace là một framework đo lường để phân tích việc theo dõi người dùng bằng fingerprint, và tôi khá tò mò về phương pháp nghiên cứu cụ thể của họ. Tôi nghĩ các mạng quảng cáo có khả năng phân nhóm quảng cáo dựa trên cấu hình thiết bị hơn là chính fingerprint. Ví dụ, người dùng có phần mềm mới nhất và phần cứng mới nhất có thể bị gom vào nhóm "có ý định mua cao". Ngay cả những yếu tố đơn giản như múi giờ cũng ảnh hưởng lớn đến kết quả đấu giá quảng cáo, nên việc nghiên cứu này đã kiểm soát các biến như thế nào là điều rất quan trọng
Tôi đã kiểm tra thông tin của mình trên amiunique.org, và đúng là tôi bị đánh giá là duy nhất (giống như mẹ tôi vẫn nói!). Tuy vậy, trang này không cho biết phải thay đổi yếu tố nào thì mình sẽ không còn là duy nhất nữa, và trong 58 thuộc tính JavaScript thì có 16 thuộc tính nằm ở nhóm có độ tương đồng thấp nhất. Trong số đó, 2 thuộc tính phụ thuộc trực tiếp vào số phiên bản, còn 6 thuộc tính liên quan đến kích thước/độ phân giải màn hình. Cuối cùng thì vẫn còn cảm giác rằng có nhiều thông tin sẽ không thay đổi nhanh chóng. Theo thời gian, giá trị chính xác có thể đổi, nhưng cách diễn đạt "thời gian bán rã vài ngày" có vẻ đánh giá thấp hiệu quả thực tế của công nghệ này
Khi phóng to tối đa cửa sổ trên Windows, kích thước cửa sổ hầu như không thay đổi trừ khi môi trường, màn hình hoặc desktop environment được cập nhật. Phần cứng GPU cũng không phải yếu tố thay đổi thường xuyên, và với WebGL hay WebGPU, các đặc tính riêng có thể dễ dàng được dùng cho fingerprint. Font đã cài đặt cũng không hay thay đổi. Fingerprint của TCP stack cũng khá ổn định. Chỉ với vài yếu tố như vậy, ngay cả khi một đặc tính riêng lẻ thay đổi, vẫn có thể dễ dàng liên kết với cụm fingerprint trước đó. Nghiêm trọng hơn là nếu không xóa đồng thời các định danh phía client như cookie, thì ngay cả hai fingerprint hoàn toàn khác nhau cũng có thể được liên kết rõ ràng
Thời gian xử lý hardware interrupt và độ trễ của nó cũng có thể mang giá trị riêng biệt tùy theo các chi tiết như tổ hợp ứng dụng đã cài hay phiên bản driver GPU, nên tôi nghĩ phân bố này thực sự chỉ thay đổi khi có cập nhật, và hiếm khi mọi phân bố cùng thay đổi một lúc
Siteimprove Analytics công khai tuyên bố rằng công nghệ theo dõi không cần cookie của họ chính xác hơn theo dõi dựa trên cookie truyền thống. Visitor Hash được tạo bằng cách băm IP và HTTP header không chứa thông tin cá nhân như loại trình duyệt, phiên bản, ngôn ngữ, user agent..., vì vậy họ cho rằng nó khắc phục nhược điểm "tuổi thọ ngắn" của cookie truyền thống và cải thiện độ chính xác của thống kê khách truy cập duy nhất. Tuy nhiên, họ chỉ dùng thuộc tính phía server, không thu thập thuộc tính phía client. Trong môi trường như intranet, nơi nhiều người dùng truy cập từ cùng IP/thiết bị, nhiều người có thể nhận cùng một Visitor Hash và bị gộp thành một lượt truy cập, nên họ khuyến nghị loại các domain kiểu đó khỏi theo dõi không dùng cookie
Browser fingerprint có thể được làm cực kỳ bền vững tùy vào các data point được chọn, chẳng hạn plugin đã cài, ngôn ngữ nội dung, font... Có thể tiếp cận theo hướng điều chỉnh data point một cách động theo tình huống, hoặc dùng khác nhau cho từng người dùng. Ngoài ra fingerprint chỉ là một phần của toàn bộ dữ liệu. Khi kết hợp với thông tin khác như dữ liệu vị trí, nó có thể vô hiệu hóa đáng kể các hạn chế hay biện pháp né tránh. Ví dụ, nếu một fingerprint mới giống 80% fingerprint cũ xuất hiện từ cùng IP công ty và fingerprint gốc biến mất, thì việc liên kết hai cái là khá dễ. Bản thân các công ty quảng cáo ưa thích "chiến lược shotgun" (nhắm mục tiêu diện rộng) vì hiệu quả chi phí và khả năng tự vệ về mặt pháp lý, nhưng các tổ chức có mục đích ngoài quảng cáo thì có thể theo dõi chính xác hơn nhiều nhờ có nhiều data point hơn
amiunique.org nhấn mạnh rằng trình duyệt tiết lộ nhiều loại thông tin như độ phân giải màn hình, múi giờ, mẫu thiết bị..., và có thể kết hợp chúng để tạo thành một "fingerprint". Không giống cookie, loại thông tin fingerprint này rất khó để người dùng xóa hoặc chặn, nên việc phát hiện hay ngăn chặn bản thân nó khó hơn rất nhiều. Trớ trêu thay, càng ám ảnh với việc tăng cường bảo mật và quyền riêng tư cho thiết bị, OS và trình duyệt thì fingerprint của tôi lại càng trở nên độc nhất. Dù hệ sinh thái FOSS đã có lịch sử lâu dài, việc chưa từng có một trình duyệt mã nguồn mở thực sự tốt nào chiếm được dòng chính là điều đáng tiếc. Sự độc quyền đã quá có lợi nhuận ngay từ đầu, và cá nhân tôi cũng từng nghĩ đến việc làm web scraper để truy cập offline, nhưng cuối cùng thấy tính thực dụng không cao
Câu "chưa từng có một trình duyệt mã nguồn mở thực sự tốt nào nổi lên" là không chính xác. Firefox từng cực kỳ phổ biến và đã có lúc hoàn toàn thống trị thị trường. Sau này Google dùng các hành vi không công bằng để lấn át nó, nhưng đó là chuyện về sau
Điều đáng ngạc nhiên là Firefox trong một thời gian dài hầu như không có biện pháp thực chất nào để giảm hiệu quả của theo dõi bằng fingerprint. Ngay cả đến năm 2025, việc trình duyệt vẫn mặc định gửi chuỗi User Agent quá chi tiết vẫn rất khó hiểu (Mozilla/5.0 (X11; Linux x86_64; rv:139.0) …). Website hoàn toàn không cần biết tôi đang dùng X11 hay Linux x86_64. Theo mặc định, Referer vẫn còn được bật. JavaScript vẫn có thể tìm ra danh sách font được cài trên hệ thống của tôi. Cần có cơ chế quyền hạn chi tiết hơn nhiều và các thiết lập mặc định hợp lý hơn. Có plugin liên quan, nhưng cài đặt và vận hành khá phiền phức
Có những trình duyệt như Brave cố gắng né tránh theo dõi bằng cách ngẫu nhiên hóa fingerprint, nhưng cá nhân tôi nghi ngờ hiệu quả thực tế. Một cách khác là chọn chiến lược "ẩn mình trong đám đông" bằng cách hòa vào môi trường có nhiều người dùng như Tor
Cả hai cửa sổ trình duyệt riêng tư khác nhau đều bị xác định là người dùng duy nhất. Vậy nên tôi vẫn thắc mắc liệu có phải fingerprint không thể được liên kết giữa các tab riêng tư hay không
Tôi tò mò tiêu chí nào khiến Firefox bị loại khỏi định nghĩa "trình duyệt mã nguồn mở thực sự tốt"
Tôi mong có một bài test đo được "fingerprint thực sự gắn với cùng một người dùng trong bao lâu" được thiết kế tốt hơn coveryourtracks.eff.org hay amiunique.org. Cả hai trang này chỉ kiểm tra tính duy nhất chứ không kiểm tra tính bền vững theo thời gian. Vì vậy, ngay cả bộ sinh số ngẫu nhiên hoàn toàn cũng có thể bị coi là fingerprint. Các công nghệ bảo vệ chống fingerprint trong thực tế thường bao gồm đầu ra ngẫu nhiên, nên những trình duyệt đã làm tốt như Tor, Safari hay LibreWolf lại bị các trang này chấm là thất bại
CreepJS là một trang cho phép gắn tên (signature) cho fingerprint của mình và kiểm tra xem khi truy cập lại có còn là cùng fingerprint hay không
Tôi nghe nói fingerprint.com có thể cung cấp kiểu "kiểm tra kết quả theo thời gian" này. Trong lĩnh vực fingerprinting as a Service, họ thuộc hàng đầu, chỉ sau Meta và Google
Việc "theo dõi bằng fingerprint thực sự đang diễn ra" thì ai cũng phần nào đoán được từ trước, nhưng nếu không có bằng chứng cụ thể thì rất khó chứng minh rằng việc "theo dõi liên thiết bị" có thật. Nghiên cứu lần này đề xuất một framework phục vụ nghiên cứu và thiết kế thí nghiệm quy mô lớn để kiểm chứng một cách thực nghiệm xem việc theo dõi bằng fingerprint có thực sự xảy ra trong quảng cáo hay không. Phần lớn các bài báo trước đây chỉ đo xem script liên quan đến fingerprint có chạy hay không, nhưng chỉ như vậy thì không thể biết mục đích là để theo dõi hay là cho các mục đích phòng vệ như chống bot/gian lận hoặc xác thực. Điểm thú vị của nghiên cứu này là họ chủ động điều chỉnh browser fingerprint và theo dõi cả sự thay đổi trong quảng cáo để làm rõ bối cảnh theo dõi thực tế (liên kết bài báo). Tôi không truy cập được toàn văn nên không thể kiểm tra nội dung chi tiết hơn
Cookie được lưu tách biệt theo từng domain và nằm trong ranh giới bảo mật, nhưng fingerprint thì có thể được tính toán bất kể domain nào. Hoàn toàn có thể hình dung một tình huống mà ad server chỉ dùng fingerprint để theo dõi và nhận diện người dùng, và vấn đề là chỉ cần thu thập loại thông tin fingerprint này thôi cũng đã đủ để gom thông tin về nạn nhân
Về câu hỏi "tại sao trình duyệt mặc định lại để lộ nhiều thông tin cho website như vậy?",
Bản thân trình duyệt là một sandbox của rất nhiều tính năng (API). Mỗi tính năng đều nhằm phục vụ sự tiện lợi cho người dùng, nhưng dù từng cái riêng lẻ có vẻ không quan trọng, khi gộp lại chúng tạo thành một fingerprint độc nhất. Nếu thực sự muốn một môi trường không có fingerprint, kết luận là phải loại bỏ toàn bộ JavaScript trên web
Các nhà phát triển muốn có những API này để cung cấp tính năng, còn tác động đến quyền riêng tư chỉ được chú ý sau khi tình hình đã trở thành "không thể đảo ngược"
Phần lớn thông tin thực sự hữu ích hoặc cần thiết. Một số có thể bị lược bớt, nhưng phần còn lại là kiểu "so sánh và phân tích kết quả hành vi". Ví dụ, nếu render text box với nhiều
font-familykhác nhau thì kích thước thực tế sẽ khác nhau theo font của từng thiết bị — bản thân điều này đã có thể dùng làm fingerprintKhi trình duyệt giảm bớt hoặc loại bỏ một số thông tin, chẳng hạn phiên bản OS trong user agent, hàng loạt lỗi website ngoài dự kiến lại xuất hiện. Ví dụ, khi Apple chỉ đổi số phiên bản trong user agent từ 10 sang 11 thôi thì cũng đã có nhiều site bị hỏng. Trường Referer gần đây đã bị giới hạn mạnh trong trình duyệt, chẳng hạn bỏ đường dẫn hoặc bỏ toàn bộ
Tôi cho rằng giới lãnh đạo cấp cao của Mozilla luôn thiếu quyết tâm thực chất đối với quyền riêng tư, bảo mật và tự do. Đôi khi họ chỉ tiếp cận từ góc độ "marketing", tạo ra những thay đổi không hiệu quả hoặc chỉ chấp nhận các cách không xung đột hoàn toàn với lợi ích của các big tech. Điều đáng tiếc là ngay cả ở W3C cũng không có ai thực sự đối đầu mạnh mẽ
Ứng dụng còn theo dõi người dùng nghiêm trọng hơn website rất nhiều. Lý do các site liên tục thúc ép cài app là vì nhiều lớp bảo vệ trong trình duyệt đều bị vô hiệu hóa trong môi trường ứng dụng. App yêu cầu đăng nhập, rồi sau đó có thể tự do chia sẻ mọi dữ liệu với bên thứ ba
Ứng dụng của tôi không theo dõi kiểu đó. Tôi thậm chí không thu thập email, nên app là cách duy nhất để thông báo cho người dùng về alert mới. Xét về tính bền vững thì app có lợi thế, còn website thì tương đối kém hiệu quả hơn
Trên iOS có tính năng "Ask App Not to Track". Tuy nhiên, nó chỉ chặn một số kiểu theo dõi nhất định chứ không thể ngăn mọi hình thức theo dõi
Về thực tế rằng "theo dõi bằng fingerprint thực sự đang được sử dụng rộng rãi", có ý kiến chỉ ra rằng điều này chỉ gây ngạc nhiên với "những người không đọc tài liệu ngoài giới học thuật" hoặc vì "các vendor theo dõi có trách nhiệm đã công khai nói rõ việc dùng fingerprint trong nhiều năm nay"
Cốt lõi không phải là giới học thuật hay ngành công nghiệp thiếu hiểu biết, mà là nghiên cứu kiểu này hữu ích vì nó định lượng và chứng minh bằng thực nghiệm việc theo dõi bằng fingerprint hiện đang xảy ra ở mức nào và hiệu quả ra sao. Dù nhà cung cấp đã công bố điều đó trong chính sách, insight về hiệu quả thực tế hay quy mô vẫn là vấn đề khác. Nếu nghiên cứu này đã xác minh được tỷ lệ thành công của việc theo dõi ngay cả trong các bối cảnh "lành tính" như quảng cáo, thì đó cũng là cơ sở để suy ra nó sẽ hiệu quả đến mức nào khi các chủ thể khác sử dụng
Giới học thuật thực ra đã biết đến việc sử dụng theo dõi bằng fingerprint từ nhiều năm trước. Trước đây từng có kỹ thuật dùng Flash để trích xuất trực tiếp thông tin về font mà người dùng cài đặt (bài báo liên quan). Nhận định chính thức như trên là không đúng với thực tế
Cũng đã có những framework fingerprint mã nguồn mở tồn tại từ rất lâu như FingerprintJS. Thời kỳ đầu, chúng được dùng nhiều cho việc theo dõi spam hoặc khách truy cập độc hại
Dù việc bảo vệ quyền riêng tư trực tuyến là quan trọng, cũng có lập luận rằng các biện pháp đối phó nhằm ngăn theo dõi bằng fingerprint rốt cuộc không giải quyết đúng vấn đề thực tế mà còn khiến web trở nên bất tiện hơn. Ví dụ được đưa ra là dù có quy định thì các chủ thể xấu vẫn tiếp tục fingerprint, còn chỉ các site bình thường bị hạn chế chức năng và dẫn tới tác dụng ngược
Trong nghiên cứu học thuật, người ta coi trọng việc bảo đảm bằng chứng thực nghiệm cụ thể, có thể đo lường và không thể bác bỏ, hơn là chỉ dựa vào chính sách hay thông báo của ngành
Mỗi lần vào trang fingerprint của EFF, tôi đều bị đánh giá là có fingerprint duy nhất. Một tiếng sau quay lại cũng vẫn vậy. Sẽ rất hay nếu trang này cung cấp giá trị hash của fingerprint để có thể so sánh lại sau vài tháng. Mặt khác, nếu fingerprint của tôi thực sự thay đổi mỗi lần thì việc theo dõi bằng fingerprint hẳn cũng sẽ khó hơn nhiều, nên nghĩ vậy cũng thấy yên tâm phần nào
Tôi thấy hoài nghi khi quá nhiều công sức và kỹ thuật lại được đổ vào nhắm mục tiêu quảng cáo. Cá nhân tôi mặc định chặn mọi quảng cáo, nên cảm giác mọi nỗ lực fingerprint này đều trở nên vô ích