1 điểm bởi GN⁺ 2025-07-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các nhà môi giới dữ liệu đang bán thông tin liên quan đến chuyến bay của cá nhân cho Cơ quan Hải quan và Bảo vệ Biên giới Mỹ (CBP) và Cơ quan Thực thi Di trú và Hải quan (ICE)
  • Gần đây đã bị phanh phui rằng Airlines Reporting Corporation (ARC) thu thập hồ sơ hành kháchchia sẻ với các cơ quan chính phủ
  • Thông tin bị bán mà không có sự đồng ý của người dùng, dẫn đến các vấn đề về quyền riêng tư và việc lách các quyền hiến định
  • Các dữ liệu nhạy cảm như thông tin vị trí, lịch sử sử dụng internet, dữ liệu tiện ích công cộng cũng đang được tổng hợp tương tự và chuyển cho cơ quan thực thi pháp luật
  • Nhu cầu về các đạo luật bảo vệ quyền riêng tư mạnh mẽ hơn như Đạo luật ‘Privacy First’Đạo luật ‘Fourth Amendment is Not For Sale’ đang được nhấn mạnh để giải quyết vấn đề này

Vấn đề nhà môi giới dữ liệu và việc bán thông tin cá nhân

  • Từ lâu, các nhà môi giới dữ liệu đã lợi dụng kẽ hở của luật bảo vệ dữ liệu cá nhân để thu thập thông tin người dùng
  • Họ bán dữ liệu nhạy cảm như thông tin vị trí mà không có sự đồng ý của chúng ta, và trong số khách hàng lớn có cả cơ quan thực thi pháp luật
  • Thị trường dữ liệu này vận hành theo cấu trúc mà bất kỳ ai thu thập được dữ liệu cá nhân cũng có thể kiếm lời, khiến nó trở nên hấp dẫn với cả các cơ quan chính phủ muốn né tránh pháp luật

Trường hợp ARC bán thông tin chuyến bay

  • Theo các tiết lộ từ 404 Media và các hãng tin khác, Airlines Reporting Corporation (ARC) là một nhà môi giới dữ liệu do ít nhất 8 hãng hàng không lớn của Mỹ sở hữu và vận hành
  • ARC thu thập dữ liệu vé máy bay nhạy cảm như danh sách hành khách, toàn bộ lịch trình di chuyển, chi tiết thanh toán từ United Airlines, American Airlines và các hãng khác, rồi bí mật bán cho Cơ quan Hải quan Mỹ (CBP)
  • Các nhà môi giới dữ liệu thậm chí còn dùng cách che giấu nguồn gốc thông tin, ngăn các cơ quan chính phủ công khai dữ liệu đó
  • Điều này đồng nghĩa với việc chính phủ có thể tiếp cận thông tin mà không cần các thủ tục tư pháp như lệnh khám xét, đồng thời che giấu cả nguồn dữ liệu, dẫn đến xâm phạm quyền riêng tư và lách quyền công dân

Travel Intelligence Program (TIP) và tác động của nó

  • Travel Intelligence Program (TIP) của ARC tổng hợp hơn 1 tỷ bản ghi di chuyển bằng đường hàng không trải dài trong 39 tháng, bao gồm cả quá khứ lẫn tương lai
  • Trong một báo cáo nội bộ, CBP cho biết họ cần loại thông tin này để hỗ trợ xác định các cá nhân mà cảnh sát địa phương và cảnh sát bang đang theo dõi
  • Tuy nhiên, trong bối cảnh tại Mỹ, hoạt động thực thi di trú cùng các vụ chặn hỏi và khám xét vô lý đang gia tăng, nguy cơ dữ liệu này mở rộng nghi ngờ sang cả những hành khách vô tội cũng tăng theo

Ảnh hưởng của ARC và sự tham gia của các hãng hàng không

  • Thông qua ARC, hơn 54% thông tin chuyến bay trên toàn cầu được xử lý, với hơn 200 hãng hàng không tham gia mạng lưới này
  • Hội đồng quản trị có nhiều đại diện từ các hãng hàng không Mỹ và quốc tế như JetBlue, Delta, Lufthansa, Air France, Air Canada
  • Bằng cách bán hàng loạt thông tin nhạy cảm cho cơ quan thực thi pháp luật, các hãng hàng không cho thấy họ ưu tiên doanh thu hơn quyền riêng tư cá nhân
  • Gần đây, thông tin về việc ICE mua dữ liệu cá nhân của hành khách từ ARC đã được công bố

Hiệu ứng lan rộng và tình trạng xâm phạm quyền riêng tư

  • Tự do đi lại là cốt lõi của một xã hội dân chủ, nhưng các nhà môi giới dữ liệu như ARC đang âm thầm tạo ra một môi trường nơi lịch sử di chuyển có thể bị theo dõi bí mật
  • Trong bối cảnh tại Mỹ hiện nay đang gia tăng tranh luận về khả năng chịu bất lợi pháp lý dựa trên quốc tịch, tôn giáo, khuynh hướng chính trị, việc sử dụng dữ liệu ARC có nguy cơ dẫn đến lạm dụng quyền lực công
  • Ngoài dữ liệu hàng không, các nhà môi giới dữ liệu còn bán cả dữ liệu vị trí điện thoại thông minh, dữ liệu internet backbone, hồ sơ tiện ích công cộng, làm phạm vi xâm phạm quyền riêng tư ngày càng mở rộng

Yêu cầu chính sách và giải pháp

  • Trong thời điểm hiện nay khi các cơ quan nhà nước đang gia tăng những biện pháp làm suy yếu tự do và quyền lợi tại biên giới và các khu vực khác, việc *** thu thập và bán dữ liệu quy mô lớn*** như vậy càng gây lo ngại lớn hơn
  • Trường hợp của ARC làm nổi bật sự cần thiết của các đạo luật ưu tiên quyền riêng tư như ‘Privacy First’ cũng như yêu cầu luật hóa nguyên tắc doanh nghiệp phải giảm thiểu xử lý dữ liệu
  • Đồng thời, cũng có ý kiến cho rằng cần thông qua Đạo luật ‘Fourth Amendment is Not For Sale’ để ngăn các cơ quan thực thi pháp luật lách việc thu thập thông tin không cần lệnh bằng cách mua dữ liệu từ các nhà môi giới
  • Cuối cùng, quy định về đăng ký nhà môi giới dữ liệu và tăng cường tính minh bạch cũng đang nổi lên như một nhiệm vụ cấp bách

1 bình luận

 
GN⁺ 2025-07-15
Ý kiến trên Hacker News
  • Nhiều người không nhận ra rằng ngay cả khi không có quyền truy cập đặc quyền vào dữ liệu gốc, việc xây dựng kiểu mô hình dữ liệu này vẫn dễ đến mức nào. Một nguyên mẫu tôi làm năm 2012 đã cho thấy chỉ với dữ liệu mạng xã hội hoặc dữ liệu quảng cáo cũng có thể theo dõi chính xác lịch sử bay của phần lớn mọi người ở quy mô lớn. Chuyện này đã khả thi từ rất lâu rồi. Cách làm đại khái là lọc các cạnh không-thời gian trong đồ thị thực thể có vận tốc dưới 300 km/h hoặc khoảng cách dưới 200 km. Từ tiêu chí đó có thể suy ra liệu ai đó có “lên máy bay” hay không, đồng thời xác định được điểm đi và điểm đến. Nếu liên kết các cạnh này với dữ liệu chuyến bay công khai hoặc dữ liệu IoT bảo trì động cơ phản lực thì còn có thể ghép được tới từng chuyến bay cụ thể. Đa số mọi người bỏ qua việc dữ liệu IoT công nghiệp bình thường có thể được dùng để suy ra các mối quan hệ ở lĩnh vực khác như thế nào. Thỉnh thoảng cũng có trường hợp hiếm là một lúc có thể khớp với nhiều chuyến bay, nhưng nếu tham chiếu lịch sử bay trước đó và chọn hãng hàng không chính mà người đó từng sử dụng trong quá khứ thì gần như lúc nào cũng khớp hoàn hảo. Nó hiệu quả đến mức đáng kinh ngạc, và hoàn toàn không cần dữ liệu gốc từ hãng hàng không hay phân tích phức tạp. Cuối cùng thì thời gian và không gian chính là khóa chính của thế giới thực

    • Nghe giải thích kiểu “đã lọc ra các lộ trình có khả năng là chuyến bay” thì bản chất vấn đề rốt cuộc vẫn là ai là người nắm dữ liệu không-thời gian ngay từ đầu. Về cơ bản chẳng khác gì câu “nếu có lịch sử giao dịch thẻ tín dụng của bạn thì biết được bạn đã tới đâu, lúc nào, ghé cửa hàng nào”. Đúng là rợn người, nhưng điều thực sự nghiêm trọng là việc tiếp cận loại dữ liệu đó lại khả thi. Nếu ngay từ đầu đã có ai đó biết toàn bộ vị trí tương đối của một người theo từng mốc thời gian, thì bản thân dữ liệu không-thời gian còn có giá trị lớn hơn nhiều so với riêng lịch sử lên máy bay của người đó

    • Điều tôi thấy thú vị là mọi người lo việc đủ loại dữ liệu cá nhân bị thu thập rồi lạm dụng, nhưng phần lớn việc người ta thực sự làm với nó lại chỉ là hiển thị quảng cáo nhắm mục tiêu nhiều hơn mà thôi

    • Mấy thứ như “dữ liệu IoT bảo trì động cơ phản lực” thì lấy ở đâu ra vậy?

    • Có lẽ ICE cần dữ liệu kiểu này để theo dõi một người cụ thể đã tới thành phố hay quốc gia nào vào thời điểm nào

  • Thật thú vị khi ARC chỉ được mô tả đơn giản là một “data broker”. Thực ra ARC hay IATA là clearinghouse thanh toán vé máy bay, đồng thời đảm nhiệm việc duy trì và giám sát các hệ thống liên quan trong ngành. Về bản chất, dữ liệu giao dịch tự chảy về họ và họ kiếm doanh thu bằng cách bán nó. Nhưng khác với các data broker khác đi gom dữ liệu bên ngoài rồi bán lại, ở đây họ trực tiếp sở hữu dữ liệu gốc từ bên thứ nhất. Vấn đề cốt lõi là có nên cho phép bán hoặc chia sẻ loại dữ liệu nhạy cảm, chưa được ẩn danh này hay không, nhưng dù sao đây cũng là dữ liệu gốc ở mức nền tảng. Liên kết giải thích toàn bộ cấu trúc của Airline Reporting Corporation cũng đáng đọc

    • Cách giải thích này thực ra cũng không phản bác gì điểm chính mà bài báo nêu ra
  • Khối lượng và phạm vi dữ liệu mà các broker bán ra lớn hơn trí tưởng tượng rất nhiều. Dù bạn hình dung tệ đến đâu thì thực tế còn nghiêm trọng hơn khoảng mười lần

    • Một đồng nghiệp của tôi từng chạy quảng cáo banner nhắm vào một người cụ thể với dòng chữ “Tôi đã bảo là tôi làm được đến mức này mà, bạn tôi!” để trình diễn hiệu quả. Người bình thường gần như không biết các công ty quảng cáo và data broker biết về họ nhiều đến mức nào

    • Khoảng năm 2014, khi làm việc với các recruiter, tôi từng thấy công cụ cào dữ liệu về mọi người từ LinkedIn, Yelp, Twitter, GitHub, Eventbrite v.v. Ngay từ thời đó đã có thể gom được lượng thông tin khổng lồ, đủ để biết cả lịch sử hơn 10 năm của một người. Nếu phối hợp với nơi như Palantir thì có vẻ chính phủ còn có thể làm cả phân tích văn phong hay phân tích tâm lý từ bài đăng Reddit

    • Tôi có ý tưởng cho một dự án nghệ thuật cần các hồ sơ dữ liệu kiểu này, ai có thể gợi ý nguồn nào tốt để mua với chi phí rẻ không. Dự án quá lớn nên tôi không biết nên bắt đầu từ đâu

    • Là người làm trong ngành này, tôi cảm giác thực tế còn “nghiêm trọng hơn khoảng 1000 lần”

    • Tôi nghĩ phần lớn người dùng HN gần như không hiểu thực trạng của ngành này. Có lẽ phải đổi hẳn hướng tiếp cận. Đa số chỉ nghĩ cỡ Google là bên bán dữ liệu cá nhân của mình, nhưng trên thực tế ngành dữ liệu còn lỏng lẻo hơn nhiều. Ví dụ, dễ đến mức bạn có thể gọi điện đặt lấy đúng lịch sử giao dịch thẻ tín dụng của một nha sĩ 35 tuổi trong khu phố, chỉ riêng người đó thôi, theo đúng định dạng mình muốn, và nhận được trong vòng một ngày

  • Thật lạ là thị trường dữ liệu lại được che giấu kỹ đến vậy. Rất nhiều tập đoàn lớn mỗi ngày đều trích xuất và giao dịch dữ liệu, nhưng giữa làn sóng “phi tập trung” ồn ào như thế thì lại chẳng có marketplace dữ liệu mở đúng nghĩa nào. Tôi vẫn mong sẽ có mô hình cho phép mua bán cả dữ liệu hành vi mở, và thực tế mọi người cũng nên chuyển từ việc chỉ là “sản phẩm” sang việc cung cấp dữ liệu cho doanh nghiệp và nhận thù lao từ đó

    • Tôi không nghĩ là nó bị che giấu tới mức đó đâu. Năm 2021 có một người tìm tới nhà người khác để trả mối thù từ 50 năm trước, và camera CCTV quay được cảnh người đó cầm một thư mục PeopleFinders. Điều đáng kinh ngạc là ngay cả các cơ quan chính phủ cũng đang bán loại dữ liệu này

    • Với kiểu mô hình doanh thu này, theo tôi không nên nghĩ tới chuyện vắt thêm nữa, mà nên đóng toàn bộ và dừng hẳn

  • Tôi không hiểu vì sao CBP và ICE phải mua thông tin từ data broker. TSA vốn đã quét thẻ lên máy bay của tất cả mọi người rồi mà

    • Có lẽ để truy cập dữ liệu do TSA thu thập thì phải qua quy định và thủ tục nghiêm ngặt, còn mua cùng loại thông tin đó từ broker thì hầu như chẳng có yêu cầu gì đáng kể. Nguồn dữ liệu cũng có thể không phải TSA mà là hãng hàng không, công ty thanh toán v.v. Chất lượng dữ liệu từ broker thì khó đảm bảo, nhưng quy trình lại đơn giản hơn rất nhiều

    • Khi tôi còn làm ở cơ quan liên bang, ngay cả việc thu thập tweet công khai, từ góc nhìn của tôi, cũng phải tự viết tài liệu giải thích vì sao cần, loại dữ liệu cá nhân nào sẽ được lưu, thời gian lưu giữ bao lâu và kế hoạch xóa ra sao, rồi xin phê duyệt. Việc mà người bình thường có thể làm vào cuối tuần thì trong chính phủ lại cần hàng đống phê duyệt. Còn nếu muốn xin dữ liệu từ cơ quan khác thì sao? Gánh nặng chính trị còn vượt xa tưởng tượng. Ngay cả cơ quan hợp tác cũng không dễ, và tôi còn được khuyên rằng trong các cuộc họp tốt nhất đừng nhắc đến chuyện xin dữ liệu từ cơ quan đồng cấp kẻo chỉ làm tăng thêm va chạm. Ngược lại, nếu mua từ data broker thì không cần những thủ tục phức tạp đó

    • Có lẽ cũng vì TSA không dễ dàng cấp quyền. Nó giống như việc cảnh sát muốn lấy dữ liệu điện thoại thì cần trát, nhưng công ty viễn thông lại có thể bán vị trí thời gian thực cho bên thứ ba rồi cảnh sát đi mua lại vậy. Liên kết tham khảo

    • Chính phủ dùng doanh nghiệp để lách luật và hiến pháp, còn doanh nghiệp thì lợi dụng chính phủ để né quy định. Mô hình này đã tồn tại từ xưa đến nay

    • Ngoài lý do pháp lý và quy định, trong nội bộ tổ chức, việc xây dựng và điều phối một luồng dữ liệu thực dụng mà các bộ phận khác nhau có thể sử dụng còn khó và tốn kém hơn so với mua từ các broker vốn đã tối ưu cho việc tuyển chọn, quản lý và phân phối dữ liệu. Dù nghe có vẻ vô lý, cuối cùng dữ liệu từ broker vẫn tiện hơn và đáng tin cậy hơn ngay cả khi phải trả giá premium. Đội kỹ thuật của TSA không có động lực để gắn metadata vào dữ liệu rồi còn quản SLA. Data broker thì luôn có động lực đó

  • yaelwrites/Big-Ass-Data-Broker-Opt-Out-List là một danh sách tốt để bắt đầu việc opt-out khỏi các data broker. Tuy vậy, ARC được nhắc trong bài hiện chưa có trong danh sách này

  • Hơi lệch chủ đề một chút, nhưng tôi tò mò không biết có ai nắm được ước tính gần đúng về việc các công ty thông thường (trừ công ty quảng cáo) thật ra kiếm được bao nhiêu tiền khi bán dữ liệu người tiêu dùng và mô hình hành vi hay không

  • Khoảng hai tháng trước cũng đã có thảo luận liên quan trên HNmột thread khác

  • Điểm khiến vụ này thú vị là trước đây các broker tệ hại thường không có hiện diện thương mại ở EU nên có thể phớt lờ tiền phạt GDPR, hoặc nếu lợi nhuận bất thường lớn hơn nhiều thì cứ coi đó là rủi ro phải chịu (ví dụ Clearview). Nhưng với các công ty như hãng hàng không, vốn có biên lợi nhuận chính thấp và doanh thu toàn cầu lớn, vi phạm GDPR sẽ nguy hiểm hơn nhiều. Nếu bên kiểm soát dữ liệu là hãng hàng không thì bản thân việc cung cấp dữ liệu cho broker có thể là bất hợp pháp, và vì họ hiện diện rõ ở EU nên cũng khó né tiền phạt. Trường hợp nặng, một quốc gia thành viên thậm chí có thể tịch thu chính máy bay đó hoặc tìm cách cấm toàn bộ hoạt động bay. Đức từng thực sự tịch thu máy bay của thái tử Thái Lan. Liên kết bài liên quan

    • Có vẻ hãng hàng không là nguồn dữ liệu chính, nhưng thực tế nguồn thì rất đa dạng. Mã vạch trên thẻ lên máy bay chứa một lượng thông tin khổng lồ, và nó không được mã hóa mà chỉ là mã hóa biểu diễn đơn thuần, nên chỉ cần đọc là được. Máy đọc mã vạch có rất nhiều hãng sản xuất và bán, còn ở sân bay thì có vô số nơi quét mã vạch như check-in, hành lý, cửa hàng miễn thuế, lounge v.v. Có thể tích lũy dữ liệu đo được theo nhiều cách khác nhau. Máy quét hộ chiếu cũng mua được với giá rẻ, và cửa hàng trong sân bay hay dịch vụ thuê xe đều dùng khá nhiều. Gần đây còn có công nghệ nhận diện khuôn mặt nên lên máy bay mà không cần kiểm tra thẻ lên máy bay hay hộ chiếu. Cũng có thể kết hợp thêm dữ liệu phụ trợ như thông tin đặt Uber. Liên kết chi tiết về mã vạch
  • Tôi tò mò không biết nếu trả tiền thì tôi có thể lấy được loại thông tin gì về bản thân mình và người khác từ data broker, có ai biết phải tiếp cận các data broker kiểu này như thế nào không?