1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Đưa nhiễu dùng khi tạo thống kê công khai từ các tập dữ liệu mật là một công cụ tránh công bố, giúp che giấu thông tin cá nhân trong dữ liệu gốc mà vẫn duy trì tính hữu dụng của thống kê
  • Chỉ thị của Bộ Thương mại Mỹ cấm đưa nhiễu vào mọi sản phẩm thống kê của Census Bureau và Bureau of Economic Analysis, nhắm trực tiếp vào quyền riêng tư vi sai
  • Census Bureau chủ yếu dùng hoán đổi trong các cuộc điều tra dân số 10 năm một lần giai đoạn 1990~2010, nhưng sau khi lộ ra vấn đề rằng có thể dễ dàng tái dựng hồ sơ cá nhân từ thống kê công khai, cơ quan này đã áp dụng quyền riêng tư vi sai cho điều tra dân số năm 2020
  • Quyền riêng tư vi sai kết hợp giới hạn mức đóng góp và việc thêm nhiễu được hiệu chỉnh tinh vi để mang lại tính hữu dụng cao hơn ở mức riêng tư tương tự
  • Nếu bỏ nhiễu đi, các công bố thống kê trong tương lai có thể sẽ kém hữu dụng hơn nhiều so với trước đây hoặc trở thành dữ liệu cực kỳ không an toàn

Bối cảnh

  • Sản phẩm thống kê là nhiều con số được công bố từ các tập dữ liệu mật, và khi các tập dữ liệu đó chứa thông tin bảo mật thì các con số công khai không được làm lộ thông tin ấy
  • U.S. Census là ví dụ tiêu biểu: thống kê được công bố, nhưng nội dung trên từng biểu mẫu do cư dân Mỹ điền phải được giữ bí mật
  • Trong lĩnh vực thống kê, các kỹ thuật công bố số liệu hữu ích mà vẫn bảo vệ quyền riêng tư của dữ liệu gốc được gọi là tránh công bố
  • Các kỹ thuật tránh công bố gồm có ức chế, tức loại bỏ dữ liệu không đạt một số tiêu chí nhất định; khái quát hóa để làm cho thuộc tính kém chính xác hơn; và lấy mẫu, tức loại ngẫu nhiên một số bản ghi
  • Các kỹ thuật tránh công bố còn gồm hoán đổi, tức thay đổi ngẫu nhiên thuộc tính giữa các bản ghi khác nhau; giới hạn mức đóng góp để giới hạn tác động tối đa của một cá nhân; và thêm nhiễu, tức cộng các con số ngẫu nhiên vào thống kê
  • Quyền riêng tư vi sai và điều tra dân số 2020

    • Khi kết hợp một số kỹ thuật, có thể đạt được quyền riêng tư vi sai, vốn được các nhà khoa học xem rộng rãi là tiêu chuẩn vàng cho bảo vệ quyền riêng tư
    • Quyền riêng tư vi sai thường dựa vào sự kết hợp giữa giới hạn mức đóng góp và thêm nhiễu được hiệu chỉnh cẩn thận
    • Census Bureau chủ yếu sử dụng hoán đổi trong các cuộc điều tra dân số 10 năm một lần từ 1990 đến 2010
    • Sau đó, cơ quan này nhận ra rằng hoán đổi rất thiếu an toàn, và chỉ với thống kê công khai cũng có thể dễ dàng tái dựng hồ sơ cá nhân
    • Vì theo luật liên bang, cơ quan này phải giữ bí mật các hồ sơ đó, họ đã thử một số phương án thay thế và cuối cùng áp dụng quyền riêng tư vi sai cho điều tra dân số 2020 vì đây là cách giữ được tính hữu dụng của thống kê tốt nhất trong khi vẫn ngăn được tấn công
  • Suy giảm tính hữu dụng và phản ứng

    • Quyền riêng tư vi sai được chọn không phải vì toán học của nó đẹp, mà vì trong số nhiều lựa chọn để giảm thiểu tấn công, nó bảo toàn tính hữu dụng của dữ liệu nhiều nhất
    • Ngay cả các tham số riêng tư cụ thể cũng được chọn không phải vì chúng đưa ra bảo đảm chứng minh cực mạnh, mà vì chúng tối đa hóa tính hữu dụng của dữ liệu trong khi vẫn đạt mức bảo vệ quyền riêng tư chấp nhận được
    • Việc bảo toàn được nhiều tính hữu dụng nhất dưới những ràng buộc riêng tư mới được phát hiện không có nghĩa là nó giữ được mức hữu dụng như điều tra dân số 2010
    • Các con số đã kém chính xác hơn, và sự thiếu chính xác này cũng minh bạch hơn nhiều nên khó có thể phớt lờ
    • Các nhà nhân khẩu học và khoa học xã hội không còn có thể phớt lờ việc dữ liệu họ xử lý là dữ liệu có nhiễu, và điều đó đòi hỏi một sự chuyển đổi lớn trong cách họ khái niệm hóa và xử lý dữ liệu này
    • Những người thực sự dùng dữ liệu Census để tái dựng hồ sơ cá nhân nay không thể làm vậy nữa, và các nhà nhân khẩu học thừa nhận đây từng là thực hành phổ biến
    • Việc các giới làm chính trị cũng từng thực hiện kiểu tái dựng này như một phần trong nỗ lực gerrymandering là điều ai cũng ngầm biết

Nội dung chỉ thị

  • Chính quyền quyết định rằng việc đưa nhiễu không còn là một kỹ thuật tránh công bố chấp nhận được nữa
  • Chỉ thị nhắm rõ ràng vào quyền riêng tư vi sai, nhưng dường như cũng ảnh hưởng đến các kỹ thuật khác có dùng yếu tố ngẫu nhiên
  • Văn bản chỉ thị nêu rõ rằng khái quát hóa luôn phải được ưu tiên, còn ức chế chỉ được dùng như “biện pháp cuối cùng”
  • Không rõ vì sao chỉ thị lại cụ thể đến vậy
  • Chỉ thị cẩn trọng nêu rằng nó “không được diễn giải là mâu thuẫn với Hiến pháp, luật, quy định hay điều khoản pháp lý khác”, và nghĩa vụ giữ bí mật xung quanh các sản phẩm thống kê đó vẫn tiếp tục có hiệu lực

Tác động thực tế

  • Kết quả có thể nghiêm trọng đối với tính hữu dụng, quyền riêng tư, hoặc cả hai
  • Các công bố thống kê trong tương lai có thể kém hữu ích hơn các công bố trước đây, hoặc kém an toàn đến mức khó tin
  • Khi loại bỏ một công cụ hữu ích khỏi hộp công cụ tránh công bố, sự đánh đổi giữa quyền riêng tư và tính hữu dụng luôn trở nên đau đớn hơn
  • Mục tiêu của lĩnh vực nghiên cứu này là hiểu và định lượng rủi ro quyền riêng tư tốt hơn, đồng thời phát triển các công cụ tốt hơn để giảm thiểu rủi ro mà vẫn bảo toàn được tính hữu dụng
  • Vị trí của quyền riêng tư vi sai

    • Trong công bố thống kê, quyền riêng tư vi sai hiện là công cụ tốt nhất đang có
    • Quyền riêng tư vi sai cung cấp cách định lượng sự đánh đổi tinh vi hơn, và rút ra được nhiều tính hữu dụng của dữ liệu hơn so với các kỹ thuật cạnh tranh ở cùng mức riêng tư
    • Nếu loại bỏ quyền riêng tư vi sai, chỉ còn lại những kỹ thuật có tính hữu dụng thấp hơn ở mức riêng tư tương tự, hoặc có quyền riêng tư kém hơn ở cùng mức hữu dụng
    • Các kỹ thuật cạnh tranh cũng dựa vào việc thêm nhiễu
  • Các kỹ thuật khác cũng dùng tính ngẫu nhiên

    • Cell Key method mà các cơ quan thống kê khác dùng cũng thêm nhiễu vào thống kê
    • Hoán đổi mà Census đã dùng từ 1990 đến 2010 cũng đưa tính ngẫu nhiên vào quy trình
    • Lấy mẫu được dùng rộng rãi trong toàn bộ công việc thống kê
    • Thế khuyết) về mặt kỹ thuật cũng thêm nhiễu vào dữ liệu
  • Giới hạn của khái quát hóa và ức chế

    • Khái quát hóa và ức chế là những công cụ rất thô
    • Khái quát hóa và ức chế chỉ hoạt động khi thống kê vốn đã rất thô và số lượng thống kê được công bố không nhiều
    • Với các sản phẩm dữ liệu phức tạp có nhiều thống kê về các nhóm nhỏ như U.S. Census, khái quát hóa và ức chế либо phá hủy hoàn toàn tính hữu dụng của dữ liệu, либо khiến nó cực kỳ dễ tổn thương trước các cuộc tấn công quyền riêng tư
    • Việc phá hủy tính hữu dụng đặc biệt rõ rệt với các nhóm thiểu số
  • Vì sao nhiễu khiến tấn công khó hơn

    • Các cuộc tấn công quyền riêng tư vào công bố thống kê gần giống bài toán giải hệ phương trình
    • Khi biết chắc mọi thống kê đều hoàn toàn chính xác, việc này trở nên dễ hơn rất nhiều
    • Nhiễu buộc kẻ tấn công phải tính xác suất, định lượng bất định và cân nhắc cẩn thận đường cơ sở
    • Tính ngẫu nhiên hữu ích cho tránh công bố ngay cả khi không có bảo đảm chính thức, và khiến tấn công khó hơn rất nhiều
    • Nếu loại bỏ tính ngẫu nhiên, các cuộc tấn công sẽ trở nên tầm thường

Vì sao điều này xảy ra

  • Không rõ động cơ là gì
  • Không rõ mục tiêu có phải là buộc U.S. Census công bố các thống kê thực sự cho phép tái nhận dạng để hỗ trợ các nỗ lực gerrymandering trong tương lai hay không
  • Ngược lại, cũng không rõ mục tiêu có phải là ngăn công bố dữ liệu nhân khẩu học hữu ích để các nhà nghiên cứu không thể nhìn thấy những chênh lệch bất công trong dân số hay không
  • Dao cạo Hanlon đưa ra một cách diễn giải khác
  • Việc công bố dữ liệu thống kê có một sự đánh đổi cơ bản giữa quyền riêng tư và tính hữu dụng, và đây là một vấn đề phiền toái
  • Mọi thứ sẽ dễ hơn nhiều nếu việc công bố nhiều thống kê không tự động kéo theo rủi ro quyền riêng tư cao
  • Quyền riêng tư vi sai làm cho sự đánh đổi này lộ rõ một cách tường minh, và vì thế khiến nó không thể bị phớt lờ
  • Việc cấm quyền riêng tư vi sai có thể là cách giả vờ rằng vấn đề này không tồn tại, rồi hy vọng nó tự biến mất

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi đã làm điều tra viên trong kỳ điều tra dân số trước, khi niềm tin của cộng đồng vốn đã thấp, và cũng đã có nhiều cuộc gặp gỡ đáng nhớ
    Với một gương mặt thân thiện, tôi thu thập khá nhiều dữ liệu mang tính xâm nhập nhưng vẫn thực sự tin rằng dữ liệu đó sẽ được sử dụng và quản lý một cách có trách nhiệm
    Giờ đây, khi bức tường lửa từng ngăn việc vũ khí hóa và kiếm tiền từ dữ liệu nhạy cảm của chính phủ đã sụp đổ, tôi thấy thương cho những người sẽ phải đi từng nhà vào năm 2030, và càng thương hơn cho những ai sẽ tự nguyện cung cấp thông tin có thể gây hại cho chính họ
    Tôi cũng thấy buồn cười với phản ứng kiểu “cuộc điều tra dân số đắt đỏ đó chỉ cần đếm đầu người là đủ”. Dữ liệu được thu thập vốn là đường cơ sở quan trọng cho sự hiểu biết chung, và tương lai của chất lượng dữ liệu đó có vẻ không mấy tốt đẹp
    Nhân tiện, khu vực tôi được phân công chủ yếu là các hộ không phản hồi, nên tôi tự nhiên có cảm giác người trong vùng mình либо ghét chính phủ, либо phớt lờ những tờ rơi kỳ quặc mang tính đe dọa, либо mới chuyển đến nên không biết ai là người cư trú trong thời gian điều tra

    • Điều đó đúng ngay cả với riêng các sản phẩm dữ liệu điều tra dân số, nhưng dữ liệu nhân khẩu học trên thực tế còn là nền tảng ngoại suy cho gần như mọi nghiên cứu khảo sát khác
      Từ thăm dò dư luận toàn quốc dựa trên hàng chục nghìn người trả lời đến các khảo sát cộng đồng nhỏ, tất cả đều dựa vào đây
      Kết quả điều tra dân số với mức tham gia đa dạng nhất mang lại phần thưởng gần như vô hạn cho nước Mỹ, và mang lại lợi ích cho mọi bên từ báo chí toàn quốc đến các quận nông thôn
      Nếu những cộng đồng nhỏ nhất đánh mất cả phần niềm tin còn sót lại vào quyền riêng tư của điều tra dân số, thì họ sẽ là bên mất mát nhiều nhất trên tất cả các phương diện này
    • Tôi cũng từng làm công việc tương tự, và cảm xúc ở đây được tóm tắt rất chuẩn. Việc xây dựng lại niềm tin đó thật sự buồn và khó
      Và cũng thật nản lòng khi mọi người vẫn tiếp tục bị lôi kéo bởi một đảng chính trị công khai tuyên bố muốn lạm dụng dữ liệu này
    • Theo tôi, sự sa sút thực sự bắt đầu từ sau Edward Snowden, khi thông tin về NSA tràn ra
      Nó đã kích hoạt mạnh mẽ sự mất niềm tin vào chính phủ, trong khi việc khiến người dân trả lời khảo sát vốn đã khó rồi
      Tôi cũng không hiểu tại sao một người bình thường lại tin rằng Census Bureau thật sự giữ an toàn cho dữ liệu của họ
      Bất kể luật pháp hay hiến pháp nói gì, khi bạn làm việc cho một cơ quan nào đó thì sớm muộn người ta cũng xem bạn là chính phủ. Tỷ lệ phản hồi vẫn tiếp tục giảm, và giờ thì tổng thống còn công kích cả thống kê kinh tế
      Nếu nhìn một cách bi quan, có lẽ họ sẽ tiếp tục thu hẹp cơ quan thống kê và làm cho thống kê ngày càng kém hữu ích hơn. Thay đổi chính sách lần này cũng đi theo hướng đó, và cuối cùng có lẽ họ sẽ muốn chuyển nó sang khu vực tư nhân
      Nhưng khu vực tư nhân không thể làm những gì chính phủ làm tại hiện trường
    • Một quốc gia tiến hành điều tra dân số để hiểu thật chi tiết tình trạng của những con người cấu thành nên quốc gia đó
      Phải có thông tin chính xác thì mới có thể lập kế hoạch cải thiện và làm cho cuộc sống của mọi người tốt hơn
      Thái độ “chỉ cần đếm đầu người là đủ” cho thấy khá rõ cách suy nghĩ của nhiều người ngày nay
      Họ dường như либо không muốn làm cho cuộc sống tốt hơn, либо thậm chí không thể hình dung ra phải làm điều đó như thế nào. Thật sự rất buồn
  • Tuần này tại đại hội đảng Cộng hòa bang Texas, đã có đề xuất bổ sung vào dự thảo cương lĩnh một sửa đổi phản đối quyền riêng tư vi sai
    Họ viện dẫn ví dụ của một người nào đó từng tham gia điều tra dân số, nói rằng vì quyền riêng tư vi sai mà 1 người vô gia cư dưới gầm cầu có thể bị thành 5 người, nên về mặt thường thức đó là điều nực cười
    Tôi không biết nó có được thông qua hay không, nhưng áp lực kiểu cơ sở quần chúng đang thúc đẩy những việc như vậy là như thế đấy

    • Làm sao bạn biết đó là cơ sở quần chúng?
  • Tôi thấy điều này khá buồn. Trong một thế giới lý tưởng, quốc gia nên có khả năng nhìn thấy thành phần của những con người hiện đang tồn tại, để từ đó chúng ta có thể đưa ra quyết định đúng đắn về tổ chức mà tất cả cùng vận hành
    Việc cố ý làm hỏng hạ tầng thu thập dữ liệu là một sai lầm mà sau này chúng ta sẽ hối tiếc
    Tôi cho rằng phần lớn thành công của Mỹ đến từ những thể chế tốt trong việc xử lý dữ liệu chi tiết. Nhờ vậy, chính sách có thể được điều chỉnh theo kết quả nhanh hơn
    Tôi hiểu vì sao nhiều người muốn cắt giảm mọi năng lực của nhà nước. Họ cảm thấy chính phủ đầy những người chống lại họ, và năng lực đó sẽ bị dùng để nhắm vào họ
    Nhưng khi sức mạnh tương đối suy yếu, khả năng vượt qua quán tính đó cũng giảm theo, chính phủ trở nên kém năng lực hơn, và cuối cùng chất lượng cuộc sống bắt đầu đi xuống
    Dữ liệu ở cấp từng đơn vị nhà ở có thể không cần ngay lập tức, nhưng có thể có ngoại lệ như việc đặt các khối điều tra dân số vào các khu bầu cử phù hợp. Dù vậy, từ bất kỳ đơn vị tổng hợp nào trở lên, vẫn nên dùng thông tin tốt nhất có thể

    • Cố ý phá hỏng hạ tầng là chủ đề lặp đi lặp lại của chính quyền này
    • Điều này không làm quyền lực chính phủ yếu đi
      Nó chỉ làm chính phủ trở nên ngu ngốc hơn, để rồi sau này ngay cả khi muốn làm điều đúng đắn thì cũng không có thông tin để ra quyết định hiệu quả
    • Tôi quan tâm hơn đến việc giao dữ liệu chi tiết cho chính quyền bang và để bang vận hành các chương trình
      Liên bang chỉ cần lấy dữ liệu tổng hợp là đủ
    • Vượt quá mức đó thì chẳng khác gì tạo điều kiện cho diệt chủng như khi chính phủ Mỹ phá vỡ bí mật điều tra dân số và đưa người Mỹ gốc Nhật vào trại tập trung theo tiêu chí chủng tộc
      Đây không phải vấn đề của “mọi” năng lực nhà nước; nhà nước chỉ nên có mức năng lực tối thiểu tuyệt đối cần thiết để thực hiện những việc bắt buộc
      Ví dụ, thu thập thông tin chủng tộc không phải là điều tuyệt đối cần thiết, nên không nên làm
      Vì trong tương lai chính phủ có thể đầy những người đối lập. Hơn nữa, những tổn hại lớn nhất do nhà nước gây ra một cách nhất quán thường không đến từ ác ý có chủ đích, mà từ những nỗ lực “muốn giúp đỡ”
    • Bài này nói về một quyết định làm cho cuộc điều tra dân số bớt bị phá hỏng hơn
      Nếu bạn coi trọng một cuộc điều tra dân số chính xác thì ngược lại nên chúc mừng mới đúng
  • Điều tra dân số, làm gì đi nữa, luôn giả định một mức độ niềm tin nhất định
    Đó là niềm tin rằng dữ liệu này sẽ không bị định danh để phục vụ lừa đảo, gian lận tài chính hay các hình thức lạm dụng khác
    Thế nhưng ở NY, hồ sơ mua bán nhà ở lại được công khai, và một hệ quả phụ là rất nhiều công ty thế chấp gửi thư giả làm hóa đơn thanh toán
    Quyền riêng tư vi sai là абсолютно cần thiết, và việc các nhà khoa học xã hội không thể tái dựng dữ liệu ở cấp cá nhân chính là kết quả đã được chủ đích
    Với hầu hết mục đích, mô tả ở cấp vĩ mô là đủ, còn đòi hỏi nhiều hơn thế chẳng khác nào đòi hỏi một nhà nước giám sát

    • Thành thật mà nói, chuyện đó có vẻ giống thất bại trong thực thi và thất bại trong thiết kế hệ thống tài chính hơn
      Ở Đức, việc khoản thế chấp hay ngân hàng nắm giữ nó bị chuyền tay như cục than hồng cho một kẻ khờ khác không phổ biến đến vậy, nên nếu nhận được loại thư như thế thì người ta sẽ lập tức nghi ngờ
  • Cấm ở mức bộ dữ liệu, và có thể thêm ở giai đoạn phân tích. Có thể chọn kiểu nhiễu mong muốn
    Tôi không rõ hàm ý chính trị ở đây, nhưng ở một mức độ nào đó vẫn cần giá trị chuẩn thực tế, bao gồm cả việc “người này/hộ này đã từ chối trả lời”
    Tuy vậy, công khai dữ liệu gốc có vẻ như tự bắn vào chân mình từ góc độ an ninh quốc gia, và còn nhiều lý do khác khiến không nên làm vậy

    • Tôi không rõ chính xác đề xuất là gì, nhưng nếu thêm nhiễu độc lập cho từng người thì có thể giảm nó bằng cách mua nhiều bản sao rồi lấy trung bình
      Có vô số cách làm sai chuyện này, và đó là lý do quyền riêng tư vi sai được phân tích nhiều đến vậy
    • Nhiễu được thêm vào dữ liệu công khai, chứ không phải dữ liệu không công khai
  • Thay vì nói rằng quyền riêng tư vi sai làm cho sự đánh đổi này trở nên rõ ràng đến mức không thể phớt lờ, có lẽ ý là một trong hai mục tiêu có giá trị hơn mục tiêu còn lại nên không được hy sinh nó

  • Tôi ngạc nhiên khi các phản ứng kiểu “phải công khai toàn bộ” ở đây lại tư duy một chiều theo nghĩa xấu
    Điều tra dân số chỉ đơn giản là đặt câu hỏi
    Nếu bắt đầu công khai dữ liệu về những người có nhiều thuộc tính khác nhau rồi vũ khí hóa nó, mọi người sẽ chỉ nói dối hoặc không trả lời
    Khi đó thứ còn lại là dữ liệu còn tệ hơn cả không có gì, vì mọi người sẽ cố hành động dựa trên thứ dữ liệu tệ đó

    • Ban đầu cứ thu thập dữ liệu khi mọi người chưa biết hoặc chưa quan tâm, rồi sau đó vũ khí hóa là được
      Ít nhất chuyện đó đã xảy ra một lần ở một nước khác cách đây không lâu, nên tôi không nghĩ lo ngại này là phản ứng quá mức
    • Chủ thể đang vũ khí hóa dữ liệu chính là chính phủ Mỹ
      Ví dụ rõ ràng nhất là Census Bureau đã lập danh sách người gốc Nhật để phục vụ việc giam giữ trong Thế chiến II
      Theo tôi, động lực thực sự hiện nay là tạo danh sách để tước quyền bầu cử của mọi người
    • Giải pháp dễ nhất là giảm độ phân giải và phạm vi dữ liệu xuống mức tuyệt đối cần thiết
      Điều tra dân số tồn tại để cung cấp thông tin cho việc xác định tính đại diện. Phần còn lại chỉ là chức năng phụ
      Có thể có dữ liệu ở cấp quận hoặc khu bầu cử, nhưng càng tăng độ phân giải thì càng nên loại bỏ dữ liệu, để ở cấp khu phố hay dãy nhà chỉ còn lại dân số
      Việc biết chủng tộc, sắc tộc hay nền tảng kinh tế xã hội của cư dân một dãy nhà chỉ hữu ích cho việc phân biệt đối xử với họ
    • Câu hỏi thật sự là tại sao ngay từ đầu mọi người lại trả lời những câu hỏi như vậy
      Tôi đợi điều tra viên đến rồi chỉ nói có bao nhiêu người sống tại nơi ở của tôi
      Điều đó cần thiết cho tính đại diện bầu cử phù hợp, ngoài ra hoàn toàn không cần gì khác
    • Chính quyền này hoàn toàn không quan tâm đến sự thật
  • Quá khó để dung hòa những điều này
    Người ta nói rằng điều tra dân số 2020 đã áp dụng quyền riêng tư vi sai, và nếu bỏ đi một bộ lọc này thì sẽ có “hậu quả khủng khiếp” cho tính hữu dụng, quyền riêng tư, hoặc cả hai
    Nhưng điều tra dân số đã được thực hiện hàng trăm năm và vẫn ổn, và chỉ cuộc điều tra gần nhất mới thêm yếu tố quyền riêng tư
    Nếu bỏ một trong số đó mà tình hình đột nhiên trở nên khủng khiếp thì nghe thật lạ. Trước đây vốn không có tính năng bảo vệ quyền riêng tư như vậy, nên chẳng phải thực tế vẫn tốt hơn rất nhiều so với hàng trăm năm trước sao
    Vì thế nó mang lại cảm giác như một vấn đề bị thổi phồng về mặt cảm xúc

    • Dù khó tin, trong vài trăm năm qua kỹ thuật toán học và năng lực tính toán đã tăng lên, và mọi thứ cũng đã được số hóa
      Những cuộc tấn công quyền riêng tư trước đây bất khả thi vì chi phí thì nay có thể thực hiện chỉ với vài đồng
      Ngoài ra, như đã được chỉ ra, người ta đã dùng dữ liệu điều tra dân số để thao túng khu bầu cử, nên các cuộc tấn công kiểu này là có thật và đã diễn ra từ lâu
    • Một thứ quan trọng hiện có mà 100 năm trước không có là máy tính
      Trước đây có thể cho rằng việc tái dựng hồ sơ cá nhân, ít nhất ở quy mô lớn, là không thực tế. Giờ thì không thể nói vậy nữa
      Mật mã 4 chữ số có thể đã an toàn suốt hàng trăm năm, nhưng ngày nay vì chính lý do đó lại trở thành một trách nhiệm bảo mật
    • Những lo ngại này, giống như phần lớn lo ngại về quyền riêng tư, ban đầu trông như chứng lo âu sức khỏe giả định bị phóng đại, rồi đến một lúc nào đó thì không còn như vậy nữa
    • Sự phát triển của máy tính và khoa học dữ liệu/học máy giải thích gần như toàn bộ vấn đề
      Nhiều kỹ thuật dùng để tái định danh dữ liệu ngày nay đòi hỏi năng lực tính toán mà trước đây không có
      Ngay cả khi có thể làm được thì tài nguyên cũng từng giới hạn quy mô. Tôi nói điều này với tư cách người có bằng thống kê
      Còn có cả vấn đề kết nối. Internet, mạng xã hội, theo dõi web và các vụ hack đã tạo ra nhiều nguồn dữ liệu đối chiếu hơn rất nhiều
      Vào thập niên 1970~80, dấu vết hồ sơ của người Mỹ ít hơn hiện nay một cách đáng kể
    • Như bài viết nói rất rõ, các tính năng bảo vệ quyền riêng tư đã có trong điều tra dân số từ năm 1990
      Chỉ là các biện pháp trước đây không đủ mạnh và có thể bị phá vỡ, nên chúng được thay bằng biện pháp mạnh hơn
      Năm 1990 là thời điểm máy tính cá nhân trở nên phổ biến và năng lực tính toán mà cá nhân có thể sử dụng bùng nổ, và từ lúc đó người ta đã có thể tách thông tin cá nhân ra từ dữ liệu mà điều tra dân số công khai
      Đó là lý do vấn đề xuất hiện từ khi ấy. Đây không phải vấn đề bị thổi phồng
  • Từ góc nhìn của người đến từ một quốc gia châu Âu nhất định, không thể biết câu trả lời nào trong điều tra dân số rồi sẽ gây ra vấn đề
    “Tôn giáo của bạn là gì” có vẻ hoàn toàn vô hại, nhưng vào thập niên 1940 khi một lực lượng chiếm đóng nước ngoài có thể liên kết câu trả lời đó với từng cá nhân, nó đã trở thành một câu trả lời chết người khi nhìn lại

    • Nếu là một lực lượng chiếm đóng nước ngoài như thế, chẳng phải họ sẽ просто yêu cầu dữ liệu gốc chưa chỉnh sửa sao?
    • Điều tra dân số Mỹ không hỏi về tôn giáo
      Các câu hỏi năm 2020 là có bao nhiêu người sống hoặc ở trong ngôi nhà/căn hộ/nhà di động này tính đến ngày 1 tháng 4, có thêm ai bị bỏ sót không, loại hình nhà ở là gì, số điện thoại, tên của người số 1, giới tính, tuổi và ngày sinh, có phải gốc Hispanic/Latino/Tây Ban Nha hay không, và chủng tộc
      Cũng không có gì đặc biệt để ngăn việc nói dối
    • Ở Mỹ, việc hỏi tôn giáo trong điều tra dân số là trái luật
      Không ai bị buộc phải tiết lộ thông tin về niềm tin tôn giáo hay việc tham gia tổ chức tôn giáo
      https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
    • Pháp trước đây từng lập rất nhiều danh sách. Họ thích danh sách, và cho rằng danh sách là điều tốt
      Họ cũng lập danh sách người Do Thái vì nghĩ rằng có thể sẽ hữu ích khi cần làm gì đó vào một ngày nào đó, và người Đức đã tìm thấy nó rồi vô cùng vui mừng
      Sự ám ảnh của Mỹ với việc hỏi mọi người về nền tảng xuất thân được nhận diện, như AAPI, AA, Latino, v.v., không chỉ kỳ lạ mà còn công khai nguy hiểm
      Không nên hỏi những câu như vậy, và tuyệt đối không được ghi lại cùng với tên
      May mà giờ chỉ cần mua từ các data broker rồi để Palantir nhắm mục tiêu, nên với họ còn dễ hơn nữa
    • “Tôn giáo của bạn là gì” hoàn toàn không hợp lý trong điều tra dân số theo tôi thấy
  • Tôi lại nghĩ câu nói rằng quyền riêng tư vi sai làm cho sự đánh đổi trở nên tường minh là ngược lại mới đúng
    Các kỹ thuật như quyền riêng tư vi sai, trừ một số ít chuyên gia xử lý lĩnh vực này như cơm bữa, lại che giấu sự thật rằng có tồn tại sự đánh đổi
    Tôi không đủ hiểu biết để bảo vệ quyết định này, nhưng nếu thực sự có sự đánh đổi thì khi không còn tiếp cận được các kỹ thuật như vậy, có lẽ cả những người không phải nhà thống kê cũng sẽ phải đối mặt với sự đánh đổi đó
    Nếu dữ liệu về công chúng nguy hiểm đến mức phải ngụy trang kết quả, thì có lẽ ngay từ đầu đó đã là loại dữ liệu không nên thu thập

  • Dữ liệu riêng tư của con người thường xuyên bị công khai ngoài ý muốn. Lịch sử xem Netflix và hồ sơ y tế là những ví dụ tiêu biểu
    Mọi người liên tục đánh giá thấp lượng thông tin bị rò rỉ, nên không thể đánh giá đúng sự đánh đổi
    Vì vậy, cách đúng đắn là buộc chỉ một lượng thông tin an toàn được rò rỉ ra ngoài
    Có thể có những trường hợp tốt hơn là không chia sẻ hoặc không thu thập dữ liệu, nhưng dữ liệu này rõ ràng có giá trị nên lượng tối ưu để lưu trữ và công bố không phải là 0

  • Cá nhân tôi cho rằng một trong những lý do lớn khiến khoa học dữ liệu với tư cách là một tổ chức lớn trong các công ty công nghệ mất dần ảnh hưởng là xu hướng đối xử với đội ngũ khoa học dữ liệu như những người gác cổng dữ liệu
    Khi trách nhiệm về tư duy thống kê bị thuê ngoài, sẽ nảy sinh một cảm giác quyền lực kỳ lạ: một người quyết định trước sự đánh đổi mà những người xung quanh thậm chí không cần hiểu cho đúng

  • Theo logic đó thì không ai được phép thu thập địa chỉ vì bất kỳ lý do gì
    Nếu trong bất kỳ bối cảnh nào cũng không thể trao đổi hay thu thập thông tin nhận dạng cá nhân, thì xã hội sẽ vận hành thế nào?
    Ẩn danh hóa và bảo mật là cốt lõi, và chúng cho phép nhiều chức năng quan trọng
    Trong một thế giới nơi tuyệt đối không được cung cấp hay thu thập thông tin có thể gây rủi ro, thì làm sao nhận thư được?