- Đưa nhiễu dùng khi tạo thống kê công khai từ các tập dữ liệu mật là một công cụ tránh công bố, giúp che giấu thông tin cá nhân trong dữ liệu gốc mà vẫn duy trì tính hữu dụng của thống kê
- Chỉ thị của Bộ Thương mại Mỹ cấm đưa nhiễu vào mọi sản phẩm thống kê của Census Bureau và Bureau of Economic Analysis, nhắm trực tiếp vào quyền riêng tư vi sai
- Census Bureau chủ yếu dùng hoán đổi trong các cuộc điều tra dân số 10 năm một lần giai đoạn 1990~2010, nhưng sau khi lộ ra vấn đề rằng có thể dễ dàng tái dựng hồ sơ cá nhân từ thống kê công khai, cơ quan này đã áp dụng quyền riêng tư vi sai cho điều tra dân số năm 2020
- Quyền riêng tư vi sai kết hợp giới hạn mức đóng góp và việc thêm nhiễu được hiệu chỉnh tinh vi để mang lại tính hữu dụng cao hơn ở mức riêng tư tương tự
- Nếu bỏ nhiễu đi, các công bố thống kê trong tương lai có thể sẽ kém hữu dụng hơn nhiều so với trước đây hoặc trở thành dữ liệu cực kỳ không an toàn
Bối cảnh
- Sản phẩm thống kê là nhiều con số được công bố từ các tập dữ liệu mật, và khi các tập dữ liệu đó chứa thông tin bảo mật thì các con số công khai không được làm lộ thông tin ấy
- U.S. Census là ví dụ tiêu biểu: thống kê được công bố, nhưng nội dung trên từng biểu mẫu do cư dân Mỹ điền phải được giữ bí mật
- Trong lĩnh vực thống kê, các kỹ thuật công bố số liệu hữu ích mà vẫn bảo vệ quyền riêng tư của dữ liệu gốc được gọi là tránh công bố
- Các kỹ thuật tránh công bố gồm có ức chế, tức loại bỏ dữ liệu không đạt một số tiêu chí nhất định; khái quát hóa để làm cho thuộc tính kém chính xác hơn; và lấy mẫu, tức loại ngẫu nhiên một số bản ghi
- Các kỹ thuật tránh công bố còn gồm hoán đổi, tức thay đổi ngẫu nhiên thuộc tính giữa các bản ghi khác nhau; giới hạn mức đóng góp để giới hạn tác động tối đa của một cá nhân; và thêm nhiễu, tức cộng các con số ngẫu nhiên vào thống kê
-
Quyền riêng tư vi sai và điều tra dân số 2020
- Khi kết hợp một số kỹ thuật, có thể đạt được quyền riêng tư vi sai, vốn được các nhà khoa học xem rộng rãi là tiêu chuẩn vàng cho bảo vệ quyền riêng tư
- Quyền riêng tư vi sai thường dựa vào sự kết hợp giữa giới hạn mức đóng góp và thêm nhiễu được hiệu chỉnh cẩn thận
- Census Bureau chủ yếu sử dụng hoán đổi trong các cuộc điều tra dân số 10 năm một lần từ 1990 đến 2010
- Sau đó, cơ quan này nhận ra rằng hoán đổi rất thiếu an toàn, và chỉ với thống kê công khai cũng có thể dễ dàng tái dựng hồ sơ cá nhân
- Vì theo luật liên bang, cơ quan này phải giữ bí mật các hồ sơ đó, họ đã thử một số phương án thay thế và cuối cùng áp dụng quyền riêng tư vi sai cho điều tra dân số 2020 vì đây là cách giữ được tính hữu dụng của thống kê tốt nhất trong khi vẫn ngăn được tấn công
-
Suy giảm tính hữu dụng và phản ứng
- Quyền riêng tư vi sai được chọn không phải vì toán học của nó đẹp, mà vì trong số nhiều lựa chọn để giảm thiểu tấn công, nó bảo toàn tính hữu dụng của dữ liệu nhiều nhất
- Ngay cả các tham số riêng tư cụ thể cũng được chọn không phải vì chúng đưa ra bảo đảm chứng minh cực mạnh, mà vì chúng tối đa hóa tính hữu dụng của dữ liệu trong khi vẫn đạt mức bảo vệ quyền riêng tư chấp nhận được
- Việc bảo toàn được nhiều tính hữu dụng nhất dưới những ràng buộc riêng tư mới được phát hiện không có nghĩa là nó giữ được mức hữu dụng như điều tra dân số 2010
- Các con số đã kém chính xác hơn, và sự thiếu chính xác này cũng minh bạch hơn nhiều nên khó có thể phớt lờ
- Các nhà nhân khẩu học và khoa học xã hội không còn có thể phớt lờ việc dữ liệu họ xử lý là dữ liệu có nhiễu, và điều đó đòi hỏi một sự chuyển đổi lớn trong cách họ khái niệm hóa và xử lý dữ liệu này
- Những người thực sự dùng dữ liệu Census để tái dựng hồ sơ cá nhân nay không thể làm vậy nữa, và các nhà nhân khẩu học thừa nhận đây từng là thực hành phổ biến
- Việc các giới làm chính trị cũng từng thực hiện kiểu tái dựng này như một phần trong nỗ lực gerrymandering là điều ai cũng ngầm biết
Nội dung chỉ thị
- Chính quyền quyết định rằng việc đưa nhiễu không còn là một kỹ thuật tránh công bố chấp nhận được nữa
- Chỉ thị nhắm rõ ràng vào quyền riêng tư vi sai, nhưng dường như cũng ảnh hưởng đến các kỹ thuật khác có dùng yếu tố ngẫu nhiên
- Văn bản chỉ thị nêu rõ rằng khái quát hóa luôn phải được ưu tiên, còn ức chế chỉ được dùng như “biện pháp cuối cùng”
- Không rõ vì sao chỉ thị lại cụ thể đến vậy
- Chỉ thị cẩn trọng nêu rằng nó “không được diễn giải là mâu thuẫn với Hiến pháp, luật, quy định hay điều khoản pháp lý khác”, và nghĩa vụ giữ bí mật xung quanh các sản phẩm thống kê đó vẫn tiếp tục có hiệu lực
Tác động thực tế
- Kết quả có thể nghiêm trọng đối với tính hữu dụng, quyền riêng tư, hoặc cả hai
- Các công bố thống kê trong tương lai có thể kém hữu ích hơn các công bố trước đây, hoặc kém an toàn đến mức khó tin
- Khi loại bỏ một công cụ hữu ích khỏi hộp công cụ tránh công bố, sự đánh đổi giữa quyền riêng tư và tính hữu dụng luôn trở nên đau đớn hơn
- Mục tiêu của lĩnh vực nghiên cứu này là hiểu và định lượng rủi ro quyền riêng tư tốt hơn, đồng thời phát triển các công cụ tốt hơn để giảm thiểu rủi ro mà vẫn bảo toàn được tính hữu dụng
-
Vị trí của quyền riêng tư vi sai
- Trong công bố thống kê, quyền riêng tư vi sai hiện là công cụ tốt nhất đang có
- Quyền riêng tư vi sai cung cấp cách định lượng sự đánh đổi tinh vi hơn, và rút ra được nhiều tính hữu dụng của dữ liệu hơn so với các kỹ thuật cạnh tranh ở cùng mức riêng tư
- Nếu loại bỏ quyền riêng tư vi sai, chỉ còn lại những kỹ thuật có tính hữu dụng thấp hơn ở mức riêng tư tương tự, hoặc có quyền riêng tư kém hơn ở cùng mức hữu dụng
- Các kỹ thuật cạnh tranh cũng dựa vào việc thêm nhiễu
-
Các kỹ thuật khác cũng dùng tính ngẫu nhiên
- Cell Key method mà các cơ quan thống kê khác dùng cũng thêm nhiễu vào thống kê
- Hoán đổi mà Census đã dùng từ 1990 đến 2010 cũng đưa tính ngẫu nhiên vào quy trình
- Lấy mẫu được dùng rộng rãi trong toàn bộ công việc thống kê
- Thế khuyết) về mặt kỹ thuật cũng thêm nhiễu vào dữ liệu
-
Giới hạn của khái quát hóa và ức chế
- Khái quát hóa và ức chế là những công cụ rất thô
- Khái quát hóa và ức chế chỉ hoạt động khi thống kê vốn đã rất thô và số lượng thống kê được công bố không nhiều
- Với các sản phẩm dữ liệu phức tạp có nhiều thống kê về các nhóm nhỏ như U.S. Census, khái quát hóa và ức chế либо phá hủy hoàn toàn tính hữu dụng của dữ liệu, либо khiến nó cực kỳ dễ tổn thương trước các cuộc tấn công quyền riêng tư
- Việc phá hủy tính hữu dụng đặc biệt rõ rệt với các nhóm thiểu số
-
Vì sao nhiễu khiến tấn công khó hơn
- Các cuộc tấn công quyền riêng tư vào công bố thống kê gần giống bài toán giải hệ phương trình
- Khi biết chắc mọi thống kê đều hoàn toàn chính xác, việc này trở nên dễ hơn rất nhiều
- Nhiễu buộc kẻ tấn công phải tính xác suất, định lượng bất định và cân nhắc cẩn thận đường cơ sở
- Tính ngẫu nhiên hữu ích cho tránh công bố ngay cả khi không có bảo đảm chính thức, và khiến tấn công khó hơn rất nhiều
- Nếu loại bỏ tính ngẫu nhiên, các cuộc tấn công sẽ trở nên tầm thường
Vì sao điều này xảy ra
- Không rõ động cơ là gì
- Không rõ mục tiêu có phải là buộc U.S. Census công bố các thống kê thực sự cho phép tái nhận dạng để hỗ trợ các nỗ lực gerrymandering trong tương lai hay không
- Ngược lại, cũng không rõ mục tiêu có phải là ngăn công bố dữ liệu nhân khẩu học hữu ích để các nhà nghiên cứu không thể nhìn thấy những chênh lệch bất công trong dân số hay không
- Dao cạo Hanlon đưa ra một cách diễn giải khác
- Việc công bố dữ liệu thống kê có một sự đánh đổi cơ bản giữa quyền riêng tư và tính hữu dụng, và đây là một vấn đề phiền toái
- Mọi thứ sẽ dễ hơn nhiều nếu việc công bố nhiều thống kê không tự động kéo theo rủi ro quyền riêng tư cao
- Quyền riêng tư vi sai làm cho sự đánh đổi này lộ rõ một cách tường minh, và vì thế khiến nó không thể bị phớt lờ
- Việc cấm quyền riêng tư vi sai có thể là cách giả vờ rằng vấn đề này không tồn tại, rồi hy vọng nó tự biến mất
1 bình luận
Ý kiến trên Hacker News
Tôi đã làm điều tra viên trong kỳ điều tra dân số trước, khi niềm tin của cộng đồng vốn đã thấp, và cũng đã có nhiều cuộc gặp gỡ đáng nhớ
Với một gương mặt thân thiện, tôi thu thập khá nhiều dữ liệu mang tính xâm nhập nhưng vẫn thực sự tin rằng dữ liệu đó sẽ được sử dụng và quản lý một cách có trách nhiệm
Giờ đây, khi bức tường lửa từng ngăn việc vũ khí hóa và kiếm tiền từ dữ liệu nhạy cảm của chính phủ đã sụp đổ, tôi thấy thương cho những người sẽ phải đi từng nhà vào năm 2030, và càng thương hơn cho những ai sẽ tự nguyện cung cấp thông tin có thể gây hại cho chính họ
Tôi cũng thấy buồn cười với phản ứng kiểu “cuộc điều tra dân số đắt đỏ đó chỉ cần đếm đầu người là đủ”. Dữ liệu được thu thập vốn là đường cơ sở quan trọng cho sự hiểu biết chung, và tương lai của chất lượng dữ liệu đó có vẻ không mấy tốt đẹp
Nhân tiện, khu vực tôi được phân công chủ yếu là các hộ không phản hồi, nên tôi tự nhiên có cảm giác người trong vùng mình либо ghét chính phủ, либо phớt lờ những tờ rơi kỳ quặc mang tính đe dọa, либо mới chuyển đến nên không biết ai là người cư trú trong thời gian điều tra
Từ thăm dò dư luận toàn quốc dựa trên hàng chục nghìn người trả lời đến các khảo sát cộng đồng nhỏ, tất cả đều dựa vào đây
Kết quả điều tra dân số với mức tham gia đa dạng nhất mang lại phần thưởng gần như vô hạn cho nước Mỹ, và mang lại lợi ích cho mọi bên từ báo chí toàn quốc đến các quận nông thôn
Nếu những cộng đồng nhỏ nhất đánh mất cả phần niềm tin còn sót lại vào quyền riêng tư của điều tra dân số, thì họ sẽ là bên mất mát nhiều nhất trên tất cả các phương diện này
Và cũng thật nản lòng khi mọi người vẫn tiếp tục bị lôi kéo bởi một đảng chính trị công khai tuyên bố muốn lạm dụng dữ liệu này
Nó đã kích hoạt mạnh mẽ sự mất niềm tin vào chính phủ, trong khi việc khiến người dân trả lời khảo sát vốn đã khó rồi
Tôi cũng không hiểu tại sao một người bình thường lại tin rằng Census Bureau thật sự giữ an toàn cho dữ liệu của họ
Bất kể luật pháp hay hiến pháp nói gì, khi bạn làm việc cho một cơ quan nào đó thì sớm muộn người ta cũng xem bạn là chính phủ. Tỷ lệ phản hồi vẫn tiếp tục giảm, và giờ thì tổng thống còn công kích cả thống kê kinh tế
Nếu nhìn một cách bi quan, có lẽ họ sẽ tiếp tục thu hẹp cơ quan thống kê và làm cho thống kê ngày càng kém hữu ích hơn. Thay đổi chính sách lần này cũng đi theo hướng đó, và cuối cùng có lẽ họ sẽ muốn chuyển nó sang khu vực tư nhân
Nhưng khu vực tư nhân không thể làm những gì chính phủ làm tại hiện trường
Phải có thông tin chính xác thì mới có thể lập kế hoạch cải thiện và làm cho cuộc sống của mọi người tốt hơn
Thái độ “chỉ cần đếm đầu người là đủ” cho thấy khá rõ cách suy nghĩ của nhiều người ngày nay
Họ dường như либо không muốn làm cho cuộc sống tốt hơn, либо thậm chí không thể hình dung ra phải làm điều đó như thế nào. Thật sự rất buồn
Tuần này tại đại hội đảng Cộng hòa bang Texas, đã có đề xuất bổ sung vào dự thảo cương lĩnh một sửa đổi phản đối quyền riêng tư vi sai
Họ viện dẫn ví dụ của một người nào đó từng tham gia điều tra dân số, nói rằng vì quyền riêng tư vi sai mà 1 người vô gia cư dưới gầm cầu có thể bị thành 5 người, nên về mặt thường thức đó là điều nực cười
Tôi không biết nó có được thông qua hay không, nhưng áp lực kiểu cơ sở quần chúng đang thúc đẩy những việc như vậy là như thế đấy
Tôi thấy điều này khá buồn. Trong một thế giới lý tưởng, quốc gia nên có khả năng nhìn thấy thành phần của những con người hiện đang tồn tại, để từ đó chúng ta có thể đưa ra quyết định đúng đắn về tổ chức mà tất cả cùng vận hành
Việc cố ý làm hỏng hạ tầng thu thập dữ liệu là một sai lầm mà sau này chúng ta sẽ hối tiếc
Tôi cho rằng phần lớn thành công của Mỹ đến từ những thể chế tốt trong việc xử lý dữ liệu chi tiết. Nhờ vậy, chính sách có thể được điều chỉnh theo kết quả nhanh hơn
Tôi hiểu vì sao nhiều người muốn cắt giảm mọi năng lực của nhà nước. Họ cảm thấy chính phủ đầy những người chống lại họ, và năng lực đó sẽ bị dùng để nhắm vào họ
Nhưng khi sức mạnh tương đối suy yếu, khả năng vượt qua quán tính đó cũng giảm theo, chính phủ trở nên kém năng lực hơn, và cuối cùng chất lượng cuộc sống bắt đầu đi xuống
Dữ liệu ở cấp từng đơn vị nhà ở có thể không cần ngay lập tức, nhưng có thể có ngoại lệ như việc đặt các khối điều tra dân số vào các khu bầu cử phù hợp. Dù vậy, từ bất kỳ đơn vị tổng hợp nào trở lên, vẫn nên dùng thông tin tốt nhất có thể
Nó chỉ làm chính phủ trở nên ngu ngốc hơn, để rồi sau này ngay cả khi muốn làm điều đúng đắn thì cũng không có thông tin để ra quyết định hiệu quả
Liên bang chỉ cần lấy dữ liệu tổng hợp là đủ
Đây không phải vấn đề của “mọi” năng lực nhà nước; nhà nước chỉ nên có mức năng lực tối thiểu tuyệt đối cần thiết để thực hiện những việc bắt buộc
Ví dụ, thu thập thông tin chủng tộc không phải là điều tuyệt đối cần thiết, nên không nên làm
Vì trong tương lai chính phủ có thể đầy những người đối lập. Hơn nữa, những tổn hại lớn nhất do nhà nước gây ra một cách nhất quán thường không đến từ ác ý có chủ đích, mà từ những nỗ lực “muốn giúp đỡ”
Nếu bạn coi trọng một cuộc điều tra dân số chính xác thì ngược lại nên chúc mừng mới đúng
Điều tra dân số, làm gì đi nữa, luôn giả định một mức độ niềm tin nhất định
Đó là niềm tin rằng dữ liệu này sẽ không bị định danh để phục vụ lừa đảo, gian lận tài chính hay các hình thức lạm dụng khác
Thế nhưng ở NY, hồ sơ mua bán nhà ở lại được công khai, và một hệ quả phụ là rất nhiều công ty thế chấp gửi thư giả làm hóa đơn thanh toán
Quyền riêng tư vi sai là абсолютно cần thiết, và việc các nhà khoa học xã hội không thể tái dựng dữ liệu ở cấp cá nhân chính là kết quả đã được chủ đích
Với hầu hết mục đích, mô tả ở cấp vĩ mô là đủ, còn đòi hỏi nhiều hơn thế chẳng khác nào đòi hỏi một nhà nước giám sát
Ở Đức, việc khoản thế chấp hay ngân hàng nắm giữ nó bị chuyền tay như cục than hồng cho một kẻ khờ khác không phổ biến đến vậy, nên nếu nhận được loại thư như thế thì người ta sẽ lập tức nghi ngờ
Cấm ở mức bộ dữ liệu, và có thể thêm ở giai đoạn phân tích. Có thể chọn kiểu nhiễu mong muốn
Tôi không rõ hàm ý chính trị ở đây, nhưng ở một mức độ nào đó vẫn cần giá trị chuẩn thực tế, bao gồm cả việc “người này/hộ này đã từ chối trả lời”
Tuy vậy, công khai dữ liệu gốc có vẻ như tự bắn vào chân mình từ góc độ an ninh quốc gia, và còn nhiều lý do khác khiến không nên làm vậy
Có vô số cách làm sai chuyện này, và đó là lý do quyền riêng tư vi sai được phân tích nhiều đến vậy
Thay vì nói rằng quyền riêng tư vi sai làm cho sự đánh đổi này trở nên rõ ràng đến mức không thể phớt lờ, có lẽ ý là một trong hai mục tiêu có giá trị hơn mục tiêu còn lại nên không được hy sinh nó
Tôi ngạc nhiên khi các phản ứng kiểu “phải công khai toàn bộ” ở đây lại tư duy một chiều theo nghĩa xấu
Điều tra dân số chỉ đơn giản là đặt câu hỏi
Nếu bắt đầu công khai dữ liệu về những người có nhiều thuộc tính khác nhau rồi vũ khí hóa nó, mọi người sẽ chỉ nói dối hoặc không trả lời
Khi đó thứ còn lại là dữ liệu còn tệ hơn cả không có gì, vì mọi người sẽ cố hành động dựa trên thứ dữ liệu tệ đó
Ít nhất chuyện đó đã xảy ra một lần ở một nước khác cách đây không lâu, nên tôi không nghĩ lo ngại này là phản ứng quá mức
Ví dụ rõ ràng nhất là Census Bureau đã lập danh sách người gốc Nhật để phục vụ việc giam giữ trong Thế chiến II
Theo tôi, động lực thực sự hiện nay là tạo danh sách để tước quyền bầu cử của mọi người
Điều tra dân số tồn tại để cung cấp thông tin cho việc xác định tính đại diện. Phần còn lại chỉ là chức năng phụ
Có thể có dữ liệu ở cấp quận hoặc khu bầu cử, nhưng càng tăng độ phân giải thì càng nên loại bỏ dữ liệu, để ở cấp khu phố hay dãy nhà chỉ còn lại dân số
Việc biết chủng tộc, sắc tộc hay nền tảng kinh tế xã hội của cư dân một dãy nhà chỉ hữu ích cho việc phân biệt đối xử với họ
Tôi đợi điều tra viên đến rồi chỉ nói có bao nhiêu người sống tại nơi ở của tôi
Điều đó cần thiết cho tính đại diện bầu cử phù hợp, ngoài ra hoàn toàn không cần gì khác
Quá khó để dung hòa những điều này
Người ta nói rằng điều tra dân số 2020 đã áp dụng quyền riêng tư vi sai, và nếu bỏ đi một bộ lọc này thì sẽ có “hậu quả khủng khiếp” cho tính hữu dụng, quyền riêng tư, hoặc cả hai
Nhưng điều tra dân số đã được thực hiện hàng trăm năm và vẫn ổn, và chỉ cuộc điều tra gần nhất mới thêm yếu tố quyền riêng tư
Nếu bỏ một trong số đó mà tình hình đột nhiên trở nên khủng khiếp thì nghe thật lạ. Trước đây vốn không có tính năng bảo vệ quyền riêng tư như vậy, nên chẳng phải thực tế vẫn tốt hơn rất nhiều so với hàng trăm năm trước sao
Vì thế nó mang lại cảm giác như một vấn đề bị thổi phồng về mặt cảm xúc
Những cuộc tấn công quyền riêng tư trước đây bất khả thi vì chi phí thì nay có thể thực hiện chỉ với vài đồng
Ngoài ra, như đã được chỉ ra, người ta đã dùng dữ liệu điều tra dân số để thao túng khu bầu cử, nên các cuộc tấn công kiểu này là có thật và đã diễn ra từ lâu
Trước đây có thể cho rằng việc tái dựng hồ sơ cá nhân, ít nhất ở quy mô lớn, là không thực tế. Giờ thì không thể nói vậy nữa
Mật mã 4 chữ số có thể đã an toàn suốt hàng trăm năm, nhưng ngày nay vì chính lý do đó lại trở thành một trách nhiệm bảo mật
Nhiều kỹ thuật dùng để tái định danh dữ liệu ngày nay đòi hỏi năng lực tính toán mà trước đây không có
Ngay cả khi có thể làm được thì tài nguyên cũng từng giới hạn quy mô. Tôi nói điều này với tư cách người có bằng thống kê
Còn có cả vấn đề kết nối. Internet, mạng xã hội, theo dõi web và các vụ hack đã tạo ra nhiều nguồn dữ liệu đối chiếu hơn rất nhiều
Vào thập niên 1970~80, dấu vết hồ sơ của người Mỹ ít hơn hiện nay một cách đáng kể
Chỉ là các biện pháp trước đây không đủ mạnh và có thể bị phá vỡ, nên chúng được thay bằng biện pháp mạnh hơn
Năm 1990 là thời điểm máy tính cá nhân trở nên phổ biến và năng lực tính toán mà cá nhân có thể sử dụng bùng nổ, và từ lúc đó người ta đã có thể tách thông tin cá nhân ra từ dữ liệu mà điều tra dân số công khai
Đó là lý do vấn đề xuất hiện từ khi ấy. Đây không phải vấn đề bị thổi phồng
Từ góc nhìn của người đến từ một quốc gia châu Âu nhất định, không thể biết câu trả lời nào trong điều tra dân số rồi sẽ gây ra vấn đề
“Tôn giáo của bạn là gì” có vẻ hoàn toàn vô hại, nhưng vào thập niên 1940 khi một lực lượng chiếm đóng nước ngoài có thể liên kết câu trả lời đó với từng cá nhân, nó đã trở thành một câu trả lời chết người khi nhìn lại
Các câu hỏi năm 2020 là có bao nhiêu người sống hoặc ở trong ngôi nhà/căn hộ/nhà di động này tính đến ngày 1 tháng 4, có thêm ai bị bỏ sót không, loại hình nhà ở là gì, số điện thoại, tên của người số 1, giới tính, tuổi và ngày sinh, có phải gốc Hispanic/Latino/Tây Ban Nha hay không, và chủng tộc
Cũng không có gì đặc biệt để ngăn việc nói dối
Không ai bị buộc phải tiết lộ thông tin về niềm tin tôn giáo hay việc tham gia tổ chức tôn giáo
https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
Họ cũng lập danh sách người Do Thái vì nghĩ rằng có thể sẽ hữu ích khi cần làm gì đó vào một ngày nào đó, và người Đức đã tìm thấy nó rồi vô cùng vui mừng
Sự ám ảnh của Mỹ với việc hỏi mọi người về nền tảng xuất thân được nhận diện, như AAPI, AA, Latino, v.v., không chỉ kỳ lạ mà còn công khai nguy hiểm
Không nên hỏi những câu như vậy, và tuyệt đối không được ghi lại cùng với tên
May mà giờ chỉ cần mua từ các data broker rồi để Palantir nhắm mục tiêu, nên với họ còn dễ hơn nữa
Tôi lại nghĩ câu nói rằng quyền riêng tư vi sai làm cho sự đánh đổi trở nên tường minh là ngược lại mới đúng
Các kỹ thuật như quyền riêng tư vi sai, trừ một số ít chuyên gia xử lý lĩnh vực này như cơm bữa, lại che giấu sự thật rằng có tồn tại sự đánh đổi
Tôi không đủ hiểu biết để bảo vệ quyết định này, nhưng nếu thực sự có sự đánh đổi thì khi không còn tiếp cận được các kỹ thuật như vậy, có lẽ cả những người không phải nhà thống kê cũng sẽ phải đối mặt với sự đánh đổi đó
Nếu dữ liệu về công chúng nguy hiểm đến mức phải ngụy trang kết quả, thì có lẽ ngay từ đầu đó đã là loại dữ liệu không nên thu thập
Dữ liệu riêng tư của con người thường xuyên bị công khai ngoài ý muốn. Lịch sử xem Netflix và hồ sơ y tế là những ví dụ tiêu biểu
Mọi người liên tục đánh giá thấp lượng thông tin bị rò rỉ, nên không thể đánh giá đúng sự đánh đổi
Vì vậy, cách đúng đắn là buộc chỉ một lượng thông tin an toàn được rò rỉ ra ngoài
Có thể có những trường hợp tốt hơn là không chia sẻ hoặc không thu thập dữ liệu, nhưng dữ liệu này rõ ràng có giá trị nên lượng tối ưu để lưu trữ và công bố không phải là 0
Cá nhân tôi cho rằng một trong những lý do lớn khiến khoa học dữ liệu với tư cách là một tổ chức lớn trong các công ty công nghệ mất dần ảnh hưởng là xu hướng đối xử với đội ngũ khoa học dữ liệu như những người gác cổng dữ liệu
Khi trách nhiệm về tư duy thống kê bị thuê ngoài, sẽ nảy sinh một cảm giác quyền lực kỳ lạ: một người quyết định trước sự đánh đổi mà những người xung quanh thậm chí không cần hiểu cho đúng
Theo logic đó thì không ai được phép thu thập địa chỉ vì bất kỳ lý do gì
Nếu trong bất kỳ bối cảnh nào cũng không thể trao đổi hay thu thập thông tin nhận dạng cá nhân, thì xã hội sẽ vận hành thế nào?
Ẩn danh hóa và bảo mật là cốt lõi, và chúng cho phép nhiều chức năng quan trọng
Trong một thế giới nơi tuyệt đối không được cung cấp hay thu thập thông tin có thể gây rủi ro, thì làm sao nhận thư được?