- OpenAI coi việc bảo vệ dữ liệu hội thoại cá nhân của ChatGPT, dịch vụ được hơn 800 triệu người sử dụng, là ưu tiên hàng đầu
- The New York Times đã yêu cầu tòa án buộc cung cấp 20 triệu bản ghi hội thoại ChatGPT cá nhân, và điều này bị chỉ ra là hành vi xâm phạm quyền riêng tư của người dùng
- OpenAI trước đây cũng từng từ chối yêu cầu 1,4 tỷ bản ghi hội thoại, và lần này tiếp tục thúc đẩy bảo vệ dữ liệu người dùng thông qua quy trình pháp lý
- Công ty đang phát triển các tính năng bảo mật nâng cao như mã hóa phía máy khách và xây dựng hệ thống tự động hóa nhằm giảm thiểu truy cập vào dữ liệu nhạy cảm
- Vụ việc này được xem là một bước ngoặt quan trọng xoay quanh tiêu chuẩn bảo vệ dữ liệu cá nhân trong kỷ nguyên AI
Yêu cầu dữ liệu từ The New York Times và lập trường của OpenAI
- The New York Times, trong quá trình kiện tụng với OpenAI, đã yêu cầu nộp 20 triệu bản ghi hội thoại của người dùng ChatGPT
- Họ cho rằng lý do là để “xác minh liệu người dùng có dùng ChatGPT để vượt paywall của The New York Times hay không”
- OpenAI cho biết yêu cầu này vi phạm các nguyên tắc bảo vệ quyền riêng tư và thực hành bảo mật đã được duy trì từ lâu
- Công ty cho biết yêu cầu này bao gồm các cuộc hội thoại cá nhân của hàng chục triệu người không liên quan đến vụ kiện, và đã đề nghị tòa bác bỏ yêu cầu đó
Các yêu cầu tương tự trong quá khứ và cách ứng phó
- Trước đây, The New York Times cũng từng cố gắng hạn chế chức năng xóa hội thoại của người dùng, nhưng OpenAI đã ngăn chặn và khôi phục quyền xóa
- Sau đó, đã có yêu cầu nộp 1,4 tỷ bản ghi hội thoại, nhưng OpenAI đã từ chối
- OpenAI nêu rõ rằng “các cuộc hội thoại riêng tư của người dùng thuộc về chính họ và không nên trở thành vật hy sinh trong tranh chấp về quyền truy cập nội dung trực tuyến”
Các biện pháp tăng cường bảo mật và quyền riêng tư của OpenAI
- OpenAI là một trong những tổ chức bị tấn công nhiều nhất thế giới, và đang đầu tư quy mô lớn để bảo vệ dữ liệu trước tội phạm có tổ chức và các nỗ lực tấn công mạng được nhà nước hậu thuẫn
- Trong lộ trình sắp tới có tính năng mã hóa phía máy khách (client-side encryption), với mục tiêu ngay cả OpenAI cũng không thể truy cập tin nhắn của người dùng
- Công ty đang thiết kế hệ thống phát hiện an toàn tự động, để chỉ chuyển một cách hạn chế tới nhóm rà soát con người những trường hợp lạm dụng nghiêm trọng như đe dọa tính mạng, gây hại cho người khác hoặc rủi ro an ninh mạng
Chi tiết liên quan đến yêu cầu dữ liệu (tóm tắt FAQ)
- Phạm vi dữ liệu bị yêu cầu: 20 triệu cuộc hội thoại ChatGPT dành cho người dùng cá nhân được chọn ngẫu nhiên trong giai đoạn từ 12/2022 đến 11/2024
- Đối tượng không bị ảnh hưởng: ChatGPT Enterprise, ChatGPT Edu, ChatGPT Business (trước đây là Team) và khách hàng API không thuộc phạm vi này
- Biện pháp bảo vệ thông tin cá nhân: mọi cuộc hội thoại đều trải qua quy trình loại bỏ thông tin nhận dạng cá nhân (PII) và thông tin nhạy cảm như mật khẩu
- Quyền truy cập dữ liệu: chỉ một số nhân sự thuộc nhóm pháp lý và bảo mật của OpenAI cùng luật sư bên ngoài và nhóm cố vấn kỹ thuật phía The New York Times mới có thể truy cập
- Cách lưu trữ: dữ liệu được lưu tách biệt trong một hệ thống bảo mật riêng để đáp ứng nghĩa vụ pháp lý, không thể truy cập theo cách thông thường
Các cân nhắc pháp lý và quốc tế
- OpenAI cho biết đang thực hiện các biện pháp cần thiết để tuân thủ các quy định quốc tế về quyền riêng tư như GDPR, nhưng nhấn mạnh rằng yêu cầu từ The New York Times không phù hợp với tiêu chuẩn quyền riêng tư của công ty
- Công ty đang tiếp tục tranh chấp yêu cầu này thông qua quy trình pháp lý, và sẽ duy trì việc bảo vệ quyền riêng tư của người dùng là ưu tiên cao nhất ở mọi giai đoạn
- OpenAI cam kết trong tương lai sẽ cung cấp các cập nhật minh bạch về quyết định của tòa án và những thay đổi trong xử lý dữ liệu
Kế hoạch và tầm nhìn sắp tới
- OpenAI nhấn mạnh rằng khi AI càng được tích hợp sâu vào cuộc sống cá nhân, mức độ bảo mật và bảo vệ quyền riêng tư cũng phải được nâng cao tương ứng
- Công ty hướng tới một tương lai nơi những cuộc hội thoại AI riêng tư nhất của người dùng luôn được an toàn và giữ kín
- Trong ngắn hạn, OpenAI dự kiến sẽ nhanh chóng công bố các biện pháp tăng cường bảo mật và các biện pháp giảm thiểu tạm thời
- Về dài hạn, công ty đang thúc đẩy xây dựng khung bảo vệ kỹ thuật và pháp lý nhằm tạo ra môi trường AI đáng tin cậy
1 bình luận
Ý kiến Hacker News
Với tư cách nguyên đơn thì đây là yêu cầu có thể hiểu được, nhưng vụ kiện này có thể không chỉ giới hạn ở vấn đề bản quyền
Đúng hơn, vấn đề là tại sao OpenAI lại thu thập và lưu giữ nhiều dữ liệu hội thoại riêng tư đến vậy
Yêu cầu của NYT chỉ được dùng trong phạm vi thủ tục pháp lý, thông tin mật sẽ được che đi khi nộp, và sẽ bị tiêu hủy sau khi vụ kiện kết thúc
Trong khi đó, OpenAI lưu giữ dữ liệu vô thời hạn vì lợi ích thương mại
Thậm chí cũng không rõ họ tích lũy loại dữ liệu này để phục vụ mô hình kinh doanh nào. Tôi cho rằng đây là hành vi thu thập dữ liệu bừa bãi
Tài liệu liên quan: Lệnh của tòa 1, Lệnh của tòa 2
Tham khảo bài viết của Ars Technica
Vấn đề là ngay cả khi người dùng bấm nút xóa thì dữ liệu vẫn phải được giữ lại vì lệnh của tòa
Cuối cùng tôi nghĩ nguyên nhân gốc rễ vẫn là vi phạm bản quyền. Việc NYT đấu tranh là đúng
Tóm tắt phán quyết liên quan
Họ cho rằng không đóng góp gì cho văn hóa mở mà vẫn muốn hưởng mọi sự chú ý là đạo đức giả
Họ cho rằng những lời hứa về AGI là dối trá và chỉ khiến mọi người thêm bất an
Nhưng việc những cuộc trò chuyện riêng tư của mọi người rơi vào tay luật sư NYT vẫn khiến tôi khó chịu
Vì NYT chưa chứng minh được thiệt hại rõ ràng nên trông khá giống một cuộc “fishing expedition”
Họ ví nó giống như yêu cầu hồ sơ bán hàng của một hiệu sách bán sách lậu
Cũng nói rằng người dùng khó có thể khẳng định quyền riêng tư theo pháp lý trong trường hợp này
Điểm cốt lõi là việc huấn luyện AI có phải vi phạm bản quyền hay không, và có phải fair use hay không
Họ cũng chỉ ra rằng OpenAI đã phản hồi thiếu thiện chí trong quá trình tố tụng
PDF đơn khởi kiện của NYT
Bên nào có thể phớt lờ bản quyền sẽ có lợi thế cạnh tranh
Chỉ là mọi người chưa đọc mà thôi
ESPN vs YouTube, giờ thì OpenAI vs NYT
Tôi không muốn ủng hộ bên nào cả. Nhưng nếu OpenAI thật sự không xuất nguyên văn câu chữ của NYT, thì họ không có lý do gì phải sợ bị kiểm chứng
Tôi đề xuất xác minh bởi bên thứ ba trung lập — một bên thứ ba so sánh bài báo NYT với log ChatGPT, còn hai bên không trực tiếp nhìn thấy bản gốc của nhau
Cuối cùng chỉ còn cách mỗi bên đưa chuyên gia của mình ra tòa để đấu độ tin cậy
Dù vậy, tôi vẫn hy vọng vụ việc này sẽ khiến mọi người nhận ra rủi ro của việc chia sẻ quá mức dữ liệu cá nhân
Trên thực tế, theo điều khoản dịch vụ thì OpenAI sở hữu và khai thác dữ liệu đó
Kiểu truyền thông bóp méo ý đồ của NYT cũng khó mà tin được
Tôi nghĩ đây là hệ quả do họ tự chuốc lấy
OpenAI thì hoàn toàn không có cảm giác trách nhiệm như vậy
Nếu vậy thì tại sao giờ lại lấy quyền riêng tư ra làm lá chắn?
Những phát ngôn như vậy thường là dấu hiệu của thái độ phòng thủ
Giờ mới lo về quyền riêng tư thì thật mâu thuẫn
Về mặt kỹ thuật có vẻ làm được, nhưng có lẽ họ chọn lưu dưới dạng plaintext để phục vụ phân tích nội bộ
Nếu nhân viên có thể truy cập thì điều đó còn khó chịu hơn cả việc luật sư NYT nhìn thấy
Tôi nghĩ cũng chẳng khác mấy việc điều tra viên mở thư ra xem theo lệnh của tòa