1 điểm bởi GN⁺ 2025-11-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • OpenAI coi việc bảo vệ dữ liệu hội thoại cá nhân của ChatGPT, dịch vụ được hơn 800 triệu người sử dụng, là ưu tiên hàng đầu
  • The New York Times đã yêu cầu tòa án buộc cung cấp 20 triệu bản ghi hội thoại ChatGPT cá nhân, và điều này bị chỉ ra là hành vi xâm phạm quyền riêng tư của người dùng
  • OpenAI trước đây cũng từng từ chối yêu cầu 1,4 tỷ bản ghi hội thoại, và lần này tiếp tục thúc đẩy bảo vệ dữ liệu người dùng thông qua quy trình pháp lý
  • Công ty đang phát triển các tính năng bảo mật nâng cao như mã hóa phía máy khách và xây dựng hệ thống tự động hóa nhằm giảm thiểu truy cập vào dữ liệu nhạy cảm
  • Vụ việc này được xem là một bước ngoặt quan trọng xoay quanh tiêu chuẩn bảo vệ dữ liệu cá nhân trong kỷ nguyên AI

Yêu cầu dữ liệu từ The New York Times và lập trường của OpenAI

  • The New York Times, trong quá trình kiện tụng với OpenAI, đã yêu cầu nộp 20 triệu bản ghi hội thoại của người dùng ChatGPT
    • Họ cho rằng lý do là để “xác minh liệu người dùng có dùng ChatGPT để vượt paywall của The New York Times hay không”
  • OpenAI cho biết yêu cầu này vi phạm các nguyên tắc bảo vệ quyền riêng tư và thực hành bảo mật đã được duy trì từ lâu
  • Công ty cho biết yêu cầu này bao gồm các cuộc hội thoại cá nhân của hàng chục triệu người không liên quan đến vụ kiện, và đã đề nghị tòa bác bỏ yêu cầu đó

Các yêu cầu tương tự trong quá khứ và cách ứng phó

  • Trước đây, The New York Times cũng từng cố gắng hạn chế chức năng xóa hội thoại của người dùng, nhưng OpenAI đã ngăn chặn và khôi phục quyền xóa
  • Sau đó, đã có yêu cầu nộp 1,4 tỷ bản ghi hội thoại, nhưng OpenAI đã từ chối
  • OpenAI nêu rõ rằng “các cuộc hội thoại riêng tư của người dùng thuộc về chính họ và không nên trở thành vật hy sinh trong tranh chấp về quyền truy cập nội dung trực tuyến”

Các biện pháp tăng cường bảo mật và quyền riêng tư của OpenAI

  • OpenAI là một trong những tổ chức bị tấn công nhiều nhất thế giới, và đang đầu tư quy mô lớn để bảo vệ dữ liệu trước tội phạm có tổ chức và các nỗ lực tấn công mạng được nhà nước hậu thuẫn
  • Trong lộ trình sắp tới có tính năng mã hóa phía máy khách (client-side encryption), với mục tiêu ngay cả OpenAI cũng không thể truy cập tin nhắn của người dùng
  • Công ty đang thiết kế hệ thống phát hiện an toàn tự động, để chỉ chuyển một cách hạn chế tới nhóm rà soát con người những trường hợp lạm dụng nghiêm trọng như đe dọa tính mạng, gây hại cho người khác hoặc rủi ro an ninh mạng

Chi tiết liên quan đến yêu cầu dữ liệu (tóm tắt FAQ)

  • Phạm vi dữ liệu bị yêu cầu: 20 triệu cuộc hội thoại ChatGPT dành cho người dùng cá nhân được chọn ngẫu nhiên trong giai đoạn từ 12/2022 đến 11/2024
  • Đối tượng không bị ảnh hưởng: ChatGPT Enterprise, ChatGPT Edu, ChatGPT Business (trước đây là Team) và khách hàng API không thuộc phạm vi này
  • Biện pháp bảo vệ thông tin cá nhân: mọi cuộc hội thoại đều trải qua quy trình loại bỏ thông tin nhận dạng cá nhân (PII)thông tin nhạy cảm như mật khẩu
  • Quyền truy cập dữ liệu: chỉ một số nhân sự thuộc nhóm pháp lý và bảo mật của OpenAI cùng luật sư bên ngoài và nhóm cố vấn kỹ thuật phía The New York Times mới có thể truy cập
  • Cách lưu trữ: dữ liệu được lưu tách biệt trong một hệ thống bảo mật riêng để đáp ứng nghĩa vụ pháp lý, không thể truy cập theo cách thông thường

Các cân nhắc pháp lý và quốc tế

  • OpenAI cho biết đang thực hiện các biện pháp cần thiết để tuân thủ các quy định quốc tế về quyền riêng tư như GDPR, nhưng nhấn mạnh rằng yêu cầu từ The New York Times không phù hợp với tiêu chuẩn quyền riêng tư của công ty
  • Công ty đang tiếp tục tranh chấp yêu cầu này thông qua quy trình pháp lý, và sẽ duy trì việc bảo vệ quyền riêng tư của người dùng là ưu tiên cao nhất ở mọi giai đoạn
  • OpenAI cam kết trong tương lai sẽ cung cấp các cập nhật minh bạch về quyết định của tòa án và những thay đổi trong xử lý dữ liệu

Kế hoạch và tầm nhìn sắp tới

  • OpenAI nhấn mạnh rằng khi AI càng được tích hợp sâu vào cuộc sống cá nhân, mức độ bảo mật và bảo vệ quyền riêng tư cũng phải được nâng cao tương ứng
  • Công ty hướng tới một tương lai nơi những cuộc hội thoại AI riêng tư nhất của người dùng luôn được an toàn và giữ kín
  • Trong ngắn hạn, OpenAI dự kiến sẽ nhanh chóng công bố các biện pháp tăng cường bảo mật và các biện pháp giảm thiểu tạm thời
  • Về dài hạn, công ty đang thúc đẩy xây dựng khung bảo vệ kỹ thuật và pháp lý nhằm tạo ra môi trường AI đáng tin cậy

1 bình luận

 
GN⁺ 2025-11-13
Ý kiến Hacker News
  • Có tin rằng New York Times đã yêu cầu OpenAI nộp 20 triệu bản ghi hội thoại ChatGPT
    Với tư cách nguyên đơn thì đây là yêu cầu có thể hiểu được, nhưng vụ kiện này có thể không chỉ giới hạn ở vấn đề bản quyền
    Đúng hơn, vấn đề là tại sao OpenAI lại thu thập và lưu giữ nhiều dữ liệu hội thoại riêng tư đến vậy
    Yêu cầu của NYT chỉ được dùng trong phạm vi thủ tục pháp lý, thông tin mật sẽ được che đi khi nộp, và sẽ bị tiêu hủy sau khi vụ kiện kết thúc
    Trong khi đó, OpenAI lưu giữ dữ liệu vô thời hạn vì lợi ích thương mại
    Thậm chí cũng không rõ họ tích lũy loại dữ liệu này để phục vụ mô hình kinh doanh nào. Tôi cho rằng đây là hành vi thu thập dữ liệu bừa bãi
    • Thực tế, điều tòa án ra lệnh không phải là “thu thập” dữ liệu mà là bảo toàn (preserve) dữ liệu đã được lưu giữ sẵn
      Tài liệu liên quan: Lệnh của tòa 1, Lệnh của tòa 2
    • Nhưng có người khác lại cho rằng đây thực chất là lệnh của tòa buộc phải thu thập dữ liệu
      Tham khảo bài viết của Ars Technica
    • Lý do OpenAI lưu các cuộc trò chuyện là rất rõ ràng. Vì họ cung cấp tính năng lịch sử hội thoại trong giao diện ChatGPT
      Vấn đề là ngay cả khi người dùng bấm nút xóa thì dữ liệu vẫn phải được giữ lại vì lệnh của tòa
    • Cũng như Google Photos cần lưu ảnh, ChatGPT cũng phải lưu lịch sử trò chuyện. Đây là tính năng cốt lõi của sản phẩm
    • Nếu từng dùng ChatGPT, bạn sẽ biết ở panel bên trái có hiển thị lịch sử hội thoại
  • Nếu OpenAI không sử dụng dữ liệu của NYT trái phép thì đã không xảy ra chuyện này
    Cuối cùng tôi nghĩ nguyên nhân gốc rễ vẫn là vi phạm bản quyền. Việc NYT đấu tranh là đúng
    • Nhưng người khác phản bác rằng đã có hai thẩm phán phán quyết huấn luyện AI là sử dụng hợp lý (fair use)
      Tóm tắt phán quyết liên quan
    • Cũng có ý kiến cho rằng dữ liệu nên được xem là tài sản công. Vấn đề là các công ty cụ thể lại đòi quyền sở hữu dữ liệu
    • Có người chỉ trích NYT là bên làm ô nhiễm internet bằng paywall khép kín
      Họ cho rằng không đóng góp gì cho văn hóa mở mà vẫn muốn hưởng mọi sự chú ý là đạo đức giả
    • Có người phẫn nộ chỉ trích Sam Altman và ban lãnh đạo OpenAI đã gieo rắc FUD để hút đầu tư
      Họ cho rằng những lời hứa về AGI là dối trá và chỉ khiến mọi người thêm bất an
  • Tôi không cho rằng OpenAI là “phe tốt”
    Nhưng việc những cuộc trò chuyện riêng tư của mọi người rơi vào tay luật sư NYT vẫn khiến tôi khó chịu
    Vì NYT chưa chứng minh được thiệt hại rõ ràng nên trông khá giống một cuộc “fishing expedition”
    • Tuy nhiên, người khác giải thích rằng NYT thực sự đã đưa ra bằng chứng đánh cắp nội dung, và để xác minh điều đó thì cần toàn bộ log
      Họ ví nó giống như yêu cầu hồ sơ bán hàng của một hiệu sách bán sách lậu
      Cũng nói rằng người dùng khó có thể khẳng định quyền riêng tư theo pháp lý trong trường hợp này
    • Một người khác nữa giải thích rằng NYT đang yêu cầu bồi thường thiệt hại theo luật định (statutorily defined damages) nên không cần chứng minh thiệt hại thực tế
      Điểm cốt lõi là việc huấn luyện AI có phải vi phạm bản quyền hay không, và có phải fair use hay không
      Họ cũng chỉ ra rằng OpenAI đã phản hồi thiếu thiện chí trong quá trình tố tụng
    • Có người phản bác rằng lập luận “NYT không chứng minh được thiệt hại” là sai, và bảo hãy đọc đơn khởi kiện (complaint) thực tế
      PDF đơn khởi kiện của NYT
    • Có người cho rằng cuộc chiến này rốt cuộc sẽ có lợi cho Trung Quốc và các mô hình mã nguồn mở
      Bên nào có thể phớt lờ bản quyền sẽ có lợi thế cạnh tranh
    • Thực ra điều khoản dịch vụ của đa số nền tảng đều ghi rõ rằng khi có lệnh tòa họ có thể nộp log
      Chỉ là mọi người chưa đọc mà thôi
  • Có vẻ dạo này các công ty thích viết thư ngỏ gửi khách hàng để đánh trận dư luận
    ESPN vs YouTube, giờ thì OpenAI vs NYT
    Tôi không muốn ủng hộ bên nào cả. Nhưng nếu OpenAI thật sự không xuất nguyên văn câu chữ của NYT, thì họ không có lý do gì phải sợ bị kiểm chứng
    Tôi đề xuất xác minh bởi bên thứ ba trung lập — một bên thứ ba so sánh bài báo NYT với log ChatGPT, còn hai bên không trực tiếp nhìn thấy bản gốc của nhau
    • Nhưng trên thực tế gần như không thể tìm được một tổ chức hoàn toàn trung lập
      Cuối cùng chỉ còn cách mỗi bên đưa chuyên gia của mình ra tòa để đấu độ tin cậy
    • Có người phản ứng đầy hoài nghi rằng cả hai tổ chức đều nằm dưới sự lãnh đạo mang tính độc đoán, nên cứ để họ tự đánh nhau
  • Có ý kiến cho rằng OpenAI khởi đầu là tổ chức phi lợi nhuận nhưng giờ đã hoàn toàn biến chất và chỉ đang tiến hành một chiến dịch PR (spin)
  • Cũng như khi Google nói về quyền riêng tư, các tuyên bố của OpenAI hoàn toàn không tạo cảm giác chân thành
    Dù vậy, tôi vẫn hy vọng vụ việc này sẽ khiến mọi người nhận ra rủi ro của việc chia sẻ quá mức dữ liệu cá nhân
    • Câu khẩu hiệu “dữ liệu của bạn là của bạn” nghe giống tuyên truyền hơn
      Trên thực tế, theo điều khoản dịch vụ thì OpenAI sở hữu và khai thác dữ liệu đó
      Kiểu truyền thông bóp méo ý đồ của NYT cũng khó mà tin được
    • Chính vì OpenAI đã cào dữ liệu toàn cầu một cách bừa bãi nên mới xảy ra tình huống này
      Tôi nghĩ đây là hệ quả do họ tự chuốc lấy
    • Trớ trêu là trước đây Google từng nhận ra vấn đề với lịch sử vị trí (Local Timeline) và chuyển sang cách lưu trữ cục bộ
      OpenAI thì hoàn toàn không có cảm giác trách nhiệm như vậy
    • Thậm chí có người còn nói thẳng rằng việc OpenAI phá sản sẽ có lợi cho thế giới hơn
  • Tôi không hiểu vì sao OpenAI lại ra tòa và nói rằng “chúng tôi không quan tâm đến dữ liệu người dùng”
    Nếu vậy thì tại sao giờ lại lấy quyền riêng tư ra làm lá chắn?
  • Ngay từ lúc nói “vụ kiện này là vô căn cứ”, mức độ tin cậy đã giảm đi
    Những phát ngôn như vậy thường là dấu hiệu của thái độ phòng thủ
  • Trớ trêu là ngay từ đầu OpenAI đã là công ty cào gom dữ liệu cá nhân để huấn luyện mô hình
    Giờ mới lo về quyền riêng tư thì thật mâu thuẫn
  • Tôi thắc mắc vì sao OpenAI không áp dụng mã hóa (encryption) khi lưu các cuộc trò chuyện
    Về mặt kỹ thuật có vẻ làm được, nhưng có lẽ họ chọn lưu dưới dạng plaintext để phục vụ phân tích nội bộ
    Nếu nhân viên có thể truy cập thì điều đó còn khó chịu hơn cả việc luật sư NYT nhìn thấy
    Tôi nghĩ cũng chẳng khác mấy việc điều tra viên mở thư ra xem theo lệnh của tòa
    • Nhưng trên thực tế có lẽ họ không đưa lại toàn bộ hội thoại vào mô hình cho mỗi yêu cầu, mà dùng hệ thống K-V cache để tiếp nối hiệu quả hơn
    • Hơn nữa, dù có mã hóa đi nữa thì nếu khóa vẫn do OpenAI nắm giữ họ cũng không thể tránh lệnh của tòa