1 điểm bởi GN⁺ 2025-06-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong vụ kiện do The New York Times cùng các nguyên đơn khác đưa ra, phía nguyên đơn yêu cầu OpenAI lưu giữ vô thời hạn dữ liệu ChatGPT và API của người dùng
  • OpenAI cho rằng yêu cầu này xung đột với cam kết về quyền riêng tư của người dùng, nên đang tích cực phản đối và kháng cáo lệnh của tòa
  • Lệnh lưu giữ lần này chỉ áp dụng với người dùng ChatGPT Free, Plus, Pro, Team và API thông thường; người dùng Enterprise/Edu và ZDR API không bị ảnh hưởng
  • Ngay cả dữ liệu đã xóa cũng phải được lưu giữ phục vụ pháp lý trong một hệ thống riêng, và quyền truy cập chỉ giới hạn cho đội ngũ pháp lý và bảo mật của OpenAI với quyền hạn nghiêm ngặt
  • OpenAI cho biết sẽ đặt việc bảo vệ quyền riêng tư lên hàng đầu và tiếp tục ứng phó trong mọi thủ tục pháp lý để bảo vệ người dùng

How we’re responding to The New York Times’ data demands in order to protect user privacy

  • Các nguyên đơn, bao gồm The New York Times, trong vụ kiện chống lại OpenAI đã yêu cầu lưu giữ vô thời hạn dữ liệu của khách hàng ChatGPT tiêu dùng và API
  • Yêu cầu này về bản chất xung đột với các nguyên tắc quyền riêng tư mà OpenAI đã cam kết với người dùng, đồng thời làm suy yếu tiêu chuẩn ngành và mức độ bảo vệ quyền riêng tư
  • OpenAI cho rằng yêu cầu này là quá mức cần thiết, và đang tiến hành thủ tục kháng cáo với quyền riêng tư của người dùng là ưu tiên hàng đầu

Câu hỏi và trả lời chính

1. Lý do yêu cầu của The New York Times và các nguyên đơn khác

  • Khi khởi kiện OpenAI, The New York Times đã yêu cầu tòa án buộc lưu giữ vô thời hạn toàn bộ nội dung của người dùng, dựa trên suy đoán rằng có thể tìm được bằng chứng có lợi cho vụ kiện
  • OpenAI cho rằng yêu cầu này không chỉ đe dọa quyền riêng tư của người dùng mà còn không mang lại nhiều ích lợi thực chất cho việc giải quyết vụ kiện
  • Người dùng ChatGPT Free, Plus, Pro, Team và API thông thường có thể bị ảnh hưởng, nhưng khách hàng ChatGPT Enterprise, ChatGPT Edu và Zero Data Retention API không thuộc diện áp dụng

2. Phản ứng pháp lý của OpenAI

  • Ban đầu, OpenAI đã nộp ý kiến phản đối, cho rằng yêu cầu lưu giữ toàn bộ dữ liệu đầu ra là quá mức và xung đột với chính sách quyền riêng tư
  • OpenAI đã được xác nhận trước Magistrate Judge rằng ChatGPT Enterprise là ngoại lệ
  • Công ty hiện đang kháng cáo bổ sung lên District Court Judge

3. Khách hàng doanh nghiệp có hợp đồng Zero Data Retention

  • Khách hàng doanh nghiệp đang dùng Zero Data Retention API không bị ảnh hưởng vì dữ liệu đầu vào và đầu ra không được lưu trữ

4. Khi xóa dữ liệu ChatGPT

  • Tài khoản tiêu dùng thông thường có thể chịu ảnh hưởng của vụ kiện, nhưng khách hàng Enterprise, Edu và người dùng Zero Data Retention API thì không bị ảnh hưởng

5. Cách lưu trữ dữ liệu và quyền truy cập

  • Dữ liệu thuộc phạm vi lệnh của tòa sẽ được lưu tách biệt trong một hệ thống bảo mật riêng
  • Dữ liệu đó không được sử dụng ngoài mục đích thực hiện nghĩa vụ pháp lý, và quyền truy cập chỉ giới hạn cho một số rất ít thành viên trong đội ngũ pháp lý và bảo mật của OpenAI với quyền hạn nghiêm ngặt

6. Khả năng chia sẻ dữ liệu ra bên ngoài

  • Dữ liệu được lưu giữ không tự động được chuyển cho The New York Times hay bất kỳ bên ngoài nào khác
  • Nếu tiếp tục có yêu cầu công bố thông tin, OpenAI sẽ chủ động ứng phó để bảo vệ quyền riêng tư

7. Thời gian lưu giữ dữ liệu và thời điểm kết thúc

  • Hiện tại, theo lệnh của tòa, việc lưu giữ vô thời hạn dữ liệu người dùng đang bị áp đặt, nhưng OpenAI đang tích cực có hành động pháp lý để phản đối
  • Nếu ứng phó pháp lý thành công, công ty có thể quay lại chính sách lưu giữ dữ liệu hiện hành

8. Có vi phạm các luật về quyền riêng tư như GDPR hay không

  • OpenAI vẫn tuân thủ nghĩa vụ pháp lý theo lệnh của tòa, nhưng yêu cầu của The New York Times xung đột với các tiêu chuẩn quyền riêng tư của OpenAI
  • Công ty đang tiếp tục kháng cáo và điều chỉnh chính sách để ứng phó

9. Có thay đổi chính sách huấn luyện mô hình hay không

  • Dữ liệu của khách hàng doanh nghiệp về mặc định không được dùng để huấn luyện mô hình, và lệnh lần này không làm thay đổi chính sách đó
  • Khách hàng tiêu dùng có thể tự kiểm soát việc dữ liệu của mình có được dùng cho huấn luyện hay không thông qua các cài đặt cá nhân, và lệnh này không ảnh hưởng đến điều đó

10. Cung cấp thông tin cho người dùng và tính minh bạch

  • OpenAI cam kết liên tục cung cấp thông tin và duy trì tính minh bạch
  • Nếu có thay đổi trong lệnh của tòa hoặc phát sinh tác động đến dữ liệu người dùng, công ty sẽ nhanh chóng thông báo

11. Tóm tắt chính sách lưu giữ dữ liệu

  • ChatGPT (Free/Plus/Pro): khi xóa cuộc trò chuyện hoặc tài khoản, dữ liệu sẽ bị xóa khỏi tài khoản ngay lập tức và dự kiến bị xóa vĩnh viễn trong vòng 30 ngày
  • ChatGPT Team: mỗi người dùng có thể kiểm soát việc lưu giữ cuộc trò chuyện; dữ liệu đã xóa hoặc không được lưu sẽ bị xóa trong vòng 30 ngày (trừ nghĩa vụ pháp lý)
  • ChatGPT Enterprise/Edu: quản trị viên workspace quản lý thời gian lưu giữ dữ liệu; các cuộc trò chuyện đã xóa sẽ bị xóa trong vòng 30 ngày (trừ nghĩa vụ pháp lý)
  • API: người dùng doanh nghiệp có thể tự chọn thời gian và cách lưu giữ để quản lý trạng thái ứng dụng; dữ liệu đầu vào và đầu ra của API sẽ bị xóa khỏi log sau 30 ngày (trừ nghĩa vụ pháp lý)
  • Zero Data Retention API: dữ liệu đầu vào/đầu ra vốn dĩ không được lưu trữ ngay từ đầu

Kết luận

  • OpenAI đặt niềm tin của người dùng và việc bảo vệ quyền riêng tư làm ưu tiên chính sách hàng đầu, đồng thời tiếp tục ứng phó với các thách thức pháp lý
  • Một số nhóm khách hàng nhất định như doanh nghiệp, giáo dục và ZDR API không bị ảnh hưởng, còn dữ liệu của người dùng tiêu dùng phổ thông đang được áp dụng các biện pháp bảo vệ riêng
  • Công ty sẽ minh bạch thông tin về diễn biến pháp lý và chính sách bảo vệ dữ liệu người dùng

1 bình luận

 
GN⁺ 2025-06-07
Ý kiến Hacker News
  • Sẽ thực sự rất hữu ích nếu OpenAI cho phép chính thức đăng ký tùy chọn Zero Data Retention (ZDR). Trong nhiều bối cảnh doanh nghiệp, hoàn toàn không có lý do gì để lưu cả log yêu cầu. Tài liệu nhiều lần nói rằng có thể đăng ký, nhưng trên thực tế thì cứ như bị phớt lờ. Tôi hiểu việc phải được phê duyệt và có rào cản gia nhập, nhưng trên thực tế có cảm giác như họ chỉ nhắc đến ZDR cho mục đích marketing. Tôi đã đăng ký nhiều lần nhưng không nhận được bất kỳ phản hồi nào. Xem các bài trên diễn đàn thì có vẻ đây là chuyện rất phổ biến
    • Tôi hiểu là cần có quy trình phê duyệt, nhưng tôi không hiểu vì sao mặc định lại không phải là bảo vệ quyền riêng tư hoặc không lưu lịch sử. Rất nhiều người dùng nghi ngờ các cam kết quyền riêng tư của OpenAI. Họ nghĩ đầu vào có thể đang bị lưu, phân tích và chia sẻ. Nếu thực sự cần quyền riêng tư, thì chỉ có LLM chạy cục bộ mới là giải pháp thật sự
    • Theo hiểu biết của tôi thì log mặc định được giữ trong 30 ngày để xử lý lỗi. Cũng có thể yêu cầu lưu 0 ngày. Nội dung này có ghi trong tài liệu chính thức
    • Về bản chất, thứ còn thiếu ở đây là tiền
    • Có chính sách ghi rằng: "Đối với một số trường hợp sử dụng nhất định, bạn có thể yêu cầu zero data retention (ZDR). Để biết thêm chi tiết về xử lý dữ liệu, hãy xem trang Platform Docs" trong Chính sách Quyền riêng tư của OpenAI. 1) Có thể yêu cầu không đồng nghĩa với việc chắc chắn được phê duyệt. 2) Mặc định mới là điều quan trọng. Mặc định của Thung lũng Silicon không phải là quyền riêng tư mà là tối đa hóa doanh thu. OpenAI cũng vậy: mặc định là lưu dữ liệu, thậm chí lưu cả đầu ra. Điều đó khiến người ta khó mà nghiêm túc tin vào bản ghi nhớ của OpenAI phản đối lệnh lưu giữ dữ liệu
    • Họ liên tục viết rằng có thể đăng ký chính thức, nhưng tôi nghi ngờ trên thực tế đó chỉ là câu marketing hoàn toàn không hoạt động
  • Dữ liệu được bảo vệ theo lệnh tòa được lưu trong hệ thống tách biệt và không thể bị truy cập ngoài việc thực hiện nghĩa vụ pháp lý. Chỉ một số ít thành viên đã qua kiểm toán trong đội pháp lý và bảo mật của OpenAI mới có thể truy cập theo nghĩa vụ pháp lý. Nếu dữ liệu bị rò rỉ thì OpenAI phải chịu trách nhiệm. Nhưng ngôn ngữ xuyên suốt bài viết này, đặc biệt là việc lặp đi lặp lại rằng vụ kiện là “vô căn cứ”, đang làm giảm độ tin cậy, khiến nó giống một bài quảng bá hơn là thứ tạo được niềm tin
    • Vụ này đã lan thành một chu kỳ tin tức, và chuyện các cuộc trò chuyện đã xóa thực ra không bị xóa vì vụ kiện đã trở thành vấn đề nóng, nên phía OpenAI cần phản ứng để trấn an khách hàng
    • Nếu trong quá trình tìm kiếm, dữ liệu liên quan đến vụ kiện được xác định là có liên hệ với vấn đề đó, thì dữ liệu ấy ít nhất sẽ có thể bị truy cập bởi cả hai bên và tòa án
    • Từ góc nhìn của OpenAI thì đương nhiên họ phải nêu quan điểm của mình. Việc họ gọi đây là “vụ kiện vô căn cứ” là điều dễ hiểu
    • Tôi là người dùng OpenAI. Nó hữu ích nên tôi đang trả tiền để dùng. Tôi không muốn dữ liệu của mình bị lưu vượt quá phạm vi đã nêu trong điều khoản sử dụng và chính sách quyền riêng tư. Nếu hội đồng xét xử không hiểu rằng nghĩa vụ lưu giữ của OpenAI đang đe dọa quyền riêng tư của hàng chục triệu người dùng, thì theo tôi họ không phù hợp
    • Nguyên tắc đầu tiên của bảo mật dữ liệu là hệ thống vốn không hoàn hảo, nên cách bảo vệ duy nhất là ngay từ đầu đừng lưu dữ liệu. Nếu xảy ra rò rỉ dữ liệu thì OpenAI phải chịu trách nhiệm. Một công ty hứa hẹn về bảo mật dữ liệu thì либо không đủ năng lực, либо không thành thật
  • Tôi tự hỏi liệu đội pháp lý của OpenAI có thể áp dụng cách chỉ lưu thông tin mờ như hash ssdeep hay các content chunk thay vì lịch sử chat thực tế hay không. Nếu phạm vi dữ liệu NYT yêu cầu là hạn chế và nội dung có vấn đề được tạo qua API, thì có thể so sánh bằng giá trị hash. Dĩ nhiên, lý tưởng nhất vẫn là không lưu gì cả, nhưng xét tới một lệnh tòa quá rộng thì đây có thể là một sự thỏa hiệp thực tế. Ngoài ra có thể tham khảo thêm tài liệu về ssdeep, content chunk
    • Cần nhấn mạnh rằng giải thích những thuật ngữ kỹ thuật kiểu này cho luật sư hay thẩm phán trong tòa là cực kỳ khó
    • Bản thân việc chủ động tìm cách né tránh tinh thần của phán quyết đã là một lựa chọn rất tệ
    • Tôi không tìm thấy tài liệu liên quan đến lệnh của tòa, nhưng có vẻ thẩm phán đã hỏi OpenAI liệu có thể phân loại dữ liệu hay không, còn OpenAI thì hoàn toàn không trả lời, không phải chỉ từ chối mà là phớt lờ. Có vẻ OpenAI không có ý chí chủ động tìm giải pháp mà chỉ đang tận dụng chiến lược PR
    • Dù những đề xuất kỹ thuật như vậy có nghe hay thế nào trong whitepaper đi nữa, thực tế là mọi cuộc trò chuyện ChatGPT vẫn đang được lưu trong S3 và được đủ loại tổ chức sao lưu định kỳ. Đó là một cơ sở dữ liệu văn bản đầy thông tin nhạy cảm nội bộ giống như email. Tôi hoàn toàn không tin vào những “cam kết” của lãnh đạo
  • Trước đây nếu việc lộ lịch sử trình duyệt khiến tôi thấy rất xấu hổ, thì giờ tôi nghĩ việc lộ lịch sử trò chuyện với LLM còn nghiêm trọng hơn nhiều. Nó không chỉ là cuộc trò chuyện riêng tư với người khác, mà là bản ghi nguyên vẹn về con người thật của tôi khi ở một mình, không che giấu gì
    • Cũng có người phản ứng kiểu: rốt cuộc bạn hỏi gì mà lại mong có bí mật với LLM vậy
  • Thảo luận liên quan: OpenAI slams court order to save all ChatGPT logs, including deleted chats (tháng 6 năm 2025, 878 bình luận)
  • Tôi thấy việc đổ lỗi cho NYT là kỳ lạ. Nếu NYT có căn cứ để kiện thì tòa sẽ chấp thuận, còn nếu không có thì OpenAI sẽ thắng trước tòa. Việc dùng lệnh tòa như một công cụ để chỉ trích NYT là rất lạ
    • NYT đang tận dụng điểm yếu của hệ thống pháp luật Mỹ, tức thủ tục discovery quá rộng vốn gần như không quan tâm đến quyền riêng tư cá nhân. Có thể là vì lợi ích của họ, nhưng lần này tôi không thể không đứng về phía OpenAI
    • Có vẻ NYT đổi lập trường tùy tình huống. Trước đây họ từng số hóa và bán cơ sở dữ liệu bài viết của cộng tác viên, đồng thời lập luận theo hướng làm suy yếu bản quyền. Còn bây giờ thì họ xem bản quyền là tối thượng. Tham khảo thêm bài viết về sự thay đổi chính sách của NYT khá thú vị
    • NYT cũng là một bên trong vụ việc. Việc họ gọi vụ kiện là “vô căn cứ” là chính đáng
    • Nếu NYT thực sự không có căn cứ mà tòa vẫn chấp thuận, thì khi đó cũng là chuyện kỳ lạ
    • Hợp pháp không có nghĩa là những người lạm dụng hệ thống pháp luật được miễn trách
  • Trong phần “Vì sao chuyện này xảy ra?” của OpenAI có một phần giải thích bị thiếu. Nó mô tả như thể mọi người đang nổi giận vô cớ, nhưng từ góc nhìn khách hàng thì chuyện này thực sự khó chấp nhận
  • Họ hướng dẫn rằng trong “Cài đặt” người dùng có thể kiểm soát việc dữ liệu của mình có được dùng để huấn luyện mô hình hay không, nhưng thực tế lại có một dark pattern là nút gạt “Cải thiện mô hình cho mọi người” không có tác dụng gì, và người dùng phải tự đăng ký trực tiếp qua một cổng không hiển thị nên rất khó phát hiện. Điều đó khiến nhiều người dùng hiểu sai về cách nó thực sự hoạt động
    • Có người yêu cầu giải thích chi tiết hơn
    • Có người yêu cầu giải thích cụ thể cho tuyên bố rằng nút gạt “Cải thiện mô hình cho mọi người” thực ra không có tác dụng, kèm liên kết đến cổng đó
  • Tôi luôn mặc định rằng mọi thứ gửi tới API của bên thứ ba đều bị lưu vĩnh viễn. Nghĩ ngược lại mới là ngây thơ hơn. Nó ngây thơ chẳng khác gì tin rằng ứng dụng không theo dõi web
    • Giả định điều tệ nhất là khôn ngoan, nhưng chỉ cam chịu điều tệ nhất mà không hề phản kháng thì lại là ngu ngốc
    • Chủ nghĩa hư vô về quyền riêng tư (privacy nihilism) suy cho cùng cũng là một lựa chọn tự thân
  • Tôi không đồng ý với tuyên bố chính thức của OpenAI rằng “niềm tin và quyền riêng tư là giá trị cốt lõi, và chúng tôi cung cấp công cụ quản lý dữ liệu cùng tùy chọn xóa”. Họ quảng bá rằng nếu trả thêm tiền thì sẽ có quyền riêng tư, nhưng ngay cả người dùng Pro cũng không có được “quyền riêng tư”. Dù đã nhiều lần yêu cầu xóa thông tin, họ vẫn từ chối xóa dữ liệu cá nhân trong mô hình và dữ liệu huấn luyện
    • Mọi người dùng đều có thể opt-out. ChatGPT Plus, Pro, Free đều mặc định bật chia sẻ dữ liệu, nhưng ai cũng có thể tắt việc dùng dữ liệu cho huấn luyện. Chỉ Enterprise là mặc định tắt sẵn. Tài liệu tham khảo: What if I want to keep my history on but disable model training?
    • Câu chữ chính thức đó chẳng qua chỉ là kiểu “trustwashing” của doanh nghiệp. Toàn là thuật ngữ mơ hồ, ngôn từ làm người ta dễ chịu, và những giá trị sáo rỗng