1 điểm bởi GN⁺ 2023-07-10 | 1 bình luận | Chia sẻ qua WhatsApp
  • Diễn viên hài kiêm tác giả Sarah Silverman, cùng Christopher Golden và Richard Kadrey, đã lần lượt kiện OpenAI và Meta tại tòa án liên bang Hoa Kỳ
  • Vấn đề tranh chấp là liệu ChatGPTLLaMA có được huấn luyện trên các bộ dữ liệu bao gồm sách mà không có sự cho phép của tác giả hay không
  • Các nguyên đơn cho rằng những cuốn sách bị thu thập bất hợp pháp từ các shadow library như Bibliotik, Library Genesis và Z-Library đã được phát tán hàng loạt qua torrent
  • Trong vụ kiện OpenAI, các ví dụ ChatGPT tóm tắt Bedwetter, AraratSandman Slim được đưa ra như dấu hiệu cho thấy dữ liệu huấn luyện đã được sử dụng
  • Vụ kiện Meta liên hệ ThePile và EleutherAI trong số các nguồn dữ liệu huấn luyện của LLaMA, đặt vấn đề rằng sách của các nguyên đơn có thể đã nằm trong bộ dữ liệu được sử dụng

Đối tượng bị kiện và vấn đề cốt lõi

  • Sarah Silverman, Christopher Golden và Richard Kadrey đã lần lượt nộp đơn kiện OpenAI và Meta tại tòa án liên bang Hoa Kỳ
  • Trọng tâm của cả hai vụ kiện là liệu có vi phạm bản quyền hay không
  • Các nguyên đơn cho rằng ChatGPT của OpenAI và LLaMA của Meta đã được huấn luyện trên các bộ dữ liệu bao gồm tác phẩm của họ
  • Vấn đề then chốt nằm ở việc các bộ dữ liệu đó có được thu thập mà không có sự cho phép của các tác giả hay không

Tranh cãi về nguồn dữ liệu huấn luyện

  • Các vụ kiện cáo buộc rằng những bộ dữ liệu dùng để huấn luyện ChatGPT và LLaMA đã được thu thập bất hợp pháp
  • Các trang shadow library mà nguyên đơn chỉ ra gồm:
    • Bibliotik
    • Library Genesis
    • Z-Library
    • Các trang tương tự khác
  • Việc những cuốn sách này được cung cấp hàng loạt thông qua hệ thống torrent cũng bị coi là vấn đề

Các ví dụ được nêu trong vụ kiện OpenAI

  • Các nguyên đơn đưa ra làm bằng chứng những trường hợp ChatGPT tóm tắt sách của họ theo prompt
  • Những cuốn sách có trong bằng chứng gồm:
    • Bedwetter của Sarah Silverman
    • Ararat của Christopher Golden
    • Sandman Slim của Richard Kadrey
  • Đơn kiện cho rằng ChatGPT đã không tái hiện thông tin quản lý bản quyền có trong các tác phẩm đã xuất bản của nguyên đơn

Trọng tâm của vụ kiện Meta

  • Vụ kiện riêng nhằm vào Meta cho rằng sách của các nguyên đơn có thể được truy cập trong bộ dữ liệu huấn luyện LLaMA
  • LLaMA được giới thiệu là 4 mô hình AI mã nguồn mở mà Meta công bố vào tháng 2
  • Đơn kiện đặt vấn đề với ThePile, một trong các nguồn bộ dữ liệu huấn luyện được nêu trong bài báo về LLaMA của Meta
  • ThePile được nhắc đến là bộ dữ liệu do EleutherAI xây dựng

Phản ứng của các bên

  • Christopher Golden và Richard Kadrey từ chối bình luận về vụ kiện
  • Phía Sarah Silverman chưa phản hồi tính đến thời điểm đưa tin

1 bình luận

 
GN⁺ 2023-07-10
Ý kiến trên Hacker News
  • Có vẻ như họ đã nói thẳng rằng các nhà phát triển AI thực sự đã sử dụng các tác phẩm có bản quyền lấy từ các trang web sao chép sách lậu
    Chỉ cần tải xuống một cuốn sách từ những trang đó thôi cũng có thể bị kiện và bị phán là xâm phạm; nếu tải toàn bộ thì trách nhiệm bồi thường có thể lên tới hàng chục tỷ USD
    Nhưng có vẻ như các công ty như Google hay Facebook lại vận hành theo một bộ quy tắc khác. Giống như tình huống giết một người thì là kẻ giết người, nhưng giết một triệu người thì câu hỏi về chuyện đó lại trở thành “câu hỏi gài bẫy” và có thể đáp trả bằng sự phẫn nộ

    • Cũng nên dừng lại một chút để nghĩ rằng vì bản quyền, gần như mọi đứa trẻ đều không thể tiếp cận gần như mọi cuốn sách từng được viết ra cho tới nay
      Xóa bỏ bản quyền chỉ sau một đêm có thể là cú sốc quá lớn, nhưng càng giảm tác động của bản quyền thì thế giới sẽ càng tốt hơn và phát triển nhanh hơn nhiều
      Năm 2023, hơn một nửa dân số thế giới đã có điện thoại thông minh. Đáng để hình dung một thế giới nơi hơn một nửa nhân loại có thể tiếp cận mọi cuốn sách đã được số hóa và nuôi dạy con cái bằng những cuốn sách đó
    • Mô hình học máy từ lâu đã được huấn luyện trên dữ liệu có bản quyền
      ImageNet đầy rẫy hình ảnh có bản quyền, Clearview thì theo đúng nghĩa đen đã cào khuôn mặt từ Internet, và có lẽ còn những ví dụ cũ hơn nữa
      Tôi không biết tòa án Mỹ đã từng xem điều này là sử dụng hợp lý hay chưa, nhưng nếu chưa thì cuối cùng rất có thể họ cũng sẽ phán như vậy
    • Nói cho chính xác thì thứ khiến người ta bị kiện không phải là tải xuống mà là tải lên
      Trừ khi bạn chia sẻ lại, còn không thì có thể tải bao nhiêu tùy thích từ Z-Library hay BitTorrent
      Việc lập chỉ mục tài liệu có bản quyền cho mục đích tìm kiếm cũng an toàn, hoặc ít nhất là nằm trong vùng xám
    • Tôi tự hỏi trong thực tế chuyện “tải sách từ những trang đó sẽ bị kiện và bị phán xâm phạm” xảy ra thường xuyên đến mức nào
      Có thể bạn sẽ nhận được thông báo vi phạm, và nếu làm quá thì nhà cung cấp Internet có thể cắt dịch vụ, nhưng tôi chưa từng nghe chuyện ai đó thực sự bị kiện chỉ vì đơn giản là đã tải thứ gì đó xuống
    • Tôi khá thích việc phía AI trên thực tế đang hành xử như thể bản quyền không tồn tại
      Tôi rất mong tòa án sẽ công nhận trọng số LLM và bộ dữ liệu là “sử dụng hợp lý”, hay bất kỳ cơ sở pháp lý khôi hài nào khác
      Aaron Swartz đúng là một người trưởng thành theo đúng nghĩa
  • Rất có thể sách của Silverman có trong bộ dữ liệu Books2, nhưng câu này trong đơn kiện có vẻ rõ ràng là sai
    Thứ nhất, ngay cả khi trong quá trình huấn luyện mô hình chưa từng nhìn thấy một từ nào trong toàn văn cuốn sách đó, nó vẫn có thể đã học cách tóm tắt bằng cách đọc các bản tóm tắt công khai khác, chẳng hạn như trang Wikipedia
    Thứ hai, cũng không rõ liệu một mô hình chỉ nhìn thấy toàn văn cuốn sách mà không thấy phần mô tả hay tóm tắt nào về nó thì có thực sự tóm tắt tốt được hay không
    Để kiểm tra điều này, có thể chọn một cuốn nằm trên Project Gutenberg và, theo đơn kiện, thuộc Books1 nên đã có trong dữ liệu huấn luyện của ChatGPT, nhưng hầu như không có thảo luận trực tuyến. Nếu khả năng tóm tắt bắt nguồn từ việc học chính cuốn sách đó, thì các sách hiếm cũng phải được tóm tắt tốt ngang sách của Silverman
    Tôi chọn ngẫu nhiên The Ruby of Kishmoor, một cuốn được thêm vào Project Gutenberg năm 2003. ChatGPT dựa trên GPT-3.5 đã bịa ra một bản tóm tắt sai cả nhân vật chính, còn GPT-4 thì từ chối thử vì nói không biết câu chuyện đó
    Nếu lý do ChatGPT có thể tóm tắt sách của Silverman là vì chính cuốn đó có trong dữ liệu huấn luyện, thì tại sao nó lại không làm được tương tự với các cuốn khác?

    • Playground của GPT-4 tóm tắt The Ruby of Kishmoor như sau
      Prompt: hãy tóm tắt cuốn sách sau trên Project Gutenberg — The Ruby of Kishmoor
      Phản hồi nói đây là một truyện phiêu lưu ngắn của Howard Pyle, kể về Jonathan Rugg được một người lạ bí ẩn dẫn tới Caribbean để tìm kiếm báu vật quý giá mang tên Ruby of Kishmoor
      Sau khi tới Caribbean, anh ta biết viên ruby này bị một lời nguyền nghiêm trọng bao phủ, nhưng vì tò mò và khả năng giàu to nên vẫn chấp nhận mạo hiểm để truy tìm viên đá quý
      Sau nhiều thử thách, anh ta phát hiện ra viên ruby không phải nhờ một cuộc tìm kiếm có hệ thống mà hoàn toàn do may mắn. Bản tóm tắt nói câu chuyện khám phá lòng tham của con người và việc con người sẵn sàng đi xa tới đâu vì lợi ích vật chất, đồng thời pha trộn yếu tố phiêu lưu, siêu nhiên, lòng can đảm và suy ngẫm đạo đức, khiến người đọc phải nghĩ lại về giá trị thật của việc theo đuổi vật chất
      Cuối cùng, nó nói Jonathan trốn thoát cùng viên ruby nhưng phải trả giá rất lớn về mặt cá nhân, để lại câu hỏi về giá trị đích thực của cuộc sống và sự theo đuổi vật chất
    • Khi khởi kiện, để xác định phạm vi discovery, người ta thường trình bày tình tiết theo kiểu đó
      Tức là họ đang nói rằng có lý do để tin điều đó là thật, và giờ có thể trực tiếp kiểm chứng thông qua vụ kiện
    • Bạn nói “câu này trong đơn kiện rõ ràng là sai”, nhưng lập luận tiếp theo chỉ cho thấy rằng nó có thể không đúng mà thôi
      Tôi cũng thấy bài viết khác rồi nhờ GPT-4 tóm tắt The Ruby of Kishmoor; hỏi hai lần thì nó đã đưa ra bản tóm tắt. Tôi không biết cuốn đó nên không thể đánh giá độ chính xác, nhưng ít nhất phép thử đó coi như đã sụp đổ
      Việc giả định rằng ChatGPT đương nhiên đã tôn trọng bản quyền và sẽ không quét tài liệu có bản quyền khi chưa được phép nghe khá ngây thơ. Discovery có thể sẽ cho ra kết luận. Hẳn phải có log về những gì đã được quét
      Theo tôi, lập luận tốt hơn là đây là sử dụng hợp lý
    • Có thể chỉ là khác biệt về mức độ hiện diện. Tôi có nghe về Silverman, nhưng chưa từng nghe Ruby of Kishmoor
      Nhiều người đã bàn về Silverman hơn, và cũng có thể đã đăng nhiều bản tóm tắt hơn trên các trang cá nhân hay nơi khác
    • Tính có vẻ hợp lý chính là tiêu chuẩn để vượt qua đơn xin bác bỏ
      Nếu có vẻ hợp lý thì vụ việc có thể đi tới discovery, và discovery sẽ giúp tiến gần hơn tới sự thật
  • Vụ này khá thú vị ở chỗ nó phân biệt giữa tài liệu huấn luyện mà bất kỳ ai cũng có thể truy cập chỉ với trình duyệt web, ví dụ như blog cá nhân, và tài liệu huấn luyện “được thu thập bất hợp pháp và phát tán hàng loạt qua hệ thống torrent”
    Tôi không rõ vì sao sự phân biệt này lại phải quan trọng về mặt pháp lý đối với việc phân phối LLM, vì các tác giả blog cũng đâu có đồng ý
    Dù vậy, tôi vẫn thắc mắc liệu việc dùng torrent sao chép lậu để huấn luyện có vấn đề pháp lý riêng hay không. Việc phân phối LLM được huấn luyện trên tài liệu có bản quyền có thể được cho phép theo sử dụng hợp lý, nhưng liệu có cơ sở pháp lý nào để nói rằng muốn làm điều đó một cách hợp pháp thì trước tiên phải mua nội dung đang được bán không? Ví dụ, bài blog thì có thể truy cập miễn phí nên được, còn sách của Sarah Silverman thì chưa bao giờ được công khai miễn phí và cũng chưa trả tiền nên không được, kiểu như vậy
    Hay là tòa án hoàn toàn không quan tâm thứ gì đã được tạo ra như thế nào? Nếu ai đó trích một đoạn sách trong một bài viết freelance, người ta đâu có hỏi họ đã mua cuốn sách đó chưa, có chứng minh được là mượn từ thư viện hay bạn bè không, hay là đã tải một bản sao kỹ thuật số lậu

    • Cuối cùng thì có lẽ sẽ xuất hiện một khái niệm giấy phép mới, tương tự quyền đồng bộ hóa trong âm nhạc. Có thể gọi nó là “quyền huấn luyện”
      Việc bạn mua văn bản hay sao chép lậu nó sẽ không còn quan trọng. Cũng giống như hiện nay, khi trộn một audio track vào soundtrack phim, điều cốt lõi không phải là bạn đã mua track đó hay sao chép lậu nó
      Các công ty đại diện nghệ sĩ sẽ đàm phán gộp phí quyền huấn luyện cho những nhà sáng tạo nổi tiếng, còn các nhà sáng tạo sẽ nhận được một dòng doanh thu nhỏ do nhà cung cấp LLM cộng vào hạng mục phí API
      Quyền huấn luyện của các nhà sáng tạo độc lập sẽ vẫn tiếp tục bị xâm phạm tràn lan như bây giờ, còn các LLM thương mại lớn bị nghi ngờ hoặc bị chứng minh là vi phạm quyền huấn luyện thì sẽ bị bêu xấu hoặc bị kiện. Các LLM độc lập có khả năng sẽ vẫn ở dưới tầm radar
    • Một trong các yếu tố để đánh giá sử dụng hợp lý, và cho đến cách đây không lâu vẫn thường được xem là yếu tố quan trọng nhất, là tác động lên thị trường thương mại của tác phẩm gốc
      Vì vậy, nếu tác phẩm gốc trên thực tế không có thị trường thương mại thì khả năng tòa án công nhận sử dụng hợp lý sẽ cao hơn. Tuy nhiên, chỉ riêng việc một thứ không được bán sôi động là chưa đủ để kết luận
      Các giấy phép mã nguồn mở cũng được cung cấp miễn phí nhưng vẫn đứng vững ở cấp tòa phúc thẩm
    • Sao chép riêng tư đối với tác phẩm có bản quyền thì được phép, nhưng phân phối lại thì không được phép
      Điều này mở rộng đến mức nào dưới dạng phân phối lại thì chưa rõ. Cũng khó nói liệu có khác biệt lớn giữa mô hình này và một cỗ máy kiểu VCR có thể tái tạo nguyên tác chỉ bằng cách bấm nút hay không
    • Góc nhìn về AI có vẻ như đang tận dụng một trào lưu bị thổi phồng
      Nếu việc tải xuống tài liệu có bản quyền “sao chép lậu” là bất hợp pháp, thì đó là hành vi phạm pháp, còn phần còn lại hầu như không liên quan. Việc xem một bộ phim lậu không khiến bạn phạm pháp chỉ vì bạn kể lại cốt truyện cho người khác
    • Tôi hiểu rằng để viện dẫn sử dụng hợp lý thì bạn phải sở hữu hợp pháp tác phẩm đó. Tôi không phải luật sư
      Nếu tác phẩm đó về mặt hợp pháp chỉ có thể có được thông qua mua bán, thì đó phải là bản sao bạn đã tự mua hợp pháp, hoặc là bản sao nhận từ người đã mua như vậy. Ví dụ như được tặng
  • Tôi không chắc là chúng ta có đang đọc cùng một đơn kiện không
    Bài báo của Meta https://arxiv.org/pdf/2302.13971.pdf nói rằng họ đã đưa hai kho ngữ liệu sách vào tập dữ liệu huấn luyện. Một là Project Gutenberg chứa sách thuộc phạm vi công cộng, và cái còn lại là mục Books3 của ThePile
    Bài báo The Pile https://arxiv.org/abs/2101.00027 mô tả Books3 là một tập dữ liệu sách được dẫn xuất từ bản sao nội dung của tracker riêng Bibliotik
    Liên kết của Shawn Presser là https://twitter.com/theshawwn/status/1320282149329784833, và anh ấy mô tả Books3 là “all of bibliotik”, tức 196.640 cuốn sách được chuyển thành dạng .txt thuần
    Tôi không có thời gian và dung lượng để tải file 37GB đó xuống, nhưng nếu sách của Silverman có trong đó thì tôi nghĩ đây chẳng phải là một vụ thắng chắc sao
    LLaMA của Meta, theo như những gì họ dường như đã thừa nhận, đã được huấn luyện bằng sách sao chép lậu

    • Sách của Silverman có trong đó
      Kết quả của $ grep -i "Sarah Silverman" books3.list.txt cho ra 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt
      Cũng có một liên kết dành cho ai chỉ muốn xem danh sách file. Bản thân danh sách đó cũng là một file lớn: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
    • Vừa đúng mà cũng vừa không
      Nếu việc huấn luyện ban đầu đòi hỏi phải tạo một bản sao của kho ngữ liệu như tracker định nghĩa, thì gần như đây là một vụ rõ ràng có hành vi xâm phạm bản quyền trong chính quá trình đó
      Nhưng việc Silverman có thể nhận được biện pháp khắc phục nào ngoài giá mua cuốn sách, thậm chí có thể là mức bồi thường gấp ba, rốt cuộc vẫn phụ thuộc vào cùng một vấn đề: mối quan hệ giữa việc huấn luyện mô hình và bản quyền
      Ngoài ra còn có thêm câu hỏi liệu tình trạng bất hợp pháp của dữ liệu trước khi huấn luyện có làm thay đổi nhận định đó hay không
    • Có vẻ chúng ta không đọc cùng một thứ. Tự dưng lại lôi Google vào từ đâu đó
  • Có vẻ vấn đề này sẽ còn lớn hơn một số người nghĩ
    Có thể sẽ xuất hiện một thị trường cho dữ liệu huấn luyện sạch, không vướng các khiếu nại bản quyền tiềm ẩn. Kiểu chỉ dùng các tác phẩm thuộc phạm vi công cộng
    Rồi liệu chúng ta sẽ biết đó là AI khi thấy nó nói năng như một tác giả cuối thế kỷ 18 hay đầu thế kỷ 19?

    • Đây không hẳn là một vấn đề hoàn toàn mới; công cụ tìm kiếm cũng từng có vấn đề tương tự, và cũng có thể được xem là sử dụng mang tính chuyển đổi
      Tuy vậy, các mô hình sẵn sàng tái tạo toàn bộ văn bản có bản quyền có thể gặp rắc rối, và cũng có những điểm mới như mô hình bịa ra nội dung mang tính phỉ báng
      Dù vậy, có vẻ rất khó nhét vị thần đèn này trở lại vào chai. Có khả năng sẽ xuất hiện đồng thời nhiều vụ kiện, nhiều nỗ lực điều chỉnh, và những kiểu lạm dụng mới
    • Tôi hy vọng sẽ có một thị trường như vậy. Sẽ tốt nếu có một thị trường bán giấy phép huấn luyện cho tài sản trí tuệ
      Nó có thể trở thành một nguồn thu nhập thụ động nhỏ nhưng thực tế cho các nghệ sĩ, nhà văn, nhà thơ không ngại việc tài sản trí tuệ của mình được dùng trong tập huấn luyện
      Việc đàm phán riêng với từng người sáng tạo là không thực tế, nhưng với những nhóm lớn hơn như nhà xuất bản, phòng tranh, nghiệp đoàn, công đoàn có thể bảo đảm chất lượng thành viên thì có vẻ khả thi. Họ có thể cấp phép và chia doanh thu cho toàn bộ thành viên
      Việc các LLM hút sạch toàn bộ dữ liệu này mà không có sự đồng ý hay hợp đồng, thậm chí từ các trang torrent, rõ ràng là phi đạo đức. Những mô hình như vậy có thể mang lại lợi ích cho tất cả mọi người
    • Cho đến khi vấn đề này được giải quyết, dữ liệu huấn luyện sạch sẽ có giá trị như một biện pháp giảm thiểu rủi ro
      Sau khi được giải quyết, hoặc là nó sẽ hoàn toàn không còn là vấn đề, hoặc sẽ trở thành một bài toán đánh đổi chi phí - lợi ích dễ hiểu hơn nhiều
      Có thể đó sẽ là sự pha trộn giữa các tác phẩm thuộc phạm vi công cộng và các ấn phẩm của chính phủ Mỹ. Các ấn phẩm của chính phủ Mỹ về mặt phân loại thì không thuộc đối tượng bản quyền
    • Cũng có một thị trường cho các khu vực pháp lý sạch. Tức là những khu vực pháp lý không xem việc huấn luyện mạng nơ-ron là xâm phạm bản quyền
      Nhật Bản đã tự tuyên bố mình là một khu vực pháp lý như vậy
    • Có lẽ họ định nói thế kỷ 19 và 20 chứ không phải 18 và 19, nhưng dù sao cũng khá buồn cười
  • Tôi không phải luật sư, nhưng điều này có vẻ không phải là một ví dụ tốt để chứng minh hành vi xâm phạm
    Một bản tóm tắt chi tiết của cuốn sách nghe giống sử dụng mang tính chuyển đổi điển hình. Đặc biệt trong trường hợp của Silverman, càng lược bỏ các yếu tố nghệ thuật trong văn xuôi và rút cuốn sách thành “sự kiện”, thì nó càng khó trở thành vật thay thế trực tiếp cho tác phẩm gốc

    • Đơn kiện có một lập luận khá ổn. Lần theo nguồn gốc của dữ liệu huấn luyện sẽ dẫn tới thu thập bất hợp pháp
      Việc tài liệu bị thu thập bất hợp pháp được dùng cho một hoạt động thương mại, và hoạt động đó là một mô hình AI, có lẽ chỉ là yếu tố phụ. Bạn không thể dùng tài liệu bị thu thập bất hợp pháp để kinh doanh
    • Càng nghĩ, tôi càng thấy kết quả sẽ và nên phụ thuộc vào việc “pháp luật” nhìn AI như một thực thể gần với con người hay “gần với máy móc” hơn
      Con người có thể đọc, nghiên cứu rồi tạo ra một kết quả khác
      Nhưng “đưa dữ liệu vào máy” thì trông rõ ràng giống hành vi xâm phạm hơn, kể cả nếu ở đầu bên kia không cho ra đúng y hệt thứ đó
    • Có thể không, nhưng một trong các lập luận khá thú vị. Đó là lập luận rằng một phần bộ dữ liệu đã được thu thập bất hợp pháp
      Thiệt hại khi đó sẽ là bao nhiêu? Cỡ giá bán lẻ của một bản bìa cứng chăng?
    • Nếu được prompt đúng cách, liệu LLM có thể lặp lại toàn bộ cuốn sách nguyên văn từng chữ không?
    • Tôi chưa đọc đơn kiện, nhưng có thể có lập luận rằng vì OpenAI đã huấn luyện dữ liệu bằng các tác phẩm bị đánh cắp nên không thể áp dụng sử dụng hợp lý
  • Tạm gác sang một bên câu hỏi liệu LLM có phải là tác phẩm phái sinh của toàn bộ những gì nó được huấn luyện hay không, thì lập luận này trông rất yếu
    Ngay cả khi bản thân tác phẩm chưa từng có trong tập huấn luyện, một LLM được huấn luyện bằng nhiều bản tóm tắt về tác phẩm đó vẫn có thể tự tạo ra một bản tóm tắt như thế
    Nói chung, việc có kiến thức về một thứ gì đó không phải là bằng chứng cho thấy nó đã được huấn luyện bằng chính thứ đó

    • Đây không phải bằng chứng mang tính kết luận, nhưng tòa án không yêu cầu bằng chứng kết luận để khởi động một vụ việc và khám phá thêm các sự kiện mới
      Có thể hỏi các chuyên gia LLM và phía OpenAI xem liệu đầu ra đó có nhiều khả năng được suy ra từ tác phẩm có bản quyền đang được nhắc tới hay không
      Dù sao thì, nếu lập luận là “không, nó không đến từ cuốn sách mà đến từ một bản tóm tắt có bản quyền của người khác”, thì điều đó chẳng phải có nghĩa là người viết bản tóm tắt đó mới là người nên kiện vi phạm bản quyền sao? Trừ khi OpenAI nói rằng “thật ra đó không phải bản tóm tắt mà là toàn bộ cuốn sách”
    • Nếu thay LLM bằng con người thì sẽ nảy sinh một sắc thái thú vị
      Chúng ta đã đọc hàng nghìn tác phẩm, vậy điều đó có nghĩa mọi thứ chúng ta viết đều là tác phẩm phái sinh sao?
  • Bằng chứng thuyết phục hơn có lẽ là làm cho ChatGPT xuất nguyên văn một phần nội dung chứ không phải tóm tắt
    Khi tự thử, nó trả lời kiểu như không thể truy cập các cơ sở dữ liệu bên ngoài hoặc sách cụ thể sau mốc kiến thức tháng 9 năm 2021, và không thể cung cấp trích dẫn nguyên văn từ The Bedwetter của Sarah Silverman hay các văn bản cụ thể khác
    Tuy nhiên, nó nói có thể tạo văn bản dựa trên quá trình huấn luyện và kiến thức đến thời điểm đó, nên hãy hỏi về Sarah Silverman hoặc các chủ đề liên quan

    • Có thể tôi đã bỏ lỡ cuộc thảo luận này: https://news.ycombinator.com/item?id=36400053
      Có vẻ OpenAI biết phần mềm của mình xuất ra tài liệu có bản quyền nên đã gắn một bộ lọc khẩn cấp
      Vì vậy, việc hiện tại khi yêu cầu mà nó không in ra cuốn sách không phải là bằng chứng rằng AI không ghi nhớ khối nội dung lớn đó. Có thể chỉ là bộ lọc an toàn đang chặn, và có thể chỉ cần một cách lách đơn giản
    • Trước đây tôi từng thử bắt ChatGPT xuất ra đoạn đầu của Chúa tể những chiếc nhẫn, và nó dừng lại sau vài từ đầu tiên
      Có vẻ như các lập trình viên đang lọc nó
    • GPT là một JPEG nén mất dữ liệu của toàn bộ internet. Theo cách mạng nơ-ron hoạt động, không thể trích xuất văn bản nguyên văn từ đó
      Bạn nghĩ làm sao nhét dữ liệu văn bản quy mô exabyte vào một mạng nơ-ron cỡ gigabyte được? Đúng vậy, đó là nén mất dữ liệu
  • Có phải khả năng cao hơn nhiều là mô hình đã tự tổng hợp từ các bài điểm sách và tóm tắt vốn có rất nhiều trong tập huấn luyện?

    • dấu vết được ghi nhận cho thấy các kho sách lậu đã được dùng để huấn luyện
    • Trên thực tế, có vẻ khả năng cao hơn nhiều là họ đã nhét cả đống file PDF sách vào thư mục huấn luyện rồi cứ thế chạy luôn
      Gần như rất khó tin rằng các công ty AI này lại có chút thận trọng nào với dữ liệu mà họ hút vào để huấn luyện
    • Mấy bản tóm tắt đó đến từ đâu? Tôi cho rằng khả năng cao hơn nhiều là chúng được cào từ thư viện bóng tối. Tất nhiên, chuyện đó cũng gần như không thể chứng minh
      Có lẽ cũng có thể kiểm tra phần nào bằng cách yêu cầu tóm tắt những cuốn sách hoặc văn bản chỉ có thể tìm được trong thư viện bóng tối
    • Nếu các bài điểm sách và tóm tắt đã có trong tập huấn luyện, thì chẳng phải LLM của OpenAI gần với một công cụ tìm kiếm hơn, ở chỗ nó tạo ra văn bản đầu vào tùy theo prompt sao?
  • Việc Getty Images cũng kiện Stability AI về AI thì hơi buồn cười. Nghiệp quật chăng?
    Getty ăn cắp của người khác thì được, còn người khác ăn cắp của Getty thì không được sao? Tôi không có quyền lợi gì trong cuộc chiến này, nhưng sự đạo đức giả của những công ty kiểu này thật sự rất nặng

    • Getty ăn cắp của ai?