- Diễn viên hài kiêm tác giả Sarah Silverman, cùng Christopher Golden và Richard Kadrey, đã lần lượt kiện OpenAI và Meta tại tòa án liên bang Hoa Kỳ
- Vấn đề tranh chấp là liệu ChatGPT và LLaMA có được huấn luyện trên các bộ dữ liệu bao gồm sách mà không có sự cho phép của tác giả hay không
- Các nguyên đơn cho rằng những cuốn sách bị thu thập bất hợp pháp từ các shadow library như Bibliotik, Library Genesis và Z-Library đã được phát tán hàng loạt qua torrent
- Trong vụ kiện OpenAI, các ví dụ ChatGPT tóm tắt Bedwetter, Ararat và Sandman Slim được đưa ra như dấu hiệu cho thấy dữ liệu huấn luyện đã được sử dụng
- Vụ kiện Meta liên hệ ThePile và EleutherAI trong số các nguồn dữ liệu huấn luyện của LLaMA, đặt vấn đề rằng sách của các nguyên đơn có thể đã nằm trong bộ dữ liệu được sử dụng
Đối tượng bị kiện và vấn đề cốt lõi
- Sarah Silverman, Christopher Golden và Richard Kadrey đã lần lượt nộp đơn kiện OpenAI và Meta tại tòa án liên bang Hoa Kỳ
- Trọng tâm của cả hai vụ kiện là liệu có vi phạm bản quyền hay không
- Các nguyên đơn cho rằng ChatGPT của OpenAI và LLaMA của Meta đã được huấn luyện trên các bộ dữ liệu bao gồm tác phẩm của họ
- Vấn đề then chốt nằm ở việc các bộ dữ liệu đó có được thu thập mà không có sự cho phép của các tác giả hay không
Tranh cãi về nguồn dữ liệu huấn luyện
- Các vụ kiện cáo buộc rằng những bộ dữ liệu dùng để huấn luyện ChatGPT và LLaMA đã được thu thập bất hợp pháp
- Các trang shadow library mà nguyên đơn chỉ ra gồm:
- Bibliotik
- Library Genesis
- Z-Library
- Các trang tương tự khác
- Việc những cuốn sách này được cung cấp hàng loạt thông qua hệ thống torrent cũng bị coi là vấn đề
Các ví dụ được nêu trong vụ kiện OpenAI
- Các nguyên đơn đưa ra làm bằng chứng những trường hợp ChatGPT tóm tắt sách của họ theo prompt
- Những cuốn sách có trong bằng chứng gồm:
- Bedwetter của Sarah Silverman
- Ararat của Christopher Golden
- Sandman Slim của Richard Kadrey
- Đơn kiện cho rằng ChatGPT đã không tái hiện thông tin quản lý bản quyền có trong các tác phẩm đã xuất bản của nguyên đơn
Trọng tâm của vụ kiện Meta
- Vụ kiện riêng nhằm vào Meta cho rằng sách của các nguyên đơn có thể được truy cập trong bộ dữ liệu huấn luyện LLaMA
- LLaMA được giới thiệu là 4 mô hình AI mã nguồn mở mà Meta công bố vào tháng 2
- Đơn kiện đặt vấn đề với ThePile, một trong các nguồn bộ dữ liệu huấn luyện được nêu trong bài báo về LLaMA của Meta
- ThePile được nhắc đến là bộ dữ liệu do EleutherAI xây dựng
Phản ứng của các bên
- Christopher Golden và Richard Kadrey từ chối bình luận về vụ kiện
- Phía Sarah Silverman chưa phản hồi tính đến thời điểm đưa tin
1 bình luận
Ý kiến trên Hacker News
Có vẻ như họ đã nói thẳng rằng các nhà phát triển AI thực sự đã sử dụng các tác phẩm có bản quyền lấy từ các trang web sao chép sách lậu
Chỉ cần tải xuống một cuốn sách từ những trang đó thôi cũng có thể bị kiện và bị phán là xâm phạm; nếu tải toàn bộ thì trách nhiệm bồi thường có thể lên tới hàng chục tỷ USD
Nhưng có vẻ như các công ty như Google hay Facebook lại vận hành theo một bộ quy tắc khác. Giống như tình huống giết một người thì là kẻ giết người, nhưng giết một triệu người thì câu hỏi về chuyện đó lại trở thành “câu hỏi gài bẫy” và có thể đáp trả bằng sự phẫn nộ
Xóa bỏ bản quyền chỉ sau một đêm có thể là cú sốc quá lớn, nhưng càng giảm tác động của bản quyền thì thế giới sẽ càng tốt hơn và phát triển nhanh hơn nhiều
Năm 2023, hơn một nửa dân số thế giới đã có điện thoại thông minh. Đáng để hình dung một thế giới nơi hơn một nửa nhân loại có thể tiếp cận mọi cuốn sách đã được số hóa và nuôi dạy con cái bằng những cuốn sách đó
ImageNet đầy rẫy hình ảnh có bản quyền, Clearview thì theo đúng nghĩa đen đã cào khuôn mặt từ Internet, và có lẽ còn những ví dụ cũ hơn nữa
Tôi không biết tòa án Mỹ đã từng xem điều này là sử dụng hợp lý hay chưa, nhưng nếu chưa thì cuối cùng rất có thể họ cũng sẽ phán như vậy
Trừ khi bạn chia sẻ lại, còn không thì có thể tải bao nhiêu tùy thích từ Z-Library hay BitTorrent
Việc lập chỉ mục tài liệu có bản quyền cho mục đích tìm kiếm cũng an toàn, hoặc ít nhất là nằm trong vùng xám
Có thể bạn sẽ nhận được thông báo vi phạm, và nếu làm quá thì nhà cung cấp Internet có thể cắt dịch vụ, nhưng tôi chưa từng nghe chuyện ai đó thực sự bị kiện chỉ vì đơn giản là đã tải thứ gì đó xuống
Tôi rất mong tòa án sẽ công nhận trọng số LLM và bộ dữ liệu là “sử dụng hợp lý”, hay bất kỳ cơ sở pháp lý khôi hài nào khác
Aaron Swartz đúng là một người trưởng thành theo đúng nghĩa
Rất có thể sách của Silverman có trong bộ dữ liệu Books2, nhưng câu này trong đơn kiện có vẻ rõ ràng là sai
Thứ nhất, ngay cả khi trong quá trình huấn luyện mô hình chưa từng nhìn thấy một từ nào trong toàn văn cuốn sách đó, nó vẫn có thể đã học cách tóm tắt bằng cách đọc các bản tóm tắt công khai khác, chẳng hạn như trang Wikipedia
Thứ hai, cũng không rõ liệu một mô hình chỉ nhìn thấy toàn văn cuốn sách mà không thấy phần mô tả hay tóm tắt nào về nó thì có thực sự tóm tắt tốt được hay không
Để kiểm tra điều này, có thể chọn một cuốn nằm trên Project Gutenberg và, theo đơn kiện, thuộc Books1 nên đã có trong dữ liệu huấn luyện của ChatGPT, nhưng hầu như không có thảo luận trực tuyến. Nếu khả năng tóm tắt bắt nguồn từ việc học chính cuốn sách đó, thì các sách hiếm cũng phải được tóm tắt tốt ngang sách của Silverman
Tôi chọn ngẫu nhiên The Ruby of Kishmoor, một cuốn được thêm vào Project Gutenberg năm 2003. ChatGPT dựa trên GPT-3.5 đã bịa ra một bản tóm tắt sai cả nhân vật chính, còn GPT-4 thì từ chối thử vì nói không biết câu chuyện đó
Nếu lý do ChatGPT có thể tóm tắt sách của Silverman là vì chính cuốn đó có trong dữ liệu huấn luyện, thì tại sao nó lại không làm được tương tự với các cuốn khác?
Prompt: hãy tóm tắt cuốn sách sau trên Project Gutenberg — The Ruby of Kishmoor
Phản hồi nói đây là một truyện phiêu lưu ngắn của Howard Pyle, kể về Jonathan Rugg được một người lạ bí ẩn dẫn tới Caribbean để tìm kiếm báu vật quý giá mang tên Ruby of Kishmoor
Sau khi tới Caribbean, anh ta biết viên ruby này bị một lời nguyền nghiêm trọng bao phủ, nhưng vì tò mò và khả năng giàu to nên vẫn chấp nhận mạo hiểm để truy tìm viên đá quý
Sau nhiều thử thách, anh ta phát hiện ra viên ruby không phải nhờ một cuộc tìm kiếm có hệ thống mà hoàn toàn do may mắn. Bản tóm tắt nói câu chuyện khám phá lòng tham của con người và việc con người sẵn sàng đi xa tới đâu vì lợi ích vật chất, đồng thời pha trộn yếu tố phiêu lưu, siêu nhiên, lòng can đảm và suy ngẫm đạo đức, khiến người đọc phải nghĩ lại về giá trị thật của việc theo đuổi vật chất
Cuối cùng, nó nói Jonathan trốn thoát cùng viên ruby nhưng phải trả giá rất lớn về mặt cá nhân, để lại câu hỏi về giá trị đích thực của cuộc sống và sự theo đuổi vật chất
Tức là họ đang nói rằng có lý do để tin điều đó là thật, và giờ có thể trực tiếp kiểm chứng thông qua vụ kiện
Tôi cũng thấy bài viết khác rồi nhờ GPT-4 tóm tắt The Ruby of Kishmoor; hỏi hai lần thì nó đã đưa ra bản tóm tắt. Tôi không biết cuốn đó nên không thể đánh giá độ chính xác, nhưng ít nhất phép thử đó coi như đã sụp đổ
Việc giả định rằng ChatGPT đương nhiên đã tôn trọng bản quyền và sẽ không quét tài liệu có bản quyền khi chưa được phép nghe khá ngây thơ. Discovery có thể sẽ cho ra kết luận. Hẳn phải có log về những gì đã được quét
Theo tôi, lập luận tốt hơn là đây là sử dụng hợp lý
Nhiều người đã bàn về Silverman hơn, và cũng có thể đã đăng nhiều bản tóm tắt hơn trên các trang cá nhân hay nơi khác
Nếu có vẻ hợp lý thì vụ việc có thể đi tới discovery, và discovery sẽ giúp tiến gần hơn tới sự thật
Vụ này khá thú vị ở chỗ nó phân biệt giữa tài liệu huấn luyện mà bất kỳ ai cũng có thể truy cập chỉ với trình duyệt web, ví dụ như blog cá nhân, và tài liệu huấn luyện “được thu thập bất hợp pháp và phát tán hàng loạt qua hệ thống torrent”
Tôi không rõ vì sao sự phân biệt này lại phải quan trọng về mặt pháp lý đối với việc phân phối LLM, vì các tác giả blog cũng đâu có đồng ý
Dù vậy, tôi vẫn thắc mắc liệu việc dùng torrent sao chép lậu để huấn luyện có vấn đề pháp lý riêng hay không. Việc phân phối LLM được huấn luyện trên tài liệu có bản quyền có thể được cho phép theo sử dụng hợp lý, nhưng liệu có cơ sở pháp lý nào để nói rằng muốn làm điều đó một cách hợp pháp thì trước tiên phải mua nội dung đang được bán không? Ví dụ, bài blog thì có thể truy cập miễn phí nên được, còn sách của Sarah Silverman thì chưa bao giờ được công khai miễn phí và cũng chưa trả tiền nên không được, kiểu như vậy
Hay là tòa án hoàn toàn không quan tâm thứ gì đã được tạo ra như thế nào? Nếu ai đó trích một đoạn sách trong một bài viết freelance, người ta đâu có hỏi họ đã mua cuốn sách đó chưa, có chứng minh được là mượn từ thư viện hay bạn bè không, hay là đã tải một bản sao kỹ thuật số lậu
Việc bạn mua văn bản hay sao chép lậu nó sẽ không còn quan trọng. Cũng giống như hiện nay, khi trộn một audio track vào soundtrack phim, điều cốt lõi không phải là bạn đã mua track đó hay sao chép lậu nó
Các công ty đại diện nghệ sĩ sẽ đàm phán gộp phí quyền huấn luyện cho những nhà sáng tạo nổi tiếng, còn các nhà sáng tạo sẽ nhận được một dòng doanh thu nhỏ do nhà cung cấp LLM cộng vào hạng mục phí API
Quyền huấn luyện của các nhà sáng tạo độc lập sẽ vẫn tiếp tục bị xâm phạm tràn lan như bây giờ, còn các LLM thương mại lớn bị nghi ngờ hoặc bị chứng minh là vi phạm quyền huấn luyện thì sẽ bị bêu xấu hoặc bị kiện. Các LLM độc lập có khả năng sẽ vẫn ở dưới tầm radar
Vì vậy, nếu tác phẩm gốc trên thực tế không có thị trường thương mại thì khả năng tòa án công nhận sử dụng hợp lý sẽ cao hơn. Tuy nhiên, chỉ riêng việc một thứ không được bán sôi động là chưa đủ để kết luận
Các giấy phép mã nguồn mở cũng được cung cấp miễn phí nhưng vẫn đứng vững ở cấp tòa phúc thẩm
Điều này mở rộng đến mức nào dưới dạng phân phối lại thì chưa rõ. Cũng khó nói liệu có khác biệt lớn giữa mô hình này và một cỗ máy kiểu VCR có thể tái tạo nguyên tác chỉ bằng cách bấm nút hay không
Nếu việc tải xuống tài liệu có bản quyền “sao chép lậu” là bất hợp pháp, thì đó là hành vi phạm pháp, còn phần còn lại hầu như không liên quan. Việc xem một bộ phim lậu không khiến bạn phạm pháp chỉ vì bạn kể lại cốt truyện cho người khác
Nếu tác phẩm đó về mặt hợp pháp chỉ có thể có được thông qua mua bán, thì đó phải là bản sao bạn đã tự mua hợp pháp, hoặc là bản sao nhận từ người đã mua như vậy. Ví dụ như được tặng
Tôi không chắc là chúng ta có đang đọc cùng một đơn kiện không
Bài báo của Meta https://arxiv.org/pdf/2302.13971.pdf nói rằng họ đã đưa hai kho ngữ liệu sách vào tập dữ liệu huấn luyện. Một là Project Gutenberg chứa sách thuộc phạm vi công cộng, và cái còn lại là mục Books3 của ThePile
Bài báo The Pile https://arxiv.org/abs/2101.00027 mô tả Books3 là một tập dữ liệu sách được dẫn xuất từ bản sao nội dung của tracker riêng Bibliotik
Liên kết của Shawn Presser là https://twitter.com/theshawwn/status/1320282149329784833, và anh ấy mô tả Books3 là “all of bibliotik”, tức 196.640 cuốn sách được chuyển thành dạng
.txtthuầnTôi không có thời gian và dung lượng để tải file 37GB đó xuống, nhưng nếu sách của Silverman có trong đó thì tôi nghĩ đây chẳng phải là một vụ thắng chắc sao
LLaMA của Meta, theo như những gì họ dường như đã thừa nhận, đã được huấn luyện bằng sách sao chép lậu
Kết quả của
$ grep -i "Sarah Silverman" books3.list.txtcho ra325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txtCũng có một liên kết dành cho ai chỉ muốn xem danh sách file. Bản thân danh sách đó cũng là một file lớn: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
Nếu việc huấn luyện ban đầu đòi hỏi phải tạo một bản sao của kho ngữ liệu như tracker định nghĩa, thì gần như đây là một vụ rõ ràng có hành vi xâm phạm bản quyền trong chính quá trình đó
Nhưng việc Silverman có thể nhận được biện pháp khắc phục nào ngoài giá mua cuốn sách, thậm chí có thể là mức bồi thường gấp ba, rốt cuộc vẫn phụ thuộc vào cùng một vấn đề: mối quan hệ giữa việc huấn luyện mô hình và bản quyền
Ngoài ra còn có thêm câu hỏi liệu tình trạng bất hợp pháp của dữ liệu trước khi huấn luyện có làm thay đổi nhận định đó hay không
Có vẻ vấn đề này sẽ còn lớn hơn một số người nghĩ
Có thể sẽ xuất hiện một thị trường cho dữ liệu huấn luyện sạch, không vướng các khiếu nại bản quyền tiềm ẩn. Kiểu chỉ dùng các tác phẩm thuộc phạm vi công cộng
Rồi liệu chúng ta sẽ biết đó là AI khi thấy nó nói năng như một tác giả cuối thế kỷ 18 hay đầu thế kỷ 19?
Tuy vậy, các mô hình sẵn sàng tái tạo toàn bộ văn bản có bản quyền có thể gặp rắc rối, và cũng có những điểm mới như mô hình bịa ra nội dung mang tính phỉ báng
Dù vậy, có vẻ rất khó nhét vị thần đèn này trở lại vào chai. Có khả năng sẽ xuất hiện đồng thời nhiều vụ kiện, nhiều nỗ lực điều chỉnh, và những kiểu lạm dụng mới
Nó có thể trở thành một nguồn thu nhập thụ động nhỏ nhưng thực tế cho các nghệ sĩ, nhà văn, nhà thơ không ngại việc tài sản trí tuệ của mình được dùng trong tập huấn luyện
Việc đàm phán riêng với từng người sáng tạo là không thực tế, nhưng với những nhóm lớn hơn như nhà xuất bản, phòng tranh, nghiệp đoàn, công đoàn có thể bảo đảm chất lượng thành viên thì có vẻ khả thi. Họ có thể cấp phép và chia doanh thu cho toàn bộ thành viên
Việc các LLM hút sạch toàn bộ dữ liệu này mà không có sự đồng ý hay hợp đồng, thậm chí từ các trang torrent, rõ ràng là phi đạo đức. Những mô hình như vậy có thể mang lại lợi ích cho tất cả mọi người
Sau khi được giải quyết, hoặc là nó sẽ hoàn toàn không còn là vấn đề, hoặc sẽ trở thành một bài toán đánh đổi chi phí - lợi ích dễ hiểu hơn nhiều
Có thể đó sẽ là sự pha trộn giữa các tác phẩm thuộc phạm vi công cộng và các ấn phẩm của chính phủ Mỹ. Các ấn phẩm của chính phủ Mỹ về mặt phân loại thì không thuộc đối tượng bản quyền
Nhật Bản đã tự tuyên bố mình là một khu vực pháp lý như vậy
Tôi không phải luật sư, nhưng điều này có vẻ không phải là một ví dụ tốt để chứng minh hành vi xâm phạm
Một bản tóm tắt chi tiết của cuốn sách nghe giống sử dụng mang tính chuyển đổi điển hình. Đặc biệt trong trường hợp của Silverman, càng lược bỏ các yếu tố nghệ thuật trong văn xuôi và rút cuốn sách thành “sự kiện”, thì nó càng khó trở thành vật thay thế trực tiếp cho tác phẩm gốc
Việc tài liệu bị thu thập bất hợp pháp được dùng cho một hoạt động thương mại, và hoạt động đó là một mô hình AI, có lẽ chỉ là yếu tố phụ. Bạn không thể dùng tài liệu bị thu thập bất hợp pháp để kinh doanh
Con người có thể đọc, nghiên cứu rồi tạo ra một kết quả khác
Nhưng “đưa dữ liệu vào máy” thì trông rõ ràng giống hành vi xâm phạm hơn, kể cả nếu ở đầu bên kia không cho ra đúng y hệt thứ đó
Thiệt hại khi đó sẽ là bao nhiêu? Cỡ giá bán lẻ của một bản bìa cứng chăng?
Tạm gác sang một bên câu hỏi liệu LLM có phải là tác phẩm phái sinh của toàn bộ những gì nó được huấn luyện hay không, thì lập luận này trông rất yếu
Ngay cả khi bản thân tác phẩm chưa từng có trong tập huấn luyện, một LLM được huấn luyện bằng nhiều bản tóm tắt về tác phẩm đó vẫn có thể tự tạo ra một bản tóm tắt như thế
Nói chung, việc có kiến thức về một thứ gì đó không phải là bằng chứng cho thấy nó đã được huấn luyện bằng chính thứ đó
Có thể hỏi các chuyên gia LLM và phía OpenAI xem liệu đầu ra đó có nhiều khả năng được suy ra từ tác phẩm có bản quyền đang được nhắc tới hay không
Dù sao thì, nếu lập luận là “không, nó không đến từ cuốn sách mà đến từ một bản tóm tắt có bản quyền của người khác”, thì điều đó chẳng phải có nghĩa là người viết bản tóm tắt đó mới là người nên kiện vi phạm bản quyền sao? Trừ khi OpenAI nói rằng “thật ra đó không phải bản tóm tắt mà là toàn bộ cuốn sách”
Chúng ta đã đọc hàng nghìn tác phẩm, vậy điều đó có nghĩa mọi thứ chúng ta viết đều là tác phẩm phái sinh sao?
Bằng chứng thuyết phục hơn có lẽ là làm cho ChatGPT xuất nguyên văn một phần nội dung chứ không phải tóm tắt
Khi tự thử, nó trả lời kiểu như không thể truy cập các cơ sở dữ liệu bên ngoài hoặc sách cụ thể sau mốc kiến thức tháng 9 năm 2021, và không thể cung cấp trích dẫn nguyên văn từ The Bedwetter của Sarah Silverman hay các văn bản cụ thể khác
Tuy nhiên, nó nói có thể tạo văn bản dựa trên quá trình huấn luyện và kiến thức đến thời điểm đó, nên hãy hỏi về Sarah Silverman hoặc các chủ đề liên quan
Có vẻ OpenAI biết phần mềm của mình xuất ra tài liệu có bản quyền nên đã gắn một bộ lọc khẩn cấp
Vì vậy, việc hiện tại khi yêu cầu mà nó không in ra cuốn sách không phải là bằng chứng rằng AI không ghi nhớ khối nội dung lớn đó. Có thể chỉ là bộ lọc an toàn đang chặn, và có thể chỉ cần một cách lách đơn giản
Có vẻ như các lập trình viên đang lọc nó
Bạn nghĩ làm sao nhét dữ liệu văn bản quy mô exabyte vào một mạng nơ-ron cỡ gigabyte được? Đúng vậy, đó là nén mất dữ liệu
Có phải khả năng cao hơn nhiều là mô hình đã tự tổng hợp từ các bài điểm sách và tóm tắt vốn có rất nhiều trong tập huấn luyện?
Gần như rất khó tin rằng các công ty AI này lại có chút thận trọng nào với dữ liệu mà họ hút vào để huấn luyện
Có lẽ cũng có thể kiểm tra phần nào bằng cách yêu cầu tóm tắt những cuốn sách hoặc văn bản chỉ có thể tìm được trong thư viện bóng tối
Việc Getty Images cũng kiện Stability AI về AI thì hơi buồn cười. Nghiệp quật chăng?
Getty ăn cắp của người khác thì được, còn người khác ăn cắp của Getty thì không được sao? Tôi không có quyền lợi gì trong cuộc chiến này, nhưng sự đạo đức giả của những công ty kiểu này thật sự rất nặng