- The New York Times đã đệ đơn kiện bản quyền cáo buộc các công ty thuộc OpenAI và Microsoft sử dụng trái phép nội dung của mình cho huấn luyện và đầu ra, thậm chí yêu cầu xóa các phiên bản GPT và bộ dữ liệu huấn luyện
- Tranh chấp cốt lõi không chỉ là việc huấn luyện mô hình, mà còn là liệu các công cụ dựa trên GPT có thể tái tạo gần như nguyên văn nội dung bài viết trả phí của Times để vượt qua paywall hay không
- Times cho rằng 16 triệu bản ghi duy nhất từ trang web của mình đã được đưa vào Common Crawl, và đây là nguồn được tham chiếu nhiều thứ ba trong dữ liệu huấn luyện công khai trước GPT-3.5
- Trong thử nghiệm của Ars Technica, lối vượt rào này trên ChatGPT dường như đã bị chặn, nhưng Copilot vẫn tái tạo được một phần đáng kể phần đầu bài báo của Times khi được yêu cầu đoạn mở đầu của một bài cụ thể
- Vụ kiện bao gồm các cáo buộc vi phạm bản quyền, DMCA, nhãn hiệu và cạnh tranh không lành mạnh, đồng thời yêu cầu lệnh cấm vĩnh viễn, bồi thường thiệt hại, hoàn trả và thu hồi khoản lợi bất chính
Đối tượng bị kiện và các yêu cầu chính
- The New York Times đã khởi kiện nhiều công ty liên quan đến OpenAI và Microsoft vì vi phạm bản quyền
- Microsoft bị đưa vào vụ kiện với tư cách đối tác của OpenAI vì vận hành dịch vụ Copilot bằng công nghệ OpenAI và bị cho là có tham gia cung cấp hạ tầng để huấn luyện các mô hình ngôn ngữ lớn GPT
- Các yêu cầu bao gồm xóa mọi phiên bản GPT được huấn luyện bằng tài liệu của Times và hủy các bộ dữ liệu đã dùng cho quá trình huấn luyện
- Đồng thời, Times cũng yêu cầu lệnh cấm vĩnh viễn để ngăn các hành vi tương tự trong tương lai
- Các biện pháp khắc phục bằng tiền gồm bồi thường thiệt hại theo luật định, bồi thường thực tế, hoàn trả, thu hồi lợi bất chính và các biện pháp khác theo luật hoặc công bằng
Cấu trúc thiệt hại theo lập luận của Times
- Times cho rằng họ duy trì nhiều phóng viên và lực lượng tác nghiệp để thực hiện tin tức đa lĩnh vực và điều tra chuyên sâu, nhờ đó được xem là nguồn có thẩm quyền trong nhiều vấn đề
- Để thu hồi chi phí làm báo đó, Times hạn chế truy cập bài viết bằng paywall mạnh
- Họ kiểm soát việc sử dụng tác phẩm thông qua thông báo bản quyền trên bản in, điều khoản dịch vụ hạn chế sao chép và sử dụng, cùng chính sách cấp phép có chọn lọc
- Lập luận thiệt hại cốt lõi của vụ kiện là nếu các công cụ của OpenAI cung cấp nội dung của Times mà không được phép, điều đó sẽ làm tổn hại quan hệ với độc giả và lấy mất doanh thu từ thuê bao, cấp phép, quảng cáo và liên kết
Các vấn đề liên quan đến việc sử dụng dữ liệu huấn luyện
- Times cho rằng nội dung của mình đã bị sử dụng trái phép trong quá trình huấn luyện nhiều phiên bản GPT
- Trước GPT-3.5, thông tin về bộ dữ liệu huấn luyện từng được công khai, và Times cho rằng Common Crawl — một trong số đó — chứa 16 triệu bản ghi duy nhất được xuất bản từ trang web của Times
- Theo thước đo đó, Times là nguồn được tham chiếu nhiều thứ ba sau Wikipedia và cơ sở dữ liệu bằng sáng chế của Mỹ
- OpenAI gần đây không còn công bố nhiều chi tiết về dữ liệu huấn luyện của các phiên bản GPT mới, nhưng đơn kiện đưa ra các tình tiết cho rằng toàn văn bài báo của Times vẫn được đưa vào quá trình huấn luyện
- Nếu vụ việc tiếp diễn, thông tin truy cập vào dữ liệu huấn luyện có thể trở thành điểm tranh chấp lớn trong quy trình khám phá chứng cứ
Vấn đề tái tạo nội dung ở giai đoạn đầu ra
- Vụ kiện không dừng ở việc tài liệu có bản quyền được dùng để huấn luyện, mà nhấn mạnh rằng tài liệu đã học có thể lại được xuất ra trong quá trình sử dụng
- Times cho rằng các công cụ AI tạo sinh dựa trên OpenAI có thể đọc lại nguyên văn nội dung của Times, tóm tắt cực kỳ sát hoặc bắt chước phong cách diễn đạt
- Hồ sơ vụ kiện bao gồm các trường hợp GPT-4 tái tạo gần như nguyên văn những phần lớn của bài báo Times
- Prompt ví dụ là đưa tiêu đề bài báo Times cho ChatGPT, yêu cầu đoạn đầu tiên, rồi tiếp tục yêu cầu các đoạn tiếp theo
- Khi Ars Technica thử một phần các prompt tương tự, ChatGPT khuyên người dùng kiểm tra trên trang web của Times hoặc các nguồn đáng tin cậy khác, nhưng họ cho rằng vẫn không thể loại trừ khả năng tài liệu có bản quyền sẽ xuất hiện nếu có thêm ngữ cảnh trước đó
- Copilot là dịch vụ đã đổi tên từ Bing Chat, và Ars Technica xác nhận rằng khi yêu cầu đoạn đầu của một bài báo Times cụ thể, nó đã tái tạo khoảng một phần ba phần đầu bài báo
Phản bác lập luận fair use và thiệt hại danh tiếng
- Phía OpenAI và Microsoft công khai lập luận rằng việc sử dụng nội dung có bản quyền không xin phép để huấn luyện mô hình AI tạo sinh là fair use vì phục vụ mục đích biến đổi mới
- Times phản bác rằng không có tính biến đổi nào trong việc dùng nội dung của Times mà không trả phí để tạo ra sản phẩm thay thế Times và lấy mất độc giả của họ
- Hallucination của AI cũng được nêu là yếu tố có thể làm tổn hại giá trị danh tiếng của Times
- Ví dụ, Times cho rằng mô hình GPT đã bịa ra việc vào ngày 10/1/2020 Times đăng một bài về mối liên hệ giữa nước cam và ung thư hạch không Hodgkin, trong khi Times nói họ chưa từng đăng bài như vậy
- Với một bài báo của Times về thực phẩm tốt cho tim mạch, Copilot đã đưa ra danh sách ví dụ không có trong nguyên bản, và vụ kiện cho rằng 80% danh sách được yêu cầu là các món ăn không được nhắc đến trong bài gốc
- Trong ví dụ liên quan đến khuyến nghị của Wirecutter, vụ kiện cho rằng các sản phẩm chưa từng được nhân viên đánh giá lại bị gán là khuyến nghị của Wirecutter
Wirecutter và vấn đề doanh thu liên kết
- Wirecutter là một ấn phẩm thuộc sở hữu của The New York Times
- Vụ kiện cho rằng Copilot cũng có thể xuất ra phần lớn nội dung các bài viết của Wirecutter
- Các đoạn trích đó đã bị loại bỏ liên kết tiếp thị liên kết, làm dấy lên vấn đề rằng nguồn doanh thu chính của Wirecutter bị chặn lại
Các yêu cầu pháp lý
- Vụ kiện quy trách nhiệm cho các công ty liên quan đến OpenAI về phát triển phần mềm, đồng thời quy trách nhiệm cho Microsoft về việc cung cấp dịch vụ dựa trên OpenAI và xây dựng hạ tầng huấn luyện
- Các yêu cầu bao gồm vi phạm bản quyền trực tiếp, vi phạm có đóng góp và vi phạm gián tiếp
- Ngoài ra còn có các cáo buộc vi phạm DMCA, vi phạm nhãn hiệu và chiếm dụng do cạnh tranh không lành mạnh
1 bình luận
Ý kiến trên Hacker News
Bỏ yếu tố LLM ra, nếu tạo một sản phẩm từ các bài báo NYT được scrape hợp pháp thì vẫn phải hỏi liệu đó có phải là sử dụng hợp lý hay không
Ví dụ, giả sử bạn lưu trữ các bài báo, cung cấp lập chỉ mục và bán tính năng viết lại có trả phí như tóm tắt các bài về quan hệ Mỹ-Anh trong 5 năm qua. Dù chỉ trả phí thuê bao tháng cho NYT, không nhả ra nguyên văn dài dòng và chỉ dùng trích dẫn ngắn, thì chuyện đó vẫn không có vẻ là sử dụng hợp lý
Thông thường bạn không thể lấy một sản phẩm trong gói dùng cá nhân rồi bán các sản phẩm phái sinh của nó cho bên thứ ba. Trường hợp của VS Code cũng vậy
Điều này rất khác với công cụ tìm kiếm. Công cụ tìm kiếm không thay thế nguồn gốc, mà ngược lại còn đưa người dùng tới bài gốc để tạo cơ hội trả tiền cho bài báo. Trong khi đó, các sản phẩm kiểu này hay LLM thực chất đang dùng nội dung NYT như một hàng thay thế, khiến người ta không cần đăng ký NYT thật sự
Hơn nữa, nếu nhìn các bài báo của những cơ quan truyền thông hạng hai trở xuống, bạn sẽ thấy phần lớn gần như đều lấy trực tiếp từ nơi như NYT. Thường họ viết kiểu “Theo The Times thì ai đó đã làm việc gì đó”, và đa số còn gắn cả liên kết tới bài gốc
Đôi khi nó overfit nặng tới mức thậm chí không còn là nén mất dữ liệu nữa, mà dữ liệu gốc được mã hóa nguyên văn bên trong mạng nơ-ron
Nghĩ kỹ thì việc Google là hợp pháp cũng khá đáng ngạc nhiên, nhưng những gì Google làm đã được xác lập là hoàn toàn hợp pháp. Về mặt nội bộ, Google lưu và dùng bản sao đầy đủ nguyên văn của mọi trang web mà họ lập chỉ mục
Tất nhiên Google có cung cấp liên kết đến nguồn. Nếu OpenAI cũng làm vậy, dù tỷ lệ nhấp chỉ là 0,1% và gần như không giúp ích gì cho doanh thu của NYTimes, thì có được xem là hợp pháp không? Nếu họ phát hiện lúc mô hình sắp xuất ra nguyên văn và đơn giản buộc nó diễn đạt lại thì sao? NYTimes không có bản quyền với các bản diễn đạt lại bài báo của mình. Về thực chất gần như không có khác biệt nào, nên nếu chính phủ ép phải đi đường vòng như vậy thì sẽ khá buồn cười
Nhìn ra ngoài cửa sổ và thấy hàng xóm đi đến cửa hàng thì không sao. Nhưng nếu dùng camera theo dõi mọi người trên phố và đưa vào cơ sở dữ liệu thì ở nhiều nơi sẽ thành vấn đề và là bất hợp pháp
Khi quy mô tăng lên, lập luận không nhất thiết còn áp dụng nguyên vẹn
Đơn kiện đưa ra các ví dụ ChatGPT/Bing Copilot sao chép nguyên văn NYT. Có vẻ rất khó để lập luận rằng kiểu sao chép này là sử dụng hợp lý
Tuy vậy, OAI/MS có lẽ vẫn có thể sửa trong chính khuôn khổ hiện tại. Có thể huấn luyện bằng RLHF để nhận biết đạo văn và phạt nó
Nhưng vụ kiện đi xa hơn nhiều so với việc chỉ nói rằng kiểu sao chép đó là vi phạm bản quyền. Họ lập luận rằng “việc sao chép trái phép các tác phẩm của Times để huấn luyện LLM là một hình thức sử dụng thay thế không được biện minh bởi mục đích chuyển đổi”
Đây là một khẳng định mạnh rằng chính hành vi tải các bài báo về làm dữ liệu huấn luyện đã là vi phạm bản quyền. Việc GPT có xuất ra nguyên văn hay không có thể chỉ là yếu tố gây xao nhãng. Mong các thẩm phán nhận ra điều đó và tập trung vào điểm pháp lý chưa rõ ràng nhưng rất đáng chú ý, có lợi ích lớn liên quan: điều gì trong mô hình có thể và không thể được xem là sử dụng mang tính chuyển đổi
Cách người ta kỳ vọng là duy trì một Bloom filter n-gram của nội dung có bản quyền đã biết. Ví dụ, liệt kê tất cả các tập hợp 7 từ liên tiếp trong một bài báo để kiểm tra, rồi chỉ cho phép mô hình xuất tối đa n-1 từ trùng hệt với nguồn
Nhưng cách này sẽ phản tác dụng. Các công ty AI sẽ đầu tư nhiều hơn vào ghi nhận nguồn nội dung, và các công cụ ghi nhận nguồn mới sẽ được áp dụng cho mọi bài báo do con người viết vì ai cũng có thể lén dùng GPT. Khi đó có thể xuất hiện hiệu ứng kìm hãm sự sáng tạo. Ngoài ra, không phải mọi thứ NYT viết đều là nguyên bản, nên NYT cũng sẽ phải đối chiếu với mọi nguồn khác
Có thể xem LLM như một kho lưu trữ dữ liệu nén với thuật toán kỳ quặc. Việc nó có thể thường xuyên nhả ra dữ liệu huấn luyện nguyên văn, cùng với các cơ chế an toàn nhằm ngăn chuyện đó, là bằng chứng cho điều này
Bằng chứng thứ hai là bài viết được mô tả ở đây: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... trong đó các nhà nghiên cứu dùng dữ liệu nén bằng gzip làm mô hình thay vì LLM, và thậm chí còn đánh bại cả LLM đã được huấn luyện
AI ở một mức độ nào đó là hộp đen, nhưng vận hành hộp đen không phải vì thế mà được bảo vệ khỏi các vụ kiện xâm phạm quyền lợi. Bạn không thể tạo một cơ sở dữ liệu bằng cách cào dữ liệu có bản quyền rồi tuyên bố việc truy vấn cơ sở dữ liệu đó là sử dụng hợp lý
Ở đây cần có luật, và luật đó sẽ không phải là “miễn là để huấn luyện mô hình thì ai cũng có thể sao chép mọi thứ miễn phí”. Vấn đề cấp phép phải được làm rõ, và không chỉ bằng án lệ mà còn cần luật thành văn thực sự. Tôi khá đồng cảm với việc dành biên độ rộng cho các nhà nghiên cứu mã nguồn mở và hacker, nhưng không đồng cảm đến vậy với Microsoft và OpenAI do Microsoft hậu thuẫn
Nếu làm được thì cũng khá buồn cười. Đầu tiên huấn luyện nó để sao chép nguyên văn dữ liệu huấn luyện, rồi lại huấn luyện nó đừng làm thế nữa
Chẳng phải cơ chế hoạt động vốn là vậy sao? Vì hàm mất mát là như thế nên nó được huấn luyện để sao chép nguyên văn dữ liệu huấn luyện. Chỉ là dữ liệu quá nhiều nên xét theo số lượng tham số, người ta không kỳ vọng điều đó sẽ khả thi với phần lớn dữ liệu huấn luyện mà thôi
Giả sử tôi bán một trang thuê bao tên là New Jersey Times, rồi đơn giản tải các bài báo của New York Times về và cho chạy qua một autoencoder có thêm nhiễu ngẫu nhiên. Mục đích vẫn y hệt website New York Times, chỉ khác là tiền chảy vào túi tôi. Thế có phải là sử dụng hợp lý không?
NYT đang xây lâu đài cát trước sóng thần. Xét trên bức tranh lớn, vụ kiện này sẽ không quan trọng vì nhiều lý do
Thứ nhất, thế hệ LLM tiếp theo sẽ được huấn luyện chỉ bằng dữ liệu “tổng hợp”/công khai. GPT-4V có thể dễ dàng được tẩy sạch đến mức không thể nhận ra toàn bộ kho ngữ liệu huấn luyện có bản quyền. Ví dụ như viết lại 40% rồi xóa tác giả và nguồn. Khi đó sẽ không còn tài liệu có bản quyền nào để GPT-5 nhả ra
Thứ hai, nghiên cứu, hosting và tiến bộ vẫn sẽ tiếp diễn. Mỹ không thể ngăn điều đó, chỉ có thể chọn tụt lại phía sau. Thế giới sẽ tiếp tục tiến lên, còn Trung Quốc sẽ vui vẻ nhìn đối thủ cạnh tranh lớn nhất của mình thực hiện hành vi tự sát trí tuệ để xoa dịu các công ty truyền thông kiếm địa tô
Thứ ba, các mô hình có thể chia sẻ trọng số, hợp nhất với nhau, cộng tác, bị loại bỏ và tiến hóa qua nhiều thế hệ phát hành. Luật bản quyền hoàn toàn không phù hợp để truy ra bên vi phạm trong món súp phả hệ AI được nung nóng bằng dữ liệu có nguồn gốc mơ hồ hoặc đáng ngờ như thế này
Dù thích hay không, chúng ta đang sống trong một kỷ nguyên trí tuệ mới. NYT và những bên khác rồi cũng sẽ phải lên con sóng này, dù muốn hay không
Xét theo các yếu tố của sử dụng hợp lý, ở mục đích và tính chất sử dụng thì lập luận về tính chuyển hóa có thể sẽ thành hình trong tương lai, nhưng tranh chấp hiện tại là ở việc dùng nguyên văn. Vì vậy rõ ràng nó không mang tính chuyển hóa. Việc sử dụng cho mục đích thương mại cũng khiến việc xác định sử dụng hợp lý khó hơn
Ở tính chất của tác phẩm, các tác phẩm mang tính sự kiện nhiều hơn thường dễ được công nhận là sử dụng hợp lý hơn, nhưng tôi cho rằng các bài viết của NYT vừa mang tính sự kiện vừa có tính sáng tạo
Ở mức độ và tính trọng yếu của phần được sử dụng, vì toàn bộ bài báo đã bị dùng nên không có chỗ để lập luận rằng chỉ dùng một phần nhỏ, không đáng kể
Ở tác động đến giá trị thị trường, NYT không nhận được tiền, và nếu mọi người đọc trên ChatGPT thay vì đọc bài của NYT thì điều đó không thể nào giúp ích cho giá trị thị trường của NYT
Tôi không phải luật sư, nhưng tôi nghĩ NYT có đầy đủ quyền để khởi kiện. Tiến bộ là điều tất yếu, nhưng con người phải chủ động định hình và dẫn dắt nó. Nếu không thì không thể gọi đó là tiến bộ. Ở đây, hành động pháp lý là phương tiện cần thiết để cá nhân và tổ chức khẳng định quyền của mình và tác động đến phương hướng
Ít nhất trong một trường hợp, một startup Trung Quốc đã phải đóng chatbot mới phát hành của mình. Lý do là nó đã nói điều không khớp với lập trường chính thức của đảng về chiến tranh Ukraine
https://finance.yahoo.com/news/beijing-tries-regulate-china-...
https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
Tôi đồng ý rằng nghiên cứu, hosting và tiến bộ sẽ tiếp tục, nhưng tôi không chắc việc Mỹ gắn thêm một vài thanh an toàn cho chuyến tàu lượn này có khiến Trung Quốc trở thành bên hưởng lợi hay không
Bạn không cần phải đồng ý, cũng không cần phải thích điều đó. Nhưng nếu chấp nhận và sống phù hợp với nó thì bạn sẽ bớt bị tổn thương hơn nhiều
Đơn kiện mà arstechnica dẫn liên kết chính là tài liệu này: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
Từ khoảng trang 30 trở đi có những ví dụ khá rõ cho thấy ChatGPT có các bản sao nội bộ của tài liệu có bản quyền và đọc lại chúng nguyên văn
Về bản chất, đây là tình huống sao chép hàng loạt tài liệu có bản quyền vào một khối nào đó rồi áp dụng nén mất dữ liệu. Muốn bản quyền không còn áp dụng nữa thì mức độ mất dữ liệu đó phải lớn đến mức nào? Có lẽ phải phá hủy khá nhiều
Thứ có thể cứu OpenAI lại chính là tính đóng. OpenAI có thể đối chiếu phần có bản quyền trong bộ dữ liệu mà ChatGPT được huấn luyện với các khớp đơn giản, rồi lọc và chặn trên giao diện web để tài liệu có bản quyền không thể thoát ra khỏi LLM. Trong khi đó, các dự án mã nguồn mở được huấn luyện trên cùng bộ dữ liệu sẽ phải gánh bài toán khó hơn nhiều là loại bỏ tài liệu có bản quyền khỏi chính LLM
Nghĩa là khiến nó không dễ bị phát hiện, hoặc ngay cả khi bị phân tích trực tiếp thì vẫn có đủ khả năng chối bỏ hợp lý để thoát thân
Khó mà biết đó là lặp lại từ dữ liệu huấn luyện, hay là lại cùng một sai lầm như trong bài gốc, tức dùng Copilot để tìm bài báo/search Bing trước rồi mới khiến nó trả lời
Nếu cho rằng các ví dụ trong vụ kiện này là “sử dụng hợp lý”, thì cần nghĩ xem điều đó thực sự có nghĩa là gì. Về bản chất, đó là gần như cho phép một vài công ty gom toàn bộ giá trị của Internet vào bên trong hộp đen của họ mà hầu như không có quy tắc nào, và điều đó có vẻ rất nguy hiểm
Dù không phải vụ này đi nữa, tôi vẫn mong tòa án sẽ thiết lập luật chơi tại đây
Cho đến khi ai đó giải quyết được dữ liệu tổng hợp, lĩnh vực này sẽ chỉ còn lại những tay chơi như OpenAI và Google
Tranh cãi về việc LLM xâm phạm sở hữu trí tuệ đang lập tức phơi bày những khiếm khuyết nội tại đó, và cuối cùng đang buộc phải đưa ra những phán quyết sẽ tạo tiền lệ về tính hợp pháp của tư duy con người. Đây là vấn đề khiến không ai có thể thấy thoải mái
Tôi hiểu vì sao việc trao quá nhiều quyền tùy nghi cho OpenAI và Microsoft có thể nguy hiểm, nhưng mặt khác người ta lại bỏ qua việc các công ty như Disney trên thực tế đã chi phối phần lớn luật bản quyền suốt hàng chục năm qua. Họ hẳn đang thèm thuồng khả năng tạo ra tiền lệ rằng ngay cả việc tương tác với bất kỳ loại phương tiện hay thông tin nào, ở bất kỳ mức độ nào, cũng có thể phải trả tiền
Cuối cùng, chúng ta đang nhận ra rằng mình đã xây dựng cả một hệ thống kinh tế khổng lồ dựa trên một ý niệm vốn dĩ đầy khiếm khuyết: quyền sở hữu đối với ý tưởng. Giải pháp либо là xé nát cả cuốn luật, điều này sẽ rất đau đớn, hoặc là tiếp tục đẩy nó đi xa hơn nữa, và điều đó sẽ gây chết người
Ở Nhật Bản, họ nói rằng với AI thì cái gì cũng được
Tốt hơn hết là đừng đánh mất lợi thế cạnh tranh chỉ vì đã công khai thứ gì đó trên Internet. Nếu bạn đã đưa nó lên cho mọi người xem, thì phải lường trước việc người khác sẽ dùng nó
Các lập trình viên thích giả vờ rằng LLM giống con người, và rằng chúng đã sử dụng tài liệu như của NYTimes làm dữ liệu học tập giống như con người
Nhưng không phải vậy. Nếu nhìn đơn giản hơn, thì chữ viết độc quyền giờ đã được tích hợp vào mã nguồn của OpenAI. Cũng giống như tôi sao chép một phần mã độc quyền khác rồi dán vào codebase của mình, sau đó tuyên bố rằng việc copy-paste chỉ là một phần tự nhiên của quá trình tiến hóa kéo dài hàng triệu năm
Việc LLM quá phức tạp nên ta không biết nó nằm ở đâu không làm cho chuyện đó bớt đúng đi
Mã nguồn của LLM có lẽ chỉ là vài trăm dòng văn bản mô tả hình dạng của mạng nơ-ron nằm trong mô hình
Nội dung của NYTimes sẽ không nằm trong mã nguồn. NYTimes không xuất bản mã nguồn Python mà xuất bản tin tức bằng ngôn ngữ của con người
Về mặt khái niệm, LLM khá đơn giản, chủ yếu gồm phép nhân ma trận, các phép toán phi tuyến kết nối từng lớp, các vòng lặp dựa trên attention, v.v. Thứ làm nó trở nên phức tạp là lượng dữ liệu huấn luyện và năng lực tính toán khổng lồ
Các công ty có nội dung đều đang ngửi thấy mùi tiền
NYT sẽ không ngại việc nội dung của mình được dùng để huấn luyện LLM đâu. Miễn là họ được trả phí. Reddit sẽ đóng API miễn phí và bắt bạn trả tiền nếu muốn lấy nội dung để huấn luyện. Discord cũng sẽ bán nội dung cho mục đích huấn luyện AI, nếu họ chưa làm thế. Twitter cũng đang làm vậy
Trước đây người ta không bận tâm vì LLM chỉ là thử nghiệm. Giờ thì giá trị hàng nghìn tỷ USD đang bị đặt lên bàn
Quan điểm của NYT sẽ trông thực sự ngớ ngẩn trong tương lai khi LLM được đưa vào các thân máy có thể tương tác với thế giới vật lý, học theo thời gian thực và cập nhật trọng số
Khi đó, việc một robot như vậy đọc, xem hoặc nghe tài liệu có bản quyền có thể đều trở thành bất hợp pháp. Nó sẽ không thể xem TV, không thể đọc sách thư viện, cũng không thể lướt Internet. Bởi trong quá trình đó, nó có thể ghi nhớ một phần nội dung có bản quyền
Với con người thì việc đó khó hơn, nhưng nếu bạn học thuộc một cuốn sách có bản quyền rồi đọc lại trực tiếp trên TV, hoặc tạo bản sao từ trí nhớ để bán, thì bạn cũng sẽ bị kiện
Con người luôn tạo ra tác phẩm phái sinh, và LLM làm như vậy thì không sao. Nhưng nguyên văn y hệt thì không được
Có những người có trí nhớ siêu phàm, và nếu mọi người ngừng mua báo mà thay vào đó nhờ người đó học thuộc tin tức, thì cũng sẽ nảy sinh cùng một vấn đề
Hiện nay, việc trình diễn công khai tài liệu có bản quyền là hành vi xâm phạm
Hay tất cả chúng sẽ thuộc sở hữu của một tập đoàn khổng lồ, và được dùng để vắt tiền từ tất cả chúng ta như chủ nghĩa tư bản vẫn làm? Nếu là vậy thì tôi ủng hộ cấm chúng
Từ khi ChatGPT ra mắt, đã có lập luận rằng LLM nên được xem là tác phẩm phái sinh mang tính biến đổi và do đó thuộc phạm vi sử dụng hợp lý. Tôi không phải luật sư và đây chỉ là ý kiến của người không chuyên, nhưng sẽ rất thú vị khi xem hệ thống pháp lý đánh giá vấn đề này thế nào
Nếu vay mượn các mảnh ghép từ hàng chục, hàng trăm, hàng nghìn nguồn, thì bản quyền của ai bị xâm phạm? Nhạc remix cũng vay mượn từ nhiều nguồn, và nếu âm nhạc đủ khác biệt và có tính nguyên bản rõ ràng thì dường như vẫn vượt qua được mức độ xem xét pháp lý nhất định.
Tuy nhiên, một lập luận bao quát rằng LLM hay AI hiện tại thuộc phạm vi sử dụng hợp lý sẽ khó bảo vệ khi mô hình lặp đi lặp lại việc tái tạo các tác phẩm riêng lẻ hoàn chỉnh và có thể nhận diện được, đồng thời trong các trường hợp cụ thể còn vi phạm rõ ràng luật bản quyền. Mô hình có thể là remix hoặc mang tính biến đổi trong phần lớn trường hợp, nhưng có bằng chứng cho thấy không phải lúc nào cũng vậy. Có lẽ vụ kiện này sẽ trở thành động lực để sửa AI sao cho không tái tạo các tác phẩm cụ thể, từ đó khiến lập luận về sử dụng hợp lý trở nên vững chắc hơn và thực sự có thể bảo vệ được
Tình huống này đã được dự báo trong video rất có ảnh hưởng EPIC 2014 từ năm 2004
https://www.youtube.com/watch?v=eUHBPuHS-7s bản gốc là Flash nên đã biến mất vào hố quên lãng, chỉ còn lại bản chuyển đổi chất lượng thấp này
36 giây: “Nhưng báo chí như bạn từng biết không còn tồn tại nữa”
40 giây: “Các tổ chức tin tức của thế kỷ 20 đã trở thành thứ yếu. Chúng là tàn dư cô độc của một quá khứ không xa”
2 phút 11 giây: “Năm 2002, Google cũng ra mắt cổng tin tức Google News. Các tổ chức tin tức phản đối. Google News hoàn toàn do máy tính biên tập”
5 phút 13 giây: “Cuộc chiến tin tức năm 2010 đáng chú ý ở chỗ không có một tổ chức tin tức thực sự nào tham gia. Googlezon cuối cùng chiếu bí Microsoft bằng một năng lực mà gã khổng lồ phần mềm không thể theo kịp. Sử dụng các thuật toán mới, máy tính của Googlezon bóc tách và tái tổ hợp câu chữ cùng dữ kiện từ mọi nguồn nội dung để tạo ra các bài báo mới. Máy tính viết bài báo mới cho từng người dùng”
5 phút 55 giây: “Năm 2011, quyền lực thứ tư đang ngủ quên thức tỉnh và thực hiện cuộc kháng cự đầu tiên cũng như cuối cùng. New York Times Company kiện Googlezon, cho rằng các robot trích xuất sự kiện của công ty này vi phạm luật bản quyền. Vụ việc được đưa lên Tòa án Tối cao”
Các chi tiết không hoàn toàn khớp, nhưng độ chính xác tổng thể thì đáng kinh ngạc. Tuy vậy, trong dòng thời gian này, nó cũng có thể là sản phẩm của một kiểu hyperstition
https://en.wikipedia.org/wiki/EPIC_2014 Tôi từng nghĩ EPIC 2014 có thể là video Flash duy nhất có bài trên Wikipedia, nhưng tìm lại thì hóa ra còn thêm năm cái nữa