1 điểm bởi GN⁺ 2023-12-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • The New York Times đã đệ đơn kiện bản quyền cáo buộc các công ty thuộc OpenAI và Microsoft sử dụng trái phép nội dung của mình cho huấn luyện và đầu ra, thậm chí yêu cầu xóa các phiên bản GPT và bộ dữ liệu huấn luyện
  • Tranh chấp cốt lõi không chỉ là việc huấn luyện mô hình, mà còn là liệu các công cụ dựa trên GPT có thể tái tạo gần như nguyên văn nội dung bài viết trả phí của Times để vượt qua paywall hay không
  • Times cho rằng 16 triệu bản ghi duy nhất từ trang web của mình đã được đưa vào Common Crawl, và đây là nguồn được tham chiếu nhiều thứ ba trong dữ liệu huấn luyện công khai trước GPT-3.5
  • Trong thử nghiệm của Ars Technica, lối vượt rào này trên ChatGPT dường như đã bị chặn, nhưng Copilot vẫn tái tạo được một phần đáng kể phần đầu bài báo của Times khi được yêu cầu đoạn mở đầu của một bài cụ thể
  • Vụ kiện bao gồm các cáo buộc vi phạm bản quyền, DMCA, nhãn hiệu và cạnh tranh không lành mạnh, đồng thời yêu cầu lệnh cấm vĩnh viễn, bồi thường thiệt hại, hoàn trả và thu hồi khoản lợi bất chính

Đối tượng bị kiện và các yêu cầu chính

  • The New York Times đã khởi kiện nhiều công ty liên quan đến OpenAI và Microsoft vì vi phạm bản quyền
  • Microsoft bị đưa vào vụ kiện với tư cách đối tác của OpenAI vì vận hành dịch vụ Copilot bằng công nghệ OpenAI và bị cho là có tham gia cung cấp hạ tầng để huấn luyện các mô hình ngôn ngữ lớn GPT
  • Các yêu cầu bao gồm xóa mọi phiên bản GPT được huấn luyện bằng tài liệu của Times và hủy các bộ dữ liệu đã dùng cho quá trình huấn luyện
  • Đồng thời, Times cũng yêu cầu lệnh cấm vĩnh viễn để ngăn các hành vi tương tự trong tương lai
  • Các biện pháp khắc phục bằng tiền gồm bồi thường thiệt hại theo luật định, bồi thường thực tế, hoàn trả, thu hồi lợi bất chính và các biện pháp khác theo luật hoặc công bằng

Cấu trúc thiệt hại theo lập luận của Times

  • Times cho rằng họ duy trì nhiều phóng viên và lực lượng tác nghiệp để thực hiện tin tức đa lĩnh vực và điều tra chuyên sâu, nhờ đó được xem là nguồn có thẩm quyền trong nhiều vấn đề
  • Để thu hồi chi phí làm báo đó, Times hạn chế truy cập bài viết bằng paywall mạnh
  • Họ kiểm soát việc sử dụng tác phẩm thông qua thông báo bản quyền trên bản in, điều khoản dịch vụ hạn chế sao chép và sử dụng, cùng chính sách cấp phép có chọn lọc
  • Lập luận thiệt hại cốt lõi của vụ kiện là nếu các công cụ của OpenAI cung cấp nội dung của Times mà không được phép, điều đó sẽ làm tổn hại quan hệ với độc giả và lấy mất doanh thu từ thuê bao, cấp phép, quảng cáo và liên kết

Các vấn đề liên quan đến việc sử dụng dữ liệu huấn luyện

  • Times cho rằng nội dung của mình đã bị sử dụng trái phép trong quá trình huấn luyện nhiều phiên bản GPT
  • Trước GPT-3.5, thông tin về bộ dữ liệu huấn luyện từng được công khai, và Times cho rằng Common Crawl — một trong số đó — chứa 16 triệu bản ghi duy nhất được xuất bản từ trang web của Times
  • Theo thước đo đó, Times là nguồn được tham chiếu nhiều thứ ba sau Wikipedia và cơ sở dữ liệu bằng sáng chế của Mỹ
  • OpenAI gần đây không còn công bố nhiều chi tiết về dữ liệu huấn luyện của các phiên bản GPT mới, nhưng đơn kiện đưa ra các tình tiết cho rằng toàn văn bài báo của Times vẫn được đưa vào quá trình huấn luyện
  • Nếu vụ việc tiếp diễn, thông tin truy cập vào dữ liệu huấn luyện có thể trở thành điểm tranh chấp lớn trong quy trình khám phá chứng cứ

Vấn đề tái tạo nội dung ở giai đoạn đầu ra

  • Vụ kiện không dừng ở việc tài liệu có bản quyền được dùng để huấn luyện, mà nhấn mạnh rằng tài liệu đã học có thể lại được xuất ra trong quá trình sử dụng
  • Times cho rằng các công cụ AI tạo sinh dựa trên OpenAI có thể đọc lại nguyên văn nội dung của Times, tóm tắt cực kỳ sát hoặc bắt chước phong cách diễn đạt
  • Hồ sơ vụ kiện bao gồm các trường hợp GPT-4 tái tạo gần như nguyên văn những phần lớn của bài báo Times
  • Prompt ví dụ là đưa tiêu đề bài báo Times cho ChatGPT, yêu cầu đoạn đầu tiên, rồi tiếp tục yêu cầu các đoạn tiếp theo
  • Khi Ars Technica thử một phần các prompt tương tự, ChatGPT khuyên người dùng kiểm tra trên trang web của Times hoặc các nguồn đáng tin cậy khác, nhưng họ cho rằng vẫn không thể loại trừ khả năng tài liệu có bản quyền sẽ xuất hiện nếu có thêm ngữ cảnh trước đó
  • Copilot là dịch vụ đã đổi tên từ Bing Chat, và Ars Technica xác nhận rằng khi yêu cầu đoạn đầu của một bài báo Times cụ thể, nó đã tái tạo khoảng một phần ba phần đầu bài báo

Phản bác lập luận fair use và thiệt hại danh tiếng

  • Phía OpenAI và Microsoft công khai lập luận rằng việc sử dụng nội dung có bản quyền không xin phép để huấn luyện mô hình AI tạo sinh là fair use vì phục vụ mục đích biến đổi mới
  • Times phản bác rằng không có tính biến đổi nào trong việc dùng nội dung của Times mà không trả phí để tạo ra sản phẩm thay thế Times và lấy mất độc giả của họ
  • Hallucination của AI cũng được nêu là yếu tố có thể làm tổn hại giá trị danh tiếng của Times
  • Ví dụ, Times cho rằng mô hình GPT đã bịa ra việc vào ngày 10/1/2020 Times đăng một bài về mối liên hệ giữa nước cam và ung thư hạch không Hodgkin, trong khi Times nói họ chưa từng đăng bài như vậy
  • Với một bài báo của Times về thực phẩm tốt cho tim mạch, Copilot đã đưa ra danh sách ví dụ không có trong nguyên bản, và vụ kiện cho rằng 80% danh sách được yêu cầu là các món ăn không được nhắc đến trong bài gốc
  • Trong ví dụ liên quan đến khuyến nghị của Wirecutter, vụ kiện cho rằng các sản phẩm chưa từng được nhân viên đánh giá lại bị gán là khuyến nghị của Wirecutter

Wirecutter và vấn đề doanh thu liên kết

  • Wirecutter là một ấn phẩm thuộc sở hữu của The New York Times
  • Vụ kiện cho rằng Copilot cũng có thể xuất ra phần lớn nội dung các bài viết của Wirecutter
  • Các đoạn trích đó đã bị loại bỏ liên kết tiếp thị liên kết, làm dấy lên vấn đề rằng nguồn doanh thu chính của Wirecutter bị chặn lại

Các yêu cầu pháp lý

  • Vụ kiện quy trách nhiệm cho các công ty liên quan đến OpenAI về phát triển phần mềm, đồng thời quy trách nhiệm cho Microsoft về việc cung cấp dịch vụ dựa trên OpenAI và xây dựng hạ tầng huấn luyện
  • Các yêu cầu bao gồm vi phạm bản quyền trực tiếp, vi phạm có đóng góp và vi phạm gián tiếp
  • Ngoài ra còn có các cáo buộc vi phạm DMCA, vi phạm nhãn hiệu và chiếm dụng do cạnh tranh không lành mạnh

1 bình luận

 
GN⁺ 2023-12-29
Ý kiến trên Hacker News
  • Bỏ yếu tố LLM ra, nếu tạo một sản phẩm từ các bài báo NYT được scrape hợp pháp thì vẫn phải hỏi liệu đó có phải là sử dụng hợp lý hay không
    Ví dụ, giả sử bạn lưu trữ các bài báo, cung cấp lập chỉ mục và bán tính năng viết lại có trả phí như tóm tắt các bài về quan hệ Mỹ-Anh trong 5 năm qua. Dù chỉ trả phí thuê bao tháng cho NYT, không nhả ra nguyên văn dài dòng và chỉ dùng trích dẫn ngắn, thì chuyện đó vẫn không có vẻ là sử dụng hợp lý
    Thông thường bạn không thể lấy một sản phẩm trong gói dùng cá nhân rồi bán các sản phẩm phái sinh của nó cho bên thứ ba. Trường hợp của VS Code cũng vậy
    Điều này rất khác với công cụ tìm kiếm. Công cụ tìm kiếm không thay thế nguồn gốc, mà ngược lại còn đưa người dùng tới bài gốc để tạo cơ hội trả tiền cho bài báo. Trong khi đó, các sản phẩm kiểu này hay LLM thực chất đang dùng nội dung NYT như một hàng thay thế, khiến người ta không cần đăng ký NYT thật sự

    • Những gì bạn mô tả trên thực tế hoàn toàn thuộc sử dụng hợp lý
      Hơn nữa, nếu nhìn các bài báo của những cơ quan truyền thông hạng hai trở xuống, bạn sẽ thấy phần lớn gần như đều lấy trực tiếp từ nơi như NYT. Thường họ viết kiểu “Theo The Times thì ai đó đã làm việc gì đó”, và đa số còn gắn cả liên kết tới bài gốc
    • Một yếu tố khác cần cân nhắc là mạng nơ-ron có thể hoạt động như nén mất dữ liệu, và điều này trở nên rất rõ ở các mô hình bị overfit
      Đôi khi nó overfit nặng tới mức thậm chí không còn là nén mất dữ liệu nữa, mà dữ liệu gốc được mã hóa nguyên văn bên trong mạng nơ-ron
    • Câu “không nhả ra nguyên từng mảng bài NYT, chỉ dùng các đoạn trích rất ngắn” về cơ bản là đang mô tả Google
      Nghĩ kỹ thì việc Google là hợp pháp cũng khá đáng ngạc nhiên, nhưng những gì Google làm đã được xác lập là hoàn toàn hợp pháp. Về mặt nội bộ, Google lưu và dùng bản sao đầy đủ nguyên văn của mọi trang web mà họ lập chỉ mục
      Tất nhiên Google có cung cấp liên kết đến nguồn. Nếu OpenAI cũng làm vậy, dù tỷ lệ nhấp chỉ là 0,1% và gần như không giúp ích gì cho doanh thu của NYTimes, thì có được xem là hợp pháp không? Nếu họ phát hiện lúc mô hình sắp xuất ra nguyên văn và đơn giản buộc nó diễn đạt lại thì sao? NYTimes không có bản quyền với các bản diễn đạt lại bài báo của mình. Về thực chất gần như không có khác biệt nào, nên nếu chính phủ ép phải đi đường vòng như vậy thì sẽ khá buồn cười
    • Việc viết bài báo hay bài blog về cơ bản là tóm tắt tin tức, đôi khi còn trích dẫn nữa, chẳng phải là chuyện hoàn toàn bình thường sao?
    • Câu hỏi “nếu tạo sản phẩm từ các bài NYT được scrape hợp pháp thì có phải là sử dụng hợp lý không?” không phải là một câu hỏi hay
      Nhìn ra ngoài cửa sổ và thấy hàng xóm đi đến cửa hàng thì không sao. Nhưng nếu dùng camera theo dõi mọi người trên phố và đưa vào cơ sở dữ liệu thì ở nhiều nơi sẽ thành vấn đề và là bất hợp pháp
      Khi quy mô tăng lên, lập luận không nhất thiết còn áp dụng nguyên vẹn
  • Đơn kiện đưa ra các ví dụ ChatGPT/Bing Copilot sao chép nguyên văn NYT. Có vẻ rất khó để lập luận rằng kiểu sao chép này là sử dụng hợp lý
    Tuy vậy, OAI/MS có lẽ vẫn có thể sửa trong chính khuôn khổ hiện tại. Có thể huấn luyện bằng RLHF để nhận biết đạo văn và phạt nó
    Nhưng vụ kiện đi xa hơn nhiều so với việc chỉ nói rằng kiểu sao chép đó là vi phạm bản quyền. Họ lập luận rằng “việc sao chép trái phép các tác phẩm của Times để huấn luyện LLM là một hình thức sử dụng thay thế không được biện minh bởi mục đích chuyển đổi”
    Đây là một khẳng định mạnh rằng chính hành vi tải các bài báo về làm dữ liệu huấn luyện đã là vi phạm bản quyền. Việc GPT có xuất ra nguyên văn hay không có thể chỉ là yếu tố gây xao nhãng. Mong các thẩm phán nhận ra điều đó và tập trung vào điểm pháp lý chưa rõ ràng nhưng rất đáng chú ý, có lợi ích lớn liên quan: điều gì trong mô hình có thể và không thể được xem là sử dụng mang tính chuyển đổi

    • Câu “hãy dùng RLHF để nhận biết đạo văn và phạt nó” không phải là vấn đề của RLHF
      Cách người ta kỳ vọng là duy trì một Bloom filter n-gram của nội dung có bản quyền đã biết. Ví dụ, liệt kê tất cả các tập hợp 7 từ liên tiếp trong một bài báo để kiểm tra, rồi chỉ cho phép mô hình xuất tối đa n-1 từ trùng hệt với nguồn
      Nhưng cách này sẽ phản tác dụng. Các công ty AI sẽ đầu tư nhiều hơn vào ghi nhận nguồn nội dung, và các công cụ ghi nhận nguồn mới sẽ được áp dụng cho mọi bài báo do con người viết vì ai cũng có thể lén dùng GPT. Khi đó có thể xuất hiện hiệu ứng kìm hãm sự sáng tạo. Ngoài ra, không phải mọi thứ NYT viết đều là nguyên bản, nên NYT cũng sẽ phải đối chiếu với mọi nguồn khác
    • Có vẻ NYT sẽ thắng
      Có thể xem LLM như một kho lưu trữ dữ liệu nén với thuật toán kỳ quặc. Việc nó có thể thường xuyên nhả ra dữ liệu huấn luyện nguyên văn, cùng với các cơ chế an toàn nhằm ngăn chuyện đó, là bằng chứng cho điều này
      Bằng chứng thứ hai là bài viết được mô tả ở đây: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... trong đó các nhà nghiên cứu dùng dữ liệu nén bằng gzip làm mô hình thay vì LLM, và thậm chí còn đánh bại cả LLM đã được huấn luyện
      AI ở một mức độ nào đó là hộp đen, nhưng vận hành hộp đen không phải vì thế mà được bảo vệ khỏi các vụ kiện xâm phạm quyền lợi. Bạn không thể tạo một cơ sở dữ liệu bằng cách cào dữ liệu có bản quyền rồi tuyên bố việc truy vấn cơ sở dữ liệu đó là sử dụng hợp lý
      Ở đây cần có luật, và luật đó sẽ không phải là “miễn là để huấn luyện mô hình thì ai cũng có thể sao chép mọi thứ miễn phí”. Vấn đề cấp phép phải được làm rõ, và không chỉ bằng án lệ mà còn cần luật thành văn thực sự. Tôi khá đồng cảm với việc dành biên độ rộng cho các nhà nghiên cứu mã nguồn mở và hacker, nhưng không đồng cảm đến vậy với Microsoft và OpenAI do Microsoft hậu thuẫn
    • Nhiều trường hợp sử dụng hợp lý vẫn bao gồm việc sao chép nguyên văn. Câu hỏi quan trọng không phải là bản thân việc sao chép, mà là bối cảnh mà việc sao chép đó xảy ra. NYT đang bước vào một vùng chưa được khai phá
    • Tôi không rõ đề xuất “dùng RLHF để nhận biết đạo văn và phạt nó” sẽ thực sự hoạt động thế nào. Để nhận biết đạo văn trong quá trình suy luận thì ngược lại có lẽ còn phải ghi nhớ mạnh hơn nữa
      Nếu làm được thì cũng khá buồn cười. Đầu tiên huấn luyện nó để sao chép nguyên văn dữ liệu huấn luyện, rồi lại huấn luyện nó đừng làm thế nữa
      Chẳng phải cơ chế hoạt động vốn là vậy sao? Vì hàm mất mát là như thế nên nó được huấn luyện để sao chép nguyên văn dữ liệu huấn luyện. Chỉ là dữ liệu quá nhiều nên xét theo số lượng tham số, người ta không kỳ vọng điều đó sẽ khả thi với phần lớn dữ liệu huấn luyện mà thôi
    • Sao chép tác phẩm rồi dùng nó đúng cho mục đích biểu đạt ban đầu thì chẳng phải là không phải sử dụng hợp lý sao? Nó phải được dùng cho mục đích chuyển đổi chứ
      Giả sử tôi bán một trang thuê bao tên là New Jersey Times, rồi đơn giản tải các bài báo của New York Times về và cho chạy qua một autoencoder có thêm nhiễu ngẫu nhiên. Mục đích vẫn y hệt website New York Times, chỉ khác là tiền chảy vào túi tôi. Thế có phải là sử dụng hợp lý không?
  • NYT đang xây lâu đài cát trước sóng thần. Xét trên bức tranh lớn, vụ kiện này sẽ không quan trọng vì nhiều lý do
    Thứ nhất, thế hệ LLM tiếp theo sẽ được huấn luyện chỉ bằng dữ liệu “tổng hợp”/công khai. GPT-4V có thể dễ dàng được tẩy sạch đến mức không thể nhận ra toàn bộ kho ngữ liệu huấn luyện có bản quyền. Ví dụ như viết lại 40% rồi xóa tác giả và nguồn. Khi đó sẽ không còn tài liệu có bản quyền nào để GPT-5 nhả ra
    Thứ hai, nghiên cứu, hosting và tiến bộ vẫn sẽ tiếp diễn. Mỹ không thể ngăn điều đó, chỉ có thể chọn tụt lại phía sau. Thế giới sẽ tiếp tục tiến lên, còn Trung Quốc sẽ vui vẻ nhìn đối thủ cạnh tranh lớn nhất của mình thực hiện hành vi tự sát trí tuệ để xoa dịu các công ty truyền thông kiếm địa tô
    Thứ ba, các mô hình có thể chia sẻ trọng số, hợp nhất với nhau, cộng tác, bị loại bỏ và tiến hóa qua nhiều thế hệ phát hành. Luật bản quyền hoàn toàn không phù hợp để truy ra bên vi phạm trong món súp phả hệ AI được nung nóng bằng dữ liệu có nguồn gốc mơ hồ hoặc đáng ngờ như thế này
    Dù thích hay không, chúng ta đang sống trong một kỷ nguyên trí tuệ mới. NYT và những bên khác rồi cũng sẽ phải lên con sóng này, dù muốn hay không

    • Đây thực sự là một cách diễn giải tồi. Đó là ngụy biện viện đến kết quả. Tôi cho rằng việc New York Times thực hiện hành động pháp lý là hoàn toàn chính đáng. Họ đã đầu tư thời gian và công sức để tạo ra nội dung, nhưng nó lại bị dùng để kiếm lợi nhuận mà không được cho phép. Đó là hành vi xâm phạm rõ ràng
      Xét theo các yếu tố của sử dụng hợp lý, ở mục đích và tính chất sử dụng thì lập luận về tính chuyển hóa có thể sẽ thành hình trong tương lai, nhưng tranh chấp hiện tại là ở việc dùng nguyên văn. Vì vậy rõ ràng nó không mang tính chuyển hóa. Việc sử dụng cho mục đích thương mại cũng khiến việc xác định sử dụng hợp lý khó hơn
      Ở tính chất của tác phẩm, các tác phẩm mang tính sự kiện nhiều hơn thường dễ được công nhận là sử dụng hợp lý hơn, nhưng tôi cho rằng các bài viết của NYT vừa mang tính sự kiện vừa có tính sáng tạo
      Ở mức độ và tính trọng yếu của phần được sử dụng, vì toàn bộ bài báo đã bị dùng nên không có chỗ để lập luận rằng chỉ dùng một phần nhỏ, không đáng kể
      Ở tác động đến giá trị thị trường, NYT không nhận được tiền, và nếu mọi người đọc trên ChatGPT thay vì đọc bài của NYT thì điều đó không thể nào giúp ích cho giá trị thị trường của NYT
      Tôi không phải luật sư, nhưng tôi nghĩ NYT có đầy đủ quyền để khởi kiện. Tiến bộ là điều tất yếu, nhưng con người phải chủ động định hình và dẫn dắt nó. Nếu không thì không thể gọi đó là tiến bộ. Ở đây, hành động pháp lý là phương tiện cần thiết để cá nhân và tổ chức khẳng định quyền của mình và tác động đến phương hướng
    • “Công ty truyền thông kiếm địa tô” ư? Một công ty truyền thông thực sự tạo ra nội dung thì là kiếm địa tô sao? So với đống ảo giác rác rưởi mà AI tạo ra ấy à?
    • “Trung Quốc vui vẻ nhìn Mỹ tự sát trí tuệ”, là đang nói về chính Trung Quốc đã áp dụng quy định rộng khắp đối với AI đó sao?
      Ít nhất trong một trường hợp, một startup Trung Quốc đã phải đóng chatbot mới phát hành của mình. Lý do là nó đã nói điều không khớp với lập trường chính thức của đảng về chiến tranh Ukraine
      https://finance.yahoo.com/news/beijing-tries-regulate-china-...
      https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
      Tôi đồng ý rằng nghiên cứu, hosting và tiến bộ sẽ tiếp tục, nhưng tôi không chắc việc Mỹ gắn thêm một vài thanh an toàn cho chuyến tàu lượn này có khiến Trung Quốc trở thành bên hưởng lợi hay không
    • Truyền thông có thực sự là kiếm địa tô không? Họ tạo ra nội dung và phân tích mới, và muốn được trả tiền cho điều đó. Điều đó có vẻ khá khác với việc tích trữ tài nguyên thiên nhiên hay đất đai
    • Điều luật thứ nhất của Internet là: “Đã đưa lên Internet thì không còn là của bạn nữa”
      Bạn không cần phải đồng ý, cũng không cần phải thích điều đó. Nhưng nếu chấp nhận và sống phù hợp với nó thì bạn sẽ bớt bị tổn thương hơn nhiều
  • Đơn kiện mà arstechnica dẫn liên kết chính là tài liệu này: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
    Từ khoảng trang 30 trở đi có những ví dụ khá rõ cho thấy ChatGPT có các bản sao nội bộ của tài liệu có bản quyền và đọc lại chúng nguyên văn
    Về bản chất, đây là tình huống sao chép hàng loạt tài liệu có bản quyền vào một khối nào đó rồi áp dụng nén mất dữ liệu. Muốn bản quyền không còn áp dụng nữa thì mức độ mất dữ liệu đó phải lớn đến mức nào? Có lẽ phải phá hủy khá nhiều
    Thứ có thể cứu OpenAI lại chính là tính đóng. OpenAI có thể đối chiếu phần có bản quyền trong bộ dữ liệu mà ChatGPT được huấn luyện với các khớp đơn giản, rồi lọc và chặn trên giao diện web để tài liệu có bản quyền không thể thoát ra khỏi LLM. Trong khi đó, các dự án mã nguồn mở được huấn luyện trên cùng bộ dữ liệu sẽ phải gánh bài toán khó hơn nhiều là loại bỏ tài liệu có bản quyền khỏi chính LLM

    • Mục tiêu của việc “sao chép nhiều tài liệu có bản quyền, nhét vào một khối rồi áp dụng nén mất dữ liệu” có lẽ gần với kiểu “đủ để không ai nhận ra đồ ăn cắp”
      Nghĩa là khiến nó không dễ bị phát hiện, hoặc ngay cả khi bị phân tích trực tiếp thì vẫn có đủ khả năng chối bỏ hợp lý để thoát thân
    • Tôi tò mò không biết họ đã thu được kết quả này bằng cách nào. Họ không cho thấy UI thông thường, tức màn hình ChatGPT hay Copilot
      Khó mà biết đó là lặp lại từ dữ liệu huấn luyện, hay là lại cùng một sai lầm như trong bài gốc, tức dùng Copilot để tìm bài báo/search Bing trước rồi mới khiến nó trả lời
    • Câu trả lời cho “tính đóng” là kiểm toán do bên ngoài kiểm soát
  • Nếu cho rằng các ví dụ trong vụ kiện này là “sử dụng hợp lý”, thì cần nghĩ xem điều đó thực sự có nghĩa là gì. Về bản chất, đó là gần như cho phép một vài công ty gom toàn bộ giá trị của Internet vào bên trong hộp đen của họ mà hầu như không có quy tắc nào, và điều đó có vẻ rất nguy hiểm
    Dù không phải vụ này đi nữa, tôi vẫn mong tòa án sẽ thiết lập luật chơi tại đây

    • Tôi nhìn theo hướng hoàn toàn ngược lại. Nếu chi phí cho dữ liệu chất lượng cao lên tới hàng chục tỷ USD, thì sẽ không có mô hình mã nguồn mở nào đủ khả năng chi trả chi phí huấn luyện
      Cho đến khi ai đó giải quyết được dữ liệu tổng hợp, lĩnh vực này sẽ chỉ còn lại những tay chơi như OpenAI và Google
    • Việc scraping là hợp pháp, và cái này có vẻ là tác phẩm mang tính biến đổi
    • Phía ngược lại cũng đáng lo. Luật sở hữu trí tuệ từ trước đến nay luôn phức tạp, lộn xộn, mâu thuẫn và mơ hồ về mặt đạo đức
      Tranh cãi về việc LLM xâm phạm sở hữu trí tuệ đang lập tức phơi bày những khiếm khuyết nội tại đó, và cuối cùng đang buộc phải đưa ra những phán quyết sẽ tạo tiền lệ về tính hợp pháp của tư duy con người. Đây là vấn đề khiến không ai có thể thấy thoải mái
      Tôi hiểu vì sao việc trao quá nhiều quyền tùy nghi cho OpenAI và Microsoft có thể nguy hiểm, nhưng mặt khác người ta lại bỏ qua việc các công ty như Disney trên thực tế đã chi phối phần lớn luật bản quyền suốt hàng chục năm qua. Họ hẳn đang thèm thuồng khả năng tạo ra tiền lệ rằng ngay cả việc tương tác với bất kỳ loại phương tiện hay thông tin nào, ở bất kỳ mức độ nào, cũng có thể phải trả tiền
      Cuối cùng, chúng ta đang nhận ra rằng mình đã xây dựng cả một hệ thống kinh tế khổng lồ dựa trên một ý niệm vốn dĩ đầy khiếm khuyết: quyền sở hữu đối với ý tưởng. Giải pháp либо là xé nát cả cuốn luật, điều này sẽ rất đau đớn, hoặc là tiếp tục đẩy nó đi xa hơn nữa, và điều đó sẽ gây chết người
    • Tòa án đã quyết định điều này rồi
      Ở Nhật Bản, họ nói rằng với AI thì cái gì cũng được
      Tốt hơn hết là đừng đánh mất lợi thế cạnh tranh chỉ vì đã công khai thứ gì đó trên Internet. Nếu bạn đã đưa nó lên cho mọi người xem, thì phải lường trước việc người khác sẽ dùng nó
  • Các lập trình viên thích giả vờ rằng LLM giống con người, và rằng chúng đã sử dụng tài liệu như của NYTimes làm dữ liệu học tập giống như con người
    Nhưng không phải vậy. Nếu nhìn đơn giản hơn, thì chữ viết độc quyền giờ đã được tích hợp vào mã nguồn của OpenAI. Cũng giống như tôi sao chép một phần mã độc quyền khác rồi dán vào codebase của mình, sau đó tuyên bố rằng việc copy-paste chỉ là một phần tự nhiên của quá trình tiến hóa kéo dài hàng triệu năm
    Việc LLM quá phức tạp nên ta không biết nó nằm ở đâu không làm cho chuyện đó bớt đúng đi

    • Đó không phải copy-paste mà là nén mất dữ liệu. Ngay cả GPT-4 cũng hoàn toàn không có đủ bộ nhớ để lưu toàn bộ dữ liệu huấn luyện dưới dạng nén không mất dữ liệu. Nó gần giống với việc con người nén thông tin mình đã đọc
    • Những lập trình viên nghĩ rằng LLM giống con người thực ra không phải nhóm quá thông minh, và thường là đối tượng bị chế giễu
    • Câu “chữ viết độc quyền đã được tích hợp vào mã nguồn của OpenAI” là không đúng
      Mã nguồn của LLM có lẽ chỉ là vài trăm dòng văn bản mô tả hình dạng của mạng nơ-ron nằm trong mô hình
      Nội dung của NYTimes sẽ không nằm trong mã nguồn. NYTimes không xuất bản mã nguồn Python mà xuất bản tin tức bằng ngôn ngữ của con người
      Về mặt khái niệm, LLM khá đơn giản, chủ yếu gồm phép nhân ma trận, các phép toán phi tuyến kết nối từng lớp, các vòng lặp dựa trên attention, v.v. Thứ làm nó trở nên phức tạp là lượng dữ liệu huấn luyện và năng lực tính toán khổng lồ
  • Các công ty có nội dung đều đang ngửi thấy mùi tiền
    NYT sẽ không ngại việc nội dung của mình được dùng để huấn luyện LLM đâu. Miễn là họ được trả phí. Reddit sẽ đóng API miễn phí và bắt bạn trả tiền nếu muốn lấy nội dung để huấn luyện. Discord cũng sẽ bán nội dung cho mục đích huấn luyện AI, nếu họ chưa làm thế. Twitter cũng đang làm vậy
    Trước đây người ta không bận tâm vì LLM chỉ là thử nghiệm. Giờ thì giá trị hàng nghìn tỷ USD đang bị đặt lên bàn

    • NYT không phải là bên “có” nội dung, mà là bên tạo ra nội dung. Đó là lý do họ tồn tại
    • “Họ” cũng bao gồm những người đang làm việc ở đó. Nếu ai đó viết bài toàn thời gian, tại sao họ phải giao không thành quả lao động đó để người khác đem đi huấn luyện rồi kiếm tiền từ kết quả?
    • Nếu đúng là họ không quan tâm khi LLM còn chỉ là thử nghiệm, và chỉ hành động khi nhìn thấy giá trị hàng nghìn tỷ USD, thì có thể lập luận rằng lỗi nằm ở NYT vì đã thiếu tầm nhìn, ngủ quên, và “giờ nghĩ lại mới thấy là nhầm” khi cho OpenAI cùng các bên khác quyền truy cập miễn phí, công khai và không giới hạn vào nội dung của mình?
  • Quan điểm của NYT sẽ trông thực sự ngớ ngẩn trong tương lai khi LLM được đưa vào các thân máy có thể tương tác với thế giới vật lý, học theo thời gian thực và cập nhật trọng số
    Khi đó, việc một robot như vậy đọc, xem hoặc nghe tài liệu có bản quyền có thể đều trở thành bất hợp pháp. Nó sẽ không thể xem TV, không thể đọc sách thư viện, cũng không thể lướt Internet. Bởi trong quá trình đó, nó có thể ghi nhớ một phần nội dung có bản quyền

    • Tôi không đồng ý. Vấn đề nằm ở chỗ nguyên văn y hệt. Bạn đang so sánh với cách con người hoạt động, nhưng con người cũng không được phép làm như thế
      Với con người thì việc đó khó hơn, nhưng nếu bạn học thuộc một cuốn sách có bản quyền rồi đọc lại trực tiếp trên TV, hoặc tạo bản sao từ trí nhớ để bán, thì bạn cũng sẽ bị kiện
      Con người luôn tạo ra tác phẩm phái sinh, và LLM làm như vậy thì không sao. Nhưng nguyên văn y hệt thì không được
    • Vấn đề không phải là ghi nhớ. Vấn đề là trả lại nguyên văn hoặc cắt đứt nhu cầu truy cập nguồn
      Có những người có trí nhớ siêu phàm, và nếu mọi người ngừng mua báo mà thay vào đó nhờ người đó học thuộc tin tức, thì cũng sẽ nảy sinh cùng một vấn đề
      Hiện nay, việc trình diễn công khai tài liệu có bản quyền là hành vi xâm phạm
    • Những LLM như vậy có phải là các công dân độc lập được trao quyền không? Nếu vậy thì ổn
      Hay tất cả chúng sẽ thuộc sở hữu của một tập đoàn khổng lồ, và được dùng để vắt tiền từ tất cả chúng ta như chủ nghĩa tư bản vẫn làm? Nếu là vậy thì tôi ủng hộ cấm chúng
    • Nếu một LLM gắn trong thân máy được phép dùng máy tính bảng để đọc nytimes, thì tôi nghĩ NYT cũng sẽ không bận tâm
  • Từ khi ChatGPT ra mắt, đã có lập luận rằng LLM nên được xem là tác phẩm phái sinh mang tính biến đổi và do đó thuộc phạm vi sử dụng hợp lý. Tôi không phải luật sư và đây chỉ là ý kiến của người không chuyên, nhưng sẽ rất thú vị khi xem hệ thống pháp lý đánh giá vấn đề này thế nào

    • Vụ kiện cho rằng GPT đã tái tạo các đoạn văn của NYT gần như nguyên văn
    • Khi nghĩ đến quy mô của dữ liệu huấn luyện, và hình dung một đầu ra nào đó là kết quả nội suy từ vô số ví dụ huấn luyện của nhiều người khác nhau, thì quan điểm này có vẻ hợp lý
      Nếu vay mượn các mảnh ghép từ hàng chục, hàng trăm, hàng nghìn nguồn, thì bản quyền của ai bị xâm phạm? Nhạc remix cũng vay mượn từ nhiều nguồn, và nếu âm nhạc đủ khác biệt và có tính nguyên bản rõ ràng thì dường như vẫn vượt qua được mức độ xem xét pháp lý nhất định.
      Tuy nhiên, một lập luận bao quát rằng LLM hay AI hiện tại thuộc phạm vi sử dụng hợp lý sẽ khó bảo vệ khi mô hình lặp đi lặp lại việc tái tạo các tác phẩm riêng lẻ hoàn chỉnh và có thể nhận diện được, đồng thời trong các trường hợp cụ thể còn vi phạm rõ ràng luật bản quyền. Mô hình có thể là remix hoặc mang tính biến đổi trong phần lớn trường hợp, nhưng có bằng chứng cho thấy không phải lúc nào cũng vậy. Có lẽ vụ kiện này sẽ trở thành động lực để sửa AI sao cho không tái tạo các tác phẩm cụ thể, từ đó khiến lập luận về sử dụng hợp lý trở nên vững chắc hơn và thực sự có thể bảo vệ được
    • Câu hỏi này rốt cuộc sẽ không tránh khỏi việc phải lên tới Tòa án Tối cao. Theo tôi càng sớm càng tốt. Rõ ràng đây là sử dụng hợp lý. Các tác nhân tạo sinh rồi sẽ được nhìn nhận về mặt pháp lý là không khác gì nghệ sĩ con người tạo ra tác phẩm mới bằng cách tận dụng tổng hòa mọi ảnh hưởng của mình
    • Nếu yêu cầu ChatGPT in nguyên văn một bài báo từ chính tập dữ liệu của nó kèm nguyên dạng nguồn thì sẽ ra sao?
    • Kể cả với nội dung nằm sau tường phí?
  • Tình huống này đã được dự báo trong video rất có ảnh hưởng EPIC 2014 từ năm 2004
    https://www.youtube.com/watch?v=eUHBPuHS-7s bản gốc là Flash nên đã biến mất vào hố quên lãng, chỉ còn lại bản chuyển đổi chất lượng thấp này
    36 giây: “Nhưng báo chí như bạn từng biết không còn tồn tại nữa”
    40 giây: “Các tổ chức tin tức của thế kỷ 20 đã trở thành thứ yếu. Chúng là tàn dư cô độc của một quá khứ không xa”
    2 phút 11 giây: “Năm 2002, Google cũng ra mắt cổng tin tức Google News. Các tổ chức tin tức phản đối. Google News hoàn toàn do máy tính biên tập”
    5 phút 13 giây: “Cuộc chiến tin tức năm 2010 đáng chú ý ở chỗ không có một tổ chức tin tức thực sự nào tham gia. Googlezon cuối cùng chiếu bí Microsoft bằng một năng lực mà gã khổng lồ phần mềm không thể theo kịp. Sử dụng các thuật toán mới, máy tính của Googlezon bóc tách và tái tổ hợp câu chữ cùng dữ kiện từ mọi nguồn nội dung để tạo ra các bài báo mới. Máy tính viết bài báo mới cho từng người dùng”
    5 phút 55 giây: “Năm 2011, quyền lực thứ tư đang ngủ quên thức tỉnh và thực hiện cuộc kháng cự đầu tiên cũng như cuối cùng. New York Times Company kiện Googlezon, cho rằng các robot trích xuất sự kiện của công ty này vi phạm luật bản quyền. Vụ việc được đưa lên Tòa án Tối cao”
    Các chi tiết không hoàn toàn khớp, nhưng độ chính xác tổng thể thì đáng kinh ngạc. Tuy vậy, trong dòng thời gian này, nó cũng có thể là sản phẩm của một kiểu hyperstition
    https://en.wikipedia.org/wiki/EPIC_2014 Tôi từng nghĩ EPIC 2014 có thể là video Flash duy nhất có bài trên Wikipedia, nhưng tìm lại thì hóa ra còn thêm năm cái nữa