1 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Meta và CEO Mark Zuckerberg bị 5 nhà xuất bản và Scott Turow kiện vì bị cáo buộc sao chép lậu hàng triệu tác phẩm như sách, bài báo khoa học và bài viết để huấn luyện hệ thống AI
  • Meta bị cáo buộc tải xuống bằng torrent hàng triệu tài liệu có bản quyền từ các trang web vi phạm bản quyền khét tiếng, đồng thời nhiều lần sao chép dữ liệu thu thập từ web scraping không được phép để dùng huấn luyện Llama
  • Vụ kiện được nộp ngày 5 tháng 5 năm 2026 tại Tòa án Quận Liên bang Khu Nam New York, Mỹ; Hachette, Macmillan, McGraw Hill, Elsevier, Cengage và Scott Turow yêu cầu bồi thường thiệt hại bằng tiền với số tiền chưa được xác định
  • Meta cho biết sẽ phản biện mạnh mẽ, viện dẫn các phán quyết của tòa rằng việc dùng tài liệu có bản quyền để huấn luyện AI có thể thuộc phạm vi fair use; vào tháng 6 năm 2025, các yêu cầu khởi kiện của các tác giả liên quan đến việc huấn luyện Llama từng bị bác bỏ
  • Điểm khác biệt cốt lõi của vụ kiện lần này là cáo buộc Meta đã xem xét chiến lược cấp phép nhưng dừng lại theo chỉ đạo cá nhân của Zuckerberg, đồng thời chấp thuận tải xuống hơn 267TB dữ liệu lậu dù biết rõ rủi ro khi dùng LibGen

Trọng tâm của vụ kiện

  • Meta và CEO Mark Zuckerberg bị 5 nhà xuất bản và tác giả Scott Turow kiện vì bị cáo buộc sao chép lậu hàng triệu tác phẩm như sách, bài báo khoa học và bài viết để huấn luyện hệ thống AI
  • Meta và Zuckerberg bị cáo buộc đã làm theo khẩu hiệu nổi tiếng của Meta là “move fast and break things” để tạo ra mô hình AI tạo sinh, đồng thời tải xuống bằng torrent hàng triệu cuốn sách và bài báo khoa học có bản quyền từ các trang web vi phạm bản quyền khét tiếng
  • Meta cũng bị cáo buộc tải xuống dữ liệu web scraping không được phép tương đương gần như toàn bộ internet, sao chép chúng nhiều lần và dùng để huấn luyện hệ thống AI tạo sinh trị giá hàng tỷ USD của Meta là Llama
  • Hành vi này được mô tả là “một trong những vụ xâm phạm tài liệu có bản quyền quy mô lớn nhất trong lịch sử”

Nguyên đơn và nội dung yêu cầu bồi thường

  • Vụ kiện được nộp vào thứ Ba, ngày 5 tháng 5 năm 2026, tại Tòa án Quận Liên bang Khu Nam New York, Mỹ
  • Nguyên đơn gồm 5 nhà xuất bản là Hachette, Macmillan, McGraw Hill, Elsevier, Cengage và cá nhân Scott Turow
  • Vụ kiện tập thể được đề xuất yêu cầu bồi thường thiệt hại bằng tiền với số tiền chưa được xác định đối với cáo buộc vi phạm bản quyền
  • Bản sao đơn kiện có tại liên kết này

Phản bác của Meta và các tiền lệ trước đó

  • Người phát ngôn Meta cho biết: “AI đang tạo ra đổi mới, năng suất và sáng tạo cho cá nhân và doanh nghiệp, và các tòa án đã đúng khi phán quyết rằng việc sử dụng tài liệu có bản quyền để huấn luyện AI có thể thuộc phạm vi fair use”
  • Meta tuyên bố sẽ tích cực chống lại vụ kiện này
  • Đã có những trường hợp tác giả khởi kiện các công ty AI về vi phạm bản quyền nhưng thất bại
  • Tháng 6 năm 2025, một thẩm phán liên bang đã bác bỏ yêu cầu của 13 tác giả, trong đó có Sarah Silverman và Junot Díaz, vốn cáo buộc việc huấn luyện mô hình AI của Meta là vi phạm bản quyền
  • Khi đó, thẩm phán Vincent Chhabria phán quyết rằng việc Meta dùng một tập dữ liệu gồm khoảng 200.000 cuốn sách để huấn luyện mô hình ngôn ngữ Llama thuộc phạm vi fair use

Điểm khác biệt của vụ kiện lần này

  • Vụ kiện lần này nhấn mạnh rằng Meta và Zuckerberg đã cố ý lách qua các biện pháp bảo vệ bản quyền
  • Meta bị cáo buộc từng xem xét phương án cấp phép tác phẩm, nhưng đã từ bỏ chiến lược đó theo “chỉ đạo cá nhân của Zuckerberg”
  • Vụ kiện cho rằng hành vi bị nêu ra vượt ra ngoài phạm vi được bảo vệ bởi điều khoản fair use trong luật bản quyền Mỹ
  • Đơn kiện nêu rằng theo chỉ đạo của Zuckerberg, Meta đã sao chép trái phép hàng triệu cuốn sách, bài báo khoa học và các tác phẩm khác, bao gồm cả các tác phẩm do nguyên đơn và các thành viên trong nhóm sở hữu hoặc quản lý, đồng thời tạo thêm các bản sao để huấn luyện Llama
  • Zuckerberg bị cáo buộc đã “đích thân phê duyệt và tích cực khuyến khích” hành vi vi phạm
  • Meta còn bị cáo buộc đã gỡ bỏ thông tin quản lý bản quyền khỏi các tác phẩm bị đánh cắp để che giấu nguồn dữ liệu huấn luyện và khiến việc sử dụng trái phép dễ dàng hơn

Xem xét cấp phép rồi dừng lại

  • Theo vụ kiện, sau khi phát hành Llama 1, Meta từng tạm thời xem xét phương án ký thỏa thuận cấp phép với các nhà xuất bản lớn
  • Từ tháng 1 đến tháng 4 năm 2023, Meta đã thảo luận việc tăng ngân sách cấp phép dataset của công ty lên tối đa 200 triệu USD
  • Đầu tháng 4 năm 2023, Meta được cho là đã đột ngột dừng chiến lược cấp phép
  • Đơn kiện nêu rằng vấn đề liệu có tiếp tục cấp phép tài liệu có bản quyền hay dùng dữ liệu lậu đã được “escalate” lên Zuckerberg
  • Sau lần báo cáo đó, nhóm phát triển kinh doanh của Meta được cho là đã nhận chỉ đạo miệng phải dừng các nỗ lực cấp phép
  • Đơn kiện cũng cho biết một nhân viên Meta đã giải thích lý do theo hướng: “Chỉ cần cấp phép dù chỉ một cuốn sách thì sẽ khó tiếp tục dựa vào chiến lược fair use”

Kinh nghiệm cấp phép trước đây của Meta

  • Vụ kiện cho rằng Meta và Zuckerberg hiểu rất rõ thị trường cấp phép dữ liệu huấn luyện AI
  • Theo đơn kiện, trong năm 2022 Meta đã ký 4 thỏa thuận cấp phép với các nhà xuất bản sách ngôn ngữ châu Phi cho các bộ dữ liệu huấn luyện giới hạn
  • Sau đó Meta cũng ký thỏa thuận cấp phép với các nhà xuất bản tin tức lớn như Fox News, CNN và USA Today

Việc sử dụng LibGen và đánh giá rủi ro nội bộ

  • Theo đơn kiện, ngày 13 tháng 12 năm 2023, nhân viên Meta đã lưu hành một bản ghi nhớ nội bộ về rủi ro pháp lý khi sử dụng LibGen
  • Bản ghi nhớ của Meta mô tả LibGen là “dataset mà chúng tôi biết là dữ liệu lậu”
  • Đơn kiện cũng nêu rằng trong cùng bản ghi nhớ có nội dung “sẽ không công khai việc đã sử dụng dataset LibGen trong huấn luyện”
  • Những lo ngại này cuối cùng được cho là đã không được chấp nhận
  • Theo đơn kiện, Zuckerberg và các lãnh đạo khác của Meta đã phê duyệt và chỉ đạo việc tải xuống bằng torrent hơn 267TB dữ liệu lậu
  • Khối lượng này được cho là tương đương hàng trăm triệu ấn phẩm, gấp nhiều lần quy mô toàn bộ bộ sưu tập sách in của Thư viện Quốc hội Mỹ

Các cáo buộc về đầu ra của Llama

  • Hệ quả của hành vi vi phạm bị cáo buộc là hệ thống AI của Meta có thể nhanh chóng tạo ra ở quy mô lớn các đầu ra thay thế cho tác phẩm của nguyên đơn và các thành viên trong nhóm đã được dùng để huấn luyện
  • Theo đơn kiện, các sản phẩm thay thế đó bao gồm các bản sao gần như giống nguyên tác, các chương thay thế của giáo trình học thuật, cũng như các bản tóm tắt và phiên bản thay thế của tiểu thuyết nổi tiếng và bài báo khoa học
  • Llama còn bị cáo buộc tạo ra các bản nhái chất lượng thấp sao chép yếu tố sáng tạo của tác phẩm gốc, cũng như các tác phẩm phái sinh vốn chỉ được phép độc quyền cho chủ sở hữu quyền
  • Theo đơn kiện, Llama đôi khi còn tạo đầu ra được tùy chỉnh để mô phỏng các yếu tố biểu đạt và lựa chọn sáng tạo của một tác giả cụ thể

1 bình luận

 
Ý kiến từ Hacker News
  • Nhiều người hẳn sẽ rất vui nếu vụ này khiến Zuckerberg phải trả dù chỉ mức bồi thường thiệt hại tối thiểu theo luật định là 750 USD cho mỗi hành vi xâm phạm
    Trong vụ xâm phạm trước đó của Anthropic, người ta cho rằng việc huấn luyện AI tự nó là sử dụng mang tính biến đổi và không phải là hành vi xâm phạm, nhưng việc sao chép trái phép tác phẩm để phục vụ mục đích đó thì rõ ràng là xâm phạm
    Mức dàn xếp là 1,5 tỷ USD, tương đương gần 3.000 USD cho mỗi trong số 500.000 tác phẩm bị sao chép trái phép, nên nếu Zuckerberg đã sao chép trái phép “hàng triệu” tác phẩm thì một thỏa thuận 6 tỷ USD cũng khá hợp lý

    • Nghĩ đến những đứa trẻ từng bị truy tố hình sự chỉ vì điều hành một trang MP3[1] thật khiến người ta bức bối
      Trong khi đó, người này có vẻ đã lấy cắp gần như toàn bộ media đang tồn tại, vậy mà có lẽ sẽ thoát sạch chỉ vì quá giàu để bị truy tố
      [1] Ví dụ: https://en.wikipedia.org/wiki/Oink%27s_Pink_Palace#Legal_pro...
    • Chừng nào DJT còn là tổng thống thì có lẽ Zuckerberg hay Meta sẽ chẳng hề hấn gì
      Coi như đã mua được lá chắn tốt nhất để có thể vi phạm pháp luật
    • Chừng này hoàn toàn không gây ấn tượng gì. Tôi không hiểu làm sao sau ngần ấy chuyện họ vẫn có thể tiếp tục là kẻ độc quyền/bá quyền AI
      Về cơ bản là cưỡng ép thâu tóm tất cả mà chẳng cần hỏi, rồi sau đó mới mặc cả giá. Truy tố hình sự đâu rồi, hay nếu không phải tước tự do thì ít nhất cũng phải tước tài sản cổ phần chứ?
    • Không ngờ rồi cũng có ngày tôi lại cổ vũ cho luật sư sở hữu trí tuệ
    • Theo ngữ cảnh thì giá trị tài sản ròng của Zuckerberg vào khoảng 220 tỷ USD
  • Trước đây họ từng kiện đủ kiểu những sinh viên chỉ tải MP3 xuống mà không hề phát tán lại
    Lý do là đó không phải sử dụng biến đổi có thể xem là fair use, mà chỉ đơn thuần là tải file xuống, nên bài học rút ra là lẽ ra những sinh viên đó phải ăn cắp hàng triệu tác phẩm mới đúng

    • Đó cũng có thể là một chiến dịch định hình dư luận thông tin
      Nếu ngay cả người dùng cuối cũng có thể bị truy tố, thì bản thân diễn ngôn sẽ chuyển từ tích cực sang tiêu cực, và phía có quyền lực sẽ dễ đàn áp hành vi đó hơn
    • Tiêu chí phân biệt thật sự là có siêu giàu hay không
  • Vài tuần trước tôi đã phải chặn ASN của Meta khỏi máy chủ cgit cá nhân của mình. Họ phớt lờ robots.txt và đốt cháy luôn máy chủ
    Có vẻ rõ ràng là họ phân tán trên các dải mạng khác nhau để né giới hạn theo IP, và chỉ riêng log truy cập do họ tạo ra đã lên đến hàng trăm MB. Thật khó tin

    • Năm ngoái tôi cũng gặp đúng chuyện đó. Họ crawl liên tục các URL ngẫu nhiên không hề tồn tại
      Trông như thể đang cố proxy truy vấn người dùng sang một endpoint tìm kiếm, và ASN trùng khớp nên không phải ai đó giả danh Meta
    • Tôi nghĩ chặn theo ASN nên trở nên phổ biến hơn nhiều. Chỉ tiếc là trong các công cụ thông dụng, nó thường không được hỗ trợ như một tùy chọn cấu hình hạng nhất
    • Tôi tò mò không biết người ta nhận diện các công ty kiểu này thế nào. Có dịch vụ nào giúp biết công ty nào đã cào dữ liệu trang của tôi không?
  • Buồn cười là tự nhiên mọi người lại đứng về phía Elsevier. Theo luật hiện hành, có vẻ khá rõ rằng huấn luyện AI là fair use mang tính biến đổi
    Biết đâu chính vụ này lại trở thành án lệ chứng minh điều đó

    • Tôi khó chịu với kiểu những người ủng hộ AI cố làm như những ai suốt 20 năm qua chống lại ngành công nghiệp bản quyền giờ bỗng dưng đổi lập trường chỉ vì họ phản đối ngành AI
      Tôi có thể ủng hộ phi hình sự hóa hoặc hợp pháp hóa cần sa với số lượng nhỏ cho mục đích cá nhân, nhưng điều đó không có nghĩa là tôi ủng hộ một ngành sản xuất ma túy công nghiệp khổng lồ đến mức bóp méo nền kinh tế, hay các công ty muốn bỏ methamphetamine vào mọi sản phẩm
    • Tôi cũng thấy buồn cười. Ở thread khác và trong bài viết[0], tôi cũng đã nói vậy
      “Họ lại sao chép thành quả bị đánh cắp đó,” nhưng rốt cuộc cái gì mới là “bị đánh cắp”? Chủ sở hữu ban đầu chẳng phải vẫn còn giữ thứ được cho là bị lấy mất đó sao?
      Trong Dowling v. United States, 473 U.S. 207 (1985), Tòa án Tối cao đã phán quyết rằng việc bán trái phép các bản ghi tác phẩm âm nhạc có bản quyền không cấu thành hàng hóa “bị đánh cắp, chiếm đoạt hoặc thu được bằng gian lận” theo National Stolen Property Act
      Ngay cả nếu vì mục đích tranh luận mà coi đó là bị đánh cắp đi nữa, thì mục đích của bản quyền là “thúc đẩy sự tiến bộ của khoa học và nghệ thuật hữu ích bằng cách bảo đảm cho tác giả và nhà phát minh quyền độc quyền đối với các tác phẩm và phát minh tương ứng của họ trong một thời hạn giới hạn”
      Sẽ rất khó để chứng minh rằng LLM không thúc đẩy nghệ thuật và khoa học, nên ít nhất tôi cho rằng nó thuộc sử dụng mang tính biến đổi, tức fair use
      [0] https://news.ycombinator.com/item?id=48026207#48029072
    • Tôi nghĩ thậm chí không cần đi xa đến mức nói rằng “huấn luyện AI là fair use mang tính biến đổi theo luật hiện hành”. Đây là một sản phẩm hoàn toàn mới
      Nó giống như người bán bàn phím đòi tiền bản quyền từ phần mềm được tạo ra bằng chính bàn phím đó
      Việc tác giả viết sách không lường trước được trường hợp sử dụng mới là huấn luyện LLM là điều không quan trọng. Cuốn sách đó không nằm trong LLM, cũng không được bán kèm với LLM. Nó chỉ là một trong hàng tỷ công cụ dùng để tạo ra LLM
      Cách người ta đóng khung chuyện này như thể các công ty AI đang rút giá trị từ những chủ sở hữu sở hữu trí tuệ tội nghiệp như Disney thật điên rồ. Nội dung đó là di sản văn hóa của chúng ta và vốn đã là của chúng ta rồi. Chỉ là có ai đó ngốc nghếch được trao quyền độc quyền khai thác nó suốt đời mà thôi
      LLM được huấn luyện trên dữ liệu mà chúng ta vốn đã sở hữu. Disney và những bên tương tự chỉ đang muốn moi thêm tiền từ những thứ được tạo ra cách đây hàng chục năm bằng cách tận dụng công nghệ mới
      Cùng lắm thì đây là đảo ngược kỹ thuật, và ở Mỹ nó lẽ ra phải được bảo vệ dưới fair use, dù sự bảo vệ đó có vẻ đã bị bào mòn phần nào
    • Thông thường, điểm mấu chốt không phải là có mang tính biến đổi hay không mà là việc chiếm đoạt trái phép tài liệu có bản quyền
    • Tôi cho rằng cả Elsevier lẫn những người lấy sở hữu trí tuệ để huấn luyện AI phân phối thương mại mà không có sự đồng ý của tác giả đều nên được xem là hợp pháp
  • Tôi đang chờ xem trách nhiệm cá nhân sẽ ra sao
    Ở công ty, trách nhiệm quá thường xuyên biến mất, và tôi luôn thắc mắc cơ sở pháp lý biện minh cho điều đó là gì. Cho đến nay, lý do còn sót lại chỉ là kiểu “nhún vai” và “có vẻ điều khoản liên quan không áp dụng”, mà cả hai đều không phải lý do tốt
    Tôi định đùa rằng nếu gắn nam châm vào thi thể Aaron Swartz thì giờ đây hẳn nó sẽ quay nhanh đến mức thành một nguồn năng lượng mạnh
    Nhưng thành thật mà nói, nhìn vào cách vụ của anh ấy bị xử lý và việc từ đó đến nay chẳng cải thiện được bao nhiêu, có lẽ chính anh ấy cũng đã đoán trước được chuyện như thế này

    • Cách xử lý vụ Aaron Swartz là một thảm họa, nhưng anh ấy không bị truy tố vì cáo buộc sao chép lậu
      Các cáo buộc là gian lận, truy cập trái phép vào máy tính được bảo vệ, và gây hư hại máy tính
      Theo thời gian, cơ sở của vụ việc bị lãng quên và bị thay bằng giả định rằng đó là vụ sao chép lậu, nhưng thực ra đó là vụ về truy cập trái phép
    • Ở một thực tại khác, Aaron Swartz không bị thần thánh hóa, và giờ có lẽ đang điều hành một startup AI/crypto trả tiền cho người dùng tải dữ liệu huấn luyện lên cùng với những người bạn cựu YC của mình
  • Nếu Zuckerberg không bị trừng phạt nặng vì chuyện này, thì ít nhất tôi mong sẽ có một tiền lệ pháp lý rằng mọi người khác cũng được miễn trách nhiệm nếu làm y hệt vậy
    Mọi Aaron Swartz trong tương lai phải có thể tự do chia sẻ các bài báo khoa học với toàn thế giới

    • Tôi nghĩ họ nhiều khả năng sẽ dùng vận động hành lang để tạo ra regulatory capture, rồi kéo thang lên đối với những người tham gia nhỏ hơn
  • Tôi có quen một kỹ sư từng bị chỉ đạo làm một việc dù biết rõ có rất nhiều rủi ro pháp lý, với lý do là công ty có luật sư là để lo việc đó

    • Sẽ tốt nếu những chuyện như vậy lộ ra trong quá trình discovery khi bị kiện, nhưng có lẽ sẽ chẳng bao giờ lộ ra
      Tố giác nội bộ trong bối cảnh kinh tế hiện nay không phải lựa chọn hấp dẫn, nhưng tôi vẫn ước có nhiều người làm hơn
  • Vậy tức là “move fast and steal things” à?

    • Khi các bot thu thập AI mới bắt đầu xuất hiện, về cơ bản tôi đã nghĩ như vậy. Có vẻ như kế hoạch là cào lấy mọi thứ có thể trước khi mọi người kịp nhận ra chuyện gì đang xảy ra và bắt đầu chặn lại
      Tốc độ chúng lướt và cào dữ liệu từ các website vượt xa cả những thứ được gọi là crawler hợp pháp, và đó có vẻ là lời giải thích hợp lý nhất
    • Move fast and break laws
    • Ngay từ đầu, từ trên đỉnh mà ra
    • Vụ trộm lớn nhất từng xảy ra với giai cấp lao động
    • Ăn cắp đồ á? Đây lại là kiểu lập luận “bạn đâu có sao chép lậu một chiếc xe” nữa sao? Tôi tưởng chúng ta đã vượt qua chuyện đó từ lâu rồi chứ
  • Dù CEO phê duyệt hay một lãnh đạo cấp cao khác phê duyệt, trách nhiệm của công ty có lẽ cũng không thay đổi
    Câu hỏi cần trả lời là liệu chuyện đó có xảy ra hay không, và nếu có thì nó có phải là xâm phạm bản quyền không được fair use bảo vệ hay không, chứ không phải là vị lãnh đạo nào trong công ty đã phê duyệt

  • Aaron Swartz từng đối mặt với án tù nhiều năm chỉ vì tải xuống các bài báo khoa học để chia sẻ miễn phí với thế giới, dù không kiếm lợi gì từ đó, và cuối cùng anh đã tự kết liễu đời mình
    Trong khi đó, một công ty trị giá hàng tỷ đô tải xuống hàng triệu tác phẩm sáng tạo có bản quyền, dùng bộ dữ liệu đó để huấn luyện một kiểu mô hình AI mới và tìm cách tái cấu trúc toàn bộ thị trường lao động, thì lại được xem là thứ đổi mới kiểu Silicon Valley và còn như thể xứng đáng nhận huân chương

    • Khi một cá nhân tải trái phép tài liệu có bản quyền thì đó là tội phạm. Khi một tập đoàn đa quốc gia tải trái phép tài liệu có bản quyền thì đó lại trở thành lĩnh vực tăng trưởng duy nhất còn lại của nền kinh tế Mỹ và là thứ thiết yếu cho an ninh quốc gia
    • Aaron đã xóa bản sao cục bộ thì Jstor rút kiện. DOJ thì không rút
      Tôi không nghĩ Meta đã xóa các bản sao cục bộ của họ
    • Aaron Swartz đã bị đối xử bất công, và lý do là vì luật bản quyền quá tệ
      Nên phản đối những đạo luật và cách đối xử như vậy, chứ không nên vung chúng như công cụ để trừng phạt đối thủ
      Lập luận rằng mọi người đều phải bị đối xử bất công như nhau là sai. Tốt hơn là hãy kêu gọi xóa bỏ những đạo luật và cấu trúc tồi tệ đó
    • Meta cũng đã chia sẻ miễn phí các mô hình AI với thế giới
    • Quả thật là đi trước thời đại