Anthropic cắt gáy và quét hàng triệu sách cũ để huấn luyện Claude, đồng thời tải xuống 7 triệu bản sao lậu

(businessinsider.com)

6 điểm bởi GN⁺ 2025-07-08 | 1 bình luận | Chia sẻ qua WhatsApp

Thẩm phán cho biết Anthropic đã cắt rời và quét hàng triệu cuốn sách cũ để huấn luyện chatbot AI Claude
Phán quyết cũng đề cập việc công ty đã tải xuống hơn 7 triệu cuốn sách sao chép lậu riêng biệt
Thẩm phán nhận định việc số hóa sách đã mua để dùng làm dữ liệu huấn luyện thuộc phạm vi sử dụng hợp lý
Ngược lại, việc sử dụng dữ liệu từ bản sao lậu không được công nhận là sử dụng hợp lý và bị nhấn mạnh là vi phạm bản quyền
Phán quyết lần này được đánh giá là một tiền lệ quan trọng liên quan đến việc áp dụng bản quyền trong huấn luyện mô hình AI

Tổng quan

Thẩm phán William Alsup của Tòa án Quận Bắc California, Mỹ, phân tích rằng Anthropic đã sử dụng nhiều loại tư liệu như sách, bài đăng mạng xã hội và video làm nguồn dữ liệu để huấn luyện chatbot AI Claude
Anthropic đã đầu tư hàng triệu USD để mua số lượng lớn sách cũ, sau đó tháo gáy, cắt rời từng trang và chuyển chúng thành tệp số
Các tệp đã chuyển đổi được lưu trong thư viện nghiên cứu nội bộ, còn sách gốc thì bị loại bỏ
Ngoài ra, Anthropic, công ty được Amazon và Alphabet hậu thuẫn, còn tải xuống riêng hơn 7 triệu cuốn sách sao chép lậu để dùng cho việc huấn luyện mô hình Claude

Quá trình sử dụng sách và bản sao lậu

Đồng sáng lập Anthropic là Ben Mann thừa nhận đã tải xuống bất hợp pháp ít nhất 5 triệu cuốn sách từ Library Genesis vào năm 2021
Đến năm 2022, ông tiếp tục tải thêm ít nhất 2 triệu cuốn từ Pirate Library Mirror
Đồng sáng lập kiêm CEO Dario Amodei từng nói ông "thích đánh cắp (steal) sách hơn để tránh những phiền toái về pháp lý, thông lệ và kinh doanh"
Năm 2023, ba tác giả đã đệ đơn kiện tập thể chống lại Anthropic với cáo buộc công ty sử dụng trái phép các bản sao lậu sách của họ

Nhận định của thẩm phán: phân biệt sử dụng hợp lý với sách và sử dụng bản in lậu

Điểm 1: Công nhận sử dụng hợp lý
- Thẩm phán cho rằng việc Anthropic số hóa sách quy mô lớn và sử dụng chúng làm dữ liệu học AI là hành vi "mang tính chuyển đổi rất cao (exceedingly transformative)"
- Phán quyết nêu rằng "LLM của Anthropic không học để chỉ sao chép hay thay thế các tài liệu hiện có, mà để tạo ra một thứ hoàn toàn khác"
- Việc công ty số hóa những cuốn sách do chính mình mua và lưu trữ trong thư viện thuộc phạm vi sử dụng hợp lý
Quảng cáo
Điểm 2: Sử dụng bản sao lậu không phải sử dụng hợp lý
- Thẩm phán chỉ trích dứt khoát việc Anthropic sử dụng sách in lậu/bản sao lậu làm dữ liệu
- Ông nêu rõ rằng "Anthropic không có quyền sử dụng sách sao chép lậu trong thư viện trung tâm, và việc xây dựng một thư viện thường trực, đa dụng tự nó không thể biện minh cho sử dụng hợp lý"

Tác động và xu hướng ngành

Đây là một trong những vụ việc đầu tiên xem xét liệu việc dùng sách có bản quyền làm dữ liệu huấn luyện mô hình AI có thuộc phạm vi sử dụng hợp lý hay không
Gần đây, các nhà sáng tạo, nghệ sĩ và cơ quan báo chí đã liên tiếp khởi kiện OpenAI và nhiều công ty AI tạo sinh khác với các cáo buộc tương tự
Ngành AI cho rằng việc huấn luyện mô hình AI thuộc phạm vi sử dụng hợp lý, trong khi các nhà sáng tạo khẳng định quyền lợi của họ đang bị xâm phạm
Gần đây, Disney cũng đã kiện công ty tạo ảnh AI Midjourney vì vi phạm bản quyền nhân vật của mình

Kết luận

Phần liên quan đến số hóa sách và sử dụng hợp lý của Anthropic được xem là một án lệ mang tính bước ngoặt đối với nghiên cứu AI và cách diễn giải bản quyền
Ngược lại, việc sử dụng bản sao lậu được xác định là vi phạm bản quyền rõ ràng, trở thành điểm tham chiếu quan trọng cho các tiêu chuẩn tìm nguồn dữ liệu huấn luyện AI trong tương lai

1 bình luận

GN⁺ 2025-07-08

Ý kiến trên Hacker News

Liên kết bài gốc
Tóm tắt phán quyết quan trọng của thẩm phán: việc Anthropic sử dụng các cuốn sách có bản quyền để huấn luyện AI được coi là sử dụng hợp lý vì mang tính “chuyển đổi rất cao”. Anthropic lập luận rằng họ chỉ lưu trữ kỹ thuật số những cuốn sách thật mà họ đã mua trong một thư viện trung tâm, chứ không tạo ra hay phân phối lại các bản sao mới. Việc “sao chép lậu một thư viện” là hành vi vi phạm bản quyền rõ ràng. Điểm thú vị là thẩm phán cũng công nhận việc quét và số hóa thư viện để dùng nội bộ là có thể chấp nhận được, và phần sử dụng cho huấn luyện AI cũng được xem là sử dụng hợp lý.
- Trong khi đó, phần thẩm phán đề cập đến một luận điểm khác cũng rất quan trọng. Thẩm phán vạch ranh giới rõ ràng rằng việc Anthropic dùng sách sao chép lậu như một thư viện trung tâm không phải là sử dụng hợp lý. Tức là, tự mua sách rồi quét bản vật lý để dùng cho huấn luyện AI thì là sử dụng hợp lý, còn dùng bản lậu thì không
- Tôi không nghĩ phán quyết này có gì mới. Theo tôi, hơn 10 năm trước Google đã tạo tiền lệ rằng việc chuyển sách sang dạng số là được phép
- Theo tôi biết, trong phiên xử tiếp theo có liên quan đến Meta, thẩm phán Vince Chhabria từng phản đối lập luận sử dụng hợp lý liên kết liên quan (không phải dân luật)
- Tôi tự hỏi ở đây liệu nguyên tắc “fruit of the poisonous tree” cũng có được áp dụng không
- Nghĩ đến chuyện ngày xưa họ từng muốn kết án Aaron Swartz gần như chung thân vì gần như cùng một việc, mới thấy thời thế đã thay đổi thật nhiều
Các trường hợp cá nhân thực sự bị trừng phạt vì liên quan đến vi phạm bản quyền quy mô lớn bài tham khảo
- Tôi còn tưởng sẽ nhắc tới vụ Aaron Swartz chứ
- Bấm vào bài trên mới thấy đó thực chất là câu chuyện về một doanh nghiệp “bán” phần mềm lậu trị giá hàng triệu đô. Không phải chỉ dùng thử một mình, mà rõ ràng là ăn cắp rồi bán lại cho người khác để kiếm lời. Đây là trường hợp hoàn toàn khác với sử dụng mang tính chuyển đổi hay dùng cá nhân
- Anthropic không bán những tài liệu đó. Nếu một cá nhân đọc sách rồi tóm tắt hoặc trích dẫn một phần, chắc cũng không đến mức bị bỏ tù. Thế mà chống lại Autodesk lại bị 7 năm tù, điều đó cho thấy thực tế của giới pháp lý còn nặng hơn cả tội cướp
- Tôi nghĩ việc đơn thuần sao chép và bán phần mềm lậu khác rất xa với trường hợp Anthropic dùng sách như thế này. Anthropic chưa từng tạo ra rồi phát hành “bản sao” của bất kỳ cuốn sách nào
- Một câu đùa rằng nếu định vi phạm pháp luật thì trước tiên hãy lập pháp nhân để đẩy trách nhiệm sang đó. Một màn châm biếm thực tế rằng nếu đủ vốn thì vi phạm luật cũng có thể được che chắn
Các công ty như Spotify dường như cũng từng phát triển hoạt động kinh doanh ban đầu dựa trên tài liệu bất hợp pháp. Từng có tin đồn rằng các file mp3 “lậu” được dùng trong giai đoạn beta test. Có những lời kể rằng họ từng tải các track có gắn thẻ “Scene” bài liên quan
- Crunchyroll ban đầu cũng là một trang stream anime lậu, nhưng sau đó hợp pháp hóa bằng cách giành được giấy phép chính thức. Bắt đầu năm 2006, nhận vốn VC năm 2008, ký thỏa thuận cấp phép năm 2009 bài Forbes, bài Venturebeat
- Thực ra không chỉ Spotify mà hầu hết các gã khổng lồ công nghệ đều kiếm tiền bằng cách hoạt động trong vùng xám pháp lý hoặc phớt lờ quy định — tức là “disrupt” thị trường. Vì lợi nhuận bất chính lớn hơn nhiều so với chế tài pháp lý. Tôi cũng nghĩ rằng từ sau Amazon, việc dùng tiền đầu tư để phớt lờ “cạnh tranh công bằng” và phá giá đã trở nên phổ biến hơn. Có thể nói các công ty Big Tech Mỹ đã lớn lên bằng cách gần như vô hiệu hóa luật pháp
- “Âm nhạc không có được một cách chính thức” và “âm nhạc không có bản quyền” là hai khái niệm khác nhau. Ngay cả khi đã có giấy phép stream, đôi khi vẫn không có file gốc
- Cũng có người nhắc đến việc UI ban đầu của Spotify giống Limewire gần như 1:1
- Google Music cũng từng có cách để người dùng tự tải lên mp3 và các file khác, và khi đó có lập luận rằng tính bất hợp pháp của file không phải là trách nhiệm của Google. Amazon cũng từng có dịch vụ tương tự bài tham khảo
Thật khó hiểu khi những người nói rằng họ đang xây dựng tương lai AI lại vứt bỏ đạo đức theo cách này. Trung Quốc đã bị chế tài hàng chục năm vì vấn đề hàng giả, nên nếu Anthropic cũng dính líu đến hoạt động bất hợp pháp thì việc hạn chế xuất khẩu đối với họ cũng là hợp lý
- Tôi tự hỏi thực tế chúng ta đã làm gì đáng kể với vấn đề hàng giả từ Trung Quốc. Phần lớn hình phạt chỉ là chặn nhập hàng giả bị phát hiện tại chỗ, chứ hầu như không có trừng phạt thực chất. Thậm chí các công ty Mỹ còn outsource sản xuất suốt thời gian dài, vô tình tạo ra môi trường cho việc đánh cắp IP
- Bên thực sự phi đạo đức là những công ty thậm chí còn không mua sách. Thực tế là nếu có quyền lực kinh tế và pháp lý thì càng dễ thoát hơn
- Chỉ ra tiêu chuẩn kép và sự miễn tội dành cho kẻ có quyền lực trong xã hội. Lấy ví dụ như lái xe khi say, bạo lực, trốn thuế, rồi nhấn mạnh rằng toàn xã hội đều lung lay theo quyền lực, tiền bạc và ảnh hưởng. Nếu một nhà xuất bản chép sách của tôi thì tôi có thể kiện, nhưng nếu một công ty AI lấy cắp thì ngay cả việc kiện cũng khó vì họ có hãng luật lớn. Bình đẳng trong thế giới thực chỉ là ảo tưởng, và bên đang thành công luôn ở thế có lợi
- Giống khẩu hiệu của Facebook, đây là thời đại coi “tiến nhanh và phá vỡ mọi thứ” là một đức tính
- Tôi không hiểu vì sao việc sử dụng thông tin chứa trong sách lại bị xem là phi đạo đức. Anthropic đâu có bán lại các cuốn sách đó. Bản thân thông tin trong sách không được bảo hộ bản quyền. Việc trích dẫn thì lúc nào cũng có thể
Có cáo buộc rằng đồng sáng lập Anthropic là Ben Mann đã tải xuống hàng triệu cuốn sách lậu từ Library Genesis vào năm 2021. Ăn cắp vẫn là ăn cắp. Ý kiến cho rằng nên chấm dứt tiêu chuẩn kép
- Phần lớn người dùng nội dung lậu chỉ nhằm “tiêu dùng cá nhân”, còn kiếm “lợi nhuận” thông qua hàng lậu là một cấp độ khác
- Đây không chỉ là ăn cắp đơn thuần, mà là hành vi nhắm mục tiêu để thống trị thị trường và loại bỏ các công ty hành xử có đạo đức hơn, từ đó gây thiệt hại lớn hơn cho vô số tác giả. Tôi nghĩ điều này gần với “tội phạm có tổ chức”
- Câu “ăn cắp vẫn là ăn cắp” quá đơn giản. Dù có cầm hàng ra khỏi cửa hàng thì hình phạt cũng có thể khác nhau một trời một vực tùy hoàn cảnh. Chi tiết rất quan trọng
- Cần phải định nghĩa chính xác ngay từ đầu thế nào là “trộm cắp”
- “Sao chép không giống trộm cắp” vì khi bạn sao chép thì người ban đầu vẫn tiếp tục sở hữu bản của họ. Nếu gọi sao chép là “trộm cắp” thì nhiều lập luận cực đoan khác cũng có thể thành lập
Trong thực tế huấn luyện dữ liệu AI quy mô lớn, dùng hàng lậu và nộp phạt rẻ hơn rất nhiều so với việc mua rồi xử lý từng cuốn trong hàng triệu cuốn sách. Tất nhiên điều đó không thể biện minh được, nhưng nếu ở vào vị trí đó thì có lẽ tôi cũng sẽ chọn như vậy vì hiệu quả, và đó là một sự mâu thuẫn
- Vấn đề với logic này là rất nhiều giáo viên và tác giả đã dành nhiều năm để viết sách sẽ thậm chí không thể kiện khi bị các tập đoàn lớn xâm phạm bản quyền. Kết quả là các tác giả sẽ từ bỏ việc viết, và có ý kiến cho rằng hiện tượng này đã bắt đầu xuất hiện
- Xâm phạm có chủ ý có thể bị phạt tới 150.000 USD cho mỗi tác phẩm. Nếu phán quyết áp dụng cho toàn bộ tài liệu bị xâm phạm, con số có thể còn lớn hơn cả vốn hóa của Anthropic. Nhưng trên thực tế, kiểu áp dụng pháp luật “vượt chuẩn” này không xảy ra, và thước đo pháp lý dành cho Anthropic khác với những thiếu niên vận hành Napster đầu những năm 2000
- Có người thắc mắc “dùng hàng lậu chẳng phải đáng đi tù sao?”. Nếu nhìn theo cảnh báo FBI trên DVD thì về nguyên tắc đó là trọng tội
- Thực ra theo bài báo, cũng có nhiều trường hợp Anthropic mua chính thức số lượng lớn sách rồi dùng để huấn luyện. Tất cả các cuốn sách trong vụ kiện liên quan đều bao gồm cả bản mua hợp pháp. Sách cũ rẻ hơn khi mua số lượng lớn
- Nếu muốn đưa rủi ro pháp lý về “0”, nguyên tắc là phải liên hệ trực tiếp với nhà xuất bản để đàm phán giấy phép dùng cho huấn luyện AI. Netflix, Spotify và mọi công ty truyền thông khác đều làm vậy. Không hiểu vì sao với các công ty AI thì nguyên tắc này lại được nhìn bằng con mắt khác
Nếu tôi sở hữu một cuốn sách, tôi nghĩ việc quét nó vào máy tính của mình nên là hợp pháp. Tôi cũng thấy phần nào thông cảm với lập trường của các công ty AI. Có cảm giác các quy định bản quyền đang ngày càng bị siết để nhắm vào AI. Nếu tôi lấy ý tưởng từ nội dung một cuốn sách để sáng tạo thì tôi cũng không nghĩ mình có nghĩa vụ phải trả nợ bản quyền cho cuốn sách đó
- Cần đọc kỹ nội dung bài. Ngay trong bài cũng ghi rõ là có thể quét sách của mình để dùng cho huấn luyện AI. Thực ra phán quyết này là tin rất tốt cho các công ty AI. Tôi không hiểu sao lại diễn giải theo hướng ngược lại
- Điều bị bỏ qua trong tranh luận về sử dụng hợp lý là liệu cách sử dụng đó có gây tác động tiêu cực thực chất đến thị trường của chủ sở hữu bản quyền hay không. Việc một cá nhân đọc một cuốn sách, học từ đó rồi cạnh tranh với tác giả thì rất khó chứng minh tác động. Nhưng việc AI học trên quy mô lớn rồi tung ra mô hình làm giảm thu nhập của tác giả thì tương đối dễ chứng minh hơn. Nếu AI có thể thay thế tác giả dựa trên các tác phẩm của họ, thì điều đó không phù hợp với tinh thần của sử dụng hợp lý
- Luật bản quyền có cảm giác không có một cấu trúc logic nhất quán. Mục tiêu ban đầu là tự do thông tin và khuyến khích đổi mới cũng khá mơ hồ. Việc diễn giải luật phụ thuộc vào quan điểm chủ quan của thẩm phán. Cuối cùng, logic của hiện thực pháp lý là “tiền”, và sức mạnh của bản quyền được duy trì bởi tư bản khổng lồ. Nếu giờ đây điều đó bắt đầu cản trở tư bản, có lẽ đã đến lúc xem cách các lý lẽ về DRM và bản quyền sẽ thay đổi ra sao
- Khi quy mô đủ lớn thì mọi thứ vận hành khác đi. Không thể áp nguyên xi quyền và chuẩn mực dành cho cá nhân vào các hệ thống siêu lớn, và về mặt xã hội cũng cần có sự phân biệt này. Những người có tiền đã khiến vấn đề này bị phớt lờ, và nguyên nhân gốc rễ của sự hỗn loạn là thiếu quy định đối với “quy mô”
- Tóm lại: thẩm phán nói việc dùng sách để huấn luyện Claude là sử dụng hợp lý, nhưng dùng “bản lậu” thì là bất hợp pháp
Tôi nghĩ việc YouTube gần đây siết chặt chặn tải xuống cũng có thể là để ngăn các công ty AI cạnh tranh thu thập dataset
Dễ chỉ trích người khác, nhưng ngay cả bình luận đứng đầu thread hiện tại rốt cuộc cũng đang dẫn tới nội dung “đánh cắp” từ Business Insider. Thực tế là chẳng ai hoàn toàn công bằng cả
- Tôi thắc mắc sao đó lại là nội dung “bị đánh cắp” từ Business Insider. Bài đó vẫn xem được trên website chính thức, và cache trình duyệt hay bản lưu trữ về bản chất cũng đâu khác mấy
- Đây là bình luận hay nhất của thread hôm nay. Tôi thấy thú vị khi nhìn những màn uốn logic ở đây

Anthropic cắt gáy và quét hàng triệu sách cũ để huấn luyện Claude, đồng thời tải xuống 7 triệu bản sao lậu

Tổng quan

Quá trình sử dụng sách và bản sao lậu

Nhận định của thẩm phán: phân biệt sử dụng hợp lý với sách và sử dụng bản in lậu

Tác động và xu hướng ngành

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News