Tôi muốn làm rõ rằng điểm tranh cãi ở đây không phải bản thân việc huấn luyện mô hình
Bản thân việc huấn luyện thuộc phạm vi sử dụng hợp lý (fair use), còn vấn đề là hành vi sao chép sách trái phép (pirating), và Anthropic đã vô tình làm như vậy trong quá trình thu thập dữ liệu
Mua sách cũ về quét rồi đưa vào học thì vẫn ổn Rainbows End là một cuốn tiểu thuyết đi trước thời đại trên nhiều phương diện
Về ý kiến cho rằng mua sách cũ rồi quét để huấn luyện là chấp nhận được, tôi không nghĩ có công ty nào thực sự làm vậy
Khi hàng chục tỷ USD vốn VC đang bị đặt cược, ai lại thong thả đi mua từng cuốn sách rồi quét chứ
Ai cũng sẽ chọn chấp nhận nộp phạt, mà mức phạt thì còn quá xa mới đủ sức răn đe
Giống như Uber ban đầu cứ triển khai kinh doanh mà không có giấy phép taxi, rồi sau đó dùng vốn đầu tư để vượt qua khủng hoảng bằng tiền phạt và vận động hành lang
Anthropic cũng thấy rằng cứ vơ hết PDF và ePUB không có DRM sẽ nhanh hơn và hiệu quả hơn nhiều so với việc ký giấy phép với từng nhà xuất bản một
Vụ này là dàn xếp nên không tạo tiền lệ hay cấu thành sự thừa nhận tính bất hợp pháp
Chuyện huấn luyện có phải fair use hay không, hay chuyện quét sách có ổn hay không, đều chưa được xác lập trong vụ này
Đây sẽ là vấn đề mà những người khác còn phải tiếp tục tranh cãi sau này
Tôi đồng ý rằng tiểu thuyết Rainbows End đã dự báo trước thời đại
Đây là cuốn sách rất tuyệt cho những ai thích đọc, và tác giả Vernor Vinge cũng là người đã phổ biến thuật ngữ singularity Thông tin về Rainbows End trên Goodreads
Tôi thấy ngay cả ý tưởng phải mua sách cũ để đọc cũng đã rất kỳ lạ
Tôi cho rằng mọi người nên có quyền tự do đọc mọi cuốn sách trong thư viện
Tri thức tồn tại trên đời là để được chia sẻ, và con người nên chủ động tiếp cận nó
Tôi tự hỏi nếu Aaron Swartz nhìn thấy thời đại mà libgen đã trở thành điều quá đỗi bình thường này thì ông sẽ nghĩ gì
Chia sẻ tóm tắt các điều khoản dàn xếp
Lập quỹ bồi thường tối thiểu 1,5 tỷ USD, trả 3.000 USD cho mỗi tác phẩm dựa trên mốc 500.000 tác phẩm thuộc nhóm này
Nếu số tác phẩm vượt quá 500.000 thì tăng thêm 3.000 USD cho mỗi tác phẩm bổ sung
Anthropic sẽ hủy toàn bộ các bộ dữ liệu lấy từ LibGen và PiLiMi, bất kể yêu cầu lưu giữ pháp lý
Chỉ các tác phẩm nằm trong “Works List” chính thức tính đến ngày 25/8/2025 mới được miễn trách nhiệm đối với hành vi xâm phạm trong quá khứ
Các hành vi xâm phạm phát sinh trong tương lai và hành vi xâm phạm từ đầu ra AI tạo sinh không được giải quyết bởi thỏa thuận này
Một điểm quan trọng là hoàn toàn không có “tiền lệ pháp lý” nào được tạo ra
Nếu có vụ kiện tương tự, mọi thứ sẽ lại phải tranh tụng lại từ đầu
Người ta thường chọn dàn xếp kiểu này khi cảm thấy mình có thể sẽ thua
Khá giống trường hợp Google vội dàn xếp bất lợi với Epic trước khi có phán quyết từ tòa
Dàn xếp không chỉ là chuyện bồi thường mà còn bao gồm cả việc hủy bộ dữ liệu
Theo bài báo, Anthropic khẳng định rằng “họ thực tế đã không sử dụng những tài liệu bất hợp pháp đó”
Nếu có công ty AI tạo sinh nào thực sự huấn luyện bằng dữ liệu lậu như vậy rồi còn thương mại hóa, cả ngành có thể bị rung chuyển
Tôi tò mò không biết sau này sẽ còn lòi ra thêm bao nhiêu vụ như thế
Tính kiểu này thì chẳng phải mua luôn tất cả các cuốn sách sẽ rẻ hơn nhiều sao
Tôi khá bất ngờ khi số tác phẩm chỉ có 500.000
Vì tôi từng có ấn tượng là họ đã tải xuống tới hàng triệu cuốn sách
Tôi muốn biết liệu tác giả có thể trực tiếp tham gia hay không
“3.000 USD cho mỗi tác phẩm” nghe như một điều kiện quá tốt nếu xét theo góc độ cấp phép sách bằng hợp đồng bản quyền
Có cảm giác như số tiền khổng lồ huy động được rốt cuộc là để đưa cho các nhà xuất bản
Tôi có thể hình dung màn chào vốn với nhà đầu tư kiểu “chúng tôi sẽ chuẩn bị cho những khoản chi rất lớn như chi phí kiện tụng”
Theo bài báo, Anthropic gần đây đã huy động thêm 13 tỷ USD, và từ khi thành lập đến nay đã nhận hơn 27 tỷ USD đầu tư
Khoản bồi thường dù rất lớn thì so với số vốn đã gọi được vẫn chỉ là một phần nhỏ
Nghe như đùa nhưng tôi thực sự nghĩ đây là một màn chào vốn rất hay
Việc giải quyết rủi ro tiềm ẩn do vấn đề pháp lý sẽ làm tăng giá trị công ty
Đặc biệt, khi sự bất định pháp lý được gỡ bỏ thì sức hấp dẫn đầu tư trong ngành càng lớn hơn
Thực ra tôi nghĩ hệ thống vốn vận hành đúng theo kiểu này
Mọi cơ hội hay lợi thế riêng lẻ đều xoay quanh chuyện nó có mang lại lợi ích cho nguồn vốn sẵn có hay không
Miễn là có một cái cớ nghe hợp lý về cách tiền đã được luân chuyển, thì từ góc nhìn của tư bản, chi tiết cụ thể không quá quan trọng
Sau khi tiền đã dịch chuyển xong, việc còn lại chỉ là dựng lên một câu chuyện mà ai cũng có thể chấp nhận
Thỏa thuận lần này cũng là cách tạo ra một câu chuyện mà cả hai bên đều thấy ổn: “huấn luyện thì không sao, vấn đề là dữ liệu lậu”
Có vẻ động cơ chính là muốn tránh để lại một tiền lệ rằng bản thân việc huấn luyện AI là bất hợp pháp
Anthropic muốn theo đuổi chiến lược né quy định và hành động thật nhanh
Không ai ép họ phải làm như vậy
Từ góc nhìn AI mã nguồn mở thì khá đáng tiếc
Việc dùng tài liệu lậu để huấn luyện cũng nên được coi là fair use
Nếu không, chỉ những tập đoàn lớn dư dả tiền như Anthropic mới có thể trả số tiền khổng lồ cho các nhà xuất bản để phát triển AI, còn chuyện mua hàng tỷ cuốn sách để dùng cho huấn luyện thì hoàn toàn bất khả thi
Đây chỉ đơn thuần là một vụ dàn xếp, không phải tiền lệ cũng không phải sự thừa nhận vi phạm
Dù sao thì thực tế cũng đúng là chỉ các tập đoàn lớn mới đủ khả năng đầu tư trực tiếp vào kỹ sư đắt đỏ và hàng chục nghìn GPU
Trên thực tế, có lẽ các cộng đồng LLM kiểu grassroots sẽ không quá nhạy cảm với tính hợp pháp của bộ dữ liệu huấn luyện
Fair use không đánh giá theo cách bạn lấy được tài liệu, mà theo việc bạn làm gì sau khi đã “tiếp cận hợp pháp” tài liệu đó
Nếu bạn không tiếp cận hợp pháp thì bản thân việc tranh luận về fair use cũng không thể bắt đầu
Cuộc thảo luận này dường như đang ngầm giả định rằng việc huấn luyện mô hình tự nó là một dạng quyền
Tôi tò mò nếu mua toàn bộ số sách mong muốn rồi dùng để huấn luyện mô hình thì thực tế sẽ tốn bao nhiêu
Một điều tôi chợt nghĩ tới là liệu có cách nào để nội dung công khai trên web chỉ miễn phí cho con người sử dụng, còn nếu AI crawler dùng thì sẽ bị xem là sao chép lậu và bị xử như trong vụ này hay không
Với câu hỏi thứ nhất, có lẽ có thể làm bằng “tường đăng nhập” và quy trình đồng ý điều khoản hợp đồng, nhưng các điều khoản cụ thể như mức bồi thường thực tế thì cần luật sư xem xét
Thực ra tôi không muốn khuyến khích cách này
Vấn đề là ngay cả các công cụ tự động hóa như user script cũng có thể bị xem là có nguy cơ xâm phạm
Cũng có thể gắn hệ thống captcha đủ để được coi là biện pháp bảo vệ theo DMCA
Ngoài ra còn có thể cung cấp cùng nội dung đó qua API trả phí
Tôi nghĩ điều đó vừa không khả thi về pháp lý, vừa không khả thi về kỹ thuật
Có lẽ vẫn có thể thử, nhưng luật bản quyền có rất nhiều ngoại lệ nên cực kỳ phức tạp
Ví dụ, ngay cả khi bạn đặt điều khoản kiểu “mọi cách dùng đều được, chỉ cấm giới học thuật” thì trên thực tế đại học cũng không nhất thiết có nghĩa vụ phải tuân theo
Nếu tòa án đã phán rằng huấn luyện LLM là transformative use, thì ngay cả khi thêm điều khoản “cấm riêng việc huấn luyện LLM” cũng không có cách nào để thực thi mạnh hơn đáng kể
Cũng giống như một nhạc sĩ tuyên bố “nhạc của tôi chỉ được nghe nguyên bài, cấm lấy mẫu” mà thực tế không có nhiều tác dụng
Mục đích của luật bản quyền là “thúc đẩy học thuật và nghệ thuật hữu ích”, nên việc bảo đảm khả năng tiếp cận của giới học thuật được coi trọng hơn quyền kiểm soát tuyệt đối của tác giả cá nhân
Sách giáo khoa cũng có bản quyền, và nếu thực sự có ngoại lệ fair use trong học thuật thì việc sao chép có thể phải được tự do hơn, nhưng thực tế lại không được thực thi như vậy, điều này cũng khá khó hiểu
Nhìn từ góc độ quốc tế, tôi tò mò các chế tài pháp lý hay thỏa thuận dàn xếp như thế này có hiệu lực ra sao ở từng quốc gia, liệu tại các nước khác có thể phát sinh thêm kiện tụng mới và chế tài bổ sung hay không
Với ngành AI Trung Quốc thì điều này có vẻ là một lợi thế rất lớn
Các công ty phương Tây ngày càng bị siết hơn trong việc thu thập dữ liệu và huấn luyện, còn AI của Trung Quốc hay các nước khác thì ở vào vị thế có thể tận dụng lượng dữ liệu nhiều hơn và dữ liệu chất lượng cao hơn nhiều
1 bình luận
Ý kiến trên Hacker News
Xem bài qua archive.ph
Tôi muốn làm rõ rằng điểm tranh cãi ở đây không phải bản thân việc huấn luyện mô hình
Bản thân việc huấn luyện thuộc phạm vi sử dụng hợp lý (fair use), còn vấn đề là hành vi sao chép sách trái phép (pirating), và Anthropic đã vô tình làm như vậy trong quá trình thu thập dữ liệu
Mua sách cũ về quét rồi đưa vào học thì vẫn ổn
Rainbows Endlà một cuốn tiểu thuyết đi trước thời đại trên nhiều phương diệnVề ý kiến cho rằng mua sách cũ rồi quét để huấn luyện là chấp nhận được, tôi không nghĩ có công ty nào thực sự làm vậy
Khi hàng chục tỷ USD vốn VC đang bị đặt cược, ai lại thong thả đi mua từng cuốn sách rồi quét chứ
Ai cũng sẽ chọn chấp nhận nộp phạt, mà mức phạt thì còn quá xa mới đủ sức răn đe
Giống như Uber ban đầu cứ triển khai kinh doanh mà không có giấy phép taxi, rồi sau đó dùng vốn đầu tư để vượt qua khủng hoảng bằng tiền phạt và vận động hành lang
Anthropic cũng thấy rằng cứ vơ hết PDF và ePUB không có DRM sẽ nhanh hơn và hiệu quả hơn nhiều so với việc ký giấy phép với từng nhà xuất bản một
Vụ này là dàn xếp nên không tạo tiền lệ hay cấu thành sự thừa nhận tính bất hợp pháp
Chuyện huấn luyện có phải fair use hay không, hay chuyện quét sách có ổn hay không, đều chưa được xác lập trong vụ này
Đây sẽ là vấn đề mà những người khác còn phải tiếp tục tranh cãi sau này
Tôi đồng ý rằng tiểu thuyết
Rainbows Endđã dự báo trước thời đạiĐây là cuốn sách rất tuyệt cho những ai thích đọc, và tác giả Vernor Vinge cũng là người đã phổ biến thuật ngữ
singularityThông tin về Rainbows End trên Goodreads
Tôi thấy ngay cả ý tưởng phải mua sách cũ để đọc cũng đã rất kỳ lạ
Tôi cho rằng mọi người nên có quyền tự do đọc mọi cuốn sách trong thư viện
Tri thức tồn tại trên đời là để được chia sẻ, và con người nên chủ động tiếp cận nó
Tôi tự hỏi nếu Aaron Swartz nhìn thấy thời đại mà libgen đã trở thành điều quá đỗi bình thường này thì ông sẽ nghĩ gì
Chia sẻ tóm tắt các điều khoản dàn xếp
Nếu số tác phẩm vượt quá 500.000 thì tăng thêm 3.000 USD cho mỗi tác phẩm bổ sung
Các hành vi xâm phạm phát sinh trong tương lai và hành vi xâm phạm từ đầu ra AI tạo sinh không được giải quyết bởi thỏa thuận này
Một điểm quan trọng là hoàn toàn không có “tiền lệ pháp lý” nào được tạo ra
Nếu có vụ kiện tương tự, mọi thứ sẽ lại phải tranh tụng lại từ đầu
Người ta thường chọn dàn xếp kiểu này khi cảm thấy mình có thể sẽ thua
Khá giống trường hợp Google vội dàn xếp bất lợi với Epic trước khi có phán quyết từ tòa
Dàn xếp không chỉ là chuyện bồi thường mà còn bao gồm cả việc hủy bộ dữ liệu
Theo bài báo, Anthropic khẳng định rằng “họ thực tế đã không sử dụng những tài liệu bất hợp pháp đó”
Nếu có công ty AI tạo sinh nào thực sự huấn luyện bằng dữ liệu lậu như vậy rồi còn thương mại hóa, cả ngành có thể bị rung chuyển
Tôi tò mò không biết sau này sẽ còn lòi ra thêm bao nhiêu vụ như thế
Tính kiểu này thì chẳng phải mua luôn tất cả các cuốn sách sẽ rẻ hơn nhiều sao
Tôi khá bất ngờ khi số tác phẩm chỉ có 500.000
Vì tôi từng có ấn tượng là họ đã tải xuống tới hàng triệu cuốn sách
Tôi muốn biết liệu tác giả có thể trực tiếp tham gia hay không
“3.000 USD cho mỗi tác phẩm” nghe như một điều kiện quá tốt nếu xét theo góc độ cấp phép sách bằng hợp đồng bản quyền
Có cảm giác như số tiền khổng lồ huy động được rốt cuộc là để đưa cho các nhà xuất bản
Tôi có thể hình dung màn chào vốn với nhà đầu tư kiểu “chúng tôi sẽ chuẩn bị cho những khoản chi rất lớn như chi phí kiện tụng”
Theo bài báo, Anthropic gần đây đã huy động thêm 13 tỷ USD, và từ khi thành lập đến nay đã nhận hơn 27 tỷ USD đầu tư
Khoản bồi thường dù rất lớn thì so với số vốn đã gọi được vẫn chỉ là một phần nhỏ
Nghe như đùa nhưng tôi thực sự nghĩ đây là một màn chào vốn rất hay
Việc giải quyết rủi ro tiềm ẩn do vấn đề pháp lý sẽ làm tăng giá trị công ty
Đặc biệt, khi sự bất định pháp lý được gỡ bỏ thì sức hấp dẫn đầu tư trong ngành càng lớn hơn
Thực ra tôi nghĩ hệ thống vốn vận hành đúng theo kiểu này
Mọi cơ hội hay lợi thế riêng lẻ đều xoay quanh chuyện nó có mang lại lợi ích cho nguồn vốn sẵn có hay không
Miễn là có một cái cớ nghe hợp lý về cách tiền đã được luân chuyển, thì từ góc nhìn của tư bản, chi tiết cụ thể không quá quan trọng
Sau khi tiền đã dịch chuyển xong, việc còn lại chỉ là dựng lên một câu chuyện mà ai cũng có thể chấp nhận
Thỏa thuận lần này cũng là cách tạo ra một câu chuyện mà cả hai bên đều thấy ổn: “huấn luyện thì không sao, vấn đề là dữ liệu lậu”
Có vẻ động cơ chính là muốn tránh để lại một tiền lệ rằng bản thân việc huấn luyện AI là bất hợp pháp
Anthropic muốn theo đuổi chiến lược né quy định và hành động thật nhanh
Không ai ép họ phải làm như vậy
Nếu là tác giả, đây là thông tin và quy trình để kiểm tra xem tác phẩm của mình có nằm trong đó hay không
Giới thiệu cách tìm theo tên tác giả trong bộ dữ liệu LibGen
Đăng ký thông tin liên hệ trên trang chính thức của thỏa thuận dàn xếp
Từ góc nhìn AI mã nguồn mở thì khá đáng tiếc
Việc dùng tài liệu lậu để huấn luyện cũng nên được coi là fair use
Nếu không, chỉ những tập đoàn lớn dư dả tiền như Anthropic mới có thể trả số tiền khổng lồ cho các nhà xuất bản để phát triển AI, còn chuyện mua hàng tỷ cuốn sách để dùng cho huấn luyện thì hoàn toàn bất khả thi
Đây chỉ đơn thuần là một vụ dàn xếp, không phải tiền lệ cũng không phải sự thừa nhận vi phạm
Dù sao thì thực tế cũng đúng là chỉ các tập đoàn lớn mới đủ khả năng đầu tư trực tiếp vào kỹ sư đắt đỏ và hàng chục nghìn GPU
Trên thực tế, có lẽ các cộng đồng LLM kiểu grassroots sẽ không quá nhạy cảm với tính hợp pháp của bộ dữ liệu huấn luyện
Fair use không đánh giá theo cách bạn lấy được tài liệu, mà theo việc bạn làm gì sau khi đã “tiếp cận hợp pháp” tài liệu đó
Nếu bạn không tiếp cận hợp pháp thì bản thân việc tranh luận về fair use cũng không thể bắt đầu
Cuộc thảo luận này dường như đang ngầm giả định rằng việc huấn luyện mô hình tự nó là một dạng quyền
Tôi tò mò nếu mua toàn bộ số sách mong muốn rồi dùng để huấn luyện mô hình thì thực tế sẽ tốn bao nhiêu
Một điều tôi chợt nghĩ tới là liệu có cách nào để nội dung công khai trên web chỉ miễn phí cho con người sử dụng, còn nếu AI crawler dùng thì sẽ bị xem là sao chép lậu và bị xử như trong vụ này hay không
Với câu hỏi thứ nhất, có lẽ có thể làm bằng “tường đăng nhập” và quy trình đồng ý điều khoản hợp đồng, nhưng các điều khoản cụ thể như mức bồi thường thực tế thì cần luật sư xem xét
Thực ra tôi không muốn khuyến khích cách này
Vấn đề là ngay cả các công cụ tự động hóa như user script cũng có thể bị xem là có nguy cơ xâm phạm
Cũng có thể gắn hệ thống captcha đủ để được coi là biện pháp bảo vệ theo DMCA
Ngoài ra còn có thể cung cấp cùng nội dung đó qua API trả phí
Tôi nghĩ điều đó vừa không khả thi về pháp lý, vừa không khả thi về kỹ thuật
Có lẽ vẫn có thể thử, nhưng luật bản quyền có rất nhiều ngoại lệ nên cực kỳ phức tạp
Ví dụ, ngay cả khi bạn đặt điều khoản kiểu “mọi cách dùng đều được, chỉ cấm giới học thuật” thì trên thực tế đại học cũng không nhất thiết có nghĩa vụ phải tuân theo
Nếu tòa án đã phán rằng huấn luyện LLM là transformative use, thì ngay cả khi thêm điều khoản “cấm riêng việc huấn luyện LLM” cũng không có cách nào để thực thi mạnh hơn đáng kể
Cũng giống như một nhạc sĩ tuyên bố “nhạc của tôi chỉ được nghe nguyên bài, cấm lấy mẫu” mà thực tế không có nhiều tác dụng
Mục đích của luật bản quyền là “thúc đẩy học thuật và nghệ thuật hữu ích”, nên việc bảo đảm khả năng tiếp cận của giới học thuật được coi trọng hơn quyền kiểm soát tuyệt đối của tác giả cá nhân
Sách giáo khoa cũng có bản quyền, và nếu thực sự có ngoại lệ fair use trong học thuật thì việc sao chép có thể phải được tự do hơn, nhưng thực tế lại không được thực thi như vậy, điều này cũng khá khó hiểu
Nhìn từ góc độ quốc tế, tôi tò mò các chế tài pháp lý hay thỏa thuận dàn xếp như thế này có hiệu lực ra sao ở từng quốc gia, liệu tại các nước khác có thể phát sinh thêm kiện tụng mới và chế tài bổ sung hay không
Với ngành AI Trung Quốc thì điều này có vẻ là một lợi thế rất lớn
Các công ty phương Tây ngày càng bị siết hơn trong việc thu thập dữ liệu và huấn luyện, còn AI của Trung Quốc hay các nước khác thì ở vào vị thế có thể tận dụng lượng dữ liệu nhiều hơn và dữ liệu chất lượng cao hơn nhiều