4 điểm bởi laeyoung 2025-09-06 | 1 bình luận | Chia sẻ qua WhatsApp
  • Anthropic đồng ý dàn xếp vụ kiện với các tác giả với số tiền 1,5 tỷ USD
  • 1,5 tỷ USD là mức bồi thường lớn nhất trong lịch sử các vụ kiện bản quyền tại Mỹ
  • Anthropic dự kiến sẽ chi trả 3.000 USD cho mỗi tác phẩm tới 500.000 tác giả

1 bình luận

 
GN⁺ 2025-09-07
Ý kiến trên Hacker News
  • Xem bài qua archive.ph

  • Tôi muốn làm rõ rằng điểm tranh cãi ở đây không phải bản thân việc huấn luyện mô hình
    Bản thân việc huấn luyện thuộc phạm vi sử dụng hợp lý (fair use), còn vấn đề là hành vi sao chép sách trái phép (pirating), và Anthropic đã vô tình làm như vậy trong quá trình thu thập dữ liệu
    Mua sách cũ về quét rồi đưa vào học thì vẫn ổn
    Rainbows End là một cuốn tiểu thuyết đi trước thời đại trên nhiều phương diện

    • Về ý kiến cho rằng mua sách cũ rồi quét để huấn luyện là chấp nhận được, tôi không nghĩ có công ty nào thực sự làm vậy
      Khi hàng chục tỷ USD vốn VC đang bị đặt cược, ai lại thong thả đi mua từng cuốn sách rồi quét chứ
      Ai cũng sẽ chọn chấp nhận nộp phạt, mà mức phạt thì còn quá xa mới đủ sức răn đe
      Giống như Uber ban đầu cứ triển khai kinh doanh mà không có giấy phép taxi, rồi sau đó dùng vốn đầu tư để vượt qua khủng hoảng bằng tiền phạt và vận động hành lang
      Anthropic cũng thấy rằng cứ vơ hết PDF và ePUB không có DRM sẽ nhanh hơn và hiệu quả hơn nhiều so với việc ký giấy phép với từng nhà xuất bản một

    • Vụ này là dàn xếp nên không tạo tiền lệ hay cấu thành sự thừa nhận tính bất hợp pháp
      Chuyện huấn luyện có phải fair use hay không, hay chuyện quét sách có ổn hay không, đều chưa được xác lập trong vụ này
      Đây sẽ là vấn đề mà những người khác còn phải tiếp tục tranh cãi sau này

    • Tôi đồng ý rằng tiểu thuyết Rainbows End đã dự báo trước thời đại
      Đây là cuốn sách rất tuyệt cho những ai thích đọc, và tác giả Vernor Vinge cũng là người đã phổ biến thuật ngữ singularity
      Thông tin về Rainbows End trên Goodreads

    • Tôi thấy ngay cả ý tưởng phải mua sách cũ để đọc cũng đã rất kỳ lạ
      Tôi cho rằng mọi người nên có quyền tự do đọc mọi cuốn sách trong thư viện
      Tri thức tồn tại trên đời là để được chia sẻ, và con người nên chủ động tiếp cận nó

    • Tôi tự hỏi nếu Aaron Swartz nhìn thấy thời đại mà libgen đã trở thành điều quá đỗi bình thường này thì ông sẽ nghĩ gì

  • Chia sẻ tóm tắt các điều khoản dàn xếp

  1. Lập quỹ bồi thường tối thiểu 1,5 tỷ USD, trả 3.000 USD cho mỗi tác phẩm dựa trên mốc 500.000 tác phẩm thuộc nhóm này
    Nếu số tác phẩm vượt quá 500.000 thì tăng thêm 3.000 USD cho mỗi tác phẩm bổ sung
  2. Anthropic sẽ hủy toàn bộ các bộ dữ liệu lấy từ LibGen và PiLiMi, bất kể yêu cầu lưu giữ pháp lý
  3. Chỉ các tác phẩm nằm trong “Works List” chính thức tính đến ngày 25/8/2025 mới được miễn trách nhiệm đối với hành vi xâm phạm trong quá khứ
    Các hành vi xâm phạm phát sinh trong tương lai và hành vi xâm phạm từ đầu ra AI tạo sinh không được giải quyết bởi thỏa thuận này
  • Một điểm quan trọng là hoàn toàn không có “tiền lệ pháp lý” nào được tạo ra
    Nếu có vụ kiện tương tự, mọi thứ sẽ lại phải tranh tụng lại từ đầu
    Người ta thường chọn dàn xếp kiểu này khi cảm thấy mình có thể sẽ thua
    Khá giống trường hợp Google vội dàn xếp bất lợi với Epic trước khi có phán quyết từ tòa

  • Dàn xếp không chỉ là chuyện bồi thường mà còn bao gồm cả việc hủy bộ dữ liệu
    Theo bài báo, Anthropic khẳng định rằng “họ thực tế đã không sử dụng những tài liệu bất hợp pháp đó”
    Nếu có công ty AI tạo sinh nào thực sự huấn luyện bằng dữ liệu lậu như vậy rồi còn thương mại hóa, cả ngành có thể bị rung chuyển
    Tôi tò mò không biết sau này sẽ còn lòi ra thêm bao nhiêu vụ như thế

  • Tính kiểu này thì chẳng phải mua luôn tất cả các cuốn sách sẽ rẻ hơn nhiều sao

  • Tôi khá bất ngờ khi số tác phẩm chỉ có 500.000
    Vì tôi từng có ấn tượng là họ đã tải xuống tới hàng triệu cuốn sách

  • Tôi muốn biết liệu tác giả có thể trực tiếp tham gia hay không

  • “3.000 USD cho mỗi tác phẩm” nghe như một điều kiện quá tốt nếu xét theo góc độ cấp phép sách bằng hợp đồng bản quyền

  • Có cảm giác như số tiền khổng lồ huy động được rốt cuộc là để đưa cho các nhà xuất bản
    Tôi có thể hình dung màn chào vốn với nhà đầu tư kiểu “chúng tôi sẽ chuẩn bị cho những khoản chi rất lớn như chi phí kiện tụng”

    • Theo bài báo, Anthropic gần đây đã huy động thêm 13 tỷ USD, và từ khi thành lập đến nay đã nhận hơn 27 tỷ USD đầu tư
      Khoản bồi thường dù rất lớn thì so với số vốn đã gọi được vẫn chỉ là một phần nhỏ

    • Nghe như đùa nhưng tôi thực sự nghĩ đây là một màn chào vốn rất hay
      Việc giải quyết rủi ro tiềm ẩn do vấn đề pháp lý sẽ làm tăng giá trị công ty
      Đặc biệt, khi sự bất định pháp lý được gỡ bỏ thì sức hấp dẫn đầu tư trong ngành càng lớn hơn

    • Thực ra tôi nghĩ hệ thống vốn vận hành đúng theo kiểu này
      Mọi cơ hội hay lợi thế riêng lẻ đều xoay quanh chuyện nó có mang lại lợi ích cho nguồn vốn sẵn có hay không
      Miễn là có một cái cớ nghe hợp lý về cách tiền đã được luân chuyển, thì từ góc nhìn của tư bản, chi tiết cụ thể không quá quan trọng
      Sau khi tiền đã dịch chuyển xong, việc còn lại chỉ là dựng lên một câu chuyện mà ai cũng có thể chấp nhận
      Thỏa thuận lần này cũng là cách tạo ra một câu chuyện mà cả hai bên đều thấy ổn: “huấn luyện thì không sao, vấn đề là dữ liệu lậu”
      Có vẻ động cơ chính là muốn tránh để lại một tiền lệ rằng bản thân việc huấn luyện AI là bất hợp pháp

    • Anthropic muốn theo đuổi chiến lược né quy định và hành động thật nhanh
      Không ai ép họ phải làm như vậy

  • Nếu là tác giả, đây là thông tin và quy trình để kiểm tra xem tác phẩm của mình có nằm trong đó hay không
    Giới thiệu cách tìm theo tên tác giả trong bộ dữ liệu LibGen
    Đăng ký thông tin liên hệ trên trang chính thức của thỏa thuận dàn xếp

  • Từ góc nhìn AI mã nguồn mở thì khá đáng tiếc
    Việc dùng tài liệu lậu để huấn luyện cũng nên được coi là fair use
    Nếu không, chỉ những tập đoàn lớn dư dả tiền như Anthropic mới có thể trả số tiền khổng lồ cho các nhà xuất bản để phát triển AI, còn chuyện mua hàng tỷ cuốn sách để dùng cho huấn luyện thì hoàn toàn bất khả thi

    • Đây chỉ đơn thuần là một vụ dàn xếp, không phải tiền lệ cũng không phải sự thừa nhận vi phạm
      Dù sao thì thực tế cũng đúng là chỉ các tập đoàn lớn mới đủ khả năng đầu tư trực tiếp vào kỹ sư đắt đỏ và hàng chục nghìn GPU
      Trên thực tế, có lẽ các cộng đồng LLM kiểu grassroots sẽ không quá nhạy cảm với tính hợp pháp của bộ dữ liệu huấn luyện

    • Fair use không đánh giá theo cách bạn lấy được tài liệu, mà theo việc bạn làm gì sau khi đã “tiếp cận hợp pháp” tài liệu đó
      Nếu bạn không tiếp cận hợp pháp thì bản thân việc tranh luận về fair use cũng không thể bắt đầu

    • Cuộc thảo luận này dường như đang ngầm giả định rằng việc huấn luyện mô hình tự nó là một dạng quyền

    • Tôi tò mò nếu mua toàn bộ số sách mong muốn rồi dùng để huấn luyện mô hình thì thực tế sẽ tốn bao nhiêu

  • Một điều tôi chợt nghĩ tới là liệu có cách nào để nội dung công khai trên web chỉ miễn phí cho con người sử dụng, còn nếu AI crawler dùng thì sẽ bị xem là sao chép lậu và bị xử như trong vụ này hay không

    • Với câu hỏi thứ nhất, có lẽ có thể làm bằng “tường đăng nhập” và quy trình đồng ý điều khoản hợp đồng, nhưng các điều khoản cụ thể như mức bồi thường thực tế thì cần luật sư xem xét

    • Thực ra tôi không muốn khuyến khích cách này
      Vấn đề là ngay cả các công cụ tự động hóa như user script cũng có thể bị xem là có nguy cơ xâm phạm

    • Cũng có thể gắn hệ thống captcha đủ để được coi là biện pháp bảo vệ theo DMCA
      Ngoài ra còn có thể cung cấp cùng nội dung đó qua API trả phí

    • Tôi nghĩ điều đó vừa không khả thi về pháp lý, vừa không khả thi về kỹ thuật

    • Có lẽ vẫn có thể thử, nhưng luật bản quyền có rất nhiều ngoại lệ nên cực kỳ phức tạp
      Ví dụ, ngay cả khi bạn đặt điều khoản kiểu “mọi cách dùng đều được, chỉ cấm giới học thuật” thì trên thực tế đại học cũng không nhất thiết có nghĩa vụ phải tuân theo
      Nếu tòa án đã phán rằng huấn luyện LLM là transformative use, thì ngay cả khi thêm điều khoản “cấm riêng việc huấn luyện LLM” cũng không có cách nào để thực thi mạnh hơn đáng kể
      Cũng giống như một nhạc sĩ tuyên bố “nhạc của tôi chỉ được nghe nguyên bài, cấm lấy mẫu” mà thực tế không có nhiều tác dụng
      Mục đích của luật bản quyền là “thúc đẩy học thuật và nghệ thuật hữu ích”, nên việc bảo đảm khả năng tiếp cận của giới học thuật được coi trọng hơn quyền kiểm soát tuyệt đối của tác giả cá nhân
      Sách giáo khoa cũng có bản quyền, và nếu thực sự có ngoại lệ fair use trong học thuật thì việc sao chép có thể phải được tự do hơn, nhưng thực tế lại không được thực thi như vậy, điều này cũng khá khó hiểu

  • Nhìn từ góc độ quốc tế, tôi tò mò các chế tài pháp lý hay thỏa thuận dàn xếp như thế này có hiệu lực ra sao ở từng quốc gia, liệu tại các nước khác có thể phát sinh thêm kiện tụng mới và chế tài bổ sung hay không

  • Với ngành AI Trung Quốc thì điều này có vẻ là một lợi thế rất lớn
    Các công ty phương Tây ngày càng bị siết hơn trong việc thu thập dữ liệu và huấn luyện, còn AI của Trung Quốc hay các nước khác thì ở vào vị thế có thể tận dụng lượng dữ liệu nhiều hơn và dữ liệu chất lượng cao hơn nhiều