1 điểm bởi GN⁺ 1 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • AI lấy dữ liệu đầu vào để huấn luyện bất kể có sự đồng ý của tác giả gốc hay không, rồi bán kết quả đó mà không bồi thường cho tác giả gốc
  • Các công ty AI (và các công cụ AI) cùng khách hàng của họ cũng bán lại kết quả được xử lý bằng prompt cho những khách hàng khác, từ đó kiếm lợi nhuận từ những thứ bị sao chép trên khắp internet
  • Tác giả đã tự nghiên cứu và viết hướng dẫn về thương mại điện tử, nhưng một số website đã yêu cầu ChatGPT sao chép vài bài hướng dẫn đang ăn khách rồi đăng như thể là bài của chính họ
  • Các bài viết sao chép còn xếp hạng cao hơn bản gốc trên kết quả tìm kiếm của Google
  • Trong các bài sao chép vẫn còn liên kết dẫn đến website gốc với chính xác cùng đoạn văn bản liên kết, và chính những liên kết chưa bị xóa này đã xác nhận việc sao chép
  • Google đang xếp hạng các website sao chép nội dung gốc cao hơn bản gốc, tạo ra một cơ chế mà nội dung sao chép trái phép được tưởng thưởng trong tìm kiếm

1 bình luận

 
Ý kiến Hacker News
  • Có một ngụy biện thường được dùng để biện minh cho kiểu này: “nếu ở quy mô nhỏ thì chấp nhận được hoặc có thể bỏ qua, thì ở quy mô lớn cũng vậy”
    Kiểu lập luận là, nếu học từ một trang web rồi kiếm tiền thì không sao, vậy tại sao máy tính học mọi thứ từ tất cả mọi người rồi kiếm tiền lại thành vấn đề? Bẻ một bông hoa ở Golden Gate Park và chế tạo một cỗ máy tự động cắt sạch mọi bông hoa trong công viên để đem bán là hai việc khác nhau. Thay đổi về lượng tạo ra thay đổi về chất của hoạt động, và dù hệ quả không phải lúc nào cũng xấu, nó vẫn đáng để xem xét chứ không nên bỏ qua

    • Trong ví dụ đó, cả quy mô nhỏ lẫn quy mô lớn ngay từ đầu đều là hành vi không thể chấp nhận. Ngược lại, học từ người khác ở quy mô nhỏ không chỉ được xã hội chấp nhận mà còn là nền tảng của tiến bộ
      Điểm cốt lõi không đơn thuần là quy mô, mà gần hơn với việc hành vi đáng mong muốn ở con người lại không được xã hội cho phép khi máy móc làm
    • Thời web sơ khai cũng có nhiều chuyện tương tự. Có những tài liệu “công khai” mà ai cũng có thể đến tòa án quận để xem, nhưng khi chỉ cần nhập tên vào trình duyệt là bất kỳ ai trên toàn quốc cũng tra ra được thì tính chất của nó đã thay đổi
    • Hoa là vật thể vật lý nên khi đem đi thì nó biến mất khỏi chỗ cũ, còn nếu LLM học được điều gì đó từ một trang web thì trang web đó vẫn còn nguyên
      Cảm giác “ăn cắp” ở đây hoàn toàn là cách diễn giải trong đầu, chứ việc ai đó sao chép không có nghĩa là họ đã lấy mất bản gốc
    • Đây là ngụy biện hợp thành
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • Trước thời Internet, khoảng cách về thông tin và tri thức có thể tạo ra tiền bạc và quyền lực
      Sau Internet nhưng trước LLM, về lý thuyết khoảng cách thông tin đã giảm mạnh, nhưng đa số vẫn không hiểu và không tận dụng được vì rào cản nhận thức. Sau LLM, rào cản đó đang sụp đổ, nên cần nghĩ đến việc dùng thông tin và tri thức theo cách khác để tạo ra tiền bạc và quyền lực
  • Vẫn còn một vấn đề lớn hơn là ghi công theo cách mà nguồn gốc ban đầu được đền bù
    Chủ website trả chi phí lưu trữ nội dung, để spider vào crawl và lập chỉ mục cho AI, nhưng cùng lắm may mắn mới được trích dẫn, còn với tư cách nhà cung cấp nội dung thì hầu như chẳng nhận được gì. Tình hình ngày càng tệ hơn, và sẽ thành kiểu “AI đã có hết rồi thì còn xem website làm gì?”. Cuối cùng có lẽ phải chặn crawler và đưa mọi thứ ra sau màn hình đăng nhập

    • Tệ hơn nữa, AI scraping liên tục chỉ tạo thêm chi phí cho nhà cung cấp nội dung mà không có bất kỳ đền bù nào
      Ít nhất việc scraping của Google/Bing/Yahoo còn được dùng để cung cấp link quay lại nguồn gốc
    • Khoảng một năm trước OpenAI đã crawl công ty nơi tôi làm việc ở mức DDoS. Chúng tôi chặn bằng robots.txt và vội vàng gắn cả reCAPTCHA nhưng vô ích
      Chúng tôi đã xác nhận dữ liệu của mình xuất hiện trong đầu ra của mô hình, nhưng cảm giác là biết làm gì được đây
    • Nó thật sự tốn tiền và thời gian. Một người bạn là quản trị viên hệ thống đại học nói rằng họ liên tục phải xử lý chuyện AI crawler đánh vào máy chủ như DDoS, và Anthropic là một trong những bên nặng nhất
      Các công ty AI này gần như là ví dụ ghê tởm cho khẩu hiệu “xã hội hóa chi phí, tư hữu hóa lợi nhuận”
    • Với Google thì điều đó dường như gần như là mục tiêu. Họ đang dịch chuyển theo hướng trở thành một oracle nắm mọi câu trả lời, chứ không còn là biển chỉ đường tới nơi đúng đắn
      Tức là muốn trở thành đích đến chứ không phải cổng vào
    • Tôi tự hỏi có cách nào lưu trữ website để không thể bị tìm thấy bằng công cụ tìm kiếm, và vì vậy cũng không bị crawl không
      Tôi biết điều đó ảnh hưởng tới khả năng được phát hiện, nhưng nếu đó không phải vấn đề thì có thể né việc crawling như thế nào?
  • Vấn đề này không đơn giản kiểu “fair use” có thể bao trùm 99% việc scraping dữ liệu
    Nếu mục đích không phải tái tạo nguyên bản mà là dùng trong tiền huấn luyện để ước lượng phân phối xác suất của token thì nó mơ hồ hơn. Có lẽ sẽ không thể moi ra cả cuốn sách từ LLM từng chữ một

    • Khẳng định rằng “không thể moi ra cả cuốn sách từ LLM từng chữ một” gần như xung đột trực diện với lập luận cốt lõi trong vụ kiện mà New York Times đệ đơn chống OpenAI
      Ví dụ, Bing Chat đã sao chép toàn bộ trừ hai từ trong 396 từ đầu của bài báo năm 2023 “The Secrets Hamas knew about Israel’s Military”, và trong tài liệu trưng ra trước tòa có 100 trường hợp GPT của OpenAI học và ghi nhớ các bài báo của Times rồi sao chép lại ở mức từng từ
      https://www.hollywoodreporter.com/business/business-news/cou...
    • Khi còn đi học, chuyện “tôi viết lại bằng lời của mình” chưa bao giờ là cái cớ để không cần nêu nguồn
      Tôi mất khá lâu mới hiểu ra, thứ cần trích dẫn không phải là bản sao y nguyên từng câu chữ mà là nguồn gốc của thông tin
    • Người ta cũng có thể nói điều tương tự về bộ mã hóa MP3, nhưng tôi không nghĩ điều đó sẽ thuyết phục được thẩm phán
    • https://arxiv.org/html/2510.25941v1
      Có thể khiến nó tái hiện nội dung, nhưng đó là trò mèo vờn chuột. Nếu không được căn chỉnh để tránh tái hiện trực tiếp thì việc này hẳn còn xảy ra thường xuyên hơn nhiều. RECAP vượt trội một cách nhất quán so với mọi phương pháp khác, và chẳng hạn đã trích xuất được khoảng 3.000 đoạn của cuốn “Harry Potter” đầu tiên từ Claude-3.7, trong khi baseline tốt nhất chỉ đạt 75 đoạn
    • Chỉ cần đưa prompt cho Claude bảo nó tạo một thư viện thay thế drop-in cho thư viện hiện có, rồi dùng test suite của thư viện đó để xác minh chức năng
      Nó gần như đạo văn nguyên xi thư viện từ bộ nhớ, chỉ thiếu phần chú thích
  • Nếu AI có đem lại điều gì tốt thì có lẽ là phá hỏng luật bản quyền mãi mãi
    Không ai đáng ra được “sở hữu” ý tưởng. Tôi ủng hộ chuyện tiền bản quyền cho mục đích sử dụng thương mại, nhưng việc sao chép phi thương mại và fanart không được cấp phép theo cách chúng ta hiểu hiện nay nên là hợp pháp 100%

    • Nếu vậy thì cứ bãi bỏ bản quyền cho tất cả mọi người. Còn hiện giờ chúng ta đang mắc kẹt trong một hệ thống tệ hơn, nơi các tập đoàn khổng lồ tha hồ đạo văn mọi thứ của mọi người, trong khi ai tải lậu phim thì bị điều cả đội SWAT tới giết
    • Bản quyền ngay từ đầu chưa từng bảo vệ “ý tưởng”, và bây giờ cũng vậy. Thứ nó bảo vệ là cách thể hiện
    • Ví dụ như bài hát thì lớn hơn ý tưởng rất nhiều. Ngoài ý tưởng còn có hòa âm, sản xuất, biểu diễn và nhiều công sức khác
      Không như hệ thống hiện tại, lập luận cho phép sở hữu tác phẩm trong một khoảng thời gian với giới hạn nhất định nghe khá hợp lý
    • Vấn đề lớn nhất không phải là thương mại hóa bị hỏng mà là ghi nhận tác giả bị hỏng
      Nếu bạn tạo ra nghệ thuật thì bạn phải được công nhận. Nghệ thuật là một cách quan trọng để con người thể hiện bản thân
    • Bản quyền sẽ không bị phá vỡ, mà như mọi khi nó sẽ bị bẻ cong có chọn lọc theo trọng lực của tiền bạc
      Bạn thì không thể “tải xuống” sách đã tuyệt bản từ anna's archive, nhưng doanh nghiệp sẽ sẵn sàng thu phí thuê bao để học từ toàn bộ dữ liệu đó và rút ra bản tóm tắt
  • Tôi không hiểu vì sao chuyện này lại gây ngạc nhiên. Ai cũng biết các công ty AI đã đánh cắp lượng dữ liệu khổng lồ để huấn luyện mô hình, vậy sao lại nghĩ họ sẽ dừng? Họ đã bao giờ thật sự phải trả giá thích đáng cho việc đánh cắp hàng loạt dữ liệu có bản quyền chưa?
    Chúng ta thì không được phép đánh cắp dữ liệu đó hay kiếm lời từ nó, còn họ thì bằng cách nào đó lại được. Chắc vì họ đang làm điều tốt cho thế giới và thúc đẩy nhân loại tiến lên chăng

    • Dữ liệu đó không bị đánh cắp. Nó vẫn còn ở đó mà
    • Lý do để dừng là vì nguồn dữ liệu giờ đã bị AI làm ô nhiễm. Ít nhất đó cũng là một lý do để ngừng scraping
    • Lý do rất đơn giản. Nếu Microsoft đánh cắp tác phẩm của bạn thì GDP tăng, còn nếu bạn đánh cắp tác phẩm của Microsoft thì GDP giảm
      Những người làm luật và thực thi luật muốn GDP tăng. Với họ, đạo đức và quyền lợi chỉ là lớp mặt nạ mỏng có thể dễ dàng vứt bỏ khi thấy bất tiện
    • Lý do là chủ nghĩa tư bản thân hữu. Ước gì tôi biết lời giải
    • Cứ mỗi khi có chuyện xấu hoặc bất công được nêu ra, lại có một kẻ hư vô yếm thế chua chát nhảy vào kiểu “sao ngạc nhiên thế?”, và giờ tôi thực sự phát ngán rồi
      Kiểu bình luận đó chẳng mang lại hiểu biết, chẳng giúp ích, cũng chẳng gợi suy nghĩ gì. Nó chỉ góp phần giữ cho tình trạng tệ hại tiếp tục tệ hại mà thôi
  • Bạn nói “quyền sở hữu trí tuệ” à? Đó là một ảo ảnh hấp dẫn
    https://www.gnu.org/philosophy/not-ipr.html

    • Chỉ cần cái ảo ảnh đó được áp dụng y như nhau cho Oracle, Microsoft, Meta, Google, cũng như cho nhà phát triển mã nguồn mở làm việc quá sức không công ở khu phố là được
      Nếu là một mô hình open-weight được huấn luyện trên toàn bộ kho nội bộ của Oracle mà không ghi nguồn thì như thế mới công bằng
  • Tôi không thật sự hiểu vấn đề nằm ở chỗ nào trong câu “bài viết của họ có link tới website thật của tôi, và cả văn bản liên kết cũng giống hệt”
    Trừ khi văn bản liên kết rất dài, nếu ai đó link tới bài của bạn thì tại sao họ lại phải dùng từ khác?

    • Đúng vậy. Đó là trích nguồn và gắn link
    • Có những link dạng .../post/{id}/{extra-text}. Ở đây extra-text hoàn toàn không được dùng để khớp bài viết
      Link Amazon trước đây cũng kiểu như vậy, tên sản phẩm được gắn ở cuối link nhưng xóa đi hay đổi đi thì vẫn dẫn tới đúng sản phẩm. Có lẽ họ ngạc nhiên vì LLM đã đưa ra nguyên xi cả phần không liên quan của link
    • Có lẽ tiêu đề mục được gắn link tới chính trang web của họ hoặc dạng gì tương tự. Đây không phải là một bài viết phẫn nộ được viết tốt
    • Có vẻ ý họ là họ dùng URL website của mình làm ví dụ trong tutorial, và các tutorial khác đã sao chép nguyên xi điều đó
    • Giả sử có hai trang web. Một trang là công thức bánh táo chiên, trang kia là danh sách xếp hạng vị táo
      Giả sử công thức bánh táo chiên có link tới danh sách xếp hạng táo. Sau đó có người sao chép công thức của bạn mà không ghi nguồn, nhưng vẫn giữ nguyên link tới danh sách xếp hạng táo với đúng câu chữ đó. Họ đã đánh cắp bài viết của bạn nhưng lại giành thêm lượt hiển thị trên Google và doanh thu quảng cáo. Đó mới là vấn đề
  • Có vẻ đang có hai thứ bị trộn lẫn với nhau
    Thứ nhất, công nghệ LLM/transformer thực sự đáng kinh ngạc và mang tính cách mạng. Thứ hai, rốt cuộc chúng hoạt động như những cơ sở dữ liệu khổng lồ và hiệu quả chứa phần lớn tri thức của con người. Điều số 1 làm mờ đi điều số 2. Nếu ai đó đưa toàn bộ sản phẩm số hiện có vào một cơ sở dữ liệu SQL rồi cho truy vấn miễn phí, thì sẽ chẳng có gì mập mờ về tính hợp pháp cả. Nhưng các quá trình như chưng cất đã che khuất mối quan hệ này và khiến nó trông khác với việc chỉ đơn thuần tra cứu. Mà thực tế đúng là nó còn hơn thế nữa

  • Tôi là luật sư sở hữu trí tuệ và đang xử lý vấn đề này ngoài đời thực
    Đây không phải tư vấn pháp lý, nhưng nếu bạn tạo nội dung trực tuyến, từ mã trong kho công khai, blog, podcast, YouTube, ấn phẩm, cho tới cả blog viết cho vui, thì lựa chọn khôn ngoan nhất là đăng ký bản quyền tại Mỹ. Anthropic đã trả 1,5 tỷ USD tiền dàn xếp tập thể cho các tác giả vì sao chép trái phép tác phẩm có bản quyền. Nếu tác phẩm của cộng đồng HN được bảo hộ như vậy, có thể sẽ đòi được khoản bồi thường theo luật rất lớn cho mọi hành vi LLM scraping. Tôi đang làm việc với hàng trăm tác giả và nhà xuất bản để lập một liên minh nhằm bảo vệ và cấp phép cho những gì họ tạo ra

    • Anthropic không thua vì scrape tác phẩm có bản quyền, tức là đọc chúng. Họ thua vì trực tiếp phân phối tác phẩm có bản quyền qua torrent
      Hai việc đó không phải một
    • Tôi vẫn luôn nghe rằng bản quyền phát sinh tự động. Đăng ký bản quyền có tốn tiền không? Phải làm cho từng bài blog à? Từng gist à?
      Nếu đó là việc cần làm để thật sự có được thứ bản quyền mà tôi vẫn tưởng mình có, thì tôi sẵn sàng viết script để làm
    • Chẳng phải chỉ cần đăng tác phẩm gốc lên mạng là đã có bản quyền rồi sao?
    • Tôi không hiểu “đăng ký bản quyền” nghĩa là gì. Mọi giải thích tôi từng nghe đều nói rằng bạn tự động sở hữu bản quyền với tác phẩm do mình tạo ra, và mặc định là “mọi quyền được bảo lưu” trừ khi bạn từ bỏ bằng giấy phép
      Giờ không còn như vậy nữa à? Sao tự nhiên lại khác? Nó thay đổi từ khi nào?
    • Sẽ chẳng ai làm chuyện này cả, hoặc ít nhất là không đủ nhiều người, vậy kế hoạch B là gì?
  • Về mặt kỹ thuật có phải xâm phạm bản quyền hay không không phải mối bận tâm chính của tôi
    Vấn đề lớn hơn là năng lực trích địa tô từ nội dung toàn cầu đang tập trung vào tay một số ít công ty có thể xây dựng trung tâm dữ liệu quy mô lớn. Đây là vấn đề khổng lồ. Nếu trang web của tôi, trang tin tức, tạp chí trực tuyến, tác phẩm nghệ thuật thương mại đều bị hút vào mô hình và tôi bị loại khỏi mọi động lực khuyến khích, thì tại sao tôi còn phải sáng tạo? Nếu hiện tại điều đó chưa bị coi là vi phạm bản quyền về mặt pháp lý, thì chúng ta cần một khuôn khổ pháp lý mới, vì đây là một bi kịch tuyệt đối đối với sáng tạo của con người và doanh nghiệp nhỏ

    • Với Google trước đây cũng đã trải qua đúng quá trình như vậy. Sau khi nó trở thành con đường duy nhất để người ta tìm thấy website, người ta nói rằng Google chỉ đang thu địa tô kinh tế một cách không công bằng mà thôi