- AI lấy dữ liệu đầu vào để huấn luyện bất kể có sự đồng ý của tác giả gốc hay không, rồi bán kết quả đó mà không bồi thường cho tác giả gốc
- Các công ty AI (và các công cụ AI) cùng khách hàng của họ cũng bán lại kết quả được xử lý bằng prompt cho những khách hàng khác, từ đó kiếm lợi nhuận từ những thứ bị sao chép trên khắp internet
- Tác giả đã tự nghiên cứu và viết hướng dẫn về thương mại điện tử, nhưng một số website đã yêu cầu ChatGPT sao chép vài bài hướng dẫn đang ăn khách rồi đăng như thể là bài của chính họ
- Các bài viết sao chép còn xếp hạng cao hơn bản gốc trên kết quả tìm kiếm của Google
- Trong các bài sao chép vẫn còn liên kết dẫn đến website gốc với chính xác cùng đoạn văn bản liên kết, và chính những liên kết chưa bị xóa này đã xác nhận việc sao chép
- Google đang xếp hạng các website sao chép nội dung gốc cao hơn bản gốc, tạo ra một cơ chế mà nội dung sao chép trái phép được tưởng thưởng trong tìm kiếm
1 bình luận
Ý kiến Hacker News
Có một ngụy biện thường được dùng để biện minh cho kiểu này: “nếu ở quy mô nhỏ thì chấp nhận được hoặc có thể bỏ qua, thì ở quy mô lớn cũng vậy”
Kiểu lập luận là, nếu học từ một trang web rồi kiếm tiền thì không sao, vậy tại sao máy tính học mọi thứ từ tất cả mọi người rồi kiếm tiền lại thành vấn đề? Bẻ một bông hoa ở Golden Gate Park và chế tạo một cỗ máy tự động cắt sạch mọi bông hoa trong công viên để đem bán là hai việc khác nhau. Thay đổi về lượng tạo ra thay đổi về chất của hoạt động, và dù hệ quả không phải lúc nào cũng xấu, nó vẫn đáng để xem xét chứ không nên bỏ qua
Điểm cốt lõi không đơn thuần là quy mô, mà gần hơn với việc hành vi đáng mong muốn ở con người lại không được xã hội cho phép khi máy móc làm
Cảm giác “ăn cắp” ở đây hoàn toàn là cách diễn giải trong đầu, chứ việc ai đó sao chép không có nghĩa là họ đã lấy mất bản gốc
https://en.wikipedia.org/wiki/Fallacy_of_composition
Sau Internet nhưng trước LLM, về lý thuyết khoảng cách thông tin đã giảm mạnh, nhưng đa số vẫn không hiểu và không tận dụng được vì rào cản nhận thức. Sau LLM, rào cản đó đang sụp đổ, nên cần nghĩ đến việc dùng thông tin và tri thức theo cách khác để tạo ra tiền bạc và quyền lực
Vẫn còn một vấn đề lớn hơn là ghi công theo cách mà nguồn gốc ban đầu được đền bù
Chủ website trả chi phí lưu trữ nội dung, để spider vào crawl và lập chỉ mục cho AI, nhưng cùng lắm may mắn mới được trích dẫn, còn với tư cách nhà cung cấp nội dung thì hầu như chẳng nhận được gì. Tình hình ngày càng tệ hơn, và sẽ thành kiểu “AI đã có hết rồi thì còn xem website làm gì?”. Cuối cùng có lẽ phải chặn crawler và đưa mọi thứ ra sau màn hình đăng nhập
Ít nhất việc scraping của Google/Bing/Yahoo còn được dùng để cung cấp link quay lại nguồn gốc
Chúng tôi đã xác nhận dữ liệu của mình xuất hiện trong đầu ra của mô hình, nhưng cảm giác là biết làm gì được đây
Các công ty AI này gần như là ví dụ ghê tởm cho khẩu hiệu “xã hội hóa chi phí, tư hữu hóa lợi nhuận”
Tức là muốn trở thành đích đến chứ không phải cổng vào
Tôi biết điều đó ảnh hưởng tới khả năng được phát hiện, nhưng nếu đó không phải vấn đề thì có thể né việc crawling như thế nào?
Vấn đề này không đơn giản kiểu “fair use” có thể bao trùm 99% việc scraping dữ liệu
Nếu mục đích không phải tái tạo nguyên bản mà là dùng trong tiền huấn luyện để ước lượng phân phối xác suất của token thì nó mơ hồ hơn. Có lẽ sẽ không thể moi ra cả cuốn sách từ LLM từng chữ một
Ví dụ, Bing Chat đã sao chép toàn bộ trừ hai từ trong 396 từ đầu của bài báo năm 2023 “The Secrets Hamas knew about Israel’s Military”, và trong tài liệu trưng ra trước tòa có 100 trường hợp GPT của OpenAI học và ghi nhớ các bài báo của Times rồi sao chép lại ở mức từng từ
https://www.hollywoodreporter.com/business/business-news/cou...
Tôi mất khá lâu mới hiểu ra, thứ cần trích dẫn không phải là bản sao y nguyên từng câu chữ mà là nguồn gốc của thông tin
Có thể khiến nó tái hiện nội dung, nhưng đó là trò mèo vờn chuột. Nếu không được căn chỉnh để tránh tái hiện trực tiếp thì việc này hẳn còn xảy ra thường xuyên hơn nhiều. RECAP vượt trội một cách nhất quán so với mọi phương pháp khác, và chẳng hạn đã trích xuất được khoảng 3.000 đoạn của cuốn “Harry Potter” đầu tiên từ Claude-3.7, trong khi baseline tốt nhất chỉ đạt 75 đoạn
Nó gần như đạo văn nguyên xi thư viện từ bộ nhớ, chỉ thiếu phần chú thích
Nếu AI có đem lại điều gì tốt thì có lẽ là phá hỏng luật bản quyền mãi mãi
Không ai đáng ra được “sở hữu” ý tưởng. Tôi ủng hộ chuyện tiền bản quyền cho mục đích sử dụng thương mại, nhưng việc sao chép phi thương mại và fanart không được cấp phép theo cách chúng ta hiểu hiện nay nên là hợp pháp 100%
Không như hệ thống hiện tại, lập luận cho phép sở hữu tác phẩm trong một khoảng thời gian với giới hạn nhất định nghe khá hợp lý
Nếu bạn tạo ra nghệ thuật thì bạn phải được công nhận. Nghệ thuật là một cách quan trọng để con người thể hiện bản thân
Bạn thì không thể “tải xuống” sách đã tuyệt bản từ anna's archive, nhưng doanh nghiệp sẽ sẵn sàng thu phí thuê bao để học từ toàn bộ dữ liệu đó và rút ra bản tóm tắt
Tôi không hiểu vì sao chuyện này lại gây ngạc nhiên. Ai cũng biết các công ty AI đã đánh cắp lượng dữ liệu khổng lồ để huấn luyện mô hình, vậy sao lại nghĩ họ sẽ dừng? Họ đã bao giờ thật sự phải trả giá thích đáng cho việc đánh cắp hàng loạt dữ liệu có bản quyền chưa?
Chúng ta thì không được phép đánh cắp dữ liệu đó hay kiếm lời từ nó, còn họ thì bằng cách nào đó lại được. Chắc vì họ đang làm điều tốt cho thế giới và thúc đẩy nhân loại tiến lên chăng
Những người làm luật và thực thi luật muốn GDP tăng. Với họ, đạo đức và quyền lợi chỉ là lớp mặt nạ mỏng có thể dễ dàng vứt bỏ khi thấy bất tiện
Kiểu bình luận đó chẳng mang lại hiểu biết, chẳng giúp ích, cũng chẳng gợi suy nghĩ gì. Nó chỉ góp phần giữ cho tình trạng tệ hại tiếp tục tệ hại mà thôi
Bạn nói “quyền sở hữu trí tuệ” à? Đó là một ảo ảnh hấp dẫn
https://www.gnu.org/philosophy/not-ipr.html
Nếu là một mô hình open-weight được huấn luyện trên toàn bộ kho nội bộ của Oracle mà không ghi nguồn thì như thế mới công bằng
Tôi không thật sự hiểu vấn đề nằm ở chỗ nào trong câu “bài viết của họ có link tới website thật của tôi, và cả văn bản liên kết cũng giống hệt”
Trừ khi văn bản liên kết rất dài, nếu ai đó link tới bài của bạn thì tại sao họ lại phải dùng từ khác?
.../post/{id}/{extra-text}. Ở đâyextra-texthoàn toàn không được dùng để khớp bài viếtLink Amazon trước đây cũng kiểu như vậy, tên sản phẩm được gắn ở cuối link nhưng xóa đi hay đổi đi thì vẫn dẫn tới đúng sản phẩm. Có lẽ họ ngạc nhiên vì LLM đã đưa ra nguyên xi cả phần không liên quan của link
Giả sử công thức bánh táo chiên có link tới danh sách xếp hạng táo. Sau đó có người sao chép công thức của bạn mà không ghi nguồn, nhưng vẫn giữ nguyên link tới danh sách xếp hạng táo với đúng câu chữ đó. Họ đã đánh cắp bài viết của bạn nhưng lại giành thêm lượt hiển thị trên Google và doanh thu quảng cáo. Đó mới là vấn đề
Có vẻ đang có hai thứ bị trộn lẫn với nhau
Thứ nhất, công nghệ LLM/transformer thực sự đáng kinh ngạc và mang tính cách mạng. Thứ hai, rốt cuộc chúng hoạt động như những cơ sở dữ liệu khổng lồ và hiệu quả chứa phần lớn tri thức của con người. Điều số 1 làm mờ đi điều số 2. Nếu ai đó đưa toàn bộ sản phẩm số hiện có vào một cơ sở dữ liệu SQL rồi cho truy vấn miễn phí, thì sẽ chẳng có gì mập mờ về tính hợp pháp cả. Nhưng các quá trình như chưng cất đã che khuất mối quan hệ này và khiến nó trông khác với việc chỉ đơn thuần tra cứu. Mà thực tế đúng là nó còn hơn thế nữa
Tôi là luật sư sở hữu trí tuệ và đang xử lý vấn đề này ngoài đời thực
Đây không phải tư vấn pháp lý, nhưng nếu bạn tạo nội dung trực tuyến, từ mã trong kho công khai, blog, podcast, YouTube, ấn phẩm, cho tới cả blog viết cho vui, thì lựa chọn khôn ngoan nhất là đăng ký bản quyền tại Mỹ. Anthropic đã trả 1,5 tỷ USD tiền dàn xếp tập thể cho các tác giả vì sao chép trái phép tác phẩm có bản quyền. Nếu tác phẩm của cộng đồng HN được bảo hộ như vậy, có thể sẽ đòi được khoản bồi thường theo luật rất lớn cho mọi hành vi LLM scraping. Tôi đang làm việc với hàng trăm tác giả và nhà xuất bản để lập một liên minh nhằm bảo vệ và cấp phép cho những gì họ tạo ra
Hai việc đó không phải một
Nếu đó là việc cần làm để thật sự có được thứ bản quyền mà tôi vẫn tưởng mình có, thì tôi sẵn sàng viết script để làm
Giờ không còn như vậy nữa à? Sao tự nhiên lại khác? Nó thay đổi từ khi nào?
Về mặt kỹ thuật có phải xâm phạm bản quyền hay không không phải mối bận tâm chính của tôi
Vấn đề lớn hơn là năng lực trích địa tô từ nội dung toàn cầu đang tập trung vào tay một số ít công ty có thể xây dựng trung tâm dữ liệu quy mô lớn. Đây là vấn đề khổng lồ. Nếu trang web của tôi, trang tin tức, tạp chí trực tuyến, tác phẩm nghệ thuật thương mại đều bị hút vào mô hình và tôi bị loại khỏi mọi động lực khuyến khích, thì tại sao tôi còn phải sáng tạo? Nếu hiện tại điều đó chưa bị coi là vi phạm bản quyền về mặt pháp lý, thì chúng ta cần một khuôn khổ pháp lý mới, vì đây là một bi kịch tuyệt đối đối với sáng tạo của con người và doanh nghiệp nhỏ