Hiện nay có những cách nào để cản trở việc dùng ảnh tác phẩm để huấn luyện LLM?

(lobste.rs)

1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Một người dùng cho biết vợ mình đang ngần ngại công khai ảnh tác phẩm của cô ấy lên mạng vì không muốn chúng bị dùng để huấn luyện LLM
Trọng tâm câu hỏi là liệu hiện nay có thư viện hoặc phương pháp thực tế nào để xử lý trước hình ảnh nhằm cản trở việc huấn luyện LLM hay không
Người dùng muốn biết liệu có công cụ ở mức có thể tự xây dựng một website tùy chỉnh cho vợ mình hay không
Bản thân người này không có nhiều kinh nghiệm frontend, nhưng có thể tạo một trang đơn giản bằng trình tạo trang tĩnh
Trước đây từng dùng Eleventy để làm website cho ban nhạc, nên đang cân nhắc xây dựng một trang tĩnh theo cách tương tự

Bối cảnh câu hỏi

Vợ của người dùng không muốn đưa ảnh tác phẩm của mình lên mạng
- Lý do là cô ấy không muốn các hình ảnh đó bị dùng để huấn luyện LLM
Người dùng đang tìm xem có cách nào xử lý trước ảnh tác phẩm để khiến việc huấn luyện LLM trở nên khó khăn hơn hay không

Cách giải quyết mong muốn

Người dùng đang nghĩ tới phương án tự làm một website tùy chỉnh cho vợ mình
Điều kiện cần là có thực sự tồn tại thư viện hoặc phương pháp nào có thể xử lý ảnh tác phẩm để cản trở việc huấn luyện LLM hay không
Điều kiện kỹ thuật của người này như sau
- Không có nhiều kinh nghiệm frontend
- Có thể làm một trang đơn giản bằng trình tạo trang tĩnh
- Trước đây đã từng dùng Eleventy để làm website cho ban nhạc

1 bình luận

GN⁺ 4 giờ trước

Ý kiến trên Lobste.rs

Cập nhật: có lẽ nên xem qua cara
Một người bạn họa sĩ của tôi đang đăng tác phẩm ở đó và có vẻ hài lòng
Nơi này đề cao artist-first, công khai có khuynh hướng phản AI, và dường như còn có cả tích hợp Glaze để ngăn hình ảnh bị dùng cho việc huấn luyện AI
Và điều tôi định nói có lẽ không phải LLM mà là mô hình khuếch tán. LLM xử lý văn bản nên có thể hữu ích khi tìm kiếm
Tôi có nhớ đến Nightshade, nhưng kiểm tra nhanh thì có vẻ nó xuất hiện vào khoảng 2023/24, và tôi không tìm thấy dấu vết kho lưu trữ hay bảo trì nào
Vấn đề với cách làm nhiễm độc hoặc che giấu các tác phẩm nghệ thuật mà LLM có thể truy cập là ta không biết nó hiệu quả đến mức nào, và cũng không thể biết được. Cuối cùng tất cả đều đi vào một hộp đen
Nếu bạn không muốn tác phẩm của mình bị thu thập vào LLM thì có vài lựa chọn, mỗi cái đều có ưu và nhược điểm
1. Không đưa lên mạng. Rất đơn giản, nhưng chỉ hiệu quả nếu không ai khác cũng đưa nó lên mạng. Nếu là sách, công ty AI vẫn có thể lấy được qua đường khác, chẳng hạn quét số hóa
2. Chỉ công khai trực tuyến sau khi đăng ký và đăng nhập. Người quan tâm vẫn có thể truy cập, còn LLM thông thường thì không. Tất nhiên điều này vẫn dựa trên giả định rằng sẽ không có ai đăng lại mà không có rào cản đăng nhập
3. Đặt sau lớp phòng thủ chống crawler mạnh. Hơi ngại vì đây là công cụ của tôi, nhưng nếu đặt thứ như iocaine ở phía trước website thì có thể chặn được nhiều crawler. Không phải tất cả, nhưng đủ để giảm mạnh khả năng bị đưa vào huấn luyện, và cũng không tạo rào cản quá lớn với khách truy cập bình thường
  Một điểm quan trọng nữa là nếu muốn bị loại khỏi dữ liệu huấn luyện thì có lẽ bạn cũng cần không xuất hiện trên công cụ tìm kiếm. Các công cụ tìm kiếm thương mại huấn luyện trên dữ liệu đã được lập chỉ mục, nên nếu có thể tìm thấy trên Google Search thì rất có thể dữ liệu đó cũng đã vào Gemini
  Chung quy lại, nếu muốn làm một website portfolio mà không bị dùng cho huấn luyện LLM thì rất khó. Nếu chỉ đơn giản là muốn đăng tác phẩm lên mạng, thì rào cản đăng nhập hoặc lớp chống crawler mạnh sẽ giảm đáng kể khả năng bị dùng để huấn luyện. Đáng tiếc là không thể về 0, và cũng không có công cụ phép màu nào có thể đảm bảo việc che giấu hay đầu độc tác phẩm
Có vẻ trực giác của vợ bạn là đúng. Ít nhất là về mặt công khai, câu trả lời gần đúng nhất là đừng đưa nó lên mạng
- Dù không thích, nhưng có vẻ phần lớn mọi hình thức biểu đạt sáng tạo của con người đều đang ở trong tình cảnh này
  Nếu không muốn trở thành nhiên liệu cho cỗ máy tạo ra sản phẩm chất lượng thấp, thì không thể chia sẻ công khai
Tôi chưa từng nghĩ mình sẽ nói điều này, nhưng có vẻ cần DRM mạnh hơn. Mức độ phải là có thể truy vết nguồn gốc ngay cả khi đã vào trong mô hình, dù cũng không rõ liệu thứ như vậy có thể tồn tại hay không
Ngoài ra thì có lẽ vợ bạn nói đúng, và việc làm rối LLM sẽ không thể là biện pháp giảm thiểu lâu dài
- Thấy mọi người đến diễn đàn hacker mình thích rồi bàn chuyện ủng hộ DRM thì đúng là tình hình nghiêm trọng thật
- May là DRM không hoạt động, và cũng không thể hoạt động
  Kể cả nếu nó hoạt động đi nữa, cũng không nên kỳ vọng nó sẽ được triển khai để bảo vệ quyền của những người không thuộc phe mạnh sẵn có
- Tuyệt đối không. Không cần DRM mạnh hơn
  Cách duy nhất để đạt được điều đó, dù rồi cuối cùng vẫn sẽ bị phá, là dùng enclave mã hóa trên phần cứng có thể kiểm chứng, và đó là hướng ngày càng tước đi quyền kiểm soát thiết bị của chính người dùng
- Nhìn vào việc họ hoàn toàn phớt lờ bản quyền, giấy phép và những thứ tương tự thì có gắn bao nhiêu DRM cũng có lẽ chẳng giúp ích gì
  Và xét đến lượng tiền các công ty này đốt mỗi ngày, DRM cũng có vẻ sẽ không trở thành chướng ngại lớn
  Kết quả có khi chỉ là khiến dữ liệu rơi vào tay những mô hình có nguồn lực tài chính mạnh hơn
  Tùy định nghĩa DRM thế nào, bản thân kiểu làm rối này cũng có thể bị gọi là DRM
Tôi đã xem qua Glaze khoảng một năm rưỡi trước và còn liên hệ với phòng lab để hỏi vài câu xác nhận, nhưng nếu nhớ không nhầm thì tôi chưa nhận được câu trả lời
Trong quá trình tìm hiểu đó, tôi thấy quá nhiều giới hạn và điều kiện kèm theo. Tôi không biết hiện trạng mới nhất ra sao, nhưng tôi không lạc quan rằng kiểu đầu độc hình ảnh nói chung sẽ hiệu quả với phần lớn mô hình
Glaze có hiệu quả với một số mô hình và trong một số điều kiện

Hiện nay có những cách nào để cản trở việc dùng ảnh tác phẩm để huấn luyện LLM?

Bối cảnh câu hỏi

Cách giải quyết mong muốn

Bài viết liên quan

1 bình luận

Ý kiến trên Lobste.rs