- Một người dùng cho biết vợ mình đang ngần ngại công khai ảnh tác phẩm của cô ấy lên mạng vì không muốn chúng bị dùng để huấn luyện LLM
- Trọng tâm câu hỏi là liệu hiện nay có thư viện hoặc phương pháp thực tế nào để xử lý trước hình ảnh nhằm cản trở việc huấn luyện LLM hay không
- Người dùng muốn biết liệu có công cụ ở mức có thể tự xây dựng một website tùy chỉnh cho vợ mình hay không
- Bản thân người này không có nhiều kinh nghiệm frontend, nhưng có thể tạo một trang đơn giản bằng trình tạo trang tĩnh
- Trước đây từng dùng Eleventy để làm website cho ban nhạc, nên đang cân nhắc xây dựng một trang tĩnh theo cách tương tự
Bối cảnh câu hỏi
- Vợ của người dùng không muốn đưa ảnh tác phẩm của mình lên mạng
- Lý do là cô ấy không muốn các hình ảnh đó bị dùng để huấn luyện LLM
- Người dùng đang tìm xem có cách nào xử lý trước ảnh tác phẩm để khiến việc huấn luyện LLM trở nên khó khăn hơn hay không
Cách giải quyết mong muốn
- Người dùng đang nghĩ tới phương án tự làm một website tùy chỉnh cho vợ mình
- Điều kiện cần là có thực sự tồn tại thư viện hoặc phương pháp nào có thể xử lý ảnh tác phẩm để cản trở việc huấn luyện LLM hay không
- Điều kiện kỹ thuật của người này như sau
- Không có nhiều kinh nghiệm frontend
- Có thể làm một trang đơn giản bằng trình tạo trang tĩnh
- Trước đây đã từng dùng Eleventy để làm website cho ban nhạc
1 bình luận
Ý kiến trên Lobste.rs
Cập nhật: có lẽ nên xem qua cara
Một người bạn họa sĩ của tôi đang đăng tác phẩm ở đó và có vẻ hài lòng
Nơi này đề cao artist-first, công khai có khuynh hướng phản AI, và dường như còn có cả tích hợp Glaze để ngăn hình ảnh bị dùng cho việc huấn luyện AI
Và điều tôi định nói có lẽ không phải LLM mà là mô hình khuếch tán. LLM xử lý văn bản nên có thể hữu ích khi tìm kiếm
Tôi có nhớ đến Nightshade, nhưng kiểm tra nhanh thì có vẻ nó xuất hiện vào khoảng 2023/24, và tôi không tìm thấy dấu vết kho lưu trữ hay bảo trì nào
Vấn đề với cách làm nhiễm độc hoặc che giấu các tác phẩm nghệ thuật mà LLM có thể truy cập là ta không biết nó hiệu quả đến mức nào, và cũng không thể biết được. Cuối cùng tất cả đều đi vào một hộp đen
Nếu bạn không muốn tác phẩm của mình bị thu thập vào LLM thì có vài lựa chọn, mỗi cái đều có ưu và nhược điểm
Một điểm quan trọng nữa là nếu muốn bị loại khỏi dữ liệu huấn luyện thì có lẽ bạn cũng cần không xuất hiện trên công cụ tìm kiếm. Các công cụ tìm kiếm thương mại huấn luyện trên dữ liệu đã được lập chỉ mục, nên nếu có thể tìm thấy trên Google Search thì rất có thể dữ liệu đó cũng đã vào Gemini
Chung quy lại, nếu muốn làm một website portfolio mà không bị dùng cho huấn luyện LLM thì rất khó. Nếu chỉ đơn giản là muốn đăng tác phẩm lên mạng, thì rào cản đăng nhập hoặc lớp chống crawler mạnh sẽ giảm đáng kể khả năng bị dùng để huấn luyện. Đáng tiếc là không thể về 0, và cũng không có công cụ phép màu nào có thể đảm bảo việc che giấu hay đầu độc tác phẩm
Có vẻ trực giác của vợ bạn là đúng. Ít nhất là về mặt công khai, câu trả lời gần đúng nhất là đừng đưa nó lên mạng
Nếu không muốn trở thành nhiên liệu cho cỗ máy tạo ra sản phẩm chất lượng thấp, thì không thể chia sẻ công khai
Tôi chưa từng nghĩ mình sẽ nói điều này, nhưng có vẻ cần DRM mạnh hơn. Mức độ phải là có thể truy vết nguồn gốc ngay cả khi đã vào trong mô hình, dù cũng không rõ liệu thứ như vậy có thể tồn tại hay không
Ngoài ra thì có lẽ vợ bạn nói đúng, và việc làm rối LLM sẽ không thể là biện pháp giảm thiểu lâu dài
Kể cả nếu nó hoạt động đi nữa, cũng không nên kỳ vọng nó sẽ được triển khai để bảo vệ quyền của những người không thuộc phe mạnh sẵn có
Cách duy nhất để đạt được điều đó, dù rồi cuối cùng vẫn sẽ bị phá, là dùng enclave mã hóa trên phần cứng có thể kiểm chứng, và đó là hướng ngày càng tước đi quyền kiểm soát thiết bị của chính người dùng
Và xét đến lượng tiền các công ty này đốt mỗi ngày, DRM cũng có vẻ sẽ không trở thành chướng ngại lớn
Kết quả có khi chỉ là khiến dữ liệu rơi vào tay những mô hình có nguồn lực tài chính mạnh hơn
Tùy định nghĩa DRM thế nào, bản thân kiểu làm rối này cũng có thể bị gọi là DRM
Tôi đã xem qua Glaze khoảng một năm rưỡi trước và còn liên hệ với phòng lab để hỏi vài câu xác nhận, nhưng nếu nhớ không nhầm thì tôi chưa nhận được câu trả lời
Trong quá trình tìm hiểu đó, tôi thấy quá nhiều giới hạn và điều kiện kèm theo. Tôi không biết hiện trạng mới nhất ra sao, nhưng tôi không lạc quan rằng kiểu đầu độc hình ảnh nói chung sẽ hiệu quả với phần lớn mô hình
Glaze có hiệu quả với một số mô hình và trong một số điều kiện