1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Một người dùng cho biết vợ mình đang ngần ngại công khai ảnh tác phẩm của cô ấy lên mạng vì không muốn chúng bị dùng để huấn luyện LLM
  • Trọng tâm câu hỏi là liệu hiện nay có thư viện hoặc phương pháp thực tế nào để xử lý trước hình ảnh nhằm cản trở việc huấn luyện LLM hay không
  • Người dùng muốn biết liệu có công cụ ở mức có thể tự xây dựng một website tùy chỉnh cho vợ mình hay không
  • Bản thân người này không có nhiều kinh nghiệm frontend, nhưng có thể tạo một trang đơn giản bằng trình tạo trang tĩnh
  • Trước đây từng dùng Eleventy để làm website cho ban nhạc, nên đang cân nhắc xây dựng một trang tĩnh theo cách tương tự

Bối cảnh câu hỏi

  • Vợ của người dùng không muốn đưa ảnh tác phẩm của mình lên mạng
    • Lý do là cô ấy không muốn các hình ảnh đó bị dùng để huấn luyện LLM
  • Người dùng đang tìm xem có cách nào xử lý trước ảnh tác phẩm để khiến việc huấn luyện LLM trở nên khó khăn hơn hay không

Cách giải quyết mong muốn

  • Người dùng đang nghĩ tới phương án tự làm một website tùy chỉnh cho vợ mình
  • Điều kiện cần là có thực sự tồn tại thư viện hoặc phương pháp nào có thể xử lý ảnh tác phẩm để cản trở việc huấn luyện LLM hay không
  • Điều kiện kỹ thuật của người này như sau
    • Không có nhiều kinh nghiệm frontend
    • Có thể làm một trang đơn giản bằng trình tạo trang tĩnh
    • Trước đây đã từng dùng Eleventy để làm website cho ban nhạc

1 bình luận

 
Ý kiến trên Lobste.rs
  • Cập nhật: có lẽ nên xem qua cara
    Một người bạn họa sĩ của tôi đang đăng tác phẩm ở đó và có vẻ hài lòng
    Nơi này đề cao artist-first, công khai có khuynh hướng phản AI, và dường như còn có cả tích hợp Glaze để ngăn hình ảnh bị dùng cho việc huấn luyện AI
    Và điều tôi định nói có lẽ không phải LLM mà là mô hình khuếch tán. LLM xử lý văn bản nên có thể hữu ích khi tìm kiếm
    Tôi có nhớ đến Nightshade, nhưng kiểm tra nhanh thì có vẻ nó xuất hiện vào khoảng 2023/24, và tôi không tìm thấy dấu vết kho lưu trữ hay bảo trì nào

  • Vấn đề với cách làm nhiễm độc hoặc che giấu các tác phẩm nghệ thuật mà LLM có thể truy cập là ta không biết nó hiệu quả đến mức nào, và cũng không thể biết được. Cuối cùng tất cả đều đi vào một hộp đen
    Nếu bạn không muốn tác phẩm của mình bị thu thập vào LLM thì có vài lựa chọn, mỗi cái đều có ưu và nhược điểm

    1. Không đưa lên mạng. Rất đơn giản, nhưng chỉ hiệu quả nếu không ai khác cũng đưa nó lên mạng. Nếu là sách, công ty AI vẫn có thể lấy được qua đường khác, chẳng hạn quét số hóa
    2. Chỉ công khai trực tuyến sau khi đăng ký và đăng nhập. Người quan tâm vẫn có thể truy cập, còn LLM thông thường thì không. Tất nhiên điều này vẫn dựa trên giả định rằng sẽ không có ai đăng lại mà không có rào cản đăng nhập
    3. Đặt sau lớp phòng thủ chống crawler mạnh. Hơi ngại vì đây là công cụ của tôi, nhưng nếu đặt thứ như iocaine ở phía trước website thì có thể chặn được nhiều crawler. Không phải tất cả, nhưng đủ để giảm mạnh khả năng bị đưa vào huấn luyện, và cũng không tạo rào cản quá lớn với khách truy cập bình thường
      Một điểm quan trọng nữa là nếu muốn bị loại khỏi dữ liệu huấn luyện thì có lẽ bạn cũng cần không xuất hiện trên công cụ tìm kiếm. Các công cụ tìm kiếm thương mại huấn luyện trên dữ liệu đã được lập chỉ mục, nên nếu có thể tìm thấy trên Google Search thì rất có thể dữ liệu đó cũng đã vào Gemini
      Chung quy lại, nếu muốn làm một website portfolio mà không bị dùng cho huấn luyện LLM thì rất khó. Nếu chỉ đơn giản là muốn đăng tác phẩm lên mạng, thì rào cản đăng nhập hoặc lớp chống crawler mạnh sẽ giảm đáng kể khả năng bị dùng để huấn luyện. Đáng tiếc là không thể về 0, và cũng không có công cụ phép màu nào có thể đảm bảo việc che giấu hay đầu độc tác phẩm
  • Có vẻ trực giác của vợ bạn là đúng. Ít nhất là về mặt công khai, câu trả lời gần đúng nhất là đừng đưa nó lên mạng

    • Dù không thích, nhưng có vẻ phần lớn mọi hình thức biểu đạt sáng tạo của con người đều đang ở trong tình cảnh này
      Nếu không muốn trở thành nhiên liệu cho cỗ máy tạo ra sản phẩm chất lượng thấp, thì không thể chia sẻ công khai
  • Tôi chưa từng nghĩ mình sẽ nói điều này, nhưng có vẻ cần DRM mạnh hơn. Mức độ phải là có thể truy vết nguồn gốc ngay cả khi đã vào trong mô hình, dù cũng không rõ liệu thứ như vậy có thể tồn tại hay không
    Ngoài ra thì có lẽ vợ bạn nói đúng, và việc làm rối LLM sẽ không thể là biện pháp giảm thiểu lâu dài

    • Thấy mọi người đến diễn đàn hacker mình thích rồi bàn chuyện ủng hộ DRM thì đúng là tình hình nghiêm trọng thật
    • May là DRM không hoạt động, và cũng không thể hoạt động
      Kể cả nếu nó hoạt động đi nữa, cũng không nên kỳ vọng nó sẽ được triển khai để bảo vệ quyền của những người không thuộc phe mạnh sẵn có
    • Tuyệt đối không. Không cần DRM mạnh hơn
      Cách duy nhất để đạt được điều đó, dù rồi cuối cùng vẫn sẽ bị phá, là dùng enclave mã hóa trên phần cứng có thể kiểm chứng, và đó là hướng ngày càng tước đi quyền kiểm soát thiết bị của chính người dùng
    • Nhìn vào việc họ hoàn toàn phớt lờ bản quyền, giấy phép và những thứ tương tự thì có gắn bao nhiêu DRM cũng có lẽ chẳng giúp ích gì
      Và xét đến lượng tiền các công ty này đốt mỗi ngày, DRM cũng có vẻ sẽ không trở thành chướng ngại lớn
      Kết quả có khi chỉ là khiến dữ liệu rơi vào tay những mô hình có nguồn lực tài chính mạnh hơn
      Tùy định nghĩa DRM thế nào, bản thân kiểu làm rối này cũng có thể bị gọi là DRM
  • Tôi đã xem qua Glaze khoảng một năm rưỡi trước và còn liên hệ với phòng lab để hỏi vài câu xác nhận, nhưng nếu nhớ không nhầm thì tôi chưa nhận được câu trả lời
    Trong quá trình tìm hiểu đó, tôi thấy quá nhiều giới hạn và điều kiện kèm theo. Tôi không biết hiện trạng mới nhất ra sao, nhưng tôi không lạc quan rằng kiểu đầu độc hình ảnh nói chung sẽ hiệu quả với phần lớn mô hình
    Glaze có hiệu quả với một số mô hình và trong một số điều kiện