Sử quan duy vật lịch sử về F/OSS: chúng ta không nên từ chối LLM mà phải giành lại chúng
(writings.hongminhee.org)Không phải ngăn F/OSS bị dùng để huấn luyện LLM, mà phải giải phóng các mô hình tạo ra từ quá trình huấn luyện đó
- Gần đây, bài viết 〈Về FLOSS và việc huấn luyện LLM〉 (On FLOSS and training LLMs) đã thể hiện khá rõ sự thất vọng của cộng đồng F/OSS — sự thô lỗ của các công ty AI, giới hạn của luật pháp, v.v.
- Tuy nhiên, các chiến lược rút lui mà tác giả đề xuất như chặn crawler, rời GitHub, tẩy chay người dùng công cụ AI lại đang bỏ lỡ một cơ hội quan trọng
Vấn đề không phải là huấn luyện mà là enclosure
- Vấn đề thực sự không phải là việc dùng chính mã của chúng ta để huấn luyện LLM, mà là kết quả đó bị tư hữu hóa thành các mô hình độc quyền
- Đây không phải vấn đề mới — đó chính là vấn đề mà F/OSS đã luôn đấu tranh bấy lâu nay
- Tư hữu hóa tài nguyên chung
- Độc quyền hóa tri thức tập thể
- Dòng chảy giá trị một chiều từ số đông sang thiểu số
Mô hình lịch sử của GPL: công nghệ mới → khai thác mới → giấy phép mới
Việc cấp phép F/OSS đã liên tục tiến hóa để thích ứng với thay đổi công nghệ:
- GPLv2 (1991) — ngăn việc chỉ phân phối binary → bắt buộc công khai mã nguồn
- GPLv3 (2007) — ngăn Tivoization (khóa phần cứng) → yêu cầu cả thông tin cài đặt
- AGPL (2007) — bịt lỗ hổng SaaS → coi việc cung cấp qua mạng cũng là một hình thức phân phối
Còn bây giờ? Một lỗ hổng huấn luyện đã xuất hiện:
- Các công ty dùng mã F/OSS làm dữ liệu huấn luyện cho các mô hình độc quyền
- Nhưng không có nghĩa vụ phải công khai mô hình hoặc tiết lộ nguồn huấn luyện
- Đây là kiểu khai thác điển hình — trích xuất giá trị mà không có tính tương hỗ
Giải pháp: copyleft cho huấn luyện như GPLv4 hoặc TGPL (Training GPL)
Các điều kiện được đề xuất:
- Việc huấn luyện được cho phép một cách rõ ràng (phù hợp với nguyên tắc tự do của F/OSS)
- Nhưng mô hình tạo ra phải được giải phóng — công khai trọng số theo một giấy phép copyleft tương thích
- Bắt buộc tài liệu hóa dữ liệu huấn luyện
- Các mô hình fine-tune cũng phải kế thừa nghĩa vụ đó
- Việc sử dụng qua mạng (cung cấp API) cũng được coi là phân phối
→ Cũng như GPLv3 yêu cầu mã nguồn đi kèm binary, copyleft cho huấn luyện sẽ yêu cầu trọng số mô hình đi kèm các hệ thống đã được huấn luyện
Vì sao điều này quan trọng hơn chiến lược rút lui
Vấn đề của chiến lược rút lui:
- Nhường chiến trường — OpenAI/Anthropic đã cào lấy mọi thứ họ cần. Việc rút lui chỉ cản được các LLM mã nguồn mở như Llama/Mistral
- Xác định sai vấn đề — vấn đề không nằm ở bản thân công nghệ, mà ở việc ai dùng nó và dùng như thế nào
- Chia rẽ cộng đồng — tẩy chay người dùng “công cụ phi đạo đức”? Dùng đến mức nào thì bị tính là dùng? Các bài kiểm tra sự thuần khiết chỉ hiệu quả trong việc chia rẽ phong trào
- Từ bỏ chiến lược cốt lõi của F/OSS — sự thiên tài của GPL là không ngăn cấm sử dụng mà yêu cầu truyền lại quyền tự do. Rút lui là một triết lý hoàn toàn ngược lại
Khác biệt trong cách nhìn thực tế
- antirez (người tạo ra Redis): LLM là xu thế không thể đảo ngược → hãy thích nghi và tin vào cạnh tranh thị trường
- Tác giả bài gốc: kháng cự vẫn có ý nghĩa → rút lui và chặn truy cập
- Bài viết này: LLM là xu thế không thể đảo ngược → nhưng ai sở hữu chúng mới là điểm cốt lõi
Câu hỏi không phải là có dùng LLM hay không, mà là:
- Ai sở hữu mô hình?
- Ai hưởng lợi từ tài nguyên chung đã dùng để huấn luyện mô hình?
- Thành quả đóng góp của hàng triệu nhà phát triển F/OSS có nên bị độc quyền hóa không?
→ Đây là vấn đề liệu thành quả của lao động tập thể có còn ở lại với tập thể hay trở thành tài sản tư nhân
Đây là cơ hội mang tính lịch sử ngay lúc này
- Hiện đang có các cuộc thảo luận về những chuẩn mực sẽ chi phối việc huấn luyện AI và công khai mô hình
- Tranh luận trong cộng đồng đang rất sôi nổi
- Trong lúc số lượng mô hình AI mã nguồn mở ngày càng tăng, vẫn chưa có gì được quyết định về loại giấy phép nào sẽ được áp dụng
Nếu các nhà phát triển F/OSS rút lui: 5 năm nữa, các doanh nghiệp và các tòa án thân doanh nghiệp sẽ đặt ra toàn bộ chuẩn mực → lỗ hổng huấn luyện sẽ được cố định → AI mã nguồn mở sẽ vĩnh viễn ở thế bất lợi
Nếu chúng ta tham gia: thúc đẩy copyleft cho huấn luyện → công khai mã theo giấy phép yêu cầu giải phóng mô hình → chúng ta sẽ tạo ra tương lai
Kết luận trong một câu
Không phải chặn crawler, mà phải thay đổi các quy tắc của việc crawl. Không phải từ chối LLM, mà phải giành lại chúng.
→ Theo góc nhìn duy vật lịch sử: lực lượng sản xuất mới (LLM) đòi hỏi quan hệ sản xuất mới (copyleft cho huấn luyện)
→ Cũng như khi Linus phát hành Linux theo GPL, ông không nói “doanh nghiệp không được dùng” mà là “ai cũng có thể dùng, nhưng nếu cải tiến thì phải chia sẻ”
→ Vì một tương lai nơi cũng như mã là của mọi người, các mô hình AI được huấn luyện từ nó cũng thuộc về mọi người
1 bình luận
Tôi đồng cảm với nội dung của bài viết. Tuy nhiên, nếu hỏi phải bắt đầu chiến đấu từ đâu, vì điều gì và đến mức nào, thì thật sự rất mơ hồ.