- Thư viện phát hiện mã hóa ký tự Python chardet được tái hiện bằng AI, và trường hợp đổi giấy phép từ LGPL sang MIT đã châm ngòi tranh luận về đạo đức mã nguồn mở
- Có ý kiến công nhận tính hợp pháp của việc tái hiện bằng AI, nhưng bài viết nhấn mạnh rằng sự cho phép về mặt pháp lý và tính chính đáng về mặt xã hội là hai chuyện khác nhau
- Việc tái hiện trong lịch sử của GNU và Linux là mở rộng từ sở hữu độc quyền sang tự do, còn trường hợp lần này lại vận hành theo hướng làm suy yếu cơ chế bảo vệ tài sản chung
- Điều kiện chia sẻ của GPL không phải là hạn chế mà là cơ chế bảo đảm sự chia sẻ có đi có lại, còn tự do kiểu MIT dẫn tới một cấu trúc bất đối xứng khi lợi ích chỉ chảy về phía có nhiều vốn hơn
- Trong thời đại AI ngày càng dễ lách copyleft, nguyên tắc ai nhận được từ tài sản chung thì phải trả lại cho tài sản chung lại càng trở nên quan trọng hơn
chardet 7.0 được tái hiện bằng AI và thay đổi giấy phép
- Thư viện chardet của Python đã được viết lại hoàn toàn bằng Claude của Anthropic
- Phiên bản mới nhanh hơn 48 lần so với trước và bổ sung hỗ trợ đa lõi
- Độ tương đồng mã được đo là dưới 1,3%, nên được xem là một tác phẩm độc lập
- Giấy phép được đổi từ LGPL sang MIT, khiến nghĩa vụ công khai mã nguồn biến mất
- Tác giả gốc Mark Pilgrim đã nêu khả năng vi phạm LGPL thông qua một GitHub issue
- Ông cho rằng việc tái hiện khi AI đã tiếp xúc với cơ sở mã hiện có thì khó có thể xem là theo kiểu ‘clean room’
Phản ứng trái chiều từ các nhân vật mã nguồn mở
- Armin Ronacher (người tạo ra Flask) hoan nghênh việc cấp phép lại và cho rằng GPL đi ngược lại tinh thần chia sẻ
- Salvatore Sanfilippo (antirez, người tạo ra Redis) bảo vệ tính hợp pháp của tái hiện bằng AI, viện dẫn lịch sử GNU và luật bản quyền
- Cả hai đều đồng nhất sự cho phép về mặt pháp lý với tính chính đáng, nhưng bài viết đặt vấn đề về khoảng cách giữa pháp luật và đạo đức
Lịch sử GNU và sự khác biệt về hướng đi
- Việc tái hiện trong GNU là quá trình chuyển phần mềm sở hữu độc quyền thành phần mềm tự do
- Trọng tâm không phải là sự cho phép pháp lý, mà là định hướng đạo đức mở rộng tài sản chung
- Ngược lại, trường hợp chardet lại vận hành theo hướng gỡ bỏ lớp bảo vệ copyleft và tháo dỡ hàng rào của tài sản chung
- Các sản phẩm phái sinh dựa trên chardet 7.0 sẽ không còn phải gánh nghĩa vụ công khai mã nguồn nữa
- antirez đã bỏ qua tính đối nghịch về hướng đi này và dùng tiền lệ của GNU làm căn cứ sai
Ý nghĩa của GPL và sự chia sẻ
- Ronacher cho rằng GPL hạn chế việc chia sẻ, nhưng bài viết chỉ ra đây là một sự hiểu lầm căn bản
- GPL chỉ yêu cầu công khai mã nguồn khi phân phối, còn việc sử dụng cá nhân không bị ràng buộc
- Đây là cơ chế bảo đảm tính có đi có lại trong chia sẻ, chứ không phải để kìm hãm chia sẻ
- Giấy phép MIT cho người nhận mã quyền tự do, nhưng không có nghĩa vụ hoàn trả đóng góp
- Kết quả là một cấu trúc trong đó lợi ích chỉ tập trung về phía có nhiều vốn và nhân lực hơn
- Những trường hợp mã GPL bị doanh nghiệp hấp thụ trong thập niên 1990 cho thấy sự cần thiết phải củng cố copyleft
Trường hợp tự mâu thuẫn: Vercel và Cloudflare
- Vercel tái hiện GNU Bash bằng AI, nhưng khi Cloudflare tái hiện Next.js thì lại bày tỏ sự khó chịu
- Vì Next.js dùng giấy phép MIT nên không có vấn đề pháp lý
- Điều này phơi bày mâu thuẫn: vừa nói “đổi GPL sang MIT là chiến thắng của chia sẻ”, vừa phản ứng khi mã của chính mình bị tái hiện
- Ronacher thừa nhận điều này nhưng vẫn không thay đổi kết luận, nên bị đánh giá là kết luận được điều chỉnh theo lập trường chứ không theo logic
Phân biệt giữa tính hợp pháp và tính chính đáng
- Pháp luật chỉ quy định những hành vi không bị cấm, chứ không bảo đảm điều đó là đúng đắn
- Có những hành vi hợp pháp nhưng phi xã hội, như né thuế hay tăng giá thuốc
- LGPL của chardet không chỉ là một công cụ pháp lý mà còn là một cam kết xã hội kéo dài 12 năm
- Một thỏa thuận dựa trên niềm tin rằng “nếu dùng mã này thì sẽ chia sẻ lại theo cùng điều kiện”
- Dù tái hiện bằng AI có thể là một tác phẩm mới về mặt pháp lý, nó vẫn là hành vi phá vỡ niềm tin với những người đóng góp
- Zoë Kooyman của FSF nói rõ rằng “không trao lại cho người khác những quyền mà mình đã nhận được là một hành vi phi xã hội”
Tính bất đối xứng trong góc nhìn
- antirez và Ronacher là những nhân vật trung tâm của mã nguồn mở, nên việc tái hiện bằng AI đồng nghĩa với một môi trường có lợi cho chính họ
- Nhưng với những người đóng góp cho chardet, điều đó lại là sự mất mát cơ chế bảo vệ đóng góp
- Bỏ qua sự bất đối xứng này rồi nói rằng “không có vấn đề gì về mặt pháp lý” thì bị xem là hợp lý hóa chứ không phải phân tích
Tương lai của copyleft và phán đoán xã hội
- Bruce Perens cảnh báo rằng “kinh tế học của phát triển phần mềm đã kết thúc”
- antirez phản ứng rằng “phải thích nghi”, còn Ronacher nói “thú vị đấy”
- Tuy nhiên, trọng tâm là câu hỏi: “copyleft có càng cần thiết hơn khi ngày càng dễ bị lách qua hay không”
- Bài viết khẳng định rằng “có”
- GPL không bảo vệ sự khan hiếm của mã nguồn mà bảo vệ tự do của người dùng
- Càng dễ tái hiện bằng AI thì ma sát để gỡ bỏ copyleft cũng càng giảm
- Nguyên tắc “ai nhận được từ tài sản chung thì phải trả lại cho tài sản chung” là một chuẩn mực xã hội không phụ thuộc vào thời gian hay thay đổi công nghệ
- Pháp luật thay đổi chậm, còn sự phán đoán giá trị của cộng đồng luôn là thứ chuyển động trước
- Sự tiến hóa từ GPLv2 → v3 → AGPL cũng cho thấy đánh giá của cộng đồng đi trước pháp luật
- Trong kỷ nguyên AI, cần mở rộng phạm vi copyleft để bao gồm cả test suite và đặc tả API
- Kết lại, bài viết nhấn mạnh rằng điều cần có trước tiên là phán đoán xã hội chứ không phải phán quyết pháp lý, và rằng tính hợp pháp không thể thay thế tính chính đáng
1 bình luận
Ý kiến trên Hacker News
Giờ đây nếu có thể tạo mã nguồn chỉ từ đặc tả (specification), thì tài sản trí tuệ cốt lõi của một dự án GPL sẽ nằm ở đặc tả
Trước đây người ta từng đấu tranh để việc mô phỏng phần mềm doanh nghiệp được pháp luật cho phép, còn bây giờ lại đang tự từ bỏ quyền đó và trao thêm quyền kiểm soát cho chủ sở hữu tài sản trí tuệ
Xu hướng này sẽ không dẫn tới kết quả chống đại doanh nghiệp hay thân thiện với chia sẻ. Cuối cùng, chủ thể nắm quyền lực đó vẫn sẽ là các tập đoàn lớn
Bây giờ thời thế đã hoàn toàn khác. Lập luận được trích dẫn chỉ đang lặp lại những điểm đã bị phản bác.
Nếu đồng ý với cuộc thảo luận này, bạn nên đọc trực tiếp bài gốc
Điều tôi thấy thú vị là liệu hiện tượng này có thể không chỉ vượt qua bản quyền mà còn làm sụp đổ chính khái niệm tài sản trí tuệ (IP) hay không
IP được xây dựng trên tiền đề rằng ‘sáng tạo là khó’, nhưng LLM giờ đã tự động hóa gần như mọi quá trình tạo tri thức, từ chứng minh toán học đến thiết kế thuốc mới
Nếu vậy, còn lý do gì để trao độc quyền cho những sáng tạo không còn ‘khó’ nữa? Rốt cuộc AI sẽ coi cả bằng sáng chế chỉ như những ràng buộc và tìm cách lách qua
Hiện tại về mặt pháp lý, đầu ra của AI không thuộc diện được bảo hộ bản quyền, chỉ khi có sự can thiệp đáng kể của con người thì mới được bảo vệ
Thành quả do con người bỏ công sức ra cần được bảo vệ để các tập đoàn lớn không thể lấy miễn phí
Chỉ là chủ thể giải chúng có thể không còn là con người
Từ lúc máy tính xuất hiện thì nó đã trở nên vô nghĩa, nhưng vẫn sống nhờ vận động hành lang.
Có lẽ giờ AI sẽ đóng chiếc đinh cuối cùng lên quan tài của nó.
Cuối cùng điều quan trọng là trọng số (weights) của mô hình, và chúng nên được công khai cho mọi người tiếp cận hoặc bị buộc phải mở ra
Ai đó nên thật sự đem chuyện này ra thử nghiệm
Hãy đưa mã nguồn Minecraft bị rò rỉ vào Copilot, tạo ra một bản sao y hệt bằng ngôn ngữ khác rồi công bố mã nguồn mở
Tôi rất muốn xem liệu Microsoft có coi đó là vi phạm bản quyền hay không
Thay vào đó phải yêu cầu “hãy triển khai Minecraft từ đầu”.
Dĩ nhiên không thể tái sử dụng texture hay model, nên AI phải tạo mới chúng
Ví dụ của bạn là trường hợp có khả năng vi phạm rõ ràng hơn nhiều
Nếu dùng LLM để gỡ giấy phép khỏi mã nguồn Windows bị rò rỉ rồi tạo mã cho WINE thì sao?
Gần đây người ta cũng đang bàn rất sôi nổi về các thử nghiệm dịch ngược mã nhị phân bằng LLM
Hai nhân vật từ phe mã nguồn mở đã tham gia tranh luận, nhưng cả hai đều không phải luật sư IP
Một luật sư thực sự là Richard Fontana có tham gia, nhưng issue của ông đã bị đóng
Ông chỉ ra trong GitHub issue rằng “sản phẩm do AI tạo ra nhìn chung không thuộc diện được bảo hộ bản quyền”
Tức là nếu một người chỉ viết prompt mà không trực tiếp sửa mã, thì bản thân việc gắn giấy phép MIT cho đoạn mã đó mang hàm ý pháp lý rất lớn
Nó giống với nhiếp ảnh hơn. Máy ảnh không có bản quyền, nhưng con người thì có
Cũng như việc không cần can thiệp đến từng pixel mà vẫn được công nhận là sáng tạo của con người
Nhìn vào lịch sử của GPL, đây là một nỗ lực dùng bản quyền để chống lại bản quyền
Chính cái tên ‘Copyleft’ đã thể hiện điều đó
Nhưng AI đang làm xói mòn bản quyền như một khái niệm.
Giờ không chỉ chương trình GPL mà cả phần mềm đóng cũng có thể được AI tái triển khai
Nếu vậy, GNU nên bỏ GPL và dùng LLM như vũ khí mới
Điều đó lại càng làm suy yếu tự do của mã nguồn mở và chuyển quyền lực về phía các tập đoàn lớn
Hơn nữa LLM được huấn luyện trên mã của vô số tình nguyện viên, nhưng lợi ích lại chảy vào túi doanh nghiệp lớn
Cuối cùng sức hấp dẫn của mã nguồn mở có thể giảm đi, và sự tôn trọng giấy phép cũng có nguy cơ biến mất
Đặc biệt, nó bảo đảm người dùng có quyền sửa đổi phần mềm chạy trên chính thiết bị của mình
Nhưng nếu bị giới hạn bởi công cụ, khóa hay đặc tả cụ thể, thì việc tái triển khai là bất khả thi
Rốt cuộc có thể thành ra đang mượn vũ khí của ‘doanh nghiệp xấu’ để chiến đấu
Tôi cho rằng vi phạm giấy phép thực ra đã xảy ra rồi
Phần lớn các mô hình lớn đã vi phạm điều khoản dịch vụ trong quá trình thu thập dữ liệu
Vì vậy có thể xem các mô hình được huấn luyện bằng mã GPL đã bị lây nhiễm (infect) nghĩa vụ giấy phép mở
Về mặt pháp lý, điều quan trọng là ① dữ liệu có được thu thập hợp pháp hay không, ② đầu ra có phải là biểu đạt mang tính nguyên gốc hay không
Trong trường hợp này, 98.7% được xác nhận là mã mới
Điểm mấu chốt thực sự là đầu ra biến đổi đến mức nào.
Đây cũng là trọng tâm của vụ kiện NYT vs OpenAI
Blanchard nói rằng ông “chỉ đưa API và test vào Claude để nó tái triển khai”,
nhưng điều đó giống như nói “bịt mắt rồi ném sơn lên canvas mà nó ra hình Mickey Mouse”
Vì ông vốn là người bảo trì đoạn mã đó nên khó có thể coi là hoàn toàn độc lập
Nếu ông ấy đưa mã gốc vào và bảo tạo bản sao, thì đó vẫn là vi phạm bản quyền
Nếu AI chỉ là công cụ thì người dùng chịu trách nhiệm, còn nếu là tác nhân độc lập thì bản thân nó cũng là chủ thể vi phạm
Miễn là không sao chép nguyên xi các yếu tố biểu đạt
Nếu Blanchard công khai toàn bộ prompt, bất kỳ ai cũng sẽ tái tạo được cùng kết quả
Theo tôi hiểu thì ông ấy chỉ nói Claude không hề nhìn thấy mã
Theo bài báo, Claude đã tái triển khai thư viện chỉ từ API và test
Nhưng GPL2 xem cả test suite là một phần của mã nguồn
Nếu vậy, việc Claude dùng test có thể khiến kết quả trở thành tác phẩm phái sinh dựa trên bản gốc theo LGPL 2.1
Chỉ là có thể không thể tái phân phối test theo giấy phép MIT
Vì vậy phương án thực tế là chỉ phát hành mã theo MIT, còn test thì phát hành song song theo LGPL
Test case cũng có thể được xem là một phần của việc sử dụng API
Ở công ty chúng tôi, mọi người đã bắt đầu dùng AI tái triển khai để dùng các công cụ mà đội bảo mật không phê duyệt
Đội bảo mật có chính sách ‘từ chối mặc định’, còn đội kỹ thuật thì theo chính sách ‘tích cực tận dụng AI’
Kết quả là hình thành một cấu trúc khuyến khích kỳ lạ: dùng AI để tự làm lại công cụ cho nội bộ
Nếu muốn một kết quả khác thì phải thay đổi từ thiết kế khuyến khích
Nếu AI có thể liên tục viết tốt mã liên quan đến bảo mật,
thì tại sao lại tin rằng cùng AI đó không thể xác minh độ an toàn của phần mềm bên thứ ba?
Tôi muốn hỏi vì sao lại tồn tại sự bất đối xứng giữa sản xuất và phân tích
Điều kiện của GPL chỉ được kích hoạt tại thời điểm phân phối (distribution)
Khi phân phối mã đã sửa đổi hoặc cung cấp dưới dạng dịch vụ mạng thì phải công bố mã nguồn
Tuy nhiên việc cung cấp dịch vụ mạng không được coi là phân phối, nên để khắc phục điểm này, AGPL đã ra đời