- Dự án mã nguồn mở chardet v7.0.0 đã viết lại toàn bộ mã bằng công cụ AI và đổi giấy phép từ LGPL sang MIT
- Tác giả gốc cho rằng quá trình này có khả năng vi phạm GPL, đồng thời chỉ ra rằng kết quả do AI tạo ra sau khi đã học từ mã nguồn gốc không phải là một ‘clean room implementation’
- Phương pháp clean room truyền thống yêu cầu hai nhóm phải tách biệt, nhưng AI đã vượt qua bức tường này, khiến việc có phải là tác phẩm phái sinh hay không trở thành điểm tranh cãi
- Đồng thời, Tòa án Tối cao Hoa Kỳ không công nhận bản quyền đối với sản phẩm do AI tạo ra, làm cho quyền sở hữu và hiệu lực giấy phép của đoạn mã mới trở nên mơ hồ
- Nếu những trường hợp như vậy được công nhận, nguy cơ làm vô hiệu hóa hệ thống Copyleft đã được nêu ra
Viết lại bằng AI và thay đổi giấy phép trong dự án chardet
- Thư viện phát hiện mã hóa ký tự Python chardet ban đầu được port từ mã C++ của Mozilla nên bị ràng buộc bởi LGPL
- Vì điều này, các doanh nghiệp sử dụng đã gặp phải sự bất định về pháp lý
- Các maintainer đã dùng Claude Code để viết lại toàn bộ mã và phát hành v7.0.0 theo giấy phép MIT
- Tác giả gốc a2mark cho rằng biện pháp này là vi phạm LGPL
- Mã đã chỉnh sửa vẫn phải tuân theo LGPL, và lập luận về “viết lại hoàn toàn” là không hợp lệ vì đó là kết quả được tạo ra trong trạng thái đã tiếp xúc với mã nguồn gốc
- Đồng thời nhấn mạnh rằng việc tạo mã bằng AI không mang lại thêm quyền nào
Clean room implementation và sự vượt rào của AI
- Clean room rewrite truyền thống được cấu thành từ hai nhóm
- Nhóm A phân tích mã nguồn gốc để viết đặc tả chức năng
- Nhóm B không nhìn mã gốc, chỉ dựa vào đặc tả để viết mã mới
- Tuy nhiên, nếu AI được đưa vào mã LGPL gốc rồi sinh mã, sự tách biệt về quy trình này sẽ biến mất
- Nếu AI học từ mã gốc để tạo ra kết quả, đầu ra đó có thể bị xem là tác phẩm phái sinh của LGPL
Phán quyết của Tòa án Tối cao Hoa Kỳ và nghịch lý pháp lý
- Vào ngày 2/3/2026, Tòa án Tối cao Hoa Kỳ đã bác đơn kháng cáo về việc có công nhận bản quyền cho sản phẩm do AI tạo ra hay không
- Phán quyết của tòa cấp dưới về ‘yêu cầu tác giả là con người (Human Authorship)’ được giữ nguyên
- Vì vậy, các maintainer của chardet đối mặt với ba mâu thuẫn pháp lý
- Khoảng trống bản quyền: nếu sản phẩm do AI tạo ra không được bảo hộ bản quyền, thì không có cơ sở pháp lý để tái cấp phép dưới MIT
- Bẫy tác phẩm phái sinh: nếu đầu ra của AI là tác phẩm phái sinh từ mã LGPL gốc, thì đây là hành vi vi phạm giấy phép
- Khoảng trống quyền sở hữu: nếu AI tạo ra mã hoàn toàn mới, thì ngay khi được tạo ra nó sẽ trở thành public domain, khiến chính giấy phép MIT trở nên vô nghĩa
Tác động tiềm tàng đối với hệ thống Copyleft
- Nếu cách đổi giấy phép thông qua việc viết lại bằng AI được chấp nhận, nền tảng của Copyleft có thể bị sụp đổ
- Bất kỳ ai cũng có thể đưa một dự án GPL vào LLM, yêu cầu “viết lại theo phong cách khác”, rồi phát hành dưới giấy phép MIT
- Trường hợp chardet v7.0.0 được đánh giá là ví dụ thực tế đầu tiên kiểm nghiệm những ranh giới pháp lý và đạo đức này
1 bình luận
Ý kiến trên Hacker News
Xem phản hồi của maintainer, họ đã nói rõ với Claude là đừng tham chiếu mã LGPL/GPL, nhưng rất có thể mô hình đã được huấn luyện bằng chính đoạn mã đó
Hiện nay, người ta cho rằng LLM hoàn toàn "quên" ảnh hưởng từ dữ liệu huấn luyện là điều bất khả thi
Có dự án này là nghiên cứu liên quan
Tôi là lập trình viên đồng thời là luật sư sở hữu trí tuệ, và vấn đề kiểu này vẫn đang tiếp tục được định hình trong tòa án Mỹ
Tham khảo thêm, gói enterprise trả phí của Anthropic bồi thường cho người dùng nếu xảy ra vi phạm bản quyền, nhưng ở các gói free/Pro/Max thì ngược lại, người dùng phải bồi thường cho Anthropic (Điều 11 trong điều khoản)
Để được coi là clean-room implementation hoàn chỉnh thì phải tách biệt người biết mã gốc và người viết lại mới, còn trường hợp này thì không phải vậy
Ý tưởng là giữ nguyên ngữ nghĩa nhưng bỏ bớt một phần từ để ngăn trích dẫn trực tiếp
Bài này đang hiểu sai ý nghĩa của “clean-room implementation”
Nó không đơn giản là “không nhìn mã gốc”, mà là phải triển khai độc lập từ đặc tả API
Mã do LLM sinh ra có xác suất cao giống với bản gốc, nên về mặt pháp lý có nguy cơ bị coi là bản sao
Hành động của maintainer chardet trông như một vụ relicense vô trách nhiệm về mặt pháp lý, và có thể gây ra vấn đề chuỗi cung ứng sau này
Nếu chỉ cho ra cùng một kết quả thì đó chỉ là kết quả chức năng, không phải vi phạm bản quyền
Xem trang wiki
Tuy nhiên trong thực tế kiện tụng, độ tương đồng cao sẽ khiến việc bào chữa rất khó
Trường hợp chardet có thể giống tranh cãi bản quyền font ở Nhật: dù không phải xâm phạm thực chất, vẫn có thể dẫn tới ngừng phân phối
“Mã LGPL vẫn là LGPL”
Trừ khi mọi tác giả gốc đều đồng ý rõ ràng, không thể đổi giấy phép
Việc AI chuyển đổi mã không làm biến mất bản quyền
Nếu không thì toàn bộ ngành công nghiệp bản quyền ở Mỹ sẽ sụp đổ
Việc một người tạo tác phẩm phái sinh không được phép rồi lại đi cấp phép tiếp là vấn đề rất phức tạp
Vì AI tạo sinh mà hệ thống bản quyền đang tụt hậu so với thời đại
Luật trước đây giả định các mô hình có mục đích đơn lẻ, nhưng giờ đã có những mô hình có thể cạnh tranh với mọi nguồn mã
Chiến lược giấy phép của GNU cũng dựa trên giả định mã nguồn là thứ khan hiếm, còn giờ việc sinh mã quá dễ nên ý nghĩa đó suy yếu đi
Khi kiện tụng, log Claude có thể trở thành chứng cứ
Giờ là thời đại mà việc tạo ra biểu đạt còn dễ hơn tạo ý tưởng
Một thế giới nơi ai cũng có thể tạo mã bằng AI có lẽ còn gần với lý tưởng mà GNU từng mơ hơn
Có người đặt nghi vấn với lập luận rằng nếu mã do AI tạo ra là tác phẩm mới thực sự, thì ngay khi sinh ra nó có thể đã là public domain
Vì không thể biết mô hình đã học từ dữ liệu nào, điều này có thể bị xem là dịch ngược
Vì thế nên phải áp dụng giấy phép hạn chế nhất, và doanh nghiệp AI cần hoàn lại doanh thu cho tác giả gốc
Trên thực tế, các mô hình chỉ học từ dữ liệu được cho phép thì hiệu năng rất thấp
Nếu mọi sản phẩm AI đều bị coi là tác phẩm phái sinh thì mọi dự án mã nguồn mở sẽ đều bị nhiễm bẩn
Cuối cùng, nếu rơi vào trạng thái không ai ngoài con người có thể đòi quyền sở hữu, thì trên thực tế nó sẽ bị xem như public domain
Có thread khác với thảo luận liên quan mang tên “No right to relicense this project”
Có người phản bác lập luận rằng nếu mã do AI tạo ra là public domain thì giấy phép MIT tự thân sẽ trở nên vô nghĩa
Sản phẩm AI sinh ra không giống sao chép đơn thuần, nhưng vẫn chịu ràng buộc giấy phép của bản gốc
Ví dụ, một công cụ sinh thơ được huấn luyện bằng Project Gutenberg cũng không thể tuyên bố bản quyền
Các macro, công cụ sinh mã, hay tính năng tự động hóa như Intellisense khiến ranh giới của “mã do AI tạo” trở nên mơ hồ
Trước đây từng có bàn luận về việc đưa chardet vào thư viện chuẩn của Python, nhưng
vì tranh cãi đổi giấy phép lần này mà khả năng đó được xem như đã chấm dứt
Xem thêm issue này và
phát biểu của maintainer 1, phát biểu 2
Kiểu AI relicense như vậy có thể đồng nghĩa với dấu chấm hết cho mã nguồn mở, đặc biệt là Copyleft
Nếu giấy phép không còn thực hiện được chức năng bảo vệ, các lập trình viên sẽ quay lại với phát triển đóng
Các mô hình mới nhất thậm chí còn có thể dịch ngược WebAssembly, khiến mọi thứ giống như lý thuyết khu rừng tối
Nếu bản viết lại bằng AI là GPL thì nó cũng phải được công khai
Tôi đồng ý với kết luận rằng “nếu có thể đổi giấy phép bằng cách nhờ AI viết lại, thì toàn bộ bản quyền sẽ sụp đổ”
Vì điều đó có thể áp dụng cho phim ảnh, âm nhạc, tiểu thuyết và mọi tác phẩm sáng tạo khác
Cuối cùng tòa án sẽ không coi đây là cách né tránh bản quyền hợp lệ,
và hy vọng dự án chardet sẽ không trở thành vật thí nghiệm trước làn sóng pháp lý khổng lồ đó