Hợp pháp thì có công bằng không: Tái hiện bằng AI và sự bào mòn của copyleft

(writings.hongminhee.org)

8 điểm bởi GN⁺ 2026-03-10 | 1 bình luận | Chia sẻ qua WhatsApp

Thư viện phát hiện mã hóa ký tự Python chardet được tái hiện bằng AI, và trường hợp đổi giấy phép từ LGPL sang MIT đã châm ngòi tranh luận về đạo đức mã nguồn mở
Có ý kiến công nhận tính hợp pháp của việc tái hiện bằng AI, nhưng bài viết nhấn mạnh rằng sự cho phép về mặt pháp lý và tính chính đáng về mặt xã hội là hai chuyện khác nhau
Việc tái hiện trong lịch sử của GNU và Linux là mở rộng từ sở hữu độc quyền sang tự do, còn trường hợp lần này lại vận hành theo hướng làm suy yếu cơ chế bảo vệ tài sản chung
Điều kiện chia sẻ của GPL không phải là hạn chế mà là cơ chế bảo đảm sự chia sẻ có đi có lại, còn tự do kiểu MIT dẫn tới một cấu trúc bất đối xứng khi lợi ích chỉ chảy về phía có nhiều vốn hơn
Trong thời đại AI ngày càng dễ lách copyleft, nguyên tắc ai nhận được từ tài sản chung thì phải trả lại cho tài sản chung lại càng trở nên quan trọng hơn

chardet 7.0 được tái hiện bằng AI và thay đổi giấy phép

Thư viện chardet của Python đã được viết lại hoàn toàn bằng Claude của Anthropic
- Phiên bản mới nhanh hơn 48 lần so với trước và bổ sung hỗ trợ đa lõi
- Độ tương đồng mã được đo là dưới 1,3%, nên được xem là một tác phẩm độc lập
Giấy phép được đổi từ LGPL sang MIT, khiến nghĩa vụ công khai mã nguồn biến mất
Tác giả gốc Mark Pilgrim đã nêu khả năng vi phạm LGPL thông qua một GitHub issue
- Ông cho rằng việc tái hiện khi AI đã tiếp xúc với cơ sở mã hiện có thì khó có thể xem là theo kiểu ‘clean room’

Phản ứng trái chiều từ các nhân vật mã nguồn mở

Armin Ronacher (người tạo ra Flask) hoan nghênh việc cấp phép lại và cho rằng GPL đi ngược lại tinh thần chia sẻ
Salvatore Sanfilippo (antirez, người tạo ra Redis) bảo vệ tính hợp pháp của tái hiện bằng AI, viện dẫn lịch sử GNU và luật bản quyền
Cả hai đều đồng nhất sự cho phép về mặt pháp lý với tính chính đáng, nhưng bài viết đặt vấn đề về khoảng cách giữa pháp luật và đạo đức

Lịch sử GNU và sự khác biệt về hướng đi

Việc tái hiện trong GNU là quá trình chuyển phần mềm sở hữu độc quyền thành phần mềm tự do
- Trọng tâm không phải là sự cho phép pháp lý, mà là định hướng đạo đức mở rộng tài sản chung
Ngược lại, trường hợp chardet lại vận hành theo hướng gỡ bỏ lớp bảo vệ copyleft và tháo dỡ hàng rào của tài sản chung
- Các sản phẩm phái sinh dựa trên chardet 7.0 sẽ không còn phải gánh nghĩa vụ công khai mã nguồn nữa
antirez đã bỏ qua tính đối nghịch về hướng đi này và dùng tiền lệ của GNU làm căn cứ sai

Ý nghĩa của GPL và sự chia sẻ

Ronacher cho rằng GPL hạn chế việc chia sẻ, nhưng bài viết chỉ ra đây là một sự hiểu lầm căn bản
- GPL chỉ yêu cầu công khai mã nguồn khi phân phối, còn việc sử dụng cá nhân không bị ràng buộc
- Đây là cơ chế bảo đảm tính có đi có lại trong chia sẻ, chứ không phải để kìm hãm chia sẻ
Giấy phép MIT cho người nhận mã quyền tự do, nhưng không có nghĩa vụ hoàn trả đóng góp
- Kết quả là một cấu trúc trong đó lợi ích chỉ tập trung về phía có nhiều vốn và nhân lực hơn
Những trường hợp mã GPL bị doanh nghiệp hấp thụ trong thập niên 1990 cho thấy sự cần thiết phải củng cố copyleft

Trường hợp tự mâu thuẫn: Vercel và Cloudflare

Vercel tái hiện GNU Bash bằng AI, nhưng khi Cloudflare tái hiện Next.js thì lại bày tỏ sự khó chịu
Vì Next.js dùng giấy phép MIT nên không có vấn đề pháp lý
Điều này phơi bày mâu thuẫn: vừa nói “đổi GPL sang MIT là chiến thắng của chia sẻ”, vừa phản ứng khi mã của chính mình bị tái hiện
Ronacher thừa nhận điều này nhưng vẫn không thay đổi kết luận, nên bị đánh giá là kết luận được điều chỉnh theo lập trường chứ không theo logic

Phân biệt giữa tính hợp pháp và tính chính đáng

Pháp luật chỉ quy định những hành vi không bị cấm, chứ không bảo đảm điều đó là đúng đắn
- Có những hành vi hợp pháp nhưng phi xã hội, như né thuế hay tăng giá thuốc
LGPL của chardet không chỉ là một công cụ pháp lý mà còn là một cam kết xã hội kéo dài 12 năm
- Một thỏa thuận dựa trên niềm tin rằng “nếu dùng mã này thì sẽ chia sẻ lại theo cùng điều kiện”
Dù tái hiện bằng AI có thể là một tác phẩm mới về mặt pháp lý, nó vẫn là hành vi phá vỡ niềm tin với những người đóng góp
Zoë Kooyman của FSF nói rõ rằng “không trao lại cho người khác những quyền mà mình đã nhận được là một hành vi phi xã hội”

Tính bất đối xứng trong góc nhìn

antirez và Ronacher là những nhân vật trung tâm của mã nguồn mở, nên việc tái hiện bằng AI đồng nghĩa với một môi trường có lợi cho chính họ
Nhưng với những người đóng góp cho chardet, điều đó lại là sự mất mát cơ chế bảo vệ đóng góp
Bỏ qua sự bất đối xứng này rồi nói rằng “không có vấn đề gì về mặt pháp lý” thì bị xem là hợp lý hóa chứ không phải phân tích

Tương lai của copyleft và phán đoán xã hội

Bruce Perens cảnh báo rằng “kinh tế học của phát triển phần mềm đã kết thúc”
- antirez phản ứng rằng “phải thích nghi”, còn Ronacher nói “thú vị đấy”
Tuy nhiên, trọng tâm là câu hỏi: “copyleft có càng cần thiết hơn khi ngày càng dễ bị lách qua hay không”
- Bài viết khẳng định rằng “có”
GPL không bảo vệ sự khan hiếm của mã nguồn mà bảo vệ tự do của người dùng
- Càng dễ tái hiện bằng AI thì ma sát để gỡ bỏ copyleft cũng càng giảm
Nguyên tắc “ai nhận được từ tài sản chung thì phải trả lại cho tài sản chung” là một chuẩn mực xã hội không phụ thuộc vào thời gian hay thay đổi công nghệ
Pháp luật thay đổi chậm, còn sự phán đoán giá trị của cộng đồng luôn là thứ chuyển động trước
- Sự tiến hóa từ GPLv2 → v3 → AGPL cũng cho thấy đánh giá của cộng đồng đi trước pháp luật
Trong kỷ nguyên AI, cần mở rộng phạm vi copyleft để bao gồm cả test suite và đặc tả API
Kết lại, bài viết nhấn mạnh rằng điều cần có trước tiên là phán đoán xã hội chứ không phải phán quyết pháp lý, và rằng tính hợp pháp không thể thay thế tính chính đáng

1 bình luận

GN⁺ 2026-03-10

Ý kiến trên Hacker News

Giờ đây nếu có thể tạo mã nguồn chỉ từ đặc tả (specification), thì tài sản trí tuệ cốt lõi của một dự án GPL sẽ nằm ở đặc tả
Trước đây người ta từng đấu tranh để việc mô phỏng phần mềm doanh nghiệp được pháp luật cho phép, còn bây giờ lại đang tự từ bỏ quyền đó và trao thêm quyền kiểm soát cho chủ sở hữu tài sản trí tuệ
Xu hướng này sẽ không dẫn tới kết quả chống đại doanh nghiệp hay thân thiện với chia sẻ. Cuối cùng, chủ thể nắm quyền lực đó vẫn sẽ là các tập đoàn lớn
- Nghe rất giống vụ Oracle vs Google API ngày trước
- Nhưng các lập trình viên trước đây không phải cạnh tranh với AI tạo sinh được huấn luyện trên chính sản phẩm của họ
  Bây giờ thời thế đã hoàn toàn khác. Lập luận được trích dẫn chỉ đang lặp lại những điểm đã bị phản bác.
  Nếu đồng ý với cuộc thảo luận này, bạn nên đọc trực tiếp bài gốc
Điều tôi thấy thú vị là liệu hiện tượng này có thể không chỉ vượt qua bản quyền mà còn làm sụp đổ chính khái niệm tài sản trí tuệ (IP) hay không
IP được xây dựng trên tiền đề rằng ‘sáng tạo là khó’, nhưng LLM giờ đã tự động hóa gần như mọi quá trình tạo tri thức, từ chứng minh toán học đến thiết kế thuốc mới
Nếu vậy, còn lý do gì để trao độc quyền cho những sáng tạo không còn ‘khó’ nữa? Rốt cuộc AI sẽ coi cả bằng sáng chế chỉ như những ràng buộc và tìm cách lách qua
- Dù vậy tôi vẫn nghĩ các kết quả do con người tạo ra vẫn cần được bảo vệ
  Hiện tại về mặt pháp lý, đầu ra của AI không thuộc diện được bảo hộ bản quyền, chỉ khi có sự can thiệp đáng kể của con người thì mới được bảo vệ
  Thành quả do con người bỏ công sức ra cần được bảo vệ để các tập đoàn lớn không thể lấy miễn phí
- Bản quyền không nói về lượng công sức mà nói về tính nguyên gốc và cách biểu đạt. Luật Mỹ không công nhận nguyên tắc ‘Sweat of the Brow’
- Giờ IP đã trở thành một khái niệm méo mó do giới tinh hoa độc chiếm. Sau Mickey Mouse của Disney, mọi thứ chỉ đi xuống
- Có lẽ đây chỉ là giai đoạn chuyển tiếp. Những bài toán từng khó sẽ trở nên dễ hơn, và chúng ta sẽ chuyển sang các bài toán khó hơn
  Chỉ là chủ thể giải chúng có thể không còn là con người
- Thực ra ngay từ đầu IP đã là khái niệm mâu thuẫn kiểu sở hữu các con số
  Từ lúc máy tính xuất hiện thì nó đã trở nên vô nghĩa, nhưng vẫn sống nhờ vận động hành lang.
  Có lẽ giờ AI sẽ đóng chiếc đinh cuối cùng lên quan tài của nó.
  Cuối cùng điều quan trọng là trọng số (weights) của mô hình, và chúng nên được công khai cho mọi người tiếp cận hoặc bị buộc phải mở ra
Ai đó nên thật sự đem chuyện này ra thử nghiệm
Hãy đưa mã nguồn Minecraft bị rò rỉ vào Copilot, tạo ra một bản sao y hệt bằng ngôn ngữ khác rồi công bố mã nguồn mở
Tôi rất muốn xem liệu Microsoft có coi đó là vi phạm bản quyền hay không
- Nhưng như vậy chỉ là một bản port, nên khả năng vi phạm sẽ cao.
  Thay vào đó phải yêu cầu “hãy triển khai Minecraft từ đầu”.
  Dĩ nhiên không thể tái sử dụng texture hay model, nên AI phải tạo mới chúng
- Mọi thứ sẽ thật sự thú vị khi AI có thể làm cả dịch ngược mã nhị phân
- Tôi nghĩ đây chính là cách lấy vũ khí của họ quay lại chống chính họ
- Điểm cốt lõi là nếu dữ liệu huấn luyện có chứa tài liệu có bản quyền, thì đầu ra của nó có cấu thành vi phạm hay không
  Ví dụ của bạn là trường hợp có khả năng vi phạm rõ ràng hơn nhiều
- Đây là câu hỏi quan trọng nhất lúc này.
  Nếu dùng LLM để gỡ giấy phép khỏi mã nguồn Windows bị rò rỉ rồi tạo mã cho WINE thì sao?
  Gần đây người ta cũng đang bàn rất sôi nổi về các thử nghiệm dịch ngược mã nhị phân bằng LLM
Hai nhân vật từ phe mã nguồn mở đã tham gia tranh luận, nhưng cả hai đều không phải luật sư IP
Một luật sư thực sự là Richard Fontana có tham gia, nhưng issue của ông đã bị đóng
Ông chỉ ra trong GitHub issue rằng “sản phẩm do AI tạo ra nhìn chung không thuộc diện được bảo hộ bản quyền”
Tức là nếu một người chỉ viết prompt mà không trực tiếp sửa mã, thì bản thân việc gắn giấy phép MIT cho đoạn mã đó mang hàm ý pháp lý rất lớn
- Nhưng tôi thấy lập luận của Fontana khá yếu
  Nó giống với nhiếp ảnh hơn. Máy ảnh không có bản quyền, nhưng con người thì có
  Cũng như việc không cần can thiệp đến từng pixel mà vẫn được công nhận là sáng tạo của con người
Nhìn vào lịch sử của GPL, đây là một nỗ lực dùng bản quyền để chống lại bản quyền
Chính cái tên ‘Copyleft’ đã thể hiện điều đó
Nhưng AI đang làm xói mòn bản quyền như một khái niệm.
Giờ không chỉ chương trình GPL mà cả phần mềm đóng cũng có thể được AI tái triển khai
Nếu vậy, GNU nên bỏ GPL và dùng LLM như vũ khí mới
- Nhưng LLM hiệu năng cao là công nghệ đòi hỏi nguồn vốn khổng lồ
  Điều đó lại càng làm suy yếu tự do của mã nguồn mở và chuyển quyền lực về phía các tập đoàn lớn
  Hơn nữa LLM được huấn luyện trên mã của vô số tình nguyện viên, nhưng lợi ích lại chảy vào túi doanh nghiệp lớn
  Cuối cùng sức hấp dẫn của mã nguồn mở có thể giảm đi, và sự tôn trọng giấy phép cũng có nguy cơ biến mất
- Copyleft không phải là khái niệm đối lập với bản quyền mà là một cấu trúc trao quyền cho người dùng
  Đặc biệt, nó bảo đảm người dùng có quyền sửa đổi phần mềm chạy trên chính thiết bị của mình
  Nhưng nếu bị giới hạn bởi công cụ, khóa hay đặc tả cụ thể, thì việc tái triển khai là bất khả thi
- Tôi nghi ngờ liệu LLM có thật sự là công cụ có thể dùng một cách tự do hay không
  Rốt cuộc có thể thành ra đang mượn vũ khí của ‘doanh nghiệp xấu’ để chiến đấu
- Thực ra bản thân LLM hiện nay chính là hiện thân của ‘công ty phần mềm xấu xa’
- Cho đến khi xuất hiện LLM mã nguồn mở mà người bình thường có thể dễ dàng tự host, tự do phần mềm thực sự vẫn còn rất xa vời
Tôi cho rằng vi phạm giấy phép thực ra đã xảy ra rồi
Phần lớn các mô hình lớn đã vi phạm điều khoản dịch vụ trong quá trình thu thập dữ liệu
Vì vậy có thể xem các mô hình được huấn luyện bằng mã GPL đã bị lây nhiễm (infect) nghĩa vụ giấy phép mở
- Nhưng bản thân việc huấn luyện không phải là vi phạm bản quyền. Đây được xem là fair use
  Về mặt pháp lý, điều quan trọng là ① dữ liệu có được thu thập hợp pháp hay không, ② đầu ra có phải là biểu đạt mang tính nguyên gốc hay không
  Trong trường hợp này, 98.7% được xác nhận là mã mới
- Cuối cùng vẫn cần phán quyết của tòa. Tuy nhiên điểm tranh chấp sẽ không phải nguyên tắc fair use mà là tính biến đổi của đầu ra
- Nhiều án lệ đã công nhận bản thân hành vi huấn luyện là fair use
  Điểm mấu chốt thực sự là đầu ra biến đổi đến mức nào.
  Đây cũng là trọng tâm của vụ kiện NYT vs OpenAI
Blanchard nói rằng ông “chỉ đưa API và test vào Claude để nó tái triển khai”,
nhưng điều đó giống như nói “bịt mắt rồi ném sơn lên canvas mà nó ra hình Mickey Mouse”
Vì ông vốn là người bảo trì đoạn mã đó nên khó có thể coi là hoàn toàn độc lập
- Nhưng việc ông ấy có thực sự nhìn mã hay không không quan trọng
  Nếu ông ấy đưa mã gốc vào và bảo tạo bản sao, thì đó vẫn là vi phạm bản quyền
  Nếu AI chỉ là công cụ thì người dùng chịu trách nhiệm, còn nếu là tác nhân độc lập thì bản thân nó cũng là chủ thể vi phạm
- Tôi cho rằng việc tái triển khai mã tự nó là hợp pháp và về mặt đạo đức cũng chấp nhận được
  Miễn là không sao chép nguyên xi các yếu tố biểu đạt
- Như trong vụ Oracle vs Google, việc tái triển khai API là có thể
  Nếu Blanchard công khai toàn bộ prompt, bất kỳ ai cũng sẽ tái tạo được cùng kết quả
- Có ai tìm được trích dẫn cho thấy Blanchard thực sự đã nói vậy không?
  Theo tôi hiểu thì ông ấy chỉ nói Claude không hề nhìn thấy mã
- Tuy nhiên Mickey Mouse là vấn đề nhãn hiệu, nên phép so sánh đó không đúng về mặt pháp lý
Theo bài báo, Claude đã tái triển khai thư viện chỉ từ API và test
Nhưng GPL2 xem cả test suite là một phần của mã nguồn
Nếu vậy, việc Claude dùng test có thể khiến kết quả trở thành tác phẩm phái sinh dựa trên bản gốc theo LGPL 2.1
- Nhưng về mặt pháp lý, điều này được coi là transformative use
  Chỉ là có thể không thể tái phân phối test theo giấy phép MIT
  Vì vậy phương án thực tế là chỉ phát hành mã theo MIT, còn test thì phát hành song song theo LGPL
- Theo phán quyết Google vs Oracle, việc dùng API là fair use
  Test case cũng có thể được xem là một phần của việc sử dụng API
Ở công ty chúng tôi, mọi người đã bắt đầu dùng AI tái triển khai để dùng các công cụ mà đội bảo mật không phê duyệt
Đội bảo mật có chính sách ‘từ chối mặc định’, còn đội kỹ thuật thì theo chính sách ‘tích cực tận dụng AI’
Kết quả là hình thành một cấu trúc khuyến khích kỳ lạ: dùng AI để tự làm lại công cụ cho nội bộ
Nếu muốn một kết quả khác thì phải thay đổi từ thiết kế khuyến khích
- Văn hóa “Not Invented Here” đang ngày càng mạnh lên như khả năng kháng kháng sinh (antibiotic resistance)
  Nếu AI có thể liên tục viết tốt mã liên quan đến bảo mật,
  thì tại sao lại tin rằng cùng AI đó không thể xác minh độ an toàn của phần mềm bên thứ ba?
  Tôi muốn hỏi vì sao lại tồn tại sự bất đối xứng giữa sản xuất và phân tích
Điều kiện của GPL chỉ được kích hoạt tại thời điểm phân phối (distribution)
Khi phân phối mã đã sửa đổi hoặc cung cấp dưới dạng dịch vụ mạng thì phải công bố mã nguồn
Tuy nhiên việc cung cấp dịch vụ mạng không được coi là phân phối, nên để khắc phục điểm này, AGPL đã ra đời

Hợp pháp thì có công bằng không: Tái hiện bằng AI và sự bào mòn của copyleft

chardet 7.0 được tái hiện bằng AI và thay đổi giấy phép

Phản ứng trái chiều từ các nhân vật mã nguồn mở

Lịch sử GNU và sự khác biệt về hướng đi

Ý nghĩa của GPL và sự chia sẻ

Trường hợp tự mâu thuẫn: Vercel và Cloudflare

Phân biệt giữa tính hợp pháp và tính chính đáng

Tính bất đối xứng trong góc nhìn

Tương lai của copyleft và phán đoán xã hội

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News