3 điểm bởi GN⁺ 2026-03-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dự án mã nguồn mở chardet v7.0.0 đã viết lại toàn bộ mã bằng công cụ AI và đổi giấy phép từ LGPL sang MIT
  • Tác giả gốc cho rằng quá trình này có khả năng vi phạm GPL, đồng thời chỉ ra rằng kết quả do AI tạo ra sau khi đã học từ mã nguồn gốc không phải là một ‘clean room implementation’
  • Phương pháp clean room truyền thống yêu cầu hai nhóm phải tách biệt, nhưng AI đã vượt qua bức tường này, khiến việc có phải là tác phẩm phái sinh hay không trở thành điểm tranh cãi
  • Đồng thời, Tòa án Tối cao Hoa Kỳ không công nhận bản quyền đối với sản phẩm do AI tạo ra, làm cho quyền sở hữu và hiệu lực giấy phép của đoạn mã mới trở nên mơ hồ
  • Nếu những trường hợp như vậy được công nhận, nguy cơ làm vô hiệu hóa hệ thống Copyleft đã được nêu ra

Viết lại bằng AI và thay đổi giấy phép trong dự án chardet

  • Thư viện phát hiện mã hóa ký tự Python chardet ban đầu được port từ mã C++ của Mozilla nên bị ràng buộc bởi LGPL
    • Vì điều này, các doanh nghiệp sử dụng đã gặp phải sự bất định về pháp lý
  • Các maintainer đã dùng Claude Code để viết lại toàn bộ mã và phát hành v7.0.0 theo giấy phép MIT
  • Tác giả gốc a2mark cho rằng biện pháp này là vi phạm LGPL
    • Mã đã chỉnh sửa vẫn phải tuân theo LGPL, và lập luận về “viết lại hoàn toàn” là không hợp lệ vì đó là kết quả được tạo ra trong trạng thái đã tiếp xúc với mã nguồn gốc
    • Đồng thời nhấn mạnh rằng việc tạo mã bằng AI không mang lại thêm quyền nào

Clean room implementation và sự vượt rào của AI

  • Clean room rewrite truyền thống được cấu thành từ hai nhóm
    • Nhóm A phân tích mã nguồn gốc để viết đặc tả chức năng
    • Nhóm B không nhìn mã gốc, chỉ dựa vào đặc tả để viết mã mới
  • Tuy nhiên, nếu AI được đưa vào mã LGPL gốc rồi sinh mã, sự tách biệt về quy trình này sẽ biến mất
  • Nếu AI học từ mã gốc để tạo ra kết quả, đầu ra đó có thể bị xem là tác phẩm phái sinh của LGPL

Phán quyết của Tòa án Tối cao Hoa Kỳ và nghịch lý pháp lý

  • Vào ngày 2/3/2026, Tòa án Tối cao Hoa Kỳ đã bác đơn kháng cáo về việc có công nhận bản quyền cho sản phẩm do AI tạo ra hay không
    • Phán quyết của tòa cấp dưới về ‘yêu cầu tác giả là con người (Human Authorship)’ được giữ nguyên
  • Vì vậy, các maintainer của chardet đối mặt với ba mâu thuẫn pháp lý
    • Khoảng trống bản quyền: nếu sản phẩm do AI tạo ra không được bảo hộ bản quyền, thì không có cơ sở pháp lý để tái cấp phép dưới MIT
    • Bẫy tác phẩm phái sinh: nếu đầu ra của AI là tác phẩm phái sinh từ mã LGPL gốc, thì đây là hành vi vi phạm giấy phép
    • Khoảng trống quyền sở hữu: nếu AI tạo ra mã hoàn toàn mới, thì ngay khi được tạo ra nó sẽ trở thành public domain, khiến chính giấy phép MIT trở nên vô nghĩa

Tác động tiềm tàng đối với hệ thống Copyleft

  • Nếu cách đổi giấy phép thông qua việc viết lại bằng AI được chấp nhận, nền tảng của Copyleft có thể bị sụp đổ
  • Bất kỳ ai cũng có thể đưa một dự án GPL vào LLM, yêu cầu “viết lại theo phong cách khác”, rồi phát hành dưới giấy phép MIT
  • Trường hợp chardet v7.0.0 được đánh giá là ví dụ thực tế đầu tiên kiểm nghiệm những ranh giới pháp lý và đạo đức này

1 bình luận

 
GN⁺ 2026-03-07
Ý kiến trên Hacker News
  • Xem phản hồi của maintainer, họ đã nói rõ với Claude là đừng tham chiếu mã LGPL/GPL, nhưng rất có thể mô hình đã được huấn luyện bằng chính đoạn mã đó
    Hiện nay, người ta cho rằng LLM hoàn toàn "quên" ảnh hưởng từ dữ liệu huấn luyện là điều bất khả thi
    dự án này là nghiên cứu liên quan
    Tôi là lập trình viên đồng thời là luật sư sở hữu trí tuệ, và vấn đề kiểu này vẫn đang tiếp tục được định hình trong tòa án Mỹ
    Tham khảo thêm, gói enterprise trả phí của Anthropic bồi thường cho người dùng nếu xảy ra vi phạm bản quyền, nhưng ở các gói free/Pro/Max thì ngược lại, người dùng phải bồi thường cho Anthropic (Điều 11 trong điều khoản)

    • Maintainer nói rằng họ “viết lại từ đầu”, nhưng thực tế vẫn dùng nguyên dữ liệu kiểm thử của chardet, và đây là người đã duy trì mã gốc hơn 10 năm
      Để được coi là clean-room implementation hoàn chỉnh thì phải tách biệt người biết mã gốc và người viết lại mới, còn trường hợp này thì không phải vậy
    • Chủ đề tương tự cũng đã được bàn trong thread này
    • Từng có nghiên cứu về cách mask ngẫu nhiên các token cụ thể trong quá trình huấn luyện để tránh ghi nhớ nguyên văn mã nguồn
      Ý tưởng là giữ nguyên ngữ nghĩa nhưng bỏ bớt một phần từ để ngăn trích dẫn trực tiếp
    • Tôi thấy hữu ích vì đây là lần đầu biết rằng điều khoản bồi thường khác nhau giữa các gói trả phí lại quan trọng đến vậy
  • Bài này đang hiểu sai ý nghĩa của “clean-room implementation”
    Nó không đơn giản là “không nhìn mã gốc”, mà là phải triển khai độc lập từ đặc tả API
    Mã do LLM sinh ra có xác suất cao giống với bản gốc, nên về mặt pháp lý có nguy cơ bị coi là bản sao
    Hành động của maintainer chardet trông như một vụ relicense vô trách nhiệm về mặt pháp lý, và có thể gây ra vấn đề chuỗi cung ứng sau này

    • Có người phản biện bằng cách trích giải thích pháp lý rằng nếu hai người độc lập tạo ra cùng một đoạn mã thì mỗi bên vẫn có thể có bản quyền riêng
    • Bản quyền chỉ cấu thành sao chép khi có dòng chảy thông tin
      Nếu chỉ cho ra cùng một kết quả thì đó chỉ là kết quả chức năng, không phải vi phạm bản quyền
    • Các triển khai dựa trên API cũng có rủi ro pháp lý như vụ Google vs Oracle
      Xem trang wiki
    • Cũng có tiền lệ cho thấy viết lại từ đầu mà không nhìn bản gốc là hợp pháp, như vụ clean-room của Phoenix với BIOS IBM PC
    • Nếu tuân thủ quy trình CRRE(clean-room reverse engineering) đầy đủ thì dù mã có giống 1:1, về mặt pháp lý vẫn không phải sao chép
      Tuy nhiên trong thực tế kiện tụng, độ tương đồng cao sẽ khiến việc bào chữa rất khó
      Trường hợp chardet có thể giống tranh cãi bản quyền font ở Nhật: dù không phải xâm phạm thực chất, vẫn có thể dẫn tới ngừng phân phối
  • “Mã LGPL vẫn là LGPL”
    Trừ khi mọi tác giả gốc đều đồng ý rõ ràng, không thể đổi giấy phép
    Việc AI chuyển đổi mã không làm biến mất bản quyền
    Nếu không thì toàn bộ ngành công nghiệp bản quyền ở Mỹ sẽ sụp đổ

    • Về mặt pháp lý không có thuộc tính riêng gọi là “mã LGPL”, mà trọng tâm là một hành vi sao chép có được phép hay không
      Việc một người tạo tác phẩm phái sinh không được phép rồi lại đi cấp phép tiếp là vấn đề rất phức tạp
    • Phán quyết của SCOTUS thậm chí còn củng cố quyền của tác giả gốc, ở chỗ họ cho rằng kết quả do AI tạo ra không có tính sáng tạo
    • Nếu thật sự là một bản viết lại clean-room hoàn toàn bằng AI thì về thực chất có thể xem như public domain, nhưng trường hợp như vậy ngoài đời rất hiếm
  • Vì AI tạo sinh mà hệ thống bản quyền đang tụt hậu so với thời đại
    Luật trước đây giả định các mô hình có mục đích đơn lẻ, nhưng giờ đã có những mô hình có thể cạnh tranh với mọi nguồn mã
    Chiến lược giấy phép của GNU cũng dựa trên giả định mã nguồn là thứ khan hiếm, còn giờ việc sinh mã quá dễ nên ý nghĩa đó suy yếu đi

    • Nếu đưa mã gốc vào AI rồi yêu cầu “viết lại”, đó là tác phẩm phái sinh; còn nếu chỉ đưa mô tả chức năng thì đó là tác phẩm mới
      Khi kiện tụng, log Claude có thể trở thành chứng cứ
    • Cũng có ý kiến chỉ trích rằng đây là kiểu phá luật để thay đổi cuộc chơi
    • Tiền đề cũ rằng ý tưởng không được bảo hộ còn biểu đạt thì được bảo hộ đang lung lay trong thời đại AI
      Giờ là thời đại mà việc tạo ra biểu đạt còn dễ hơn tạo ý tưởng
    • Ngược lại, cũng có người cho rằng thay đổi này là tín hiệu tích cực phá vỡ cấu trúc độc quyền bản quyền
    • Mục tiêu của GNU chưa bao giờ là giấy phép, mà là tự do của người dùng
      Một thế giới nơi ai cũng có thể tạo mã bằng AI có lẽ còn gần với lý tưởng mà GNU từng mơ hơn
  • Có người đặt nghi vấn với lập luận rằng nếu mã do AI tạo ra là tác phẩm mới thực sự, thì ngay khi sinh ra nó có thể đã là public domain
    Vì không thể biết mô hình đã học từ dữ liệu nào, điều này có thể bị xem là dịch ngược
    Vì thế nên phải áp dụng giấy phép hạn chế nhất, và doanh nghiệp AI cần hoàn lại doanh thu cho tác giả gốc

    • Nếu vậy thì “All Rights Reserved” sẽ được áp dụng và không ai dùng được đầu ra AI
      Trên thực tế, các mô hình chỉ học từ dữ liệu được cho phép thì hiệu năng rất thấp
      Nếu mọi sản phẩm AI đều bị coi là tác phẩm phái sinh thì mọi dự án mã nguồn mở sẽ đều bị nhiễm bẩn
    • Trừ khi AI gần như sao chép nguyên văn mã gốc, tòa án Mỹ thường không coi bản quyền của dữ liệu huấn luyện là vấn đề
      Cuối cùng, nếu rơi vào trạng thái không ai ngoài con người có thể đòi quyền sở hữu, thì trên thực tế nó sẽ bị xem như public domain
    • Cũng có đề xuất nửa đùa nửa thật rằng cứ xem toàn bộ mã do LLM sinh ra là GPL v3
    • Cũng có ý kiến mỉa mai rằng luật chỉ thay đổi khi lợi ích của Disney bắt đầu bị xâm phạm
    • Trách nhiệm pháp lý sẽ khác nhau tùy việc AI có dùng trực tiếp mã gốc hay đã viết lại thông qua biểu đạt trung gian
  • thread khác với thảo luận liên quan mang tên “No right to relicense this project”

    • Trường hợp đó có vẻ đơn thuần là một dự án bị chiếm đoạt, còn trong vụ chardet lần này, trọng tâm là tính chính đáng của việc AI viết lại
  • Có người phản bác lập luận rằng nếu mã do AI tạo ra là public domain thì giấy phép MIT tự thân sẽ trở nên vô nghĩa
    Sản phẩm AI sinh ra không giống sao chép đơn thuần, nhưng vẫn chịu ràng buộc giấy phép của bản gốc

    • Vì đầu ra do AI tạo ra về mặt pháp lý không được công nhận là tác phẩm có bản quyền, nên không ai có thể cấp phép cho nó
      Ví dụ, một công cụ sinh thơ được huấn luyện bằng Project Gutenberg cũng không thể tuyên bố bản quyền
    • Nhưng riêng với mã thì tiêu chuẩn pháp lý vẫn chưa rõ ràng
      Các macro, công cụ sinh mã, hay tính năng tự động hóa như Intellisense khiến ranh giới của “mã do AI tạo” trở nên mơ hồ
    • Cũng có người sửa lại rằng thuật ngữ đúng là “copyright” chứ không phải “copywrite”
    • Cũng có ý kiến rằng sản phẩm AI tạo ra vẫn có thể được bảo hộ bản quyền nếu con người can thiệp sáng tạo đủ nhiều
  • Trước đây từng có bàn luận về việc đưa chardet vào thư viện chuẩn của Python, nhưng
    vì tranh cãi đổi giấy phép lần này mà khả năng đó được xem như đã chấm dứt
    Xem thêm issue này
    phát biểu của maintainer 1, phát biểu 2

  • Kiểu AI relicense như vậy có thể đồng nghĩa với dấu chấm hết cho mã nguồn mở, đặc biệt là Copyleft
    Nếu giấy phép không còn thực hiện được chức năng bảo vệ, các lập trình viên sẽ quay lại với phát triển đóng

    • Vì vậy nên tôi cũng đã ngừng hoàn toàn việc công khai mã nguồn mở
      Các mô hình mới nhất thậm chí còn có thể dịch ngược WebAssembly, khiến mọi thứ giống như lý thuyết khu rừng tối
    • Điều này không chỉ áp dụng cho mã nguồn mở mà cho cả mọi dự án công khai mã nguồn
    • Mục đích của GPL không phải là “ngăn việc sử dụng ngoài ý muốn”, mà là yêu cầu công khai mã nguồn khi sửa đổi
      Nếu bản viết lại bằng AI là GPL thì nó cũng phải được công khai
    • Cũng có phản biện rằng việc muốn đóng “phần mềm tự do” ngay từ đầu đã mâu thuẫn với triết lý của tự do
  • Tôi đồng ý với kết luận rằng “nếu có thể đổi giấy phép bằng cách nhờ AI viết lại, thì toàn bộ bản quyền sẽ sụp đổ
    Vì điều đó có thể áp dụng cho phim ảnh, âm nhạc, tiểu thuyết và mọi tác phẩm sáng tạo khác
    Cuối cùng tòa án sẽ không coi đây là cách né tránh bản quyền hợp lệ,
    và hy vọng dự án chardet sẽ không trở thành vật thí nghiệm trước làn sóng pháp lý khổng lồ đó