Dấy lên nghi vấn Nico sao chép mã từ Papermark cho Data Room
(twitter.com/mfts0)- Có nghi vấn công khai cho rằng sản phẩm data room của Nico không phải là kết quả tự phát triển mà dường như được lấy từ mã nguồn mở và mã theo giấy phép doanh nghiệp của Papermark
- Trọng tâm tranh cãi là liệu có vi phạm bản quyền và giấy phép hay không, và người nêu vấn đề yêu cầu phải gỡ sản phẩm này xuống ngay lập tức
- Vụ việc dẫn tới chỉ trích mạnh mẽ rằng đây không phải kiểu “di chuyển nhanh và phá vỡ mọi thứ” mà gần với hành vi lừa dối hơn
- Cũng có ý kiến cho rằng tranh cãi quanh sản phẩm này có thể làm lan rộng nghi ngờ sang các mảng kinh doanh còn lại của Nico
- Garry Tan, Jared Friedman và Y Combinator cùng bị gắn thẻ, khiến vụ việc lan sang cả vấn đề uy tín của cộng đồng YC
Nghi vấn sao chép mã từ Papermark
- Xuất hiện cáo buộc công khai rằng sản phẩm data room của Nico có vẻ không phải do tự phát triển, mà dường như được lấy từ mã nguồn mở và mã theo giấy phép doanh nghiệp của Papermark
- Người nêu vấn đề cho rằng khó có thể xem đây chỉ là phát triển sản phẩm nhanh hay “vibe coding”, mà có khả năng liên quan tới vi phạm bản quyền và giấy phép
- Yêu cầu được đưa ra rất rõ ràng
- Quan điểm là phải gỡ sản phẩm này xuống ngay lập tức
- Nếu việc xâm phạm là sự thật, điều đó có thể bị xem là hành vi nghiêm trọng hơn một sai sót đơn thuần
Chỉ trích lan rộng
- Chỉ trích không dừng lại ở riêng sản phẩm data room của Nico mà còn đặt dấu hỏi về độ tin cậy của toàn bộ các mảng kinh doanh còn lại
- Việc gắn thẻ Garry Tan, Jared Friedman và Y Combinator khiến vấn đề vượt ra ngoài tranh chấp cá nhân và gắn với uy tín của cộng đồng YC
- Với những gì hiện được công khai, nội dung chủ yếu vẫn là các cáo buộc và yêu cầu; chưa có thêm thông tin kiểm chứng hay phản bác được cung cấp
1 bình luận
Ý kiến trên Hacker News
Nếu đưa ảnh chụp màn hình trang web vào các công cụ như Figma Make thì có thể tạo ra một bản sao khá giống
Ảnh chụp màn hình cho cảm giác đúng kiểu đó: rất giống nhưng không hoàn toàn y hệt. Việc câu chữ trùng lặp nhiều có lẽ cũng vì vậy. Việc thậm chí còn không giao cả viết lại câu chữ cho công cụ tạo văn bản làm luôn thì đơn giản là quá cẩu thả
Xem các bình luận khác trên Twitter thì có vẻ họ đã bảo AI sao chép Papermark
Trong bình luận của AI có dấu vết kiểu như trang đã được căn chỉnh cho khớp với “reference”
https://xcancel.com/ffumarola/status/2070479755892371713#m
Câu trả lời của họ là thế này:
Nên nếu Nico thực sự cho rằng “chúng tôi không sao chép mã” là một cách tự bào chữa hợp lý thì tôi cũng không thấy ngạc nhiên lắm. Nó có vẻ như một quy tắc cứng nhắc rõ ràng, và kiểu người “shape rotator” cực đoan thường gặp khó với sự mơ hồ trong những lĩnh vực như luật pháp. Trên thực tế, vi phạm bản quyền cũng giống tiêu chuẩn nhận diện phim khiêu dâm: nhiều khi nhìn là biết
Có lúc anh ta còn lập luận rằng công ty/ngành này là ứng dụng AI quan trọng nhất thế giới. Tôi không nghi ngờ gì việc họ đã sao chép, và ít nhất thì đây không phải người đáng tin
https://x.com/nico_laqua/status/2061130574358773852?s=20
Nếu họ làm chuyện này với một công ty thích kiện tụng hơn thì khả năng bị kiện là khá cao, và khả năng thua kiện cũng cỡ 50-50. Khó nói việc này sẽ bị xem là sao chép yếu tố sáng tạo/nghệ thuật hay chỉ là sao chép cách vận hành đơn thuần, nhưng sao chép chức năng thì có thể chấp nhận được, còn bê nguyên trải nghiệm người dùng thì rất nhanh thành vi phạm bản quyền
Còn câu chữ thì tôi nghĩ khá gần với loại nội dung tiêu chuẩn, dễ đoán trước đối với một giải pháp data room dùng tài liệu thực tế
Bạn có thể giải thích thêm một chút bối cảnh của thread này không? Tôi hoàn toàn không biết Nico là ai, Papermark là gì và làm gì.
Ngoài ra, có vẻ như mọi người đang ngày càng quen với việc không chỉ dựng lại các giải pháp hay dự án có sẵn bằng vibe coding, mà còn “ăn cắp” mã nguồn mở và dùng tùy ý mà không tuân thủ các tiền đề đạo đức, luân lý và pháp lý của open source. Có cảm giác các vi phạm mã nguồn mở đang gia tăng khắp nơi hơn trước nhưng không kéo theo hậu quả pháp lý đáng kể nào
Hơn nữa, khá nhiều lập trình viên mới bước vào ngành chỉ nhờ AI không hiểu hoặc không quan tâm rằng FOSS không phải là miễn phí theo nghĩa bia miễn phí, mà là về tự do.
Tôi làm một thư viện GPL3 để phân tích các tệp dữ liệu nhị phân của sampler âm thanh phần cứng. Có người đã xây một ứng dụng có thể làm nhiều việc dựa trên thư viện của tôi, và họ đã tuân thủ giấy phép GPL3.
Nhưng gần đây có người đã vibe code để sao chép hoàn toàn ứng dụng đó, rồi còn đăng cả website và link mua hàng khoảng 60 đô. Đây là một bản sao trắng trợn đến mức chỉ khác màu sắc còn UI thì giống hệt, và hoàn toàn không tuân thủ các điều khoản GPL3. Quản trị viên đã gỡ bài khỏi danh sách và chặn nhà phát triển ứng dụng sao chép, còn cộng đồng diễn đàn thì ủng hộ nhà phát triển ứng dụng gốc. Chúng tôi cũng gửi yêu cầu gỡ bỏ theo DMCA, và vài ngày sau thì trang của ứng dụng sao chép đã biến mất.
Nhà phát triển ứng dụng gốc đã gặp may vì thực tế chỉ có đúng một diễn đàn lớn nơi các bài viết liên quan đến hãng sản xuất đó được đăng, và đội ngũ quản trị cũng ghét các món đồ AI. Trớ trêu là chính nhà phát triển ứng dụng gốc cũng vibe code toàn bộ sản phẩm của mình. Nếu không có diễn đàn đó và đội ngũ quản trị, thì cả nhà phát triển ứng dụng gốc lẫn tôi, người duy trì thư viện GPL3, thành thật mà nói đều đã tiêu đời.
Tập trung hóa có những điểm lợi của nó. Nếu không có nó, tôi không thấy giải pháp nào ngoài một phong trào quần chúng đủ lớn để buộc mọi người quay về mã nguồn đóng và mở ra một cuộc thảo luận về việc tôn trọng công sức của người khác. Cho đến nay chúng ta vẫn đang dựa vào hệ thống danh tiếng và phản ứng ngược từ cộng đồng
Các công ty đang ngày càng quen với việc làm gì cũng thoát được. “Di chuyển nhanh và phá vỡ mọi thứ” ban đầu là câu nói về công nghệ, nhưng giờ đã thành thái độ đối với luật pháp. Uber đã phổ biến xu hướng đó, và giờ ai cũng làm vậy. Việc AI phá vỡ luật bản quyền cũng là một phần của xu hướng ấy.
Tư duy mới rằng luật là dành cho kẻ thua cuộc có lẽ sẽ khiến chúng ta trải qua một giai đoạn khó khăn phía trước
Giờ nên xem như mọi thứ trên Internet thực chất đều là thứ mà ai cũng có thể lấy tùy ý
Bởi vì cách duy nhất để chắc chắn thua là không tham gia cuộc chơi
Papermark là lựa chọn mã nguồn mở thay thế cho DocSend. Có thể dùng theo kiểu tự host hoặc dịch vụ host sẵn, nên tiết kiệm chi phí hơn DocSend rất nhiều và vì vậy khá phổ biến.
Corgi là một startup bảo hiểm có YC đầu tư, chuyên bán bảo hiểm cho các startup YC khác. Nico là nhà sáng lập. Gần đây công ty đã gọi được 100 triệu đô ở mức định giá khoảng 3 tỷ đô, và hiện là một trong những công ty được YC đẩy mạnh nhất.
Vì việc thẩm định bảo hiểm cần rất nhiều tài liệu, Corgi đã phải trả cho DocSend hàng nghìn đô mỗi tháng. Vì lý do nào đó, có vẻ Corgi đã lập một đội 12 người để xây Dataroom, phiên bản thay thế DocSend nội bộ của riêng họ. Và Corgi quyết định định vị nó thành một DocSend rẻ hơn, bắt đầu từ 10 đô mỗi tháng, để biến nó thành một sản phẩm SaaS trong một thị trường vốn đã chật chội.
Papermark ngay lập tức nhận ra rằng Dataroom của Corgi dùng rất nhiều câu chữ và cấu trúc giống hệt sản phẩm mã nguồn mở của họ. Vì vậy họ cho rằng Corgi đã lấy thành quả của Papermark mà không ghi nguồn. Corgi phủ nhận điều này, nói rằng việc có những đoạn trùng khớp từng từ giữa hai sản phẩm chỉ là trùng hợp ngẫu nhiên.
Một startup YC khác là Delve đã thực sự làm những việc mà Corgi đang bị nghi ngờ, thậm chí còn nhiều hơn thế, rồi bị phát hiện và bị loại khỏi YC
Theo tôi thấy thì lập luận của anh ta đại khái có hai ý:
Nhưng manh mối lớn nhất ở đây là bố cục và câu chữ giống hệt nhau của hai sản phẩm. Bảo LLM rằng “hãy viết sản phẩm này và tạo ra bản sao 1:1” theo định nghĩa thông thường vẫn là sao chép. Việc khẳng định rằng không có gì bị sao chép nghe không hợp lý
ShadCN là hệ thống thiết kế phổ biến nhất mà AI chọn tự động hơn 90% thời gian, và trên các nền tảng như lovable nó cũng gần như là mặc định
Google đã sao chép API nhưng giữ phần triển khai theo kiểu clean room, và cuối cùng điều này đã được phán quyết rõ ràng là sử dụng hợp lý. Nếu sử dụng hợp lý áp dụng được cả với một đối tượng chặt chẽ như việc tái triển khai API, thì có thể xem là nó cũng áp dụng với những đối tượng còn mơ hồ hơn nhiều như sao chép UI hay bố cục
Tôi không hiểu sao người ta vẫn còn nghiêm túc dùng thứ từng là Twitter đó
Ngay cả nếu đúng là họ không copy-paste mã như họ nói, thì thực tế vẫn có thể là LLM đã tái tạo cùng đoạn mã dựa trên kết quả crawl kho chứa và họ đã không tôn trọng giấy phép.
Đây có thể là một vụ kiện dân sự rất phù hợp để tòa xem xét. Lập luận bào chữa của họ có vẻ sẽ là: “Chúng tôi chỉ bảo LLM tái tạo công việc của bạn, nên không phải ‘chúng tôi’ đã sao chép mã.” Mùi này không ổn chút nào
Giấy phép đang bị bàn cãi: https://github.com/papermark/papermark?tab=License-1-ov-file
Đây là AGPL, và về cơ bản có nghĩa là ngay cả khi người dùng tương tác với phần mềm qua mạng thì mã nguồn vẫn phải được công khai. Dự án sử dụng đoạn mã đó cũng phải theo AGPL.
Vẫn có cách tách riêng để lách ảnh hưởng này. Ví dụ, việc dùng máy chủ xác thực AGPL không có nghĩa là cả phần mã chứa logic nghiệp vụ cũng phải bị ràng buộc theo.
Đặc biệt nếu đã từng xem các tranh cãi trước đây, đáng lẽ họ có thể tìm ra cách thiết kế sản phẩm để phù hợp với giấy phép.
Tuy nhiên, điều này chỉ đúng nếu thực sự đã có việc sao chép mã, và chúng ta không thể biết chắc điều đó. Trông thì rất giống, nhưng sẽ được thực thi thế nào thì khó nói
Các vấn đề bản quyền liên quan đến những mô hình này thực sự rất hỗn loạn
Ngành công nghệ sẽ làm mọi thứ để bình thường hóa hành vi ăn cắp và gọi đó là đổi mới
Một nước đi rất điển hình của startup YC