1 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Có nghi vấn công khai cho rằng sản phẩm data room của Nico không phải là kết quả tự phát triển mà dường như được lấy từ mã nguồn mở và mã theo giấy phép doanh nghiệp của Papermark
  • Trọng tâm tranh cãi là liệu có vi phạm bản quyền và giấy phép hay không, và người nêu vấn đề yêu cầu phải gỡ sản phẩm này xuống ngay lập tức
  • Vụ việc dẫn tới chỉ trích mạnh mẽ rằng đây không phải kiểu “di chuyển nhanh và phá vỡ mọi thứ” mà gần với hành vi lừa dối hơn
  • Cũng có ý kiến cho rằng tranh cãi quanh sản phẩm này có thể làm lan rộng nghi ngờ sang các mảng kinh doanh còn lại của Nico
  • Garry Tan, Jared Friedman và Y Combinator cùng bị gắn thẻ, khiến vụ việc lan sang cả vấn đề uy tín của cộng đồng YC

Nghi vấn sao chép mã từ Papermark

  • Xuất hiện cáo buộc công khai rằng sản phẩm data room của Nico có vẻ không phải do tự phát triển, mà dường như được lấy từ mã nguồn mở và mã theo giấy phép doanh nghiệp của Papermark
  • Người nêu vấn đề cho rằng khó có thể xem đây chỉ là phát triển sản phẩm nhanh hay “vibe coding”, mà có khả năng liên quan tới vi phạm bản quyền và giấy phép
  • Yêu cầu được đưa ra rất rõ ràng
    • Quan điểm là phải gỡ sản phẩm này xuống ngay lập tức
    • Nếu việc xâm phạm là sự thật, điều đó có thể bị xem là hành vi nghiêm trọng hơn một sai sót đơn thuần

Chỉ trích lan rộng

  • Chỉ trích không dừng lại ở riêng sản phẩm data room của Nico mà còn đặt dấu hỏi về độ tin cậy của toàn bộ các mảng kinh doanh còn lại
  • Việc gắn thẻ Garry Tan, Jared Friedman và Y Combinator khiến vấn đề vượt ra ngoài tranh chấp cá nhân và gắn với uy tín của cộng đồng YC
  • Với những gì hiện được công khai, nội dung chủ yếu vẫn là các cáo buộc và yêu cầu; chưa có thêm thông tin kiểm chứng hay phản bác được cung cấp

1 bình luận

 
Ý kiến trên Hacker News
  • Nếu đưa ảnh chụp màn hình trang web vào các công cụ như Figma Make thì có thể tạo ra một bản sao khá giống
    Ảnh chụp màn hình cho cảm giác đúng kiểu đó: rất giống nhưng không hoàn toàn y hệt. Việc câu chữ trùng lặp nhiều có lẽ cũng vì vậy. Việc thậm chí còn không giao cả viết lại câu chữ cho công cụ tạo văn bản làm luôn thì đơn giản là quá cẩu thả

  • Xem các bình luận khác trên Twitter thì có vẻ họ đã bảo AI sao chép Papermark
    Trong bình luận của AI có dấu vết kiểu như trang đã được căn chỉnh cho khớp với “reference”
    https://xcancel.com/ffumarola/status/2070479755892371713#m

  • Câu trả lời của họ là thế này:

    The team that made dataroom has stated that they did not use any of papermark’s code and that dataroom was made from scratch with inspiration from existing document sharing softwares, and that this post’s allegations of us stealing code are false. [...]
    Chỉ cần nhìn ảnh chụp màn hình là rõ họ đã sao chép gần như nguyên cả trang, từ thiết kế đến câu chữ. Việc nhà sáng lập Nico Laqua về cơ bản chỉ đáp lại rằng “chúng tôi không sao chép mã” và không hề nhận bất kỳ trách nhiệm nào cho thấy rất rõ tiêu chuẩn đạo đức của anh ta và của công ty. Có thể điều này chưa đủ để kiện tụng, nhưng như thế không có nghĩa là đó là việc đúng đắn
    https://x.com/nico_laqua/status/2070158170937581951

    • Vài năm trước khi Corgi tuyển kỹ sư đầu tiên, tôi từng phỏng vấn với họ; tôi thực sự không hợp với Nico, và dù chỉ là một cuộc gọi sàng lọc ban đầu, đó vẫn là một trong những buổi phỏng vấn thiếu trôi chảy nhất mà tôi từng trải qua
      Nên nếu Nico thực sự cho rằng “chúng tôi không sao chép mã” là một cách tự bào chữa hợp lý thì tôi cũng không thấy ngạc nhiên lắm. Nó có vẻ như một quy tắc cứng nhắc rõ ràng, và kiểu người “shape rotator” cực đoan thường gặp khó với sự mơ hồ trong những lĩnh vực như luật pháp. Trên thực tế, vi phạm bản quyền cũng giống tiêu chuẩn nhận diện phim khiêu dâm: nhiều khi nhìn là biết
    • Đây là người từng khoe chuyện làm cuối tuần và ví công ty bảo hiểm tầm thường của mình với Dự án Manhattan
      Có lúc anh ta còn lập luận rằng công ty/ngành này là ứng dụng AI quan trọng nhất thế giới. Tôi không nghi ngờ gì việc họ đã sao chép, và ít nhất thì đây không phải người đáng tin
      https://x.com/nico_laqua/status/2061130574358773852?s=20
    • Việc nói rằng “có thể chưa đủ để bị kiện” chủ yếu là vì các dự án mã nguồn mở hiếm khi đi kiện
      Nếu họ làm chuyện này với một công ty thích kiện tụng hơn thì khả năng bị kiện là khá cao, và khả năng thua kiện cũng cỡ 50-50. Khó nói việc này sẽ bị xem là sao chép yếu tố sáng tạo/nghệ thuật hay chỉ là sao chép cách vận hành đơn thuần, nhưng sao chép chức năng thì có thể chấp nhận được, còn bê nguyên trải nghiệm người dùng thì rất nhanh thành vi phạm bản quyền
    • Chỉ nhìn cách Nico tiếp tục đẩy mạnh lời nói dối là đủ hiểu anh ta là người như thế nào
    • Thiết kế là shadcn, một hệ thống thiết kế rất phổ biến theo giấy phép MIT
      Còn câu chữ thì tôi nghĩ khá gần với loại nội dung tiêu chuẩn, dễ đoán trước đối với một giải pháp data room dùng tài liệu thực tế
  • Bạn có thể giải thích thêm một chút bối cảnh của thread này không? Tôi hoàn toàn không biết Nico là ai, Papermark là gì và làm gì.
    Ngoài ra, có vẻ như mọi người đang ngày càng quen với việc không chỉ dựng lại các giải pháp hay dự án có sẵn bằng vibe coding, mà còn “ăn cắp” mã nguồn mở và dùng tùy ý mà không tuân thủ các tiền đề đạo đức, luân lý và pháp lý của open source. Có cảm giác các vi phạm mã nguồn mở đang gia tăng khắp nơi hơn trước nhưng không kéo theo hậu quả pháp lý đáng kể nào

    • Đúng vậy. Giờ việc đó dễ hơn rất nhiều.
      Hơn nữa, khá nhiều lập trình viên mới bước vào ngành chỉ nhờ AI không hiểu hoặc không quan tâm rằng FOSS không phải là miễn phí theo nghĩa bia miễn phí, mà là về tự do.
      Tôi làm một thư viện GPL3 để phân tích các tệp dữ liệu nhị phân của sampler âm thanh phần cứng. Có người đã xây một ứng dụng có thể làm nhiều việc dựa trên thư viện của tôi, và họ đã tuân thủ giấy phép GPL3.
      Nhưng gần đây có người đã vibe code để sao chép hoàn toàn ứng dụng đó, rồi còn đăng cả website và link mua hàng khoảng 60 đô. Đây là một bản sao trắng trợn đến mức chỉ khác màu sắc còn UI thì giống hệt, và hoàn toàn không tuân thủ các điều khoản GPL3. Quản trị viên đã gỡ bài khỏi danh sách và chặn nhà phát triển ứng dụng sao chép, còn cộng đồng diễn đàn thì ủng hộ nhà phát triển ứng dụng gốc. Chúng tôi cũng gửi yêu cầu gỡ bỏ theo DMCA, và vài ngày sau thì trang của ứng dụng sao chép đã biến mất.
      Nhà phát triển ứng dụng gốc đã gặp may vì thực tế chỉ có đúng một diễn đàn lớn nơi các bài viết liên quan đến hãng sản xuất đó được đăng, và đội ngũ quản trị cũng ghét các món đồ AI. Trớ trêu là chính nhà phát triển ứng dụng gốc cũng vibe code toàn bộ sản phẩm của mình. Nếu không có diễn đàn đó và đội ngũ quản trị, thì cả nhà phát triển ứng dụng gốc lẫn tôi, người duy trì thư viện GPL3, thành thật mà nói đều đã tiêu đời.
      Tập trung hóa có những điểm lợi của nó. Nếu không có nó, tôi không thấy giải pháp nào ngoài một phong trào quần chúng đủ lớn để buộc mọi người quay về mã nguồn đóng và mở ra một cuộc thảo luận về việc tôn trọng công sức của người khác. Cho đến nay chúng ta vẫn đang dựa vào hệ thống danh tiếng và phản ứng ngược từ cộng đồng
    • Thẩm phán và chính phủ thân doanh nghiệp, còn thù địch với người tiêu dùng và công dân.
      Các công ty đang ngày càng quen với việc làm gì cũng thoát được. “Di chuyển nhanh và phá vỡ mọi thứ” ban đầu là câu nói về công nghệ, nhưng giờ đã thành thái độ đối với luật pháp. Uber đã phổ biến xu hướng đó, và giờ ai cũng làm vậy. Việc AI phá vỡ luật bản quyền cũng là một phần của xu hướng ấy.
      Tư duy mới rằng luật là dành cho kẻ thua cuộc có lẽ sẽ khiến chúng ta trải qua một giai đoạn khó khăn phía trước
    • Nếu những kẻ trộm lớn nhất đang hướng tới mức định giá hàng tỷ đô, thì còn mong đợi gì nữa.
      Giờ nên xem như mọi thứ trên Internet thực chất đều là thứ mà ai cũng có thể lấy tùy ý
    • Nếu bạn tin rằng đây là cuộc cạnh tranh được ăn cả ngã về không để tiến tới siêu trí tuệ tổng quát, và rằng siêu trí tuệ tổng quát sẽ dẫn tới quyền thống trị tuyệt đối thế giới, thì dĩ nhiên bạn sẽ không nghĩ đến chuyện bị ràng buộc bởi luật hiện hành, đặc biệt là những quy tắc sở hữu trí tuệ đơn giản.
      Bởi vì cách duy nhất để chắc chắn thua là không tham gia cuộc chơi
    • Nếu là doanh nghiệp xử lý tài liệu của khách hàng hoặc đối tác bên ngoài, họ sẽ dùng dataroom như DocSend by Dropbox để chia sẻ và nhận tài liệu kèm kiểm soát truy cập, phân tích và chức năng kiểm toán.
      Papermark là lựa chọn mã nguồn mở thay thế cho DocSend. Có thể dùng theo kiểu tự host hoặc dịch vụ host sẵn, nên tiết kiệm chi phí hơn DocSend rất nhiều và vì vậy khá phổ biến.
      Corgi là một startup bảo hiểm có YC đầu tư, chuyên bán bảo hiểm cho các startup YC khác. Nico là nhà sáng lập. Gần đây công ty đã gọi được 100 triệu đô ở mức định giá khoảng 3 tỷ đô, và hiện là một trong những công ty được YC đẩy mạnh nhất.
      Vì việc thẩm định bảo hiểm cần rất nhiều tài liệu, Corgi đã phải trả cho DocSend hàng nghìn đô mỗi tháng. Vì lý do nào đó, có vẻ Corgi đã lập một đội 12 người để xây Dataroom, phiên bản thay thế DocSend nội bộ của riêng họ. Và Corgi quyết định định vị nó thành một DocSend rẻ hơn, bắt đầu từ 10 đô mỗi tháng, để biến nó thành một sản phẩm SaaS trong một thị trường vốn đã chật chội.
      Papermark ngay lập tức nhận ra rằng Dataroom của Corgi dùng rất nhiều câu chữ và cấu trúc giống hệt sản phẩm mã nguồn mở của họ. Vì vậy họ cho rằng Corgi đã lấy thành quả của Papermark mà không ghi nguồn. Corgi phủ nhận điều này, nói rằng việc có những đoạn trùng khớp từng từ giữa hai sản phẩm chỉ là trùng hợp ngẫu nhiên.
      Một startup YC khác là Delve đã thực sự làm những việc mà Corgi đang bị nghi ngờ, thậm chí còn nhiều hơn thế, rồi bị phát hiện và bị loại khỏi YC
  • Theo tôi thấy thì lập luận của anh ta đại khái có hai ý:

    1. Lập trình viên đã không sao chép mã theo cách thủ công
    2. Mọi phần mềm trong cùng một lĩnh vực đều sao chép lẫn nhau
      Nhưng manh mối lớn nhất ở đây là bố cục và câu chữ giống hệt nhau của hai sản phẩm. Bảo LLM rằng “hãy viết sản phẩm này và tạo ra bản sao 1:1” theo định nghĩa thông thường vẫn là sao chép. Việc khẳng định rằng không có gì bị sao chép nghe không hợp lý
    • Cả hai nhìn bề ngoài đều giống boilerplate ShadCN: https://ui.shadcn.com/blocks
      ShadCN là hệ thống thiết kế phổ biến nhất mà AI chọn tự động hơn 90% thời gian, và trên các nền tảng như lovable nó cũng gần như là mặc định
    • Tôi nghĩ đó là cốt lõi của vụ Google kiện Oracle.
      Google đã sao chép API nhưng giữ phần triển khai theo kiểu clean room, và cuối cùng điều này đã được phán quyết rõ ràng là sử dụng hợp lý. Nếu sử dụng hợp lý áp dụng được cả với một đối tượng chặt chẽ như việc tái triển khai API, thì có thể xem là nó cũng áp dụng với những đối tượng còn mơ hồ hơn nhiều như sao chép UI hay bố cục
    • Anh ta đang khẳng định rằng mã nguồn không bị sao chép
  • Tôi không hiểu sao người ta vẫn còn nghiêm túc dùng thứ từng là Twitter đó

  • Ngay cả nếu đúng là họ không copy-paste mã như họ nói, thì thực tế vẫn có thể là LLM đã tái tạo cùng đoạn mã dựa trên kết quả crawl kho chứa và họ đã không tôn trọng giấy phép.
    Đây có thể là một vụ kiện dân sự rất phù hợp để tòa xem xét. Lập luận bào chữa của họ có vẻ sẽ là: “Chúng tôi chỉ bảo LLM tái tạo công việc của bạn, nên không phải ‘chúng tôi’ đã sao chép mã.” Mùi này không ổn chút nào

  • Giấy phép đang bị bàn cãi: https://github.com/papermark/papermark?tab=License-1-ov-file
    Đây là AGPL, và về cơ bản có nghĩa là ngay cả khi người dùng tương tác với phần mềm qua mạng thì mã nguồn vẫn phải được công khai. Dự án sử dụng đoạn mã đó cũng phải theo AGPL.
    Vẫn có cách tách riêng để lách ảnh hưởng này. Ví dụ, việc dùng máy chủ xác thực AGPL không có nghĩa là cả phần mã chứa logic nghiệp vụ cũng phải bị ràng buộc theo.
    Đặc biệt nếu đã từng xem các tranh cãi trước đây, đáng lẽ họ có thể tìm ra cách thiết kế sản phẩm để phù hợp với giấy phép.
    Tuy nhiên, điều này chỉ đúng nếu thực sự đã có việc sao chép mã, và chúng ta không thể biết chắc điều đó. Trông thì rất giống, nhưng sẽ được thực thi thế nào thì khó nói

    • Muốn thực thi thì có lẽ phải kiện tụng, và chuyện này có vẻ sẽ lớn hơn chỉ riêng vấn đề của Corgi
      Các vấn đề bản quyền liên quan đến những mô hình này thực sự rất hỗn loạn
  • Ngành công nghệ sẽ làm mọi thứ để bình thường hóa hành vi ăn cắp và gọi đó là đổi mới

  • Một nước đi rất điển hình của startup YC