Lý do tôi đóng góp thời gian và chuyên môn cho Stack Overflow là vì giấy phép CC-BY-SA

xguru · 2024-05-14T10:03:01+09:00

Theo thỏa thuận giữa Stack Overflow và OpenAI, toàn bộ câu hỏi và câu trả lời trên Stack Overflow sẽ được dùng để huấn luyện các mô hình GenerativeAI Việc này sẽ diễn ra mà không có ghi công tác giả như giấy phép CC-BY-SA yêu cầu Giấy phép CC-BY-SA cũng yêu cầu các tác phẩm phái sinh phải được chia sẻ theo cùng giấy phép Vì vậy tôi đã yêu cầu Stack Overflow xóa dữ liệu của mình và đóng tài khoản Tôi cũng đã làm điều tương tự với Reddit Bởi vì dữ liệu mà tôi đã góp phần tạo ra sẽ bị ràng buộc trong LLM rồi bán ngược lại cho chính tôi Stack Overflow đã ngay lập tức làm xa lánh cộng đồng, nguồn lợi thế cạnh tranh chủ chốt của họ Trước đây, mọi người giúp nhau khi có thể, với kỳ vọng rằng sau này người khác cũng sẽ giúp mình, như một dạng khế ước tâm lý Giờ đây nó không còn là trao đổi nữa mà đã trở thành #enshittification Giờ đây các lập trình viên, cũng như nghệ sĩ và copywriter, đã bị lôi tác phẩm của mình vào việc tạo ra các giải pháp GenAI Nếu OpenAI tạo ra một LLM sinh mã như Copilot của GitHub, thì câu hỏi đặt ra là sẽ tìm đâu ra sự hỗ trợ cho các lỗi do mô hình AI được tạo ra đó đưa vào Theo báo cáo GitClear gần đây, các công cụ như vậy gây ra “áp lực đi xuống đối với chất lượng mã” Đây là một ví dụ khác của #enshittification và là bài học quan trọng cho những người làm DevRel Nếu cộng đồng là nguồn lợi thế cạnh tranh, thì đừng làm họ tức giận

(aus.social)

20 điểm bởi xguru 2024-05-14 | 14 bình luận | Chia sẻ qua WhatsApp

Theo thỏa thuận giữa Stack Overflow và OpenAI, toàn bộ câu hỏi và câu trả lời trên Stack Overflow sẽ được dùng để huấn luyện các mô hình GenerativeAI
- Việc này sẽ diễn ra mà không có ghi công tác giả như giấy phép CC-BY-SA yêu cầu
- Giấy phép CC-BY-SA cũng yêu cầu các tác phẩm phái sinh phải được chia sẻ theo cùng giấy phép
Vì vậy tôi đã yêu cầu Stack Overflow xóa dữ liệu của mình và đóng tài khoản
- Tôi cũng đã làm điều tương tự với Reddit
- Bởi vì dữ liệu mà tôi đã góp phần tạo ra sẽ bị ràng buộc trong LLM rồi bán ngược lại cho chính tôi
Stack Overflow đã ngay lập tức làm xa lánh cộng đồng, nguồn lợi thế cạnh tranh chủ chốt của họ
- Trước đây, mọi người giúp nhau khi có thể, với kỳ vọng rằng sau này người khác cũng sẽ giúp mình, như một dạng khế ước tâm lý
- Giờ đây nó không còn là trao đổi nữa mà đã trở thành #enshittification
Giờ đây các lập trình viên, cũng như nghệ sĩ và copywriter, đã bị lôi tác phẩm của mình vào việc tạo ra các giải pháp GenAI
Nếu OpenAI tạo ra một LLM sinh mã như Copilot của GitHub, thì câu hỏi đặt ra là sẽ tìm đâu ra sự hỗ trợ cho các lỗi do mô hình AI được tạo ra đó đưa vào
- Theo báo cáo GitClear gần đây, các công cụ như vậy gây ra “áp lực đi xuống đối với chất lượng mã”
Đây là một ví dụ khác của #enshittification và là bài học quan trọng cho những người làm DevRel
- Nếu cộng đồng là nguồn lợi thế cạnh tranh, thì đừng làm họ tức giận

14 bình luận

firea32 2024-05-20

enshittification có vẻ là một từ mới tạo.

iaesiiii 2024-05-16

<Có nên đối xử con người và AI khác nhau không?>
Hãy giả sử một con người tên Hong Gil-dong đi khắp Internet, bao gồm cả Stack Overflow. Anh ấy đọc nhiều bài viết và nhờ đó tiếp thu được nhiều kiến thức về một chủ đề cụ thể. Gil-dong có thói quen khái quát hóa lại, sắp xếp cho dễ hiểu những gì mình đã học rồi viết lên blog bên ngoài. Khi đó việc này không liên quan đến giấy phép CC. Cũng không có nghĩa vụ ghi công tác giả. Bởi vì đó không phải là trích dẫn mà là những gì anh ấy đã học được.

AI cũng học bằng mạng nơ-ron giống con người. Nó không phải là sao chép nguyên xi từ nhiều nguồn rồi nói lại. Giống như con người, nó tự phân tích kiến thức theo cách riêng, hình thành nhận định của mình, sắp xếp lại rồi diễn đạt ra.

Thậm chí việc hạn chế sự tự do của AI và buộc nó phải "trích dẫn" nguyên văn ngôn ngữ của người khác còn khó hơn. Dùng RAG cho việc này thì dễ, nhưng huấn luyện để nó biết trích dẫn còn khó hơn nữa.

Tuy nhiên, cũng có những trường hợp AI tự gợi lại lời của người khác như thể sao chép, ngay cả khi không bảo nó riêng rằng "đừng nói suy nghĩ của mày, hãy trích nguyên văn bài viết (mã nguồn) của người khác". Những trường hợp này xảy ra khi nguồn đó quá nổi tiếng. Ví dụ như Shakespeare hay những câu thoại kinh điển trong phim, vì quá nổi tiếng nên nó có thể xuất ra nguyên văn. Con người cũng vậy: với những nội dung nổi tiếng và lặp đi lặp lại nhiều lần như thế, người ta sẽ thuộc lòng cả cụm từ; AI cũng không khác. Trong trường hợp này, giống con người, AI thường cũng tự nói luôn nguồn gốc của nó.

Kết luận lại, tôi nghi ngờ liệu có thể yêu cầu áp dụng giấy phép CC và bản quyền đối với những nội dung được tạo ra từ quá trình học rồi diễn đạt lại hay không. Trong lĩnh vực "suy luận" chứ không phải "huấn luyện" (tức là sử dụng AI đã học xong), vì những lý do trên, việc không công nhận bản quyền của nguồn gốc ban đầu đang dần trở thành xu hướng chung trên thế giới.

roxie 2024-05-26

Cảm ơn bạn vì bình luận hay.

Lập trình viên Hong Gil-dong có thể "học" từ một câu trả lời thấy trên SO rồi viết bài trên blog, nhưng nghiên cứu sinh Hong Gil-dong, nếu đã "trích dẫn" dù chỉ một chút từ luận văn của người khác, sẽ ghi lại nguồn đó. Nếu cuộc đối thoại mà chúng ta đang chia sẻ nằm trong bối cảnh thế giới lập trình chứ không phải triết học hay phát minh, thì đâu là học tập và đâu là trích dẫn?

bobcat 2024-05-17

Việc thường để lại nguồn có một ngoại lệ.
Phần này có thể cũng sẽ được giải quyết theo thời gian, nhưng tranh cãi bắt đầu khi Copilot mang nguyên đoạn mã fast inverse sqrt của Quake vào y nguyên (https://news.ycombinator.com/item?id=27710287); chỉ vì đoạn mã đó quá nổi tiếng nên người ta mới nhận ra, còn đã có bao nhiêu đoạn mã kiểu gọi là “sao chép-dán” như vậy được "tạo ra" thì không ai biết được.

cosine20 2024-05-16

Đây thực sự là một góc nhìn rất thú vị. Tôi đã tham khảo được rất nhiều.

ng0301 2024-05-16

Đây là một góc nhìn thú vị.
Nếu nhìn theo kiểu Hàn Quốc thì có cảm giác vừa là “quán cà phê cộng đồng bị giao cho giới làm ăn”, vừa là kiểu “đằng nào cũng là sáng tác phái sinh, vậy thì sao?”.
Tuy vậy, cá nhân tôi vẫn không mấy dễ chịu với cảm giác ảnh tôi đăng lên SNS bị sử dụng cho mục đích thương mại.

savvykang 2024-05-16

Nó phân tích tri thức theo cách riêng giống con người, tự hình thành suy nghĩ của mình rồi sắp xếp lại để diễn đạt.

Có vẻ như bạn đang cho rằng LLM có hệ giá trị và suy nghĩ riêng, đúng với ý bạn chứ? Dù điều đó không ảnh hưởng đến kết luận, nhưng xét như một căn cứ để lập luận rằng không nên áp dụng bản quyền cho suy luận thì có vẻ không thật sự phù hợp.

cosine20 2024-05-16

Quá trình token hóa từng từ, rồi đưa và sắp xếp thông tin embedding của chúng vào latent space một cách phù hợp, nếu nhìn một cách trừu tượng thì có thể ví như hệ giá trị và suy nghĩ.

halfenif 2024-05-14

Liên quan đến việc số hóa não bộ.

Tôi chợt nhớ đến câu nói của ai đó: "Chỉ những bộ não có giá trị mới được bảo tồn."

secret3056 2024-05-14

Liệu phía SO có thật sự xóa một cách trung thực không? Hay họ chỉ đặt cờ Deleted rồi sau đó công bố rằng “đã được dùng cho việc huấn luyện do một lỗi kỹ thuật”?

2024-05-14

[Bình luận này đã bị ẩn.]

savvykang 2024-05-14

Hơn nữa, khác với Hàn Quốc hay châu Âu ngay từ đầu, ở Mỹ, tranh cãi về 'quyền được lãng quên' là chuyện không thể đi đến hồi kết...

Tôi không có kiến thức nền về phía này nên đã tìm kiếm nhanh một chút; có phải là vì quyền tự do biểu đạt xung đột với quyền được lãng quên không? Vì vẫn chưa có sự đồng thuận nên cũng chưa được lập pháp hóa đúng không?

jayuloy 2024-05-14

Wow, chuyện này thật sự cũng có thể xảy ra nhỉ.

xguru 2024-05-14

Stack Overflow và OpenAI thiết lập quan hệ đối tác
Người dùng Stack Overflow liên tiếp xóa câu trả lời sau thỏa thuận hợp tác với OpenAI

Lý do tôi đóng góp thời gian và chuyên môn cho Stack Overflow là vì giấy phép CC-BY-SA

Bài viết liên quan

14 bình luận