Mô hình ngôn ngữ lớn làm giảm chia sẻ tri thức công khai trên các nền tảng Hỏi & Đáp trực tuyến
(academic.oup.com)Tóm tắt
-
Tác động của mô hình ngôn ngữ lớn (LLM)
Mô hình ngôn ngữ lớn (LLM) có khả năng thay thế dữ liệu do con người tạo ra và các nguồn tri thức. Tuy nhiên, sự thay thế này đặt ra vấn đề là có thể dẫn đến suy giảm dữ liệu huấn luyện cần thiết cho việc phát triển các mô hình trong tương lai. Nghiên cứu này ghi nhận rằng hoạt động trên Stack Overflow đã giảm cùng với thời điểm ChatGPT ra mắt. -
Tác động của ChatGPT
Trong vòng 6 tháng sau khi ChatGPT ra mắt, hoạt động trên Stack Overflow giảm 25% so với các nền tảng tương tự ở Nga và Trung Quốc cũng như các diễn đàn toán học. Đây được diễn giải là mức cận dưới của tác động thực sự mà ChatGPT gây ra đối với Stack Overflow. Mức giảm lớn hơn ở các bài đăng liên quan đến những ngôn ngữ lập trình được sử dụng rộng rãi nhất. -
Hiệu ứng thay thế của LLM
LLM không chỉ thay thế nội dung trùng lặp hoặc chất lượng thấp mà còn thay thế cả nội dung chất lượng cao. Người dùng ChatGPT ít có khả năng đăng bài lên Stack Overflow hơn và cũng không thường xuyên truy cập nền tảng này. Điều đó cho thấy việc LLM được chấp nhận nhanh chóng có thể làm giảm việc tạo ra dữ liệu công khai cần thiết cho huấn luyện, từ đó gây ra những hệ quả quan trọng. -
Tác động theo từng ngôn ngữ lập trình
Tác động của ChatGPT lớn hơn ở các ngôn ngữ được dùng rộng rãi như Python và Javascript. Ở một số ngôn ngữ cụ thể như CUDA, số bài đăng lại tăng sau khi ChatGPT ra mắt. Điều này cho thấy mối quan tâm đối với phần mềm liên quan đến AI đang gia tăng.
Tổng hợp của GN⁺
- Nghiên cứu này phân tích tác động của các mô hình ngôn ngữ lớn như ChatGPT đối với các nền tảng Hỏi & Đáp trực tuyến, qua đó nhấn mạnh ảnh hưởng tiêu cực của việc AI được chấp nhận nhanh chóng đến quá trình tạo ra dữ liệu công khai.
- Khi việc sử dụng ChatGPT gia tăng, hoạt động trên các nền tảng như Stack Overflow suy giảm, và điều này có thể ảnh hưởng đến chất lượng dữ liệu huấn luyện cho các mô hình AI trong tương lai.
- Những thay đổi này có thể tạo ra tác động quan trọng đến nền kinh tế số và cách tiếp cận thông tin, đồng thời làm dấy lên lo ngại về tính bền vững của hệ sinh thái AI.
- Một dự án khác có chức năng tương tự là các kho lưu trữ liên quan đến ngôn ngữ lập trình trên GitHub.
1 bình luận
Ý kiến trên Hacker News
LLM có vấn đề là không tạo ra thông tin mới mà chỉ tái tổ hợp thông tin sẵn có. Khi thiếu ví dụ mã nguồn thì hiệu năng kém
Đặt nghi vấn về tuyên bố rằng LLM đang làm giảm việc chia sẻ tri thức công khai
Các câu hỏi về dự án mã nguồn mở đang chuyển sang GitHub và Discord
Lý do các đóng góp miễn phí cho Stack Overflow giảm là vì hợp đồng API của OpenAI và các bài viết blog liên quan đến AI
Khi đạt tới AGI, LLM sẽ nói rằng "cuộc trò chuyện này đã được đánh dấu là trùng lặp"
LLM có thể thu hẹp phạm vi của tri thức và diễn ngôn
Nếu các tương tác kỹ thuật giảm đi, điều đó cũng có thể ảnh hưởng đến các tương tác trong thế giới thực
LLM học từ các nền tảng hỏi đáp trực tuyến, nhưng nếu mọi người ngừng đặt câu hỏi và trả lời thì nguồn tri thức có thể bị ô nhiễm bởi dữ liệu LLM không chính xác
Có thể sẽ cần các tác nhân tự động đóng góp lên Stack Overflow và tự động upvote cho các giải pháp