Mô hình ngôn ngữ lớn làm giảm chia sẻ tri thức công khai trên các nền tảng Hỏi & Đáp trực tuyến
(academic.oup.com)Tóm tắt
-
Tác động của mô hình ngôn ngữ lớn (LLM)
Mô hình ngôn ngữ lớn (LLM) có khả năng thay thế dữ liệu do con người tạo ra và các nguồn tri thức. Tuy nhiên, sự thay thế này đặt ra vấn đề là có thể dẫn đến suy giảm dữ liệu huấn luyện cần thiết cho việc phát triển các mô hình trong tương lai. Nghiên cứu này ghi nhận rằng hoạt động trên Stack Overflow đã giảm cùng với thời điểm ChatGPT ra mắt. -
Tác động của ChatGPT
Trong vòng 6 tháng sau khi ChatGPT ra mắt, hoạt động trên Stack Overflow giảm 25% so với các nền tảng tương tự ở Nga và Trung Quốc cũng như các diễn đàn toán học. Đây được diễn giải là mức cận dưới của tác động thực sự mà ChatGPT gây ra đối với Stack Overflow. Mức giảm lớn hơn ở các bài đăng liên quan đến những ngôn ngữ lập trình được sử dụng rộng rãi nhất. -
Hiệu ứng thay thế của LLM
LLM không chỉ thay thế nội dung trùng lặp hoặc chất lượng thấp mà còn thay thế cả nội dung chất lượng cao. Người dùng ChatGPT ít có khả năng đăng bài lên Stack Overflow hơn và cũng không thường xuyên truy cập nền tảng này. Điều đó cho thấy việc LLM được chấp nhận nhanh chóng có thể làm giảm việc tạo ra dữ liệu công khai cần thiết cho huấn luyện, từ đó gây ra những hệ quả quan trọng. -
Tác động theo từng ngôn ngữ lập trình
Tác động của ChatGPT lớn hơn ở các ngôn ngữ được dùng rộng rãi như Python và Javascript. Ở một số ngôn ngữ cụ thể như CUDA, số bài đăng lại tăng sau khi ChatGPT ra mắt. Điều này cho thấy mối quan tâm đối với phần mềm liên quan đến AI đang gia tăng.
Tổng hợp của GN⁺
- Nghiên cứu này phân tích tác động của các mô hình ngôn ngữ lớn như ChatGPT đối với các nền tảng Hỏi & Đáp trực tuyến, qua đó nhấn mạnh ảnh hưởng tiêu cực của việc AI được chấp nhận nhanh chóng đến quá trình tạo ra dữ liệu công khai.
- Khi việc sử dụng ChatGPT gia tăng, hoạt động trên các nền tảng như Stack Overflow suy giảm, và điều này có thể ảnh hưởng đến chất lượng dữ liệu huấn luyện cho các mô hình AI trong tương lai.
- Những thay đổi này có thể tạo ra tác động quan trọng đến nền kinh tế số và cách tiếp cận thông tin, đồng thời làm dấy lên lo ngại về tính bền vững của hệ sinh thái AI.
- Một dự án khác có chức năng tương tự là các kho lưu trữ liên quan đến ngôn ngữ lập trình trên GitHub.
1 bình luận
Ý kiến trên Hacker News
Cuối cùng, vấn đề là LLM sẽ dựa vào điều gì. Nó không tạo ra thông tin mới mà chỉ nhắc lại và kết hợp thông tin sẵn có, nên với những đoạn mã không có đủ mẫu công khai hoặc câu trả lời trên Stack Overflow/Reddit thì hiệu năng giảm mạnh
Phải trao đổi qua lại vài lần mới ra được lời giải chạy được, nhưng cuối cùng vẫn làm xong, và điều đó khiến tôi tự hỏi liệu AI đã giỏi tìm và tiêu hóa những tài liệu obscure trên Internet, hay là nó hiểu tài liệu khó tốt hơn tôi. Nếu là vế sau, thì nhu cầu về các mẫu công khai có thể sẽ giảm đi
Mọi thứ đã đang nghiêng về các công nghệ mà LLM xử lý tốt, và lợi thế đó lớn hơn lợi ích của một ngôn ngữ hay framework chỉ tốt hơn đôi chút. Tôi khá ghét Python với tư cách một ngôn ngữ, nhưng khó phủ nhận rằng LLM làm việc với Python tốt hơn hẳn nhiều ngôn ngữ khác
Tôi bịa con số này nhưng vẫn có thể biện hộ: 90% thông tin trên Stack Overflow chỉ là nội dung được lặp lại từ một cuốn manual nào đó. Vấn đề là khó tìm được thông tin cần trong tài liệu liên quan, và ngay cả khi tìm được thì nhiều khi cũng khó đọc, còn LLM lại rất giỏi trong việc đọc và hiểu tài liệu
Những màn demo kỹ thuật tạo cả ứng dụng ngay lập tức chỉ với một hai prompt là rất hời hợt. Nếu bạn không biết mình đang làm gì, trong lúc tiếp tục thêm tính năng nó sẽ liên tục đổi cách gọi API, cách quản lý state và thư viện CSS. Ví dụ, trong một file đã có 3 hàm
fetchnative, nó lại đột nhiên đề nghị càiaxiosvà dùng nó mà không có lý doNó cũng có thể xóa mất những đoạn như
{/* rest of your functions here*}Sau một thời gian thì có vẻ chỉ còn an toàn để dùng cho các việc nhàm chán như vòng lặp hay
switch, nên việc làm của lập trình viên có lẽ vẫn an toàn trong một thời gian nữaBài báo nói rằng LLM đang làm giảm chia sẻ tri thức công khai, và hiệu ứng đó không chỉ đơn giản là thay thế nội dung trùng lặp, chất lượng thấp, hoặc ở mức người mới, nhưng lập luận khá yếu và tác động cũng không giật gân như tiêu đề
Thứ nhất, với phép kiểm định được đề xuất rằng LLM thay thế bài đăng chất lượng thấp, họ chỉ đưa ra Figure 3 mà không trình bày kết quả hồi quy. Trong khi đó, họ lại báo cáo phép kiểm định cho cách phân loại kinh nghiệm người dùng khá tùy tiện, kiểu đăng 10 bài thì được xem là có kinh nghiệm. Tôi thắc mắc vì sao họ bỏ qua kiểm định theo chất lượng bài đăng mà lại cho xem kết quả của các nhóm “kinh nghiệm” tùy ý như vậy
Thứ hai, bản thân Figure 3 cho thấy thay đổi xu hướng ở các câu hỏi tốt và trung tính. Câu hỏi tốt vốn đang giảm rồi trở nên đi ngang, còn câu hỏi trung tính vốn đang tăng rồi cũng đi ngang. Câu hỏi tệ vẫn tiếp tục giảm mà không có thay đổi xu hướng đáng chú ý. Điều này lại gợi ý kết luận ngược lại rằng LLM đang thay thế nội dung chất lượng thấp
Kết luận lẽ ra cần cách diễn đạt mạnh hơn, và nghiên cứu này tuy cẩn thận nhưng không bù đắp được cho kết quả vốn không có gì bất ngờ. Vì thế tạo cảm giác như có một tiêu đề giật gân và vài kết quả dường như đã bị lược bỏ
Mọi người không còn tự do chia sẻ thông tin trên các diễn đàn công khai như trước mà rút về các dịch vụ như Discord, đào hào và kéo cầu lên. Cũng khó mà trách họ. Nhiều diễn đàn và mạng xã hội ngày càng áp dụng thiết kế thù địch và kiếm tiền hóa, còn AI/LLM thì đi crawl khắp nơi, hút mọi thứ vào rồi đặt sau tường phí, đồng thời làm giảm khả năng nguồn gốc ban đầu được tìm thấy qua tìm kiếm. Các thuật toán thúc đẩy tương tác lại nuôi lớn sự cay nghiệt và tranh cãi. Dạo này HN là ngoại lệ hiếm hoi
Rốt cuộc, những người có mối quan tâm hoặc tri thức chuyên biệt tụ lại trong các cộng đồng riêng tư và chỉ nói chuyện với nhau, khiến môi trường ngày càng khó tiếp cận hơn với người mới muốn tham gia
Việc mọi người giảm đóng góp miễn phí cho Stack Overflow là điều dễ hiểu. Stack Overflow đang bán đứng những người đóng góp bằng hợp đồng API với OpenAI và vô số bài blog thổi phồng về “AI”
Theo trải nghiệm cá nhân, khá nhiều câu hỏi liên quan đến dự án mã nguồn mở đã chuyển sang GitHub và Discord, nên ngoài LLM còn có cả sự dịch chuyển nền tảng
Với các vấn đề lập trình tổng quát hơn, tôi thường bắt đầu bằng Gemini. Nó thường trả lời ngay bằng đúng thuật ngữ của vấn đề tôi gặp, nên tôi không phải lục lọi nhiều trang rồi ghép nối lại, hoặc nếu sai thì cũng cho tôi manh mối tốt hơn để bắt đầu tìm kiếm. Nó giúp tiết kiệm thời gian phải bấm vào hàng loạt bài Stack Overflow có tiêu đề na ná nhau nhưng khác biệt quan trọng trong nội dung
Năm 2024: Discord hay vì không bị các máy tạo rác AI lập chỉ mục
Tôi có theo dõi nhiều subreddit về kỹ thuật, và trong 2 năm qua đã thấy rất nhiều câu hỏi giống nhau được rải lên nhiều subreddit. Tài khoản thì mới tạo hoặc mọi câu trả lời đều là những phản hồi một dòng trông như được tạo tự động
Tôi xem đó là các tài khoản bot dùng để huấn luyện AI, nên trước khi viết một lời giải thích kỹ thuật dài, tôi sẽ xác nhận trước xem có đúng là người thật đang hỏi hay không rồi mới trả lời
Cuối cùng, thành công của “văn hóa quà tặng”, “tri thức phải được tự do”, F/OSS và những thứ tương tự thông qua WWW có lẽ sẽ khiến toàn bộ đạo đức hacker kiểu Stallman bị nhìn nhận theo hướng tệ hại
Tất cả chúng ta đều làm việc cho IBM^H^H^HOpenAI, nhưng giờ chẳng còn thứ gì như GPL để chống lưng cho chúng ta nữa
Nếu bạn có cảm giác déjà vu, thì chuyện này đã từng được các nhà phê bình nêu bật từ tháng 7 năm 2023 qua bài “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow”: https://arxiv.org/abs/2307.07367
HN cũng đã bàn về nó: https://news.ycombinator.com/item?id=36763718
Liên quan còn có https://meta.stackoverflow.com/questions/425635 và https://meta.stackoverflow.com/questions/422392
Rốt cuộc, mô hình ngôn ngữ quy mô lớn sẽ là dấu chấm hết của mã nguồn mở. Cứ chấp nhận đi
Mô hình ngôn ngữ quy mô lớn được dùng để tổng hợp và nội suy tài sản trí tuệ. Trong quá trình này không có sự ghi nhận tác giả hay phả hệ, cũng không có dẫn nguồn hay trích dẫn. Trên thực tế, tài sản trí tuệ được dùng để huấn luyện mô hình trở thành một loại tài sản chung vô danh
Phần thưởng xã hội vốn thường là động lực cho công việc mã nguồn mở, như danh tiếng và sự tôn trọng, sẽ bị suy yếu. Rồi nó sẽ kết thúc như vậy thôi
Chi phí đóng góp giảm mạnh. Ví dụ, 100 đô la mua được 200 triệu token GPT-3.5, tương đương dùng 10.000 token để phát triển mỗi dòng trong một dự án 20.000 dòng
Một dự án cỡ vừa có thể làm được chỉ với một khoản quyên góp và nửa buổi chiều quản lý framework workflow
Nếu LLM là dấu chấm hết của mã nguồn mở, thì lý do sẽ đúng như đã nói: chúng tổng hợp và nội suy tài sản trí tuệ, rồi biến tài sản trí tuệ được huấn luyện mà không ghi nhận tác giả, phả hệ hay nguồn gốc thành tài sản chung vô danh
Nhưng nếu điều này là thật và vẫn tiếp tục được cho phép, thì mọi tài sản trí tuệ dựa vào bản quyền đều bị đe dọa như nhau. Đây không phải vấn đề chỉ riêng mã nguồn mở mới có. Nếu ý là các tác phẩm không phải mã nguồn mở sẽ được bảo vệ bằng cách giữ bí mật “mã nguồn” hay thứ tương đương của chúng, thì tôi không rõ người ta sẽ kiếm tiền bằng một bộ phim bom tấn không thể cho ai xem hay một cuốn tiểu thuyết phải ngăn không cho bất kỳ ai đọc bằng cách nào
Danh tiếng và sự tôn trọng không phải là động lực duy nhất của công việc mã nguồn mở, và tôi cũng nghi ngờ đó có phải động lực phổ biến nhất hay không. Những phần thưởng như vậy gần với hình ảnh mà các bên muốn biến mã nguồn mở thành một mạng xã hội hay một trò chơi thích vẽ ra hơn
Cũng không rõ vì sao những thứ đó lại phải biến mất. Việc máy ảnh ra đời không làm mất đi niềm vui nghệ thuật của các họa sĩ chân dung. Động lực thuần túy về tiền bạc có thể bị ảnh hưởng, nhưng đó lại không phải là động lực đặc thù riêng của mã nguồn mở
Việc cố giữ kho ngữ liệu văn bản do con người tạo ra — thứ giờ đã có giá trị để huấn luyện LLM — trong một khu vườn khép kín là một cuộc chiến thua cuộc. Có lẽ ngựa đã sổng chuồng từ lâu rồi
Tuy vậy, tôi nghĩ đây chỉ là vấn đề tạm thời. LLM là công nghệ mang tính quá độ. Đến một lúc nào đó, sẽ không còn cần phải học toàn bộ Reddit và mọi thứ từng được viết ra cho đến nay nữa. Những mô hình thống kê kiểu này có giới hạn rất rõ ràng, và con người cũng không học theo cách đó. Ta có thể đã đọc hàng trăm, thậm chí hàng nghìn cuốn sách trong đời, nhưng không phải một triệu cuốn, và cũng không cần như vậy
Điều thú vị là dù chuyện này rõ ràng là ăn cắp, nó lại được xem là hành vi ăn cắp từ các trang web hay công ty “sở hữu” dữ liệu, chứ không phải ăn cắp từ những người dùng đã tạo ra nó. Các trang nội dung do người dùng tạo ra rốt cuộc đều có số phận thất bại. Vì động cơ của chúng lệch khỏi động cơ của người dùng, và việc theo đuổi lợi nhuận vô tận tất yếu sẽ khiến người dùng rời bỏ
Một vấn đề khác là phải “tiêu thụ” bao nhiêu tài sản trí tuệ thì mới thành ăn cắp. Nếu LLM đã xem mọi bộ phim từng được làm ra thì có lẽ đó là ăn cắp. Nhưng từ bao nhiêu bộ thì là quá nhiều? Apocalypse Now được phóng tác khá lỏng hoặc lấy cảm hứng từ Heart of Darkness, nhưng không thể nói một con người đọc Heart of Darkness là “ăn cắp” được
Như người ta vẫn nói, mọi nghệ thuật đều mang tính phái sinh
Nó có thể tạo thơ và văn chương, cũng như sinh mã, câu trả lời vật lý, và cả câu trả lời về sửa chữa ô tô theo cách tương tự. Ngày nay, con người có được kiểu năng lực đó là cực kỳ hiếm
Vì vậy tôi đồng ý rằng LLM là công nghệ quá độ, nhưng theo nghĩa giống như tính quá độ trong bộ não từ hạch nền đến tân vỏ não. Bộ não AGI tổng dụng trong tương lai rất có thể sẽ chứa LLM cùng với các thành phần khác, nhưng chưa rõ liệu nó có nhất thiết phải tiến hóa để vận hành giống não người hay không
LLM có thể học tài liệu chính thức của công cụ hay thư viện, nhưng không thể tự mình thử nghiệm những vấn đề kỳ quặc vốn quá phổ biến trong ngành công nghệ để tìm ra cách giải. Nếu mọi người ngừng chia sẻ các cách giải đó với nhau thì có thể sẽ là vấn đề lớn
Ví dụ, tôi tự hỏi liệu có thể huấn luyện một AI dùng học tăng cường và mạng đối kháng sinh, để nó thực hiện các tác vụ IT dựa trên một bó tài liệu, rồi đo độ thích nghi không chỉ bằng thành công trực tiếp của tác vụ mà còn bằng khả năng tạo ra các tài liệu mới, được tinh luyện tốt hơn, giúp một bản sao khác của chính nó không có bất kỳ ngữ cảnh nào vẫn làm tốt tác vụ đó hay không
Việc nghe những bậc guru tâm linh khác nhau diễn đạt cùng một nội dung bằng những lời khác nhau giống như nhìn các mảnh kính màu giống nhau trong kính vạn hoa được sắp xếp lại để tạo thành hoa văn mới
Vì vậy nếu AI tương lai cũng được dùng giống như ChatGPT hiện nay — để người bình thường hỏi lời khuyên về gần như mọi thứ — thì rốt cuộc nó sẽ phải đọc mọi thứ
Người ta không đăng bài ở nơi họ không ghé tới
Với các tài liệu đã nổi tiếng, đặc biệt là về các ngôn ngữ phổ biến, lý do người ta không vào Stack Overflow là vì perplexity.ai, ChatGPT, Claude và các công cụ tương tự không chỉ trả lời câu hỏi tốt hơn việc đọc các trang Stack Overflow, mà còn cho phép sao chép-dán câu trả lời nhanh hơn, bất kể đúng hay sai
Nếu bạn không có mặt trên Stack Overflow để đặt câu hỏi, thì bạn cũng sẽ không ở đó để trả lời. Không cần lý do nào khác để giải thích hiện tượng đang quan sát được
Dĩ nhiên điều đó cũng có nghĩa là nếu Stack Overflow và các diễn đàn Q&A khác muốn cạnh tranh, họ phải đẩy tính hữu dụng của câu trả lời — tức mức độ thuận tiện khi tích hợp câu trả lời vào quy trình làm việc — lên ưu tiên hàng đầu
Không phải AI “trả lời câu hỏi tốt hơn”. Nó chỉ cắt bỏ bước trung gian là diễn giải câu hỏi rồi ghép nó với những từ ngữ trông giống một câu trả lời. Nó thường xuyên bị ảo giác, và hầu như không hề kiểm tra tính hợp lý của điều người hỏi đang muốn làm
Lý do chính khiến nó vượt trội hơn diễn đàn Q&A về tốc độ và sự tiện lợi là vì nó hoàn toàn không quan tâm liệu câu hỏi và câu trả lời đó sau này có giúp ích cho người khác hay không. Nó không phải cân nhắc các yêu cầu như phải tìm được qua công cụ tìm kiếm, để người khác hiểu đó là cùng một câu hỏi, và phải tập trung vào một vấn đề duy nhất
Ngay từ đầu nó đã không được thiết kế như vậy, và cũng chẳng có lợi ích gì để làm thế. Khi người tiếp theo hỏi, nó chỉ việc tạo lại cùng nội dung câu trả lời đó theo một kiểu chất lượng thấp khác. Khác với chuyên gia con người, AI không thấy mệt vì công việc đó