Mô hình ngôn ngữ lớn làm giảm chia sẻ tri thức công khai trên các nền tảng Hỏi & Đáp trực tuyến

(academic.oup.com)

2 điểm bởi GN⁺ 2024-10-14 | 1 bình luận | Chia sẻ qua WhatsApp

Tóm tắt

Tác động của mô hình ngôn ngữ lớn (LLM)
Mô hình ngôn ngữ lớn (LLM) có khả năng thay thế dữ liệu do con người tạo ra và các nguồn tri thức. Tuy nhiên, sự thay thế này đặt ra vấn đề là có thể dẫn đến suy giảm dữ liệu huấn luyện cần thiết cho việc phát triển các mô hình trong tương lai. Nghiên cứu này ghi nhận rằng hoạt động trên Stack Overflow đã giảm cùng với thời điểm ChatGPT ra mắt.
Tác động của ChatGPT
Trong vòng 6 tháng sau khi ChatGPT ra mắt, hoạt động trên Stack Overflow giảm 25% so với các nền tảng tương tự ở Nga và Trung Quốc cũng như các diễn đàn toán học. Đây được diễn giải là mức cận dưới của tác động thực sự mà ChatGPT gây ra đối với Stack Overflow. Mức giảm lớn hơn ở các bài đăng liên quan đến những ngôn ngữ lập trình được sử dụng rộng rãi nhất.
Hiệu ứng thay thế của LLM
LLM không chỉ thay thế nội dung trùng lặp hoặc chất lượng thấp mà còn thay thế cả nội dung chất lượng cao. Người dùng ChatGPT ít có khả năng đăng bài lên Stack Overflow hơn và cũng không thường xuyên truy cập nền tảng này. Điều đó cho thấy việc LLM được chấp nhận nhanh chóng có thể làm giảm việc tạo ra dữ liệu công khai cần thiết cho huấn luyện, từ đó gây ra những hệ quả quan trọng.
Tác động theo từng ngôn ngữ lập trình
Tác động của ChatGPT lớn hơn ở các ngôn ngữ được dùng rộng rãi như Python và Javascript. Ở một số ngôn ngữ cụ thể như CUDA, số bài đăng lại tăng sau khi ChatGPT ra mắt. Điều này cho thấy mối quan tâm đối với phần mềm liên quan đến AI đang gia tăng.

Tổng hợp của GN⁺

Nghiên cứu này phân tích tác động của các mô hình ngôn ngữ lớn như ChatGPT đối với các nền tảng Hỏi & Đáp trực tuyến, qua đó nhấn mạnh ảnh hưởng tiêu cực của việc AI được chấp nhận nhanh chóng đến quá trình tạo ra dữ liệu công khai.
Khi việc sử dụng ChatGPT gia tăng, hoạt động trên các nền tảng như Stack Overflow suy giảm, và điều này có thể ảnh hưởng đến chất lượng dữ liệu huấn luyện cho các mô hình AI trong tương lai.
Những thay đổi này có thể tạo ra tác động quan trọng đến nền kinh tế số và cách tiếp cận thông tin, đồng thời làm dấy lên lo ngại về tính bền vững của hệ sinh thái AI.
Một dự án khác có chức năng tương tự là các kho lưu trữ liên quan đến ngôn ngữ lập trình trên GitHub.

1 bình luận

GN⁺ 2024-10-14

Ý kiến trên Hacker News

Cuối cùng, vấn đề là LLM sẽ dựa vào điều gì. Nó không tạo ra thông tin mới mà chỉ nhắc lại và kết hợp thông tin sẵn có, nên với những đoạn mã không có đủ mẫu công khai hoặc câu trả lời trên Stack Overflow/Reddit thì hiệu năng giảm mạnh
- Tham khảo thêm, GPT o1 đã giúp giải quyết một trường hợp sử dụng khá phức tạp của epub.js, một thư viện mã nguồn mở có tài liệu không rõ ràng và ít ví dụ công khai
  Phải trao đổi qua lại vài lần mới ra được lời giải chạy được, nhưng cuối cùng vẫn làm xong, và điều đó khiến tôi tự hỏi liệu AI đã giỏi tìm và tiêu hóa những tài liệu obscure trên Internet, hay là nó hiểu tài liệu khó tốt hơn tôi. Nếu là vế sau, thì nhu cầu về các mẫu công khai có thể sẽ giảm đi
- Có thể xuất hiện một tác dụng phụ thú vị là vì LLM không biết nên mọi người sẽ bớt tạo ra ngôn ngữ lập trình và framework mới một cách vô tội vạ
  Mọi thứ đã đang nghiêng về các công nghệ mà LLM xử lý tốt, và lợi thế đó lớn hơn lợi ích của một ngôn ngữ hay framework chỉ tốt hơn đôi chút. Tôi khá ghét Python với tư cách một ngôn ngữ, nhưng khó phủ nhận rằng LLM làm việc với Python tốt hơn hẳn nhiều ngôn ngữ khác
- Trái với câu nói rằng nó “không tạo ra thông tin mới”, phần lớn chia sẻ tri thức trên các nền tảng hỏi đáp trực tuyến không phải hoạt động sáng tạo. Nó gần như là việc hỏi đi hỏi lại cùng một vấn đề mà ai cũng gặp, trừ chính người phát triển hệ thống, và phần lớn chỉ là thay thế cho nền tảng tìm kiếm
- Điều mà LLM có thể dựa vào là tài liệu chính thức
  Tôi bịa con số này nhưng vẫn có thể biện hộ: 90% thông tin trên Stack Overflow chỉ là nội dung được lặp lại từ một cuốn manual nào đó. Vấn đề là khó tìm được thông tin cần trong tài liệu liên quan, và ngay cả khi tìm được thì nhiều khi cũng khó đọc, còn LLM lại rất giỏi trong việc đọc và hiểu tài liệu
- LLM cứ nửa cũ nửa mới giữa cách làm trước đây và cách làm mới, và khi mớ mã spaghetti do LLM tạo ra càng lớn thì nó càng không thể thêm tính năng một cách chính xác mà không làm hỏng logic cũ
  Những màn demo kỹ thuật tạo cả ứng dụng ngay lập tức chỉ với một hai prompt là rất hời hợt. Nếu bạn không biết mình đang làm gì, trong lúc tiếp tục thêm tính năng nó sẽ liên tục đổi cách gọi API, cách quản lý state và thư viện CSS. Ví dụ, trong một file đã có 3 hàm fetch native, nó lại đột nhiên đề nghị cài axios và dùng nó mà không có lý do
  Nó cũng có thể xóa mất những đoạn như {/* rest of your functions here*}
  Sau một thời gian thì có vẻ chỉ còn an toàn để dùng cho các việc nhàm chán như vòng lặp hay switch, nên việc làm của lập trình viên có lẽ vẫn an toàn trong một thời gian nữa
Bài báo nói rằng LLM đang làm giảm chia sẻ tri thức công khai, và hiệu ứng đó không chỉ đơn giản là thay thế nội dung trùng lặp, chất lượng thấp, hoặc ở mức người mới, nhưng lập luận khá yếu và tác động cũng không giật gân như tiêu đề
Thứ nhất, với phép kiểm định được đề xuất rằng LLM thay thế bài đăng chất lượng thấp, họ chỉ đưa ra Figure 3 mà không trình bày kết quả hồi quy. Trong khi đó, họ lại báo cáo phép kiểm định cho cách phân loại kinh nghiệm người dùng khá tùy tiện, kiểu đăng 10 bài thì được xem là có kinh nghiệm. Tôi thắc mắc vì sao họ bỏ qua kiểm định theo chất lượng bài đăng mà lại cho xem kết quả của các nhóm “kinh nghiệm” tùy ý như vậy
Thứ hai, bản thân Figure 3 cho thấy thay đổi xu hướng ở các câu hỏi tốt và trung tính. Câu hỏi tốt vốn đang giảm rồi trở nên đi ngang, còn câu hỏi trung tính vốn đang tăng rồi cũng đi ngang. Câu hỏi tệ vẫn tiếp tục giảm mà không có thay đổi xu hướng đáng chú ý. Điều này lại gợi ý kết luận ngược lại rằng LLM đang thay thế nội dung chất lượng thấp
Kết luận lẽ ra cần cách diễn đạt mạnh hơn, và nghiên cứu này tuy cẩn thận nhưng không bù đắp được cho kết quả vốn không có gì bất ngờ. Vì thế tạo cảm giác như có một tiêu đề giật gân và vài kết quả dường như đã bị lược bỏ
- Dù bài này không bàn chính xác về điều đó, trước đây trên HN có người diễn đạt hiện tượng tương tự khá hay: Internet đang bị Balkan hóa. Đây không phải khái niệm mới, nhưng khi tập trung vào các cộng đồng trực tuyến thì nó đặc biệt đúng
  Mọi người không còn tự do chia sẻ thông tin trên các diễn đàn công khai như trước mà rút về các dịch vụ như Discord, đào hào và kéo cầu lên. Cũng khó mà trách họ. Nhiều diễn đàn và mạng xã hội ngày càng áp dụng thiết kế thù địch và kiếm tiền hóa, còn AI/LLM thì đi crawl khắp nơi, hút mọi thứ vào rồi đặt sau tường phí, đồng thời làm giảm khả năng nguồn gốc ban đầu được tìm thấy qua tìm kiếm. Các thuật toán thúc đẩy tương tác lại nuôi lớn sự cay nghiệt và tranh cãi. Dạo này HN là ngoại lệ hiếm hoi
  Rốt cuộc, những người có mối quan tâm hoặc tri thức chuyên biệt tụ lại trong các cộng đồng riêng tư và chỉ nói chuyện với nhau, khiến môi trường ngày càng khó tiếp cận hơn với người mới muốn tham gia
- Nếu LLM hỗ trợ coder đủ tốt để mọi người bớt dành thời gian trên Stack Overflow và thay vào đó đẩy lên nhiều mã nguồn mở hơn, thì có khi điều đó còn có giá trị hơn cho tất cả mọi người
Việc mọi người giảm đóng góp miễn phí cho Stack Overflow là điều dễ hiểu. Stack Overflow đang bán đứng những người đóng góp bằng hợp đồng API với OpenAI và vô số bài blog thổi phồng về “AI”
- Có lẽ đó không phải lý do chính. Mọi người thường không quá bận tâm nếu ai đó đem thứ họ tạo trên nền tảng đi bán. Các mạng xã hội lớn như Facebook đã làm thế nhiều năm mà vẫn có người dùng. Người ta đến Stack Overflow để lấy câu trả lời, vậy tại sao họ phải quan tâm nếu sau này ai đó dùng câu trả lời đó để huấn luyện LLM
- Điều này có vẻ gần với sự sụt giảm câu hỏi hơn là giảm câu trả lời
- Giai đoạn phân tích chỉ đến tháng 5 năm 2023, tức là sớm hơn hợp đồng với OpenAI một năm. Hợp đồng đó không liên quan đến kết quả của bài báo
- Đây là phần cộng thêm trên một xu hướng dài hạn đã tiếp diễn từ khoảng năm 2014. Sự bất mãn với chất lượng và tính chất của câu hỏi đã liên tục tăng lên, tức là những câu hỏi không tuân theo hướng dẫn của trang và cũng không cho thấy nỗ lực hiểu cách trang web nên hoạt động
Theo trải nghiệm cá nhân, khá nhiều câu hỏi liên quan đến dự án mã nguồn mở đã chuyển sang GitHub và Discord, nên ngoài LLM còn có cả sự dịch chuyển nền tảng
Với các vấn đề lập trình tổng quát hơn, tôi thường bắt đầu bằng Gemini. Nó thường trả lời ngay bằng đúng thuật ngữ của vấn đề tôi gặp, nên tôi không phải lục lọi nhiều trang rồi ghép nối lại, hoặc nếu sai thì cũng cho tôi manh mối tốt hơn để bắt đầu tìm kiếm. Nó giúp tiết kiệm thời gian phải bấm vào hàng loạt bài Stack Overflow có tiêu đề na ná nhau nhưng khác biệt quan trọng trong nội dung
- Năm 2022: Discord dở vì không được công cụ tìm kiếm lập chỉ mục
  Năm 2024: Discord hay vì không bị các máy tạo rác AI lập chỉ mục
- Việc câu hỏi dự án mã nguồn mở chuyển sang GitHub và Discord hoàn toàn đúng với trải nghiệm của tôi. Thêm nữa, tôi thích vì có thể nói chuyện trực tiếp với maintainer
Tôi có theo dõi nhiều subreddit về kỹ thuật, và trong 2 năm qua đã thấy rất nhiều câu hỏi giống nhau được rải lên nhiều subreddit. Tài khoản thì mới tạo hoặc mọi câu trả lời đều là những phản hồi một dòng trông như được tạo tự động
Tôi xem đó là các tài khoản bot dùng để huấn luyện AI, nên trước khi viết một lời giải thích kỹ thuật dài, tôi sẽ xác nhận trước xem có đúng là người thật đang hỏi hay không rồi mới trả lời
- Dù sao thì cũng đang giúp cho việc huấn luyện
  Cuối cùng, thành công của “văn hóa quà tặng”, “tri thức phải được tự do”, F/OSS và những thứ tương tự thông qua WWW có lẽ sẽ khiến toàn bộ đạo đức hacker kiểu Stallman bị nhìn nhận theo hướng tệ hại
  Tất cả chúng ta đều làm việc cho IBM^H^H^HOpenAI, nhưng giờ chẳng còn thứ gì như GPL để chống lưng cho chúng ta nữa
Nếu bạn có cảm giác déjà vu, thì chuyện này đã từng được các nhà phê bình nêu bật từ tháng 7 năm 2023 qua bài “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow”: https://arxiv.org/abs/2307.07367
HN cũng đã bàn về nó: https://news.ycombinator.com/item?id=36763718
- Cũng đáng xem phần thảo luận meta của chính Stack Overflow về việc này: https://meta.stackoverflow.com/questions/425651
  Liên quan còn có https://meta.stackoverflow.com/questions/425635 và https://meta.stackoverflow.com/questions/422392
Rốt cuộc, mô hình ngôn ngữ quy mô lớn sẽ là dấu chấm hết của mã nguồn mở. Cứ chấp nhận đi
Mô hình ngôn ngữ quy mô lớn được dùng để tổng hợp và nội suy tài sản trí tuệ. Trong quá trình này không có sự ghi nhận tác giả hay phả hệ, cũng không có dẫn nguồn hay trích dẫn. Trên thực tế, tài sản trí tuệ được dùng để huấn luyện mô hình trở thành một loại tài sản chung vô danh
Phần thưởng xã hội vốn thường là động lực cho công việc mã nguồn mở, như danh tiếng và sự tôn trọng, sẽ bị suy yếu. Rồi nó sẽ kết thúc như vậy thôi
- Tại sao lại không dùng LLM để viết thêm mã nguồn mở?
  Chi phí đóng góp giảm mạnh. Ví dụ, 100 đô la mua được 200 triệu token GPT-3.5, tương đương dùng 10.000 token để phát triển mỗi dòng trong một dự án 20.000 dòng
  Một dự án cỡ vừa có thể làm được chỉ với một khoản quyên góp và nửa buổi chiều quản lý framework workflow
- Tôi không hiểu góc nhìn này
  Nếu LLM là dấu chấm hết của mã nguồn mở, thì lý do sẽ đúng như đã nói: chúng tổng hợp và nội suy tài sản trí tuệ, rồi biến tài sản trí tuệ được huấn luyện mà không ghi nhận tác giả, phả hệ hay nguồn gốc thành tài sản chung vô danh
  Nhưng nếu điều này là thật và vẫn tiếp tục được cho phép, thì mọi tài sản trí tuệ dựa vào bản quyền đều bị đe dọa như nhau. Đây không phải vấn đề chỉ riêng mã nguồn mở mới có. Nếu ý là các tác phẩm không phải mã nguồn mở sẽ được bảo vệ bằng cách giữ bí mật “mã nguồn” hay thứ tương đương của chúng, thì tôi không rõ người ta sẽ kiếm tiền bằng một bộ phim bom tấn không thể cho ai xem hay một cuốn tiểu thuyết phải ngăn không cho bất kỳ ai đọc bằng cách nào
  Danh tiếng và sự tôn trọng không phải là động lực duy nhất của công việc mã nguồn mở, và tôi cũng nghi ngờ đó có phải động lực phổ biến nhất hay không. Những phần thưởng như vậy gần với hình ảnh mà các bên muốn biến mã nguồn mở thành một mạng xã hội hay một trò chơi thích vẽ ra hơn
  Cũng không rõ vì sao những thứ đó lại phải biến mất. Việc máy ảnh ra đời không làm mất đi niềm vui nghệ thuật của các họa sĩ chân dung. Động lực thuần túy về tiền bạc có thể bị ảnh hưởng, nhưng đó lại không phải là động lực đặc thù riêng của mã nguồn mở
- Không hẳn vậy, nó chỉ khiến mã nguồn mở vốn đã đủ ngách lại càng ngách hơn nữa
Việc cố giữ kho ngữ liệu văn bản do con người tạo ra — thứ giờ đã có giá trị để huấn luyện LLM — trong một khu vườn khép kín là một cuộc chiến thua cuộc. Có lẽ ngựa đã sổng chuồng từ lâu rồi
Tuy vậy, tôi nghĩ đây chỉ là vấn đề tạm thời. LLM là công nghệ mang tính quá độ. Đến một lúc nào đó, sẽ không còn cần phải học toàn bộ Reddit và mọi thứ từng được viết ra cho đến nay nữa. Những mô hình thống kê kiểu này có giới hạn rất rõ ràng, và con người cũng không học theo cách đó. Ta có thể đã đọc hàng trăm, thậm chí hàng nghìn cuốn sách trong đời, nhưng không phải một triệu cuốn, và cũng không cần như vậy
Điều thú vị là dù chuyện này rõ ràng là ăn cắp, nó lại được xem là hành vi ăn cắp từ các trang web hay công ty “sở hữu” dữ liệu, chứ không phải ăn cắp từ những người dùng đã tạo ra nó. Các trang nội dung do người dùng tạo ra rốt cuộc đều có số phận thất bại. Vì động cơ của chúng lệch khỏi động cơ của người dùng, và việc theo đuổi lợi nhuận vô tận tất yếu sẽ khiến người dùng rời bỏ
Một vấn đề khác là phải “tiêu thụ” bao nhiêu tài sản trí tuệ thì mới thành ăn cắp. Nếu LLM đã xem mọi bộ phim từng được làm ra thì có lẽ đó là ăn cắp. Nhưng từ bao nhiêu bộ thì là quá nhiều? Apocalypse Now được phóng tác khá lỏng hoặc lấy cảm hứng từ Heart of Darkness, nhưng không thể nói một con người đọc Heart of Darkness là “ăn cắp” được
Như người ta vẫn nói, mọi nghệ thuật đều mang tính phái sinh
- Đồng ý, nhưng cũng có thể chúng ta đang đặc quyền hóa quá mức cách vận hành của trí thông minh con người. LLM là một người biết tuốt có thể tuôn nội dung ra với tốc độ siêu phàm
  Nó có thể tạo thơ và văn chương, cũng như sinh mã, câu trả lời vật lý, và cả câu trả lời về sửa chữa ô tô theo cách tương tự. Ngày nay, con người có được kiểu năng lực đó là cực kỳ hiếm
  Vì vậy tôi đồng ý rằng LLM là công nghệ quá độ, nhưng theo nghĩa giống như tính quá độ trong bộ não từ hạch nền đến tân vỏ não. Bộ não AGI tổng dụng trong tương lai rất có thể sẽ chứa LLM cùng với các thành phần khác, nhưng chưa rõ liệu nó có nhất thiết phải tiến hóa để vận hành giống não người hay không
- Diễn đàn trực tuyến đôi khi là nơi duy nhất có thể tìm ra lời giải cho những tình huống ngách và ca biên. Đó là các mẹo mà nếu tự mày mò một mình thì rất khó tìm ra
  LLM có thể học tài liệu chính thức của công cụ hay thư viện, nhưng không thể tự mình thử nghiệm những vấn đề kỳ quặc vốn quá phổ biến trong ngành công nghệ để tìm ra cách giải. Nếu mọi người ngừng chia sẻ các cách giải đó với nhau thì có thể sẽ là vấn đề lớn
- Dạo này tôi nghĩ nhiều về chuyện “con người không học theo cách đó”
  Ví dụ, tôi tự hỏi liệu có thể huấn luyện một AI dùng học tăng cường và mạng đối kháng sinh, để nó thực hiện các tác vụ IT dựa trên một bó tài liệu, rồi đo độ thích nghi không chỉ bằng thành công trực tiếp của tác vụ mà còn bằng khả năng tạo ra các tài liệu mới, được tinh luyện tốt hơn, giúp một bản sao khác của chính nó không có bất kỳ ngữ cảnh nào vẫn làm tốt tác vụ đó hay không
- Khi nghĩ đến những cuốn như “Finite and Infinite Games”, tôi thấy rằng chỉ từ việc đọc ở các lĩnh vực khác thôi, người ta cũng có thể phần nào “tái dựng” được tri thức và luận điểm cốt lõi của cuốn sách đó
  Việc nghe những bậc guru tâm linh khác nhau diễn đạt cùng một nội dung bằng những lời khác nhau giống như nhìn các mảnh kính màu giống nhau trong kính vạn hoa được sắp xếp lại để tạo thành hoa văn mới
- Chỉ đúng một nửa. Suy luận và sự hiểu thực sự có thể không phải điểm mạnh của LLM, nhưng khả năng rút ra thông tin tốt từ mọi thứ nó từng đọc là điều đáng chú ý. Còn tôi thì chỉ đọc một phần cực nhỏ trong số đó. Nó có thể ngớ ngẩn, nhưng trí nhớ thì rất tốt
  Vì vậy nếu AI tương lai cũng được dùng giống như ChatGPT hiện nay — để người bình thường hỏi lời khuyên về gần như mọi thứ — thì rốt cuộc nó sẽ phải đọc mọi thứ
Người ta không đăng bài ở nơi họ không ghé tới
Với các tài liệu đã nổi tiếng, đặc biệt là về các ngôn ngữ phổ biến, lý do người ta không vào Stack Overflow là vì perplexity.ai, ChatGPT, Claude và các công cụ tương tự không chỉ trả lời câu hỏi tốt hơn việc đọc các trang Stack Overflow, mà còn cho phép sao chép-dán câu trả lời nhanh hơn, bất kể đúng hay sai
Nếu bạn không có mặt trên Stack Overflow để đặt câu hỏi, thì bạn cũng sẽ không ở đó để trả lời. Không cần lý do nào khác để giải thích hiện tượng đang quan sát được
Dĩ nhiên điều đó cũng có nghĩa là nếu Stack Overflow và các diễn đàn Q&A khác muốn cạnh tranh, họ phải đẩy tính hữu dụng của câu trả lời — tức mức độ thuận tiện khi tích hợp câu trả lời vào quy trình làm việc — lên ưu tiên hàng đầu
- Cạnh tranh với AI là mục tiêu phi chính thức mà cộng đồng Stack Overflow và diễn đàn Q&A khác tôi dùng là Codidact đều không theo đuổi
  Không phải AI “trả lời câu hỏi tốt hơn”. Nó chỉ cắt bỏ bước trung gian là diễn giải câu hỏi rồi ghép nó với những từ ngữ trông giống một câu trả lời. Nó thường xuyên bị ảo giác, và hầu như không hề kiểm tra tính hợp lý của điều người hỏi đang muốn làm
  Lý do chính khiến nó vượt trội hơn diễn đàn Q&A về tốc độ và sự tiện lợi là vì nó hoàn toàn không quan tâm liệu câu hỏi và câu trả lời đó sau này có giúp ích cho người khác hay không. Nó không phải cân nhắc các yêu cầu như phải tìm được qua công cụ tìm kiếm, để người khác hiểu đó là cùng một câu hỏi, và phải tập trung vào một vấn đề duy nhất
  Ngay từ đầu nó đã không được thiết kế như vậy, và cũng chẳng có lợi ích gì để làm thế. Khi người tiếp theo hỏi, nó chỉ việc tạo lại cùng nội dung câu trả lời đó theo một kiểu chất lượng thấp khác. Khác với chuyên gia con người, AI không thấy mệt vì công việc đó

Mô hình ngôn ngữ lớn làm giảm chia sẻ tri thức công khai trên các nền tảng Hỏi & Đáp trực tuyến

Tóm tắt

Tổng hợp của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News