- Stack Overflow từng là không gian Q&A tiêu biểu cho lập trình viên, nhưng sau khi các trợ lý AI viết mã như ChatGPT, Cursor và Claude lan rộng, số câu hỏi và lưu lượng truy cập đã giảm mạnh
- Tháng trước, số câu hỏi chỉ còn 6.866, xuống mức tương đương giai đoạn đầu ra mắt năm 2008, và Elon Musk gọi đây là “cái chết do LLM gây ra”
- Dù mức độ tham gia vào diễn đàn giảm, doanh thu thường niên vẫn đạt khoảng 115 triệu USD, gần như gấp đôi, còn khoản lỗ giảm từ 84 triệu USD trong FY2023 xuống 22 triệu USD
- Cơ cấu doanh thu đã chuyển từ quảng cáo sang giải pháp cho doanh nghiệp và cấp phép dữ liệu, với Stack Internal hiện được sử dụng tại 25.000 công ty trên toàn thế giới
- Khi câu hỏi của lập trình viên chuyển sang các cuộc trò chuyện AI riêng tư, tri thức công khai mới giảm đi, nhưng LLM vẫn tiếp tục cần đến dữ liệu Stack Overflow, tạo thành một cấu trúc tuần hoàn
Trợ lý AI làm giảm lưu lượng truy cập của Stack Overflow
- Stack Overflow từ lâu là diễn đàn Q&A tiêu biểu nơi các lập trình viên tìm kiếm hỗ trợ kỹ thuật, và trong thời kỳ đại dịch, ảnh hưởng của nó đã gần chạm đỉnh nhờ những lập trình viên tìm thông tin có thể dùng lâu dài
- Khi các trợ lý AI viết mã như ChatGPT, Cursor, Claude, Google Gemini và Microsoft Copilot lan rộng, lưu lượng truy cập của trang đã giảm mạnh
- Tháng 7/2023, Elon Musk gọi tình trạng của Stack Overflow là “cái chết do LLM gây ra”
- Tháng trước, số câu hỏi được đăng trên Stack Overflow là 6.866, gần tương đương quy mô thông thường ở giai đoạn đầu ra mắt năm 2008
Diễn đàn suy giảm nhưng doanh thu công ty vẫn trụ vững
- Diễn đàn Q&A của Stack Overflow đã suy yếu, nhưng công ty vẫn trụ vững bằng cách kiếm tiền từ kho nội dung quá khứ khổng lồ của mình
- Sau khi ChatGPT xuất hiện vào năm 2022, mức độ tham gia đã lao dốc, nhưng doanh thu thường niên của Stack Overflow gần như tăng gấp đôi lên khoảng 115 triệu USD
- Khoản lỗ đã giảm từ 84 triệu USD trong FY2023 xuống còn 22 triệu USD trong năm tài chính gần nhất
- Việc cắt giảm chi phí mạnh tay như sa thải quy mô lớn cũng góp phần cải thiện khả năng sinh lời
- Khác với các trung tâm tri thức như Chegg chịu tác động từ AI tạo sinh, Stack Overflow đã gắn giá trị của nội dung quá khứ với các nguồn doanh thu mới
Dịch chuyển từ quảng cáo sang giải pháp doanh nghiệp và cấp phép dữ liệu
- Trước đây, Stack Overflow phụ thuộc vào quảng cáo từ một diễn đàn sôi động, nhưng hiện nguồn thu chính đã chuyển sang giải pháp cho doanh nghiệp
- “Stack Internal” cung cấp tính năng bổ sung AI tạo sinh dựa trên hàng triệu câu hỏi và câu trả lời được tích lũy qua nhiều năm
- Stack Internal hiện được sử dụng tại 25.000 công ty trên toàn thế giới
- Tương tự Reddit, Stack Overflow cũng bán giấy phép dữ liệu cho các công ty AI
- Reddit được nêu như một nền tảng đã kiếm được hơn 200 triệu USD trong năm 2024 từ việc cấp phép nội dung do người dùng tạo ra
Giá trị của sự tin cậy do cộng đồng lâu năm tạo ra
- Thị trường ngách mới của Stack Overflow nằm ở sự tin cậy được tạo nên từ cộng đồng quá khứ và chuyên môn tích lũy
- CEO Prashanth Chandrasekar cho rằng vào đầu năm 2023, phần lớn mức giảm câu hỏi đến từ các câu hỏi rất đơn giản, còn những câu hỏi phức tạp vẫn tiếp tục được đăng lên Stack Overflow
- Chandrasekar cho rằng nếu LLM chỉ tốt tương đương với dữ liệu do con người tuyển chọn, thì Stack Overflow có thể là một trong những nơi tốt nhất, hoặc thậm chí là nơi tốt nhất trong lĩnh vực kỹ thuật
- Các mô hình ngôn ngữ lớn muốn có dữ liệu về vấn đề lập trình và cách giải quyết, và Stack Overflow đang sở hữu một kho lưu trữ số khổng lồ chứa loại dữ liệu đó
AI và tri thức lập trình viên trong một cấu trúc tuần hoàn
- Dữ liệu của Stack Overflow rất quan trọng với LLM, nhưng khi các câu hỏi của lập trình viên chuyển sang cửa sổ chat riêng tư với LLM, lượng hỏi đáp công khai mới được tích lũy đang giảm đi
- LLM cần lượng dữ liệu khổng lồ để hoạt động, và dữ liệu của Stack Overflow là tài sản có thể đáp ứng nhu cầu đó
- Đồng thời, dữ liệu của Stack Overflow cũng đang dần trở thành tài sản cũ
- Stack Overflow cho thấy sự thay đổi mang tính tuần hoàn của ngành công nghệ: AI vừa làm suy yếu việc chia sẻ tri thức công khai của lập trình viên, vừa lại cần chính nguồn tri thức công khai đó
1 bình luận
Ý kiến trên Hacker News
Cũng có phần thấy là nó biến mất thì tốt hơn
Tôi cũng đã dùng rất nhiều như mọi người khác và nhiều lần nhận được sự giúp đỡ, nhưng vấn đề văn hóa đã trở nên nghiêm trọng và không biến mất
Cơ chế game hóa đã thu hút những người cứng nhắc, ám ảnh luật lệ, và có vẻ họ thậm chí không nhận ra khi làm tổn thương người khác
Tôi hiểu ý định là muốn có câu hỏi hay và câu trả lời hữu ích, nhưng điều đó không thể biện minh cho việc đối xử tệ với người khác chỉ vì họ đặt câu hỏi “sai”. Sự ngạo mạn và kiểu gạt phăng đầy cay độc mà tôi thấy ở đó thật khó chịu
Đóng: trùng với câu hỏi số 1234 từ tháng 8 năm 2011 là “Làm cái gì đó hơi giống vậy trong Django 1.3 như thế nào?”
Các moderator của trang đó đã hút sạch niềm vui trong tương tác. Nếu bạn vận hành một trang có moderator, nhất định phải kiểm soát để họ không biến trang đó thành Stack Overflow
Từ góc nhìn của người từng thường xuyên trả lời trong hàng đợi ‘New’, số lượng câu hỏi vi phạm quy tắc, ít nỗ lực và trùng lặp hiển nhiên thật đáng kinh ngạc
Cuối cùng 99% câu hỏi không còn đáng để tương tác nên tôi ngừng trả lời, chỉ bỏ phiếu đóng rồi đi tiếp
Rốt cuộc tôi nghĩ SO chết vì nó trở nên quá nổi tiếng và khâu kiểm duyệt không còn gánh nổi
Ngày trước CUDA là một công nghệ mới nổi, mở ra những khả năng thú vị cho tính toán khoa học và tính toán song song, và trên Stack Overflow có nhiều câu hỏi thú vị về cách dùng CUDA. Vì vậy tôi bắt đầu trả lời, và sau khi trả lời gần 700 câu hỏi thì trở thành người có uy tín cao nhất ở tag CUDA, khá là vui
Nhưng khi CUDA trưởng thành hơn, hầu hết câu hỏi hay đã được hỏi và trả lời hết rồi, còn thứ đăng lên Stack Overflow bây giờ chủ yếu là rác vụn, nên tôi dành thời gian cho chỉnh sửa, downvote và đóng câu hỏi nhiều hơn là trả lời
Kết quả là phần lớn câu hỏi về CUDA đều bị downvote và xóa. Lạ ở chỗ CUDA vẫn tiếp tục phát triển mà vẫn như vậy
Nếu bạn đang gặp khó khăn trong cuộc sống và lên mạng tìm sự giúp đỡ thì đó thực sự là một trải nghiệm làm tụt tinh thần
Giờ không chỉ đóng câu hỏi mà còn xóa toàn bộ, ngay cả khi bên trong có thông tin hữu ích
Có lần tôi quay lại một câu hỏi cũ đã bị đóng để tìm đường link ai đó để lại trong phần bình luận, rồi thấy một moderator nào đó đã xóa luôn câu hỏi không vì lý do gì dù trong đó rõ ràng có nội dung thực tế
Từ lúc đó tôi chán hẳn và chuyển sang tập trung vào domain và website của riêng mình; nếu sau này có đăng gì lại ở đó thì tôi cũng chỉ đăng dưới dạng link về trang của tôi thôi, để chủ nghĩa xóa bỏ của họ không với tới được
Stack Overflow có thể là kho lưu trữ tri thức của nhân loại tốt nhất về lập trình
Nhưng tôi nghĩ tính hữu ích của nó chỉ giới hạn ở phần tri thức đã tích lũy. Với tư cách là một dịch vụ hay cộng đồng thì từ lâu nó đã khá tệ
Với người dùng mới đang cố học lập trình, có lẽ đây là một trong những nguồn độc hại nhất. Từ sau 2019 tôi gần như không còn đăng câu hỏi
Điều mà người dùng trung bình có thể mong đợi chỉ là câu trả lời cáu kỉnh từ người thậm chí không đọc kỹ bài viết, hoặc moderator xóa bài vì có câu hỏi nào đó trông giống giống, bất kể đã có câu trả lời thỏa đáng hay chưa
Đến một thời điểm nào đó thì mọi câu hỏi có ý nghĩa đều đã được đăng lên hết. Trang đó không còn là nơi giúp xử lý các biến thể của vấn đề cũ, mà trở thành nơi thu thập các vấn đề mới
Tác động của việc cả ngành trở nên đồng nhất quanh vài framework cũng bị đánh giá thấp. Việc đỉnh cao của Stack Overflow trùng với thời React đi lên là một chi tiết đáng chú ý
Về sau nó được tối ưu cho sự ngăn nắp rồi tự làm hỏng mình, trong quá trình đó còn quấy nhiễu và đẩy người dùng mới đi mất
Tôi từng đăng các câu hỏi toán và thống kê đơn giản lên math SE và stats SE, và nhận được câu trả lời chính xác trong vòng vài giờ, đôi khi chỉ vài phút
Và không có cơ chế duy trì và tưởng thưởng cho sự tử tế
Jeff Atwood về sau đã suy nghĩ rất nhiều về điểm này khi tạo ra Discourse, và cố gắng khuyến khích các thành viên cộng đồng đối xử tốt với nhau
Tác giả có đánh dấu COVID và thời điểm ChatGPT ra mắt trên biểu đồ, nhưng không nhắc tới việc Stack Overflow được quỹ đầu tư tư nhân Hà Lan Prosus mua lại vào tháng 6 năm 2021
Theo tôi, thời điểm đó khớp khá rõ với xu hướng đi xuống nói chung
Bản thân việc bán đi gần như là triệu chứng hơn là nguyên nhân
Họ không phải là bên “được mua lại”, mà đúng hơn là phía bị để lại gánh hậu quả
Trong giai đoạn đó bản thân StackOverflow hầu như không thay đổi, và thay đổi ở phía người dùng có lẽ đến từ các yếu tố bên ngoài
Stack Overflow có nhiều nhược điểm, nhưng ở thời kỳ đỉnh cao nó là một thứ kỳ diệu của Internet
Đặc biệt là thời đầu, khi mọi người còn chạy theo karma, bạn hỏi gì cũng có thể nhận được một câu trả lời nào đó. Không phải lúc nào cũng đúng, nhưng luôn có câu trả lời
LLM trung bình có thể cho câu trả lời tốt hơn nhiều, nhưng tôi cảm thấy chúng ta cần thực sự nhớ và trân trọng mảnh ghép rất con người đã bị đánh mất ở đó
Trớ trêu là StackOverflow gần như đã giết chết các diễn đàn kiểu đó, rồi cuối cùng chính nó cũng trở thành nạn nhân của làn sóng tiếp theo
Tôi không nghĩ đây là chuyện không đáng lo
Khi dùng Stack Overflow, mọi người đã tạo ra tri thức mới trong chính quá trình đó
Nếu không có một phương tiện thảo luận như vậy, thì làm sao có thể đưa tri thức chất lượng cao, mới nhất vào mô hình?
Kiểu như nơi đăng các lời giải cho vấn đề mà LLM tìm ra sau rất nhiều quá trình khảo cứu
Đáng tiếc là LLM đang tập trung vào một vài nhà cung cấp như OpenAI, Anthropic, Google, nên rất có thể mỗi bên sẽ tạo ra một Stack Overflow riêng tư và khép kín của họ
Nếu tận dụng những Stack Overflow riêng tư đó, mỗi LLM có thể bỏ qua phần suy luận phức tạp để tiết kiệm token, thời gian và chi phí
Ví dụ, nếu có một lỗi trong thư viện cần một cách lách phổ biến, thì có thể học từ mã nguồn mở đang dùng cách lách đó
Có môi trường học tăng cường, dữ liệu tổng hợp, dữ liệu được con người gắn nhãn, và cả dữ liệu sử dụng từ codex/claude code/cursor
Trong lập trình, phần lớn năng lực của mô hình đến từ hậu huấn luyện chứ không phải tiền huấn luyện
Có thể nói LLM đã “ăn cắp” nội dung do người dùng tạo ra từ thời chưa có LLM để kiếm lợi
Trong kỷ nguyên LLM, sẽ không còn một Stack Overflow mới nào xuất hiện để huấn luyện LLM trong tương lai
Rất nhiều tài khoản trên Twitter thực chất cũng đang tiến gần đến thuyết internet chết, tức là về cơ bản là LLM. Reddit có lẽ cũng sẽ là vấn đề lớn. Sẽ có nhiều tài khoản chỉ để cày karma, tham gia các chiến dịch gây ảnh hưởng, hoặc nhắm đến doanh thu quảng cáo
Cuối cùng sẽ đến lúc chính kho ngữ liệu dùng để huấn luyện LLM bị lấp đầy bởi rác do LLM tạo ra. Không biết liệu tương lai có phải là thứ rác tự khuếch đại đó không
Vấn đề không chỉ là SO đã tự bóp nghẹt mình, mà ngay cả các công cụ tìm kiếm lớn cũng đang chuyển hướng sang câu trả lời AI thay vì hiển thị các blog nhỏ
Việc yêu cầu nghiêm ngặt khi viết câu hỏi từng giúp xác định vấn đề rõ ràng hơn, và nhiều khi chỉ cần viết câu hỏi cho tử tế là đã tìm ra lời giải
Nhưng vài năm gần đây, bản thân việc đăng câu hỏi lên đó đã là một trải nghiệm gần như gây sang chấn. Ngay cả khi đăng một câu hỏi hoàn toàn chính đáng, bạn vẫn rất dễ bị downvote và đóng câu hỏi, và nếu câu hỏi có dù chỉ chút vấn đề thì còn tệ hơn
Nó đã thay đổi hoàn toàn từ kiểu “tôi đăng câu hỏi lên rồi tự tìm ra câu trả lời, và có người đã nói vậy trong phần bình luận” sang “bạn cứ đăng bất kỳ câu hỏi nào là cả trang sẽ lao vào tìm cách xóa nó đi”
Nghe có thể lạ, nhưng đôi khi tôi vẫn tìm được lời giải tốt hơn trên Stack Overflow so với cách mà Claude Code cứ khăng khăng đòi làm
Về lâu dài, tôi không chắc một thế giới không có SO có thực sự tốt hơn không
LLM rất giỏi trong việc nhả ra lời giải phổ biến hơn là lời giải tốt nhất cho một vấn đề
Do cách lấy mẫu token từ phân phối xác suất của LLM, phần đuôi dài của các lời giải phần lớn biến mất
Một cách từng hữu ích là yêu cầu đưa ra, chẳng hạn, 10 lời giải khác nhau cho một vấn đề rồi chọn một trong số đó. Khi thực ra không có đến 10 lời giải khác nhau, đôi khi lại xuất hiện những lời giải gần như sáng tạo
Đôi khi lời giải “tốt nhất” là đoạn mã rất khó đọc, và việc nhìn mọi người giải theo nhiều cách rồi tranh cãi như những con khỉ tức tối lại giúp bạn hiểu vấn đề rõ hơn
Tất nhiên cũng có lúc thực sự rất tệ
Nhưng văn hóa của trang đó đã trục trặc từ khá lâu rồi
Tôi từng bỏ rất nhiều công sức để chỉnh sửa câu hỏi và câu trả lời trên ServerFault, một phần của SO, nhưng giờ cảm thấy thời gian đó đã bị lãng phí
Họ đã muốn bán trang này trong một thời gian và có vẻ như không còn quan tâm nữa. Họ để một số biên tập viên cư xử quá tệ quá lâu, và điều đó khiến họ lên mặt. Giá mà có thể lấy lại công sức ấy
Thậm chí còn có thể đùa rằng phần còn lại của internet chỉ giống như đang làm loãng không gian tiềm ẩn cuối cùng bị Jon Skeet giới hạn
Tôi biết Stack Overflow sẽ chật vật vì AI, nhưng thật khó tin khi số câu hỏi theo tháng đã rơi từ 200 nghìn trước thời chatbot xuống còn khoảng 1 nghìn
Tất nhiên, bản thân tôi cũng không hề vào đó lần nào trong 4 năm qua
https://data.stackexchange.com/stackoverflow/revision/193252...
Giờ đúng nghĩa là không còn lý do gì để dùng Stack Overflow nữa. Dù LLM có nhược điểm, nó vẫn tốt hơn rất nhiều như một cách để lấy câu trả lời cho các vấn đề lập trình
Nó kiểu như: “Cảm ơn bài viết này, nhưng ở đây dùng từ chưa đúng, và có 13 câu trả lời khác cũng chứa một vài từ giống thế nhưng thực ra không trả lời câu hỏi nên đã bị xóa. Ngoài ra, nếu bài này còn ở lại thì lượt xem cho câu trả lời lạc đề của tôi sẽ giảm.”
Diễn đàn đó chết không chỉ vì một lý do
Việc kiểm duyệt nghiêm ngặt, thích hay không thích, vốn là một phần của nền tảng, và nếu LLM không xóa bỏ 99,9% nhu cầu với diễn đàn Hỏi & Đáp về lập trình thì nó có thể vẫn tồn tại lâu hơn nhiều theo cách đó
Vì thế họ cần những câu trả lời “chuẩn tắc”, và điều này về lâu dài đã giết chết trang web
Trong ngắn hạn thì nó hoạt động cực kỳ tốt, và các nhà sáng lập đã kiếm được khoản tiền lớn hoàn toàn xứng đáng
Chỉ là khoảng một năm trước tôi có đăng vài câu hỏi mà không nhận được phản hồi nào cả
Không chỉ người đặt câu hỏi rời bỏ SO, mà cả người trả lời cũng vậy. Có thể đây là vấn đề con gà và quả trứng, tức đảo chiều hiệu ứng mạng lưới
LLM làm tốt hơn hỗ trợ viên con người chậm chạp trong các công việc như gỡ lỗi hay helpdesk, và ngay từ đầu những câu hỏi kiểu đó cũng không được chào đón trên SO
Stack Overflow vẫn rất tuyệt cho các câu hỏi chuẩn mực, nhiều câu trả lời, và các cuộc thảo luận công khai giữa con người được tối ưu cho tìm kiếm
Nhưng với một công ty do quỹ đầu tư tư nhân sở hữu đang cố biến khoản đầu tư 1,8 tỷ USD thành gấp 100 lần, chừng đó có lẽ sẽ không đủ
Sẽ thật tốt nếu một ngày nào đó trang Q&A kiểu cổ điển được tách ra như một khoản lỗ, chuyển sang một quỹ kiểu Wikimedia có quan tâm đến việc bảo tồn trang Q&A nguyên bản và không muốn tăng trưởng hay chuyển mình
Đồng ý rằng một quỹ như Wikimedia là cách tốt nhất để bảo tồn mục tiêu ban đầu