3 điểm bởi GN⁺ 19 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Stack Overflow từng là không gian Q&A tiêu biểu cho lập trình viên, nhưng sau khi các trợ lý AI viết mã như ChatGPT, Cursor và Claude lan rộng, số câu hỏi và lưu lượng truy cập đã giảm mạnh
  • Tháng trước, số câu hỏi chỉ còn 6.866, xuống mức tương đương giai đoạn đầu ra mắt năm 2008, và Elon Musk gọi đây là “cái chết do LLM gây ra”
  • Dù mức độ tham gia vào diễn đàn giảm, doanh thu thường niên vẫn đạt khoảng 115 triệu USD, gần như gấp đôi, còn khoản lỗ giảm từ 84 triệu USD trong FY2023 xuống 22 triệu USD
  • Cơ cấu doanh thu đã chuyển từ quảng cáo sang giải pháp cho doanh nghiệp và cấp phép dữ liệu, với Stack Internal hiện được sử dụng tại 25.000 công ty trên toàn thế giới
  • Khi câu hỏi của lập trình viên chuyển sang các cuộc trò chuyện AI riêng tư, tri thức công khai mới giảm đi, nhưng LLM vẫn tiếp tục cần đến dữ liệu Stack Overflow, tạo thành một cấu trúc tuần hoàn

Trợ lý AI làm giảm lưu lượng truy cập của Stack Overflow

  • Stack Overflow từ lâu là diễn đàn Q&A tiêu biểu nơi các lập trình viên tìm kiếm hỗ trợ kỹ thuật, và trong thời kỳ đại dịch, ảnh hưởng của nó đã gần chạm đỉnh nhờ những lập trình viên tìm thông tin có thể dùng lâu dài
  • Khi các trợ lý AI viết mã như ChatGPT, Cursor, Claude, Google Gemini và Microsoft Copilot lan rộng, lưu lượng truy cập của trang đã giảm mạnh
  • Tháng 7/2023, Elon Musk gọi tình trạng của Stack Overflow là “cái chết do LLM gây ra”
  • Tháng trước, số câu hỏi được đăng trên Stack Overflow là 6.866, gần tương đương quy mô thông thường ở giai đoạn đầu ra mắt năm 2008

Diễn đàn suy giảm nhưng doanh thu công ty vẫn trụ vững

  • Diễn đàn Q&A của Stack Overflow đã suy yếu, nhưng công ty vẫn trụ vững bằng cách kiếm tiền từ kho nội dung quá khứ khổng lồ của mình
  • Sau khi ChatGPT xuất hiện vào năm 2022, mức độ tham gia đã lao dốc, nhưng doanh thu thường niên của Stack Overflow gần như tăng gấp đôi lên khoảng 115 triệu USD
  • Khoản lỗ đã giảm từ 84 triệu USD trong FY2023 xuống còn 22 triệu USD trong năm tài chính gần nhất
  • Việc cắt giảm chi phí mạnh tay như sa thải quy mô lớn cũng góp phần cải thiện khả năng sinh lời
  • Khác với các trung tâm tri thức như Chegg chịu tác động từ AI tạo sinh, Stack Overflow đã gắn giá trị của nội dung quá khứ với các nguồn doanh thu mới

Dịch chuyển từ quảng cáo sang giải pháp doanh nghiệp và cấp phép dữ liệu

  • Trước đây, Stack Overflow phụ thuộc vào quảng cáo từ một diễn đàn sôi động, nhưng hiện nguồn thu chính đã chuyển sang giải pháp cho doanh nghiệp
  • “Stack Internal” cung cấp tính năng bổ sung AI tạo sinh dựa trên hàng triệu câu hỏi và câu trả lời được tích lũy qua nhiều năm
  • Stack Internal hiện được sử dụng tại 25.000 công ty trên toàn thế giới
  • Tương tự Reddit, Stack Overflow cũng bán giấy phép dữ liệu cho các công ty AI
  • Reddit được nêu như một nền tảng đã kiếm được hơn 200 triệu USD trong năm 2024 từ việc cấp phép nội dung do người dùng tạo ra

Giá trị của sự tin cậy do cộng đồng lâu năm tạo ra

  • Thị trường ngách mới của Stack Overflow nằm ở sự tin cậy được tạo nên từ cộng đồng quá khứ và chuyên môn tích lũy
  • CEO Prashanth Chandrasekar cho rằng vào đầu năm 2023, phần lớn mức giảm câu hỏi đến từ các câu hỏi rất đơn giản, còn những câu hỏi phức tạp vẫn tiếp tục được đăng lên Stack Overflow
  • Chandrasekar cho rằng nếu LLM chỉ tốt tương đương với dữ liệu do con người tuyển chọn, thì Stack Overflow có thể là một trong những nơi tốt nhất, hoặc thậm chí là nơi tốt nhất trong lĩnh vực kỹ thuật
  • Các mô hình ngôn ngữ lớn muốn có dữ liệu về vấn đề lập trình và cách giải quyết, và Stack Overflow đang sở hữu một kho lưu trữ số khổng lồ chứa loại dữ liệu đó

AI và tri thức lập trình viên trong một cấu trúc tuần hoàn

  • Dữ liệu của Stack Overflow rất quan trọng với LLM, nhưng khi các câu hỏi của lập trình viên chuyển sang cửa sổ chat riêng tư với LLM, lượng hỏi đáp công khai mới được tích lũy đang giảm đi
  • LLM cần lượng dữ liệu khổng lồ để hoạt động, và dữ liệu của Stack Overflow là tài sản có thể đáp ứng nhu cầu đó
  • Đồng thời, dữ liệu của Stack Overflow cũng đang dần trở thành tài sản cũ
  • Stack Overflow cho thấy sự thay đổi mang tính tuần hoàn của ngành công nghệ: AI vừa làm suy yếu việc chia sẻ tri thức công khai của lập trình viên, vừa lại cần chính nguồn tri thức công khai đó

1 bình luận

 
Ý kiến trên Hacker News
  • Cũng có phần thấy là nó biến mất thì tốt hơn
    Tôi cũng đã dùng rất nhiều như mọi người khác và nhiều lần nhận được sự giúp đỡ, nhưng vấn đề văn hóa đã trở nên nghiêm trọng và không biến mất
    Cơ chế game hóa đã thu hút những người cứng nhắc, ám ảnh luật lệ, và có vẻ họ thậm chí không nhận ra khi làm tổn thương người khác
    Tôi hiểu ý định là muốn có câu hỏi hay và câu trả lời hữu ích, nhưng điều đó không thể biện minh cho việc đối xử tệ với người khác chỉ vì họ đặt câu hỏi “sai”. Sự ngạo mạn và kiểu gạt phăng đầy cay độc mà tôi thấy ở đó thật khó chịu

    • “Làm việc này trong Django 6 như thế nào?”
      Đóng: trùng với câu hỏi số 1234 từ tháng 8 năm 2011 là “Làm cái gì đó hơi giống vậy trong Django 1.3 như thế nào?”
      Các moderator của trang đó đã hút sạch niềm vui trong tương tác. Nếu bạn vận hành một trang có moderator, nhất định phải kiểm soát để họ không biến trang đó thành Stack Overflow
    • Đúng là SO có rất nhiều người theo chủ nghĩa luật lệ đầy nhiệt thành tạo ra danh tiếng đó, nhưng tôi không chắc đó có phải lý do nó chết hay không
      Từ góc nhìn của người từng thường xuyên trả lời trong hàng đợi ‘New’, số lượng câu hỏi vi phạm quy tắc, ít nỗ lực và trùng lặp hiển nhiên thật đáng kinh ngạc
      Cuối cùng 99% câu hỏi không còn đáng để tương tác nên tôi ngừng trả lời, chỉ bỏ phiếu đóng rồi đi tiếp
      Rốt cuộc tôi nghĩ SO chết vì nó trở nên quá nổi tiếng và khâu kiểm duyệt không còn gánh nổi
    • Ở tag CUDA cũng có kiểu người như đội tự quản, và trong hồ sơ có đoạn như thế này
      Ngày trước CUDA là một công nghệ mới nổi, mở ra những khả năng thú vị cho tính toán khoa học và tính toán song song, và trên Stack Overflow có nhiều câu hỏi thú vị về cách dùng CUDA. Vì vậy tôi bắt đầu trả lời, và sau khi trả lời gần 700 câu hỏi thì trở thành người có uy tín cao nhất ở tag CUDA, khá là vui
      Nhưng khi CUDA trưởng thành hơn, hầu hết câu hỏi hay đã được hỏi và trả lời hết rồi, còn thứ đăng lên Stack Overflow bây giờ chủ yếu là rác vụn, nên tôi dành thời gian cho chỉnh sửa, downvote và đóng câu hỏi nhiều hơn là trả lời
      Kết quả là phần lớn câu hỏi về CUDA đều bị downvote và xóa. Lạ ở chỗ CUDA vẫn tiếp tục phát triển mà vẫn như vậy
    • Khi từng hỏi vài lần trên các subreddit của Reddit, tôi cũng có cảm giác tương tự
      Nếu bạn đang gặp khó khăn trong cuộc sống và lên mạng tìm sự giúp đỡ thì đó thực sự là một trải nghiệm làm tụt tinh thần
    • Tôi còn chịu được các quy tắc phiền toái, sự thô lỗ và ngạo mạn, nhưng thứ thực sự vượt quá giới hạn là nó đã thoái hóa thành chủ nghĩa xóa bỏ theo đúng nghĩa đen
      Giờ không chỉ đóng câu hỏi mà còn xóa toàn bộ, ngay cả khi bên trong có thông tin hữu ích
      Có lần tôi quay lại một câu hỏi cũ đã bị đóng để tìm đường link ai đó để lại trong phần bình luận, rồi thấy một moderator nào đó đã xóa luôn câu hỏi không vì lý do gì dù trong đó rõ ràng có nội dung thực tế
      Từ lúc đó tôi chán hẳn và chuyển sang tập trung vào domain và website của riêng mình; nếu sau này có đăng gì lại ở đó thì tôi cũng chỉ đăng dưới dạng link về trang của tôi thôi, để chủ nghĩa xóa bỏ của họ không với tới được
  • Stack Overflow có thể là kho lưu trữ tri thức của nhân loại tốt nhất về lập trình
    Nhưng tôi nghĩ tính hữu ích của nó chỉ giới hạn ở phần tri thức đã tích lũy. Với tư cách là một dịch vụ hay cộng đồng thì từ lâu nó đã khá tệ
    Với người dùng mới đang cố học lập trình, có lẽ đây là một trong những nguồn độc hại nhất. Từ sau 2019 tôi gần như không còn đăng câu hỏi
    Điều mà người dùng trung bình có thể mong đợi chỉ là câu trả lời cáu kỉnh từ người thậm chí không đọc kỹ bài viết, hoặc moderator xóa bài vì có câu hỏi nào đó trông giống giống, bất kể đã có câu trả lời thỏa đáng hay chưa
    Đến một thời điểm nào đó thì mọi câu hỏi có ý nghĩa đều đã được đăng lên hết. Trang đó không còn là nơi giúp xử lý các biến thể của vấn đề cũ, mà trở thành nơi thu thập các vấn đề mới
    Tác động của việc cả ngành trở nên đồng nhất quanh vài framework cũng bị đánh giá thấp. Việc đỉnh cao của Stack Overflow trùng với thời React đi lên là một chi tiết đáng chú ý

    • SO thời đầu được tối ưu cho người giúp người
      Về sau nó được tối ưu cho sự ngăn nắp rồi tự làm hỏng mình, trong quá trình đó còn quấy nhiễu và đẩy người dùng mới đi mất
    • Theo trải nghiệm của tôi thì StackExchange khá thân thiện với người mới
      Tôi từng đăng các câu hỏi toán và thống kê đơn giản lên math SE và stats SE, và nhận được câu trả lời chính xác trong vòng vài giờ, đôi khi chỉ vài phút
    • Cũng như toàn bộ Internet, càng nổi tiếng thì nó càng kém thân thiện
      Và không có cơ chế duy trì và tưởng thưởng cho sự tử tế
      Jeff Atwood về sau đã suy nghĩ rất nhiều về điểm này khi tạo ra Discourse, và cố gắng khuyến khích các thành viên cộng đồng đối xử tốt với nhau
  • Tác giả có đánh dấu COVID và thời điểm ChatGPT ra mắt trên biểu đồ, nhưng không nhắc tới việc Stack Overflow được quỹ đầu tư tư nhân Hà Lan Prosus mua lại vào tháng 6 năm 2021
    Theo tôi, thời điểm đó khớp khá rõ với xu hướng đi xuống nói chung

    • Tôi mừng vì có lẽ các nhà sáng lập ban đầu của Stack Overflow đã có sự kiện thanh khoản và từ đó sống khá dư dả về tài chính
    • Công ty được bán khi chủ sở hữu tin rằng họ có thể nhận được mức giá tốt nhất
      Bản thân việc bán đi gần như là triệu chứng hơn là nguyên nhân
    • Tôi luôn nhìn vấn đề của SO trong mối liên hệ với các moderator không lương
      Họ không phải là bên “được mua lại”, mà đúng hơn là phía bị để lại gánh hậu quả
    • Tôi tò mò không biết họ thực sự đã thay đổi điều gì
    • Tôi không nghĩ vậy
      Trong giai đoạn đó bản thân StackOverflow hầu như không thay đổi, và thay đổi ở phía người dùng có lẽ đến từ các yếu tố bên ngoài
  • Stack Overflow có nhiều nhược điểm, nhưng ở thời kỳ đỉnh cao nó là một thứ kỳ diệu của Internet
    Đặc biệt là thời đầu, khi mọi người còn chạy theo karma, bạn hỏi gì cũng có thể nhận được một câu trả lời nào đó. Không phải lúc nào cũng đúng, nhưng luôn có câu trả lời
    LLM trung bình có thể cho câu trả lời tốt hơn nhiều, nhưng tôi cảm thấy chúng ta cần thực sự nhớ và trân trọng mảnh ghép rất con người đã bị đánh mất ở đó

    • Nhận một câu trả lời sai trên diễn đàn công khai đôi khi cũng hữu ích để kéo ra những câu trả lời sửa sai
    • So với StackOverflow thì những diễn đàn dựa trên phpBB từng rất phổ biến ngày xưa ở khắp nơi còn tốt hơn
      Trớ trêu là StackOverflow gần như đã giết chết các diễn đàn kiểu đó, rồi cuối cùng chính nó cũng trở thành nạn nhân của làn sóng tiếp theo
  • Tôi không nghĩ đây là chuyện không đáng lo
    Khi dùng Stack Overflow, mọi người đã tạo ra tri thức mới trong chính quá trình đó
    Nếu không có một phương tiện thảo luận như vậy, thì làm sao có thể đưa tri thức chất lượng cao, mới nhất vào mô hình?

    • Không phải mỉa mai đâu, mà thật sự cần một Stack Overflow cho LLM
      Kiểu như nơi đăng các lời giải cho vấn đề mà LLM tìm ra sau rất nhiều quá trình khảo cứu
      Đáng tiếc là LLM đang tập trung vào một vài nhà cung cấp như OpenAI, Anthropic, Google, nên rất có thể mỗi bên sẽ tạo ra một Stack Overflow riêng tư và khép kín của họ
      Nếu tận dụng những Stack Overflow riêng tư đó, mỗi LLM có thể bỏ qua phần suy luận phức tạp để tiết kiệm token, thời gian và chi phí
    • Tài liệu thì nhiều, và cũng có rất nhiều mã mà AI có thể đọc trực tiếp
      Ví dụ, nếu có một lỗi trong thư viện cần một cách lách phổ biến, thì có thể học từ mã nguồn mở đang dùng cách lách đó
    • Tôi không nghĩ đây là vấn đề lớn
      Có môi trường học tăng cường, dữ liệu tổng hợp, dữ liệu được con người gắn nhãn, và cả dữ liệu sử dụng từ codex/claude code/cursor
      Trong lập trình, phần lớn năng lực của mô hình đến từ hậu huấn luyện chứ không phải tiền huấn luyện
    • Tôi cũng đã nghĩ về chuyện này
      Có thể nói LLM đã “ăn cắp” nội dung do người dùng tạo ra từ thời chưa có LLM để kiếm lợi
      Trong kỷ nguyên LLM, sẽ không còn một Stack Overflow mới nào xuất hiện để huấn luyện LLM trong tương lai
      Rất nhiều tài khoản trên Twitter thực chất cũng đang tiến gần đến thuyết internet chết, tức là về cơ bản là LLM. Reddit có lẽ cũng sẽ là vấn đề lớn. Sẽ có nhiều tài khoản chỉ để cày karma, tham gia các chiến dịch gây ảnh hưởng, hoặc nhắm đến doanh thu quảng cáo
      Cuối cùng sẽ đến lúc chính kho ngữ liệu dùng để huấn luyện LLM bị lấp đầy bởi rác do LLM tạo ra. Không biết liệu tương lai có phải là thứ rác tự khuếch đại đó không
    • Mọi người vẫn muốn kể về những vấn đề thú vị mà họ đã giải được và cách họ làm điều đó
      Vấn đề không chỉ là SO đã tự bóp nghẹt mình, mà ngay cả các công cụ tìm kiếm lớn cũng đang chuyển hướng sang câu trả lời AI thay vì hiển thị các blog nhỏ
  • Việc yêu cầu nghiêm ngặt khi viết câu hỏi từng giúp xác định vấn đề rõ ràng hơn, và nhiều khi chỉ cần viết câu hỏi cho tử tế là đã tìm ra lời giải

    • Stack Overflow thời kỳ đầu là một công cụ gỡ lỗi vịt cao su tuyệt vời
      Nhưng vài năm gần đây, bản thân việc đăng câu hỏi lên đó đã là một trải nghiệm gần như gây sang chấn. Ngay cả khi đăng một câu hỏi hoàn toàn chính đáng, bạn vẫn rất dễ bị downvote và đóng câu hỏi, và nếu câu hỏi có dù chỉ chút vấn đề thì còn tệ hơn
      Nó đã thay đổi hoàn toàn từ kiểu “tôi đăng câu hỏi lên rồi tự tìm ra câu trả lời, và có người đã nói vậy trong phần bình luận” sang “bạn cứ đăng bất kỳ câu hỏi nào là cả trang sẽ lao vào tìm cách xóa nó đi”
  • Nghe có thể lạ, nhưng đôi khi tôi vẫn tìm được lời giải tốt hơn trên Stack Overflow so với cách mà Claude Code cứ khăng khăng đòi làm
    Về lâu dài, tôi không chắc một thế giới không có SO có thực sự tốt hơn không

    • Tôi cũng vậy
      LLM rất giỏi trong việc nhả ra lời giải phổ biến hơn là lời giải tốt nhất cho một vấn đề
      Do cách lấy mẫu token từ phân phối xác suất của LLM, phần đuôi dài của các lời giải phần lớn biến mất
      Một cách từng hữu ích là yêu cầu đưa ra, chẳng hạn, 10 lời giải khác nhau cho một vấn đề rồi chọn một trong số đó. Khi thực ra không có đến 10 lời giải khác nhau, đôi khi lại xuất hiện những lời giải gần như sáng tạo
    • SO có ưu điểm là bạn có thể thấy nhiều lời giải và cách triển khai khác nhau cho cùng một vấn đề
      Đôi khi lời giải “tốt nhất” là đoạn mã rất khó đọc, và việc nhìn mọi người giải theo nhiều cách rồi tranh cãi như những con khỉ tức tối lại giúp bạn hiểu vấn đề rõ hơn
      Tất nhiên cũng có lúc thực sự rất tệ
    • Khá nhiều thứ mà Claude cứ khăng khăng bắt làm có lẽ vốn đến từ SO
    • Tôi đồng ý với ý rằng chưa chắc về lâu dài sẽ tốt hơn nếu không có SO
      Nhưng văn hóa của trang đó đã trục trặc từ khá lâu rồi
      Tôi từng bỏ rất nhiều công sức để chỉnh sửa câu hỏi và câu trả lời trên ServerFault, một phần của SO, nhưng giờ cảm thấy thời gian đó đã bị lãng phí
      Họ đã muốn bán trang này trong một thời gian và có vẻ như không còn quan tâm nữa. Họ để một số biên tập viên cư xử quá tệ quá lâu, và điều đó khiến họ lên mặt. Giá mà có thể lấy lại công sức ấy
    • SO có lẽ là nguồn dữ liệu chất lượng cao tốt nhất cho các mô hình ngôn ngữ
      Thậm chí còn có thể đùa rằng phần còn lại của internet chỉ giống như đang làm loãng không gian tiềm ẩn cuối cùng bị Jon Skeet giới hạn
  • Tôi biết Stack Overflow sẽ chật vật vì AI, nhưng thật khó tin khi số câu hỏi theo tháng đã rơi từ 200 nghìn trước thời chatbot xuống còn khoảng 1 nghìn
    Tất nhiên, bản thân tôi cũng không hề vào đó lần nào trong 4 năm qua

    • Tôi đã bấm vào truy vấn của biểu đồ đầu tiên, và đỉnh là khoảng 300 nghìn vào tháng 5/2020, còn tháng đầy đủ gần nhất là tháng 4/2026 với khoảng 3 nghìn. Thật sự gây sốc
      https://data.stackexchange.com/stackoverflow/revision/193252...
    • Tôi thấy hợp lý
      Giờ đúng nghĩa là không còn lý do gì để dùng Stack Overflow nữa. Dù LLM có nhược điểm, nó vẫn tốt hơn rất nhiều như một cách để lấy câu trả lời cho các vấn đề lập trình
  • Nó kiểu như: “Cảm ơn bài viết này, nhưng ở đây dùng từ chưa đúng, và có 13 câu trả lời khác cũng chứa một vài từ giống thế nhưng thực ra không trả lời câu hỏi nên đã bị xóa. Ngoài ra, nếu bài này còn ở lại thì lượt xem cho câu trả lời lạc đề của tôi sẽ giảm.”
    Diễn đàn đó chết không chỉ vì một lý do

    • Mỗi lần người ta bàn về cái chết của Stack Overflow thì ai cũng nhắc chuyện này, nhưng thật ra nó vốn đã luôn là như vậy
      Việc kiểm duyệt nghiêm ngặt, thích hay không thích, vốn là một phần của nền tảng, và nếu LLM không xóa bỏ 99,9% nhu cầu với diễn đàn Hỏi & Đáp về lập trình thì nó có thể vẫn tồn tại lâu hơn nhiều theo cách đó
    • Theo tôi hiểu thì họ muốn tối ưu cho tìm kiếm Google
      Vì thế họ cần những câu trả lời “chuẩn tắc”, và điều này về lâu dài đã giết chết trang web
      Trong ngắn hạn thì nó hoạt động cực kỳ tốt, và các nhà sáng lập đã kiếm được khoản tiền lớn hoàn toàn xứng đáng
    • Tôi cũng đồng ý
      Chỉ là khoảng một năm trước tôi có đăng vài câu hỏi mà không nhận được phản hồi nào cả
      Không chỉ người đặt câu hỏi rời bỏ SO, mà cả người trả lời cũng vậy. Có thể đây là vấn đề con gà và quả trứng, tức đảo chiều hiệu ứng mạng lưới
    • Dù việc kiểm duyệt tệ có thể không trực tiếp giết Stack Overflow, ít nhất nó cũng khiến những người lẽ ra sẽ ủng hộ trang cảm thấy rằng nó không đáng để gắn bó nữa
  • LLM làm tốt hơn hỗ trợ viên con người chậm chạp trong các công việc như gỡ lỗi hay helpdesk, và ngay từ đầu những câu hỏi kiểu đó cũng không được chào đón trên SO
    Stack Overflow vẫn rất tuyệt cho các câu hỏi chuẩn mực, nhiều câu trả lời, và các cuộc thảo luận công khai giữa con người được tối ưu cho tìm kiếm
    Nhưng với một công ty do quỹ đầu tư tư nhân sở hữu đang cố biến khoản đầu tư 1,8 tỷ USD thành gấp 100 lần, chừng đó có lẽ sẽ không đủ
    Sẽ thật tốt nếu một ngày nào đó trang Q&A kiểu cổ điển được tách ra như một khoản lỗ, chuyển sang một quỹ kiểu Wikimedia có quan tâm đến việc bảo tồn trang Q&A nguyên bản và không muốn tăng trưởng hay chuyển mình

    • Nói phỏng theo một câu thoại phim dở, người ta sẽ tự hỏi một trang Q&A cần gì đến 1,8 tỷ USD
      Đồng ý rằng một quỹ như Wikimedia là cách tốt nhất để bảo tồn mục tiêu ban đầu