4 điểm bởi GN⁺ 1 ngày trước | 6 bình luận | Chia sẻ qua WhatsApp
  • Hệ sinh thái mua bán Star trên GitHub đã hình thành trên các website chuyên dụng, nền tảng freelancer, mạng lưới trao đổi và các kênh riêng tư; trong phân tích giai đoạn 2019 đến 2024, đã xác định khoảng 6 triệu star giả đáng ngờ phân tán trên 18.617 kho lưu trữ và khoảng 301.000 tài khoản
  • Bước sang năm 2024, các chiến dịch star giả tăng vọt, và 16,66% số kho có từ 50 star trở lên được thống kê là có liên quan; các star được mua thực tế còn được dùng để xuất hiện trên GitHub Trending và vượt qua thuật toán khám phá của nền tảng
  • Việc bán star giả được giao dịch ở mức 0,03 USD đến 0,90 USD mỗi star tùy theo chất lượng tài khoản và cách phân phối, và đã mở rộng thành một hạ tầng bao gồm cả công cụ thao túng biểu đồ đóng góp, bán hồ sơ tạo sẵn, bảo đảm thay thế và cả API mua hàng
  • Số lượng star trên GitHub được gắn trực tiếp với chỉ số gọi vốn đầu tư và được dùng như ngưỡng tham chiếu ở giai đoạn seed và Series A, tạo thành một vòng lặp tự củng cố khi việc mua star với chi phí thấp dẫn tới nhận thức traction bị thổi phồng và khả năng huy động vốn
  • Tỷ lệ star so với fork và tỷ lệ star so với watcher được đề xuất như bộ lọc phát hiện thao túng bước đầu; dù bị cấm theo chính sách GitHub và chịu sự thực thi của quy định FTC, việc xử lý tài khoản vẫn thấp hơn xóa kho lưu trữ, và phản ứng mang tính cấu trúc vẫn chưa được triển khai

6 triệu star giả

  • Phân tích StarScout của nhóm nghiên cứu từ Carnegie Mellon University, North Carolina State University và Socket đã khảo sát 20TB metadata GitHub, 6,7 tỷ sự kiện và 326 triệu star trong giai đoạn 2019 đến 2024, qua đó xác định khoảng 6 triệu star giả đáng ngờ phân tán trên 18.617 kho lưu trữ và khoảng 301.000 tài khoản
  • Trong năm 2024, các chiến dịch star giả tăng mạnh, và tính đến tháng 7, 16,66% số kho có từ 50 star trở lên được ghi nhận là có liên quan
    • Trước năm 2022, mức này gần như bằng 0
  • Ở bước kiểm chứng độ chính xác phát hiện, cũng xác nhận rằng 90,42% số kho lưu trữ và 57,07% số tài khoản mà StarScout đánh dấu đã bị xóa tính đến tháng 1 năm 2025
    • Đây là con số củng cố rằng GitHub cũng nhận diện chúng là hoạt động bất thường
  • Trong số các kho hưởng lợi từ star giả, các kho liên quan đến AI và LLM là nhóm lớn nhất trong hạng mục không độc hại, với 177.000 star giả theo thống kê tuyệt đối
    • Bài viết trích dẫn rằng nhóm này bao gồm nhiều kho lưu trữ bài báo học thuật hoặc sản phẩm của startup liên quan đến LLM
  • 78 kho lưu trữ bị phát hiện có chiến dịch star giả đã xuất hiện trên GitHub Trending, cho thấy star mua vào thực sự được dùng để lách thuật toán khám phá của nền tảng
  • Trong cuộc điều tra của Dagster vào tháng 3 năm 2023, các kỹ sư đã trực tiếp mua star từ hai người bán để xác minh hiện tượng
    • Công ty đăng ký tại Đức GitHub24 tính phí 0,85 EUR mỗi star, và toàn bộ 100 star vẫn được giữ nguyên sau một tháng
    • Baddhi Shop bán 1.000 star với giá 64 USD, nhưng tỷ lệ duy trì chỉ được nêu ở mức khoảng 75%

Marketplace

  • Hệ sinh thái bán star GitHub đã hình thành trên các website chuyên dụng, nền tảng freelancer, mạng lưới trao đổi và các kênh riêng tư; hiện có ít nhất 12 website đang hoạt động trực tiếp bán GitHub star
    • SocialPlug.io, Buy.fans, Boost-Like.store, GitHubPromoter.com, Followdeh.com, Vurike.com được liệt kê làm ví dụ
  • Mức giá được phân theo chất lượng tài khoản và cách phân phối
    • Loại giá rẻ là 0,03 USD đến 0,10 USD mỗi star, giao trong vài ngày, dùng hồ sơ mới hoặc trống
    • Loại trung bình là 0,20 USD đến 0,50 USD, giao trong 1 đến 2 tuần, có kèm một phần lịch sử hoạt động
    • Loại cao cấp là 0,80 USD đến 0,90 USD, quảng bá là giao dần dần và tự nhiên, dùng tài khoản có tuổi đời nhiều năm cùng lịch sử kho lưu trữ và đóng góp
  • Trên Fiverr cũng có 24 gig đang hoạt động bán dịch vụ quảng bá GitHub; star và fork cơ bản có giá 5 USD, còn "organic promotion" được định giá từ 25 USD trở lên
    • Họ dùng cách diễn đạt uyển chuyển hoặc vòng vo để tránh bộ lọc của nền tảng
  • Các nền tảng trao đổi star như GithubStarMate.com và SafeStarExchange.com cũng đang hoạt động, cung cấp hình thức star chéo dựa trên credit
  • Hạ tầng này không chỉ dừng ở việc bán star mà còn mở rộng sang thao túng biểu đồ đóng góp trên GitHub
    • Ít nhất 7 công cụ mã nguồn mở như fake-git-history, commit-bot, Commiter tồn tại với mục đích làm giả lịch sử đóng góp trên GitHub
    • Một hồ sơ GitHub tạo sẵn có lịch sử commit 5 năm và huy hiệu Arctic Code Vault Contributor được bán trên Telegram với giá khoảng 5.000 USD
  • Một số người bán còn cung cấp cả bảo đảm thay thế
    • Followdeh quảng cáo bảo đảm 30 ngày
    • Dịch vụ cao cấp hứa hẹn các star "non-drop" có thể vượt qua phát hiện của GitHub
    • SocialPlug tuyên bố đã cung cấp 3,1 triệu star cho hơn 53.000 khách hàng và còn cung cấp cả API mua hàng
  • Trong nghiên cứu ACSAC 2020 của Tsinghua University, cấu trúc thương mại của các nhóm quảng bá trên QQ·WeChat tại Trung Quốc đã được ghi nhận
    • Hơn 1.020 thành viên xử lý khoảng 20 kho lưu trữ mỗi ngày
    • Lợi nhuận của bên quảng bá được ước tính ở mức 3,4 triệu USD đến 4,4 triệu USD mỗi năm

Phân tích nội bộ: đặc điểm của các stargazer giả

  • Nhóm đã xây dựng công cụ phân tích dựa trên GitHub API để khảo sát 20 kho lưu trữ, đồng thời so sánh các kho được StarScout đánh dấu, các kho AI tăng trưởng cao trong Runa Capital ROSS Index, và các kho làm đường cơ sở hữu cơ
  • Với mỗi kho lưu trữ, nhóm lấy mẫu 150 hồ sơ stargazer để đo tuổi tài khoản, số kho công khai, số follower và việc có phần giới thiệu bản thân hay không
  • Dấu vết thao túng lặp lại ở một số chỉ báo chung
    • Tỷ lệ tài khoản trống cao ngay cả khi tài khoản không quá mới
    • Tỷ lệ star trên fork và tỷ lệ star trên watcher thấp hơn đáng kể so với các kho lưu trữ hữu cơ
  • Đường cơ sở hữu cơ

    • Tuổi tài khoản trung vị của Flask, LangChain và AutoGPT lần lượt là 4801 ngày, 2967 ngày, 4022 ngày, cho thấy phần lớn stargazer là nhóm nhà phát triển đã dùng GitHub trong thời gian dài
    • Tỷ lệ không có bất kỳ kho công khai nào ở mức 5,3%, 5,9%, 2,0%, còn tỷ lệ 0 follower cũng thấp, lần lượt là 10,0%, 11,8%, 5,9%
    • Tỷ lệ tài khoản ma của Flask là 1,3%, còn tỷ lệ suspicious accounts của Flask, LangChain và AutoGPT đều là 0,0%
    • Tỷ lệ star trên fork là 0,235 với Flask, 0,155 với LangChain, 0,090 với AutoGPT, cho thấy việc sử dụng và biến đổi mã thực tế đi kèm ở mức nhất định
    • Tỷ lệ star trên watcher lần lượt là 0,029 với Flask, 0,006 với LangChain, 0,005 với AutoGPT
    • Các stargazer của kho hữu cơ đã hoạt động trong nhiều năm, sở hữu dự án riêng và mang đặc điểm của nhà phát triển có theo dõi người dùng khác
    • Tài khoản ma với 0 kho, 0 follower và không có phần giới thiệu chỉ chiếm khoảng 1% ở các dự án khỏe mạnh
  • Các kho blockchain bị thao túng

    • Tuổi tài khoản trung vị của Union Labs, Shardeum, FreeDomain và Anoma nằm trong khoảng 997 đến 1180 ngày, đủ để vượt qua bộ lọc đơn giản chỉ loại tài khoản mới
    • Nhưng bên trong thì tài khoản rỗng, với tỷ lệ 0 kho công khai từ 28,0% đến 38,0%, tỷ lệ 0 follower từ 52,0% đến 81,3%, và tỷ lệ tài khoản ma từ 19,3% đến 28,7%
    • Tỷ lệ star trên fork được nêu là 0,052 với Union Labs, 0,022 với Shardeum, 0,017 với FreeDomain, và 0,121 với Anoma
    • Tỷ lệ star trên watcher cũng cực thấp, như FreeDomain chỉ ở mức 0,001
    • Mô hình này được diễn giải là các tài khoản cũ đã được mua lại hoặc gom theo kiểu trang trại để đưa vào chiến dịch tăng star
    • Tỷ lệ star trên fork được xem là tín hiệu mạnh nhất
      • Flask có 235 fork trên mỗi 1000 star
      • Shardeum chỉ có 22
      • FreeDomain chỉ có 17
    • Tỷ lệ star trên watcher cũng chỉ cùng một hướng; mức 0,001 của FreeDomain có nghĩa là cứ 1000 người bấm star thì chỉ khoảng 1 người thực sự theo dõi cập nhật
  • FreeDomain

    • 157.000 star, nhưng chỉ có 168 watcher và 2676 fork
    • Tỷ lệ star trên watcher thấp hơn Flask 26 lần
    • Trong số các stargazer được lấy mẫu, 81,3% có 0 follower, cho thấy cấu trúc tài khoản gần như không có nền tảng hoạt động hiển thị trên GitHub
  • Union Labs

    • Được xếp hạng 1 Runa Capital ROSS Index trong quý 2/2025, với tốc độ tăng star 54,2 lần và đạt 74.300 star
    • Trong phân tích nội bộ, nhóm xác nhận tỷ lệ tài khoản 0 kho công khai là 32,7%, tỷ lệ 0 follower là 52% và tỷ lệ star trên fork là 0,052
    • Trong phân tích của StarScout, kho này bị đánh dấu là có 47,4% star giả đáng ngờ
    • Điều này cho thấy ở vị trí đầu của một báo cáo săn tìm đầu tư có ảnh hưởng mà các VC tham khảo lại xuất hiện một dự án mà gần một nửa số star có khả năng là nhân tạo
  • Mảng AI

    • Khi so sánh RagaAI, openai-fm, Langflow và hermes-agent, độ lệch chỉ số bên trong các kho AI cũng cho thấy khác biệt rất lớn
    • RagaAI-Catalyst ghi nhận 76,2% tài khoản 0 follower và 28,0% tài khoản ma, gần như trùng khớp mô hình blockchain
    • openai-fm được nêu là trường hợp cực đoan nhất trong toàn bộ tập dữ liệu
      • suspicious accounts 66,0%
      • 36,0% tài khoản ma
      • Tuổi tài khoản trung vị 116 ngày
      • Hai phần ba stargazer có tuổi đời dưới 1 năm và gần như không có hoạt động trên GitHub
      • StarScout nhận định đây nhiều khả năng là bot bên thứ ba chứ không phải từ chính OpenAI
    • Langflow bị StarScout đánh dấu là giả 47,9%, nhưng trong phân tích mẫu hồ sơ lại cho ra số liệu tương đối sạch với tuổi trung vị 2859 ngày và tỷ lệ tài khoản ma thấp
      • Có khả năng chất lượng tài khoản đã được cải thiện sau đợt quét của StarScout
      • Tuy vậy, tỷ lệ star trên fork 0,060 vẫn thấp, chỉ bằng khoảng một phần tư Flask
    • hermes-agent của NousResearch được phân loại là kho tương đối hữu cơ
      • Tuổi tài khoản trung vị 8 năm
      • 6% tài khoản ma
      • Tỷ lệ star trên fork 0,133
      • Bất chấp cáo buộc astroturfing trên Reddit, phần lớn stargazer được phân tích là nhà phát triển thực
      • Tỷ lệ 0 follower hơi cao do tệp người dùng gần với crypto, nhưng mô hình tương tác cơ bản được đánh giá là hợp lệ

Con đường biến star thành vốn

  • Mối liên hệ giữa số star trên GitHub và việc gọi vốn của startup không còn là suy đoán mà là quan hệ đã được chính nhà đầu tư tự ghi nhận trong tài liệu
  • Jordan Segall của Redpoint Ventures phân tích 80 công ty developer tools và cho thấy số star trung vị ở vòng seed là 2850, còn Series A là 4980
    • Ông cũng nói thẳng rằng nhiều VC vận hành các chương trình scraping nội bộ để tìm các dự án GitHub tăng trưởng nhanh, và chỉ số họ xem nhiều nhất chính là star
  • Những con số này trên thực tế cung cấp cho startup một mục tiêu mua rõ ràng
    • Với mức giá star rẻ, chỉ cần 85 đến 285 USD là có thể thao túng mốc trung vị seed 2850
    • Với 990 đến 4500 USD có thể tiếp cận vùng Series A
    • Lấy chuẩn vòng seed phổ biến từ 1 triệu đến 10 triệu USD, ROI được tính ra trong khoảng 3500 lần đến 117.000 lần
  • Runa Capital phát hành ROSS Index hằng quý để xếp hạng 20 startup mã nguồn mở hàng đầu theo tốc độ tăng trưởng star trên GitHub
    • Theo TechCrunch, 68% startup trong danh sách đã huy động vốn ở giai đoạn seed, với tổng giá trị các vòng được theo dõi là 169 triệu USD
  • GitHub cũng đầu tư 10 triệu USD mỗi năm thông qua GitHub Fund phối hợp cùng M12, rót vốn vào 8 đến 10 công ty mã nguồn mở giai đoạn pre-seed và seed, trong đó traction trên nền tảng là một phần tiêu chí
  • Bài viết cũng liệt kê nhiều trường hợp star dẫn đến gọi vốn
    • Lovable: hơn 50.000 star, pre-seed 7,5 triệu USD, rồi Series A 200 triệu USD ở mức định giá 1,8 tỷ USD khi công ty có 45 nhân viên
    • Pangolin**: 1000 star vào tháng 1/2025, được nhận vào Y Combinator, và đến tháng 8/2025 gọi được**4,7 triệu USD seed

    • Browser-use**: 50.000 star chỉ trong 3 tháng, Y Combinator W25,** 17 triệu USD seed

      • LangChain: nhận 10 triệu USD đầu tư từ Benchmark ở giai đoạn seed
      • Fraser Marlow của Dagster cũng trực tiếp nói rằng ông đã dành khá nhiều thời gian để ý đến GitHub star ngay trước khi gọi vốn
      • Một bài báo trên Organization Science cũng đưa ra mối tương quan có ý nghĩa thống kê giữa hoạt động trên GitHub và kết quả gọi vốn của startup
      • Các startup hoạt động tích cực trên GitHub có xác suất gọi được vòng đầu tư cao hơn 15 điểm phần trăm
      • Kết quả là hình thành một vòng lặp tự củng cố: VC theo dõi star → startup thao túng → nhận thức traction bị thổi phồng → nhiều VC chấp nhận hơn → nhiều thao túng hơn
      • Các ngưỡng công khai của Redpoint trên thực tế đã cung cấp cho startup các con số mục tiêu rất chính xác

Tỷ lệ fork trên sao: một heuristic phát hiện đơn giản

  • Trong phân tích nội bộ, tỷ lệ fork trên sao được xem là chỉ dấu đơn giản mạnh nhất để nhận diện khả năng thao túng
  • Lý do rất đơn giản
    • Sao có thể được bấm không mất gì và không thể hiện cam kết thực chất
    • Fork cho thấy ai đó đã tải mã về để dùng hoặc chỉnh sửa
  • Tỷ lệ fork trên sao trung bình theo từng nhóm được đưa ra như sau
    • 3 kho lưu trữ đường cơ sở tự nhiên có tỷ lệ 0.160
    • 5 kho lưu trữ công cụ AI có tỷ lệ 0.124
    • 4 kho lưu trữ trong cụm blockchain bị nghi thao túng có tỷ lệ 0.053
    • 2 kho lưu trữ ở trường hợp cực đoan có tỷ lệ 0.020
  • Tiêu chí được đề xuất là các kho lưu trữ có hơn 10.000 sao nhưng tỷ lệ fork trên sao dưới 0.05 cần được rà soát kỹ
  • Tỷ lệ watcher trên sao được nêu như một tín hiệu phụ trực quan hơn
    • Các dự án tự nhiên có mức trung bình từ 0.005 đến 0.030
    • FreeDomain có tỷ lệ 0.001
  • Tỷ lệ này không phải tiêu chuẩn phân định hoàn hảo; các kho lưu trữ giáo dục hoặc danh sách tuyển chọn vốn dĩ có thể có tỷ lệ fork thấp
  • Dù vậy, nó vẫn được đánh giá là hữu ích như bộ lọc ban đầu để bắt ra những trường hợp nghiêm trọng nhất mà chỉ nhìn vào số sao thô sẽ bỏ sót

Độ phổ biến giả bên ngoài GitHub

  • Hiện tượng tương tự đang lan sang mọi nền tảng nơi chỉ số phổ biến ảnh hưởng đến niềm tin
  • Lượt tải npm có thể bị thổi phồng rất dễ dàng
    • Andy Richardson chỉ dùng tầng miễn phí của một hàm AWS Lambda duy nhất để đẩy gói is-introspection-query lên gần 1 triệu lượt tải mỗi tuần
    • Con số này còn cao hơn các gói hợp pháp như urql, mobx, nhưng số người dùng thực tế được nêu là 0
    • Trong nghiên cứu của CMU, chỉ 1,23% kho lưu trữ có chiến dịch sao giả xuất hiện trên registry gói, nhưng trong số 738 gói đó thì 70,46% không có dự án phụ thuộc nào
  • Tiện ích mở rộng trên VS Code Marketplace cũng cho thấy cùng một điểm yếu
    • Các nhà nghiên cứu đã chứng minh có thể tạo ra hơn 1.000 lượt cài đặt giả cho tiện ích chỉ trong vòng 48 giờ
    • AquaSec phát hiện 1.283 tiện ích mở rộng có phụ thuộc độc hại đã biết, với tổng số lượt cài đặt là 229 triệu
  • Hoạt động quảng bá trên X/Twitter khuếch đại tính lan truyền GitHub một cách nhân tạo
    • Trong các nhóm kín gọi là engagement pod, các thành viên trao đổi lượt thích, đăng lại và bình luận cho nhau
    • Growth Terminal bán điều này như một tính năng sản phẩm
    • NBC News và các nhà nghiên cứu từ Clemson University xác nhận một mạng lưới 686 tài khoản X đã đăng hơn 130.000 lần bằng nội dung do LLM tạo ra
    • Một số bài đăng còn có dấu vết của mô hình đã dùng như cụm từ “Dolphin here!”
  • Trường hợp Higgsfield AI cho thấy chiến dịch astroturfing xuyên nền tảng đã được ghi nhận ở quy mô lớn
    • Hơn 100 bài đăng spam trên hơn 60 subreddit
    • Kết hợp với việc gửi hàng loạt DM mẫu đề nghị trả tiền cho nhà sáng tạo nội dung để quảng bá

Rủi ro pháp lý gần như không được nhắc đến

  • FTC Consumer Review Rule có hiệu lực từ ngày 21/10/2024 và cấm rõ ràng việc mua bán “chỉ số ảnh hưởng mạng xã hội giả” dựa trên bot hoặc tài khoản giả cho mục đích thương mại
  • Mức xử phạt khi vi phạm được nêu là tối đa 53.088 USD cho mỗi vụ
  • FTC đã gửi đợt thư cảnh báo đầu tiên tới 10 công ty vào tháng 12/2025, và việc mua sao GitHub để quảng bá sản phẩm thương mại được mô tả là phù hợp với khuôn khổ này
  • Tiền lệ của SEC cũng được nêu như ví dụ trực tiếp hơn
    • CEO của HeadSpin bị truy tố về tội lừa đảo qua điện tín và lừa đảo chứng khoán vì bị cáo buộc thổi phồng chỉ số để huy động 80 triệu USD từ nhà đầu tư
    • Nhà sáng lập ComplYant bị truy tố vì bị cáo buộc nói doanh thu hàng tháng là 250.000 USD trong khi thực tế chỉ là 250 USD
  • SEC gửi đi thông điệp rằng các startup gọi vốn không thể dùng văn hóa “fake it until you make it” để lừa dối nhà đầu tư
  • Nếu một startup thổi phồng traction bằng sao GitHub giả trong quá trình gọi vốn, và nhà đầu tư rót vốn dựa trên chỉ số đó, thì có thể áp dụng khuôn khổ lừa đảo qua điện tín vì trình bày sai sự thật trọng yếu qua phương tiện điện tử
  • Dù chưa có vụ truy tố nào chỉ dựa vào sao GitHub giả, nhận định được đưa ra là điều đó có thể chỉ còn là vấn đề thời gian, xét tới bằng chứng thực nghiệm quy mô lớn từ nghiên cứu CMU và lệnh cấm rõ ràng trong quy định của FTC

Phản ứng của GitHub

  • Acceptable Use Policies của GitHub cấm rõ ràng các tương tác không xác thực, tài khoản giả và hoạt động tự động không xác thực, hành vi lạm dụng xếp hạng như tự động gắn sao hoặc theo dõi, cũng như việc tham gia thị trường thứ cấp để khuếch tán hoạt động không xác thực
  • Các lượt sao bị thúc đẩy bởi phần thưởng như airdrop tiền mã hóa, token, credit, quà tặng... cũng nằm trong diện bị cấm theo chính sách
  • Việc thực thi bị đánh giá là mang tính phản ứng và bất đối xứng
    • Các kho lưu trữ do StarScout đánh dấu bị xóa 90,42%, nhưng các tài khoản cung cấp những lượt sao đó chỉ có 57,07% bị xóa
    • Một phần đáng kể hạ tầng tài khoản có thể dùng cho các chiến dịch tương lai vẫn còn tồn tại
  • Trong cuộc điều tra của Dagster, các hồ sơ sao giả đã bị xóa trong vòng 48 giờ, nhưng được mô tả là phản ứng sau khi bị bêu công khai chứ không phải phát hiện chủ động từ trước
  • GitHub chưa từng công bố bài viết blog kỹ thuật nào nói về cách phát hiện thao túng sao hay thống kê thực thi, cũng không có báo cáo minh bạch riêng
  • Phó chủ tịch phụ trách vận hành an ninh của GitHub chỉ trả lời Wired rằng các tài khoản đã bị vô hiệu hóa theo chính sách và từ chối giải thích thêm
    • Tuy vậy, phát biểu này được nêu rõ là bình luận về chiến dịch mã độc Stargazers Ghost Network, chứ không phải thao túng vanity metric
  • Các nhà nghiên cứu CMU khuyến nghị áp dụng chỉ số phổ biến có trọng số dựa trên độ trung tâm của mạng thay vì dùng số sao thô
    • Đây được xem là thay đổi có thể làm suy yếu nền kinh tế sao giả về mặt cấu trúc
  • GitHub vẫn chưa triển khai khuyến nghị này

Chỉ số mà VC nên xem thay thế

  • Bessemer Venture Partners gọi sao là vanity metrics và thay vào đó theo dõi hoạt động của số người đóng góp duy nhất hàng tháng
    • Bao gồm cả người tạo issue, bình luận, PR và commit
    • Trong 10.000 dự án hàng đầu, chưa đến 5% vượt mốc 250 người đóng góp mỗi tháng
    • Chỉ 2% duy trì được mức đó trong 6 tháng liên tiếp
  • Jono Bacon của StateShift khuyến nghị 5 chỉ số có tương quan với mức độ áp dụng thực tế
    • Lượt tải gói
    • Chất lượng issue thể hiện các edge case trong môi trường production từ người dùng thực
    • Khả năng giữ chân người đóng góp, đo bằng thời gian đến PR thứ hai
    • Độ sâu của thảo luận cộng đồng
    • Telemetry về mức sử dụng
  • Tỷ lệ fork trên sao rút ra từ phân tích nội bộ được nêu là bộ lọc ban đầu đơn giản nhất
    • Một dự án khỏe mạnh thường có khoảng 100 đến 200 fork cho mỗi 1.000 sao
    • Nếu số sao tuyệt đối cao nhưng có dưới 50 fork cho mỗi 1.000 sao thì cần kiểm tra thêm
  • Câu trích dẫn được đưa ra là: “Số sao có thể bị làm giả, nhưng một bản vá lỗi đã cứu lấy ngày cuối tuần của ai đó thì không thể bị làm giả.”

Vấn đề mang tính cấu trúc

  • Ba động lực được nêu ra để giải thích vì sao nền kinh tế sao giả tự củng cố chính nó
  • Vòng lặp khuyến khích

    • VC sử dụng số sao như một tín hiệu để tìm kiếm cơ hội
    • Startup thao túng số sao
    • VC xác nhận traction đã bị thổi phồng
    • Nhiều VC hơn bắt đầu áp dụng việc theo dõi số sao
    • Hình thành một cấu trúc tuần hoàn, trong đó ngày càng nhiều startup lao vào thao túng
    • Benchmark công khai của Redpoint là 2.850 cho seed, 4.980 cho Series A trên thực tế đóng vai trò như một bảng số lượng cần mua
  • Tính dễ tổn thương của lĩnh vực AI

    • Tình trạng quá nóng, cấu trúc dòng vốn cận kề tiền mã hóa vốn thưởng cho giá token thay vì chất lượng sản phẩm, cùng hệ sinh thái reviewer trên X/Twitter pha trộn các persona bị thao túng đã kết hợp tạo ra môi trường thuận lợi cho niềm tin được tạo dựng
    • Ngay trong phân tích nội bộ, nhiều repository có tín hiệu thao túng tệ nhất cũng được xác định là các dự án AI liên quan đến blockchain và tiền mã hóa
  • Tính bất đối xứng trong thực thi của GitHub

    • Cấu trúc vừa xóa repository nhưng vẫn để lại 57% tài khoản giả đã bảo toàn lực lượng lao động của nền kinh tế sao giả
    • Khả năng răn đe đối với hành vi vi phạm lặp lại còn yếu
    • Bài viết kết luận rằng, trừ khi GitHub đưa vào các thay đổi mang tính cấu trúc như chỉ số độ phổ biến có trọng số, điểm uy tín ở cấp tài khoản, và báo cáo thực thi minh bạch, khoảng cách giữa số sao và mức độ được lập trình viên thực sự chấp nhận sẽ tiếp tục nới rộng
    • Nền kinh tế sao giả được tóm lược là một cấu trúc nơi vấn đề 50 USD tạo ra kết quả trị giá 50 triệu USD
    • Bài viết kết lại bằng nhận định rằng cho đến khi nền tảng, nhà đầu tư và cơ quan quản lý bắt kịp, thị trường vẫn sẽ tiếp tục trả khoản 50 USD đó

6 bình luận

 
pdpatgtpmdt2843 1 ngày trước

Mấy kẻ lừa đảo kiểu oh-my-claudecode hay claw-code thôi mà =))

 

Cách tiếp cận dựa trên số lượng stargazer khá hay.
Dạo này có nhiều repository mà ngay cả 10 nghìn, 100 nghìn sao cũng vẫn đáng lo, nên mong GitHub có thể phản ứng nhanh hơn.

 

Cá nhân tôi xem số sao như một ngưỡng tối thiểu cần có, chứ không lấy bản thân nó làm tiêu chí để đánh giá.
Tôi sẽ xem xét kỹ hơn với sự hoài nghi đối với những dự án còn chưa tới 100 sao, nhưng cũng không vì một dự án vượt 50.000 sao mà mặc nhiên tin tưởng.

 
shakespeares 1 ngày trước

Đúng là một thái độ đúng đắn.

 
savvykang 1 ngày trước

Hóa ra SKT là một công ty tiên tiến đến vậy.

 
Ý kiến trên Hacker News
  • Tôi thực sự không hiểu nổi chuyện VC lại đưa ra quyết định đầu tư thật dựa trên những điểm số Internet tưởng tượng như GitHub stars. Nó giống như một đội NFL chọn quarterback dựa vào số người theo dõi Instagram thay vì tỷ lệ chuyền bóng thành công. Ngay cả khi nhìn thành tích của Cleveland Browns, tôi cũng thấy đó chỉ là chuyện để đùa chứ không phải chiến lược nghiêm túc để vô địch. Điều đó khiến tôi tự hỏi đây là do VC lười biếng, hay là tác dụng phụ của môi trường như ZIRP, nơi tiền bị bơm ra quá nhiều. Nếu ai đó bảo sẽ quản lý tiền của tôi dựa trên stars, chắc tôi sẽ cười rồi ngay lập tức nghiêm mặt lại
  • Khi chọn thư viện, tôi hầu như chưa bao giờ nhìn stars, và cũng không hiểu tại sao phải nhìn. Những gì tôi xem là thời điểm commit gần nhất, tuổi đời dự án, cách issue được xử lý, và một phần chất lượng code. Xét cho cùng, stars либо chỉ là kết quả gián tiếp của những chỉ số thực chất đó, hoặc là trò gian lận, nên nếu không tự xem trực tiếp thì tôi thấy nó chẳng có ý nghĩa gì. Từ lâu tôi vẫn xem stars chỉ như kiểu "bookmark để xem lại sau", và khá sốc khi thấy nó bị biến thành chỉ số chất lượng. Tôi mong FTC sẽ xử lý mạnh tay kiểu thực hành này. Chỉ cần lướt lịch sử commit cũng đã thấy được loại thay đổi và cadence, nên khá hữu ích
    • Xét ở chỗ con người cuối cùng vẫn bị hấp dẫn bởi đồ trang trí hào nhoáng, thì phép so sánh đó khá chuẩn: giống như Napoleon từng nói, vinh quang, huân chương và phần thưởng là thứ khiến con người hành động
    • Dù bản thân tôi không trực tiếp nhìn stars, nếu tác giả của dependency mà tôi dùng lại bị con số đó chi phối, thì tôi vẫn cho đó là một vấn đề
  • Đọc những bài như thế này dễ khiến người ta có cảm giác chỉ cần chỉnh nhẹ một vấn đề cụ thể là sẽ giải quyết được, nhưng theo tôi thì cả hệ thống còn hỏng hóc hơn nhiều. Cốt lõi là bản thân tín hiệu đã bị hàng hóa hóa. Nếu bạn làm SaaS, sẽ có phóng viên tới chào mời trả tiền để được đưa vào danh sách "Top app của năm", có các dịch vụ hứa tăng follower mạng xã hội, còn recruiter bảo sẽ tìm chuyên gia niche thì cuối cùng cũng chỉ là cào dữ liệu LinkedIn và spam. Trong tuyển dụng, tôi còn thật sự thấy ứng viên ngồi ở một interview farm tại Đông Á, đăng nhập bằng IP Washington D.C., dùng tên kiểu châu Âu, bật nền ảo, và giả vờ biết hết mọi công nghệ trong tin tuyển dụng. Hễ có chỉ số nào trở nên quan trọng thì rất nhanh sẽ xuất hiện cả một hệ sinh thái để thao túng nó, và chuyện thao túng đó rồi lại trở thành một phần bình thường của vận hành kinh doanh
    • Cuối cùng thì tất cả cũng quy về chuyện kiếm thêm tiền
    • Rốt cuộc đây là vấn đề công ty có chọn mua những chỉ số phù phiếm hay không. Gần đây bên tôi cũng đã cố làm cho hoạt động của bot AI trên repository khó khăn hơn, và đang hy vọng bot sẽ chuyển sang phía các startup chỉ tìm mục tiêu tương đối dễ ăn, như trong bài viết này
  • Tôi vận hành một trang nhỏ, nơi tôi định nghĩa rõ hơn một chuẩn không chính thức vốn đã tồn tại từ trước, rồi đăng trên homepage danh sách các phần mềm và thư viện tuân theo chuẩn đó. Ban đầu tôi gần như chấp nhận tất cả, nhưng khi danh sách dài ra, tôi cảm thấy cần có tiêu chí về độ đáng chú ý. Khi từ chối một thư viện mới chỉ vài ngày tuổi, gần như chắc chắn do AI tạo ra và chất lượng cũng kém, tôi có nhắc rằng việc nó "có 0 stars" cũng là một điểm đáng lo, thì tác giả quay sang chất vấn khá hằn học rằng bao nhiêu stars mới đủ. Tôi không trả lời. Stars chỉ là một yếu tố cân nhắc, không phải tất cả. Điều cần thiết là người dùng thật và mức độ được biết đến thật. Sau đó vẫn có các dev khác nhảy vào cuộc trò chuyện, bảo tôi nên đặt ngưỡng star cụ thể thay vì tiêu chí mơ hồ, nhưng tôi cố tình không làm vậy. Ngay khoảnh khắc một con số trở thành mục tiêu thì nó hỏng luôn với tư cách là chỉ số. Tôi cũng chẳng muốn kéo dài trang vô hạn, và nếu chỉ lấy những repo có trên X stars thì cả malware cũng có thể chui vào. Quan trọng hơn hết, tôi là người quyết định sẽ đưa ai lên trang của mình, nên mong người khác đừng cư xử thô lỗ
  • Nhìn vào việc VC coi độ phổ biến trên GitHub như bằng chứng của traction, tôi lại thấy vốn lớn một lần nữa làm hỏng mọi thứ. Ở đây định luật Goodhart cũng áp dụng nguyên xi. Khi cần đánh giá nhanh chất lượng một repository, tôi sẽ nhìn vào mức độ được bảo trì, tuổi đời dự án, sự thanh lịch của API, và lịch sử commit. Như bài viết nói, những chỉ số như hoạt động contributor duy nhất theo tháng, số lượt tải package, chất lượng issue trông giống người dùng thật, tỷ lệ giữ chân đến PR thứ hai, độ sâu của thảo luận cộng đồng, hay telemetry về usage khiến tôi cảm thấy gần với mức sử dụng thực tế hơn
    • Cuối cùng thì tôi đọc code luôn. Tôi thấy đó là cách trực tiếp nhất
  • Có vẻ nhiều người kỳ vọng stars là chỉ số thay thế rẻ và nhanh cho kiểu "phần mềm đáng tin, chất lượng tốt, và được nhiều người theo dõi". Nhưng theo tôi, với tư cách một proxy thì nó thất bại hoàn toàn. Ngay cả bỏ qua astroturfing, stars cũng không đảm bảo độ phổ biến hay chất lượng. Tôi đoán nhiều thư viện hệ thống rất cơ bản cũng có ít stars. Khi bạn có thể đọc trực tiếp code thì việc phụ thuộc vào stars nghe thật vô nghĩa. Vì vậy tôi có thói quen bỏ qua stars, lướt qua repository và tự đánh giá kiến trúc cùng cách triển khai, và theo cách đó tôi đã khá nhiều lần thấy các lựa chọn ít stars lại tốt hơn
    • Nếu có 3 lựa chọn thay thế mà mỗi cái đều 100 nghìn LOC, thì nói hãy đọc code không hẳn là thực tế. Cuối cùng vẫn cần proxy. Stars không đáng tin nên không tốt lắm, nhưng những thứ như khuyến nghị hay referral thì tốt hơn. Dù vậy, ở các lĩnh vực mà mạng lưới của tôi không có kiến thức, thực tế là tôi vẫn sẽ dùng cả những proxy yếu như stars
    • Trước đây trang issue khá tốt để nhìn ra dấu vết sử dụng thực tế. Vì bạn thấy được người ta đang gặp vấn đề gì. Bây giờ đôi khi vẫn còn hữu ích, nhưng rác agent quá nhiều nên không còn như xưa nữa
  • Tôi tự hỏi liệu GitHub có thể dùng điểm dựa trên đồ thị kiểu PageRank thay vì raw stars hay không. Chẳng hạn, nếu người dùng vận hành các repository quan trọng mà star hoặc fork một repo nào đó, thì repo đó sẽ được cộng điểm cao hơn. Chi phí tính toán sẽ lớn hơn, nhưng nếu tôi không bỏ sót điều gì thì có vẻ kết quả sẽ đáng tin hơn nhiều so với hiện tại
    • Cách tiếp cận đó có vẻ gần với kết quả tốt hơn. Tuy vậy, nếu cấu trúc vẫn là đưa mọi người dùng vào ma trận, thì tôi nghĩ vẫn còn khả năng bị game. Có lẽ tốt hơn là dùng một tập giới hạn như trusted peers hoặc bạn của bạn bè, hoặc dùng các tín hiệu hậu nghiệm thay vì chỉ dựa trên lượt thích đơn giản
  • Điều tôi thực sự tò mò là vì sao VC lại xem hệ thống star là thứ đáng tin. Người nhấn star thường nhanh chóng quên luôn dự án, nên những dự án cũ kỹ, không còn được bảo trì vẫn có thể sở hữu rất nhiều stars. Dù không phải lựa chọn tối ưu, nhưng tôi vẫn thấy xem issue còn sống hay không, được mở rồi đóng thế nào, có bị auto-close hay không, thời gian phản hồi ra sao, sẽ tốt hơn. Dự án của tôi có 200 stars, nhưng để duy trì các cập nhật có ý nghĩa đều đặn chứ không chỉ tăng version đơn thuần, thật sự rất vất vả
    • Stars là ví dụ điển hình của một chỉ số đã trở thành mục tiêu, nên nó không còn là thước đo tốt nữa. Và tôi cũng thấy các chỉ số khác như hoạt động issue, trong thời đại LLM, cũng có thể bị thao túng dễ dàng bằng cách mở, đóng và trả lời hàng loạt
    • Những câu chuyện kiểu VC đòi hàng nghìn stars có lẽ hơi mang tính bức tranh quá lớn. Trên thực tế, có lẽ chuyện phổ biến hơn là ai đó bỏ ra 20 USD để làm cho dự án của mình trông có vẻ xịn hơn nhằm ghi vào CV hoặc để thỏa vanity, kiếm thêm click từ Reddit, hay nổi bật hơn các dự án mã nguồn mở khác. Nếu ai đó chỉ nhìn thấy 8 nghìn hay 10 nghìn stars mà chẳng nhìn dự án hay khả năng doanh thu rồi quyết định đầu tư, thì tôi nghĩ đó либо là nhà đầu tư thiếu hiểu biết, либо chỉ ở mức mỗi mùa hè chọn một dự án sinh viên. Các tài khoản giả cũng thả stars vào các repository cũ của tôi để trông giống người dùng thật, kiểu mỗi tháng star 5 nghìn dự án và không có hoạt động nào khác, nên nhìn là lộ ngay. Trước đây tôi còn thấy cả các vòng GitHub Sponsor, rất có mùi rửa tiền hoặc dùng thẻ đánh cắp
    • Điều tôi tìm kiếm là tín hiệu về chất lượng phần mềm trong dài hạn, còn thứ VC tìm là tín hiệu momentum tăng vọt trong ngắn hạn. Hai thứ đó thường xuyên xung đột với nhau
    • Ở đây một điểm đồ thị kiểu pagerank cũng có thể hữu ích ở mức nào đó. Nếu cộng điểm cao hơn cho các repository có nhiều issue từ người dùng uy tín, thì nó có thể chống chịu tốt hơn đôi chút trước các trò thao túng đơn giản
    • Nếu trong 3 năm qua không có gì thay đổi lớn, thì tôi cảm thấy bài này có phần phóng đại mức độ VC tin vào stars. Khi tôi nói chuyện với các VC cách đây 10 năm, phần lớn họ đã sớm xem stars là chỉ số hư vinh và bỏ qua rồi
  • Tôi nghĩ GitHub có thể trấn áp rất dễ vấn đề này. Chỉ cần chi 10 USD cho mỗi dịch vụ bán star, tự đi mua thử, rồi khóa toàn bộ tài khoản dính líu là xong. Chỉ với một số tiền rất nhỏ cũng có thể tạo ma sát lớn cho cả hệ sinh thái này
  • Tài liệu liên quan đáng tham khảo gồm bài viết năm 2023 của Dagster "Tracking the Fake GitHub Star Black Market with Dagster, dbt and BigQuery", và bài báo arXiv "Six Million (Suspected) Fake Stars in GitHub: A Growing Spiral of Popularity Contests, Spams, and Malware"