1 điểm bởi GN⁺ 2024-10-02 | 1 bình luận | Chia sẻ qua WhatsApp

Bot, quá nhiều bot

Khởi đầu

  • ProductHunt có hơn 1 triệu lượt đăng ký người dùng
  • Trong số đó, hơn 60% là bot

Mọi chuyện bắt đầu như thế này

  • Đã sử dụng ProductHunt từ năm 2014
  • Gần đây, có cảm giác phần lớn bình luận được tạo bằng ChatGPT

Một bài kiểm tra đơn giản

  • Chèn prompt LLM vào phần mô tả sản phẩm rồi ra mắt sản phẩm
  • Xác nhận rằng gần như mọi bình luận đều là tự động

Có thể phân biệt bot không?

  • Trả lời bình luận là lãng phí thời gian
  • Nếu nhiều bot đang để lại bình luận, chúng có lẽ cũng đang upvote
  • Cũng có những người trả tiền để mua upvote

Phân tích dữ liệu

  • Phân tích danh sách người dùng, lượt ra mắt, upvote và bình luận của ProductHunt
  • Có hơn 1 triệu lượt đăng ký người dùng, hơn 300.000 lượt ra mắt, 2,5 triệu bình luận và 20 triệu upvote
  • Mỗi sản phẩm có thứ hạng theo ngày, được tính bằng điểm số sau 24 giờ kể từ 0 giờ PDT mỗi ngày

Phát hiện tài khoản bot

  • Việc phát hiện bot rất khó
  • Đã cố tìm xu hướng bằng cách phân tích thời điểm người dùng bình luận
  • Ví dụ, một người dùng đã đăng ký từ 677 ngày trước, để lại 2009 bình luận và thực hiện 4649 upvote
  • Đây là người dùng có dùng tự động hóa, nhưng không phải bot
  • Một người dùng bot đã đăng ký 140 ngày trước, để lại 173 bình luận và thực hiện 246 upvote
  • Bình luận của bot xuất hiện theo khoảng cách đều đặn, biểu đồ không mượt mà mà có dạng khối hộp
  • Gán điểm rủi ro cho người dùng dựa trên nhiều tiêu chí
  • Bình luận do ChatGPT tạo ra thường dùng các từ như "game-changer" thường xuyên hơn
  • Bình luận của bot chứa các ký tự hoặc tên sản phẩm khó có thể tự gõ thủ công
  • Phân cụm có hiệu quả ở mức độ nào đó, nhưng nhiều tài khoản bot bị bỏ đi sau khi sử dụng
  • Cuối cùng phát hiện rằng hơn 60% lượt đăng ký người dùng là tài khoản bot tự động

Diễn biến hoạt động của bot theo thời gian

  • Từ sau năm 2018, số người dùng bot được tạo ra nhiều hơn người dùng thật
  • Từ cuối năm 2022, bình luận bot tăng vọt
  • Ngay trong năm 2022, upvote từ bot cũng đã vượt quá upvote thật
  • Bot tạo thành các vòng bỏ phiếu để nhà làm sản phẩm mua upvote
  • Phần lớn sản phẩm ra mắt chỉ nhận được vài upvote thật
  • Để đứng hạng 1 trong bảng xếp hạng ngày, cần 15% upvote từ bot
  • Hơn 60% upvote từ bot cũng không thể giành hạng 1

Suy nghĩ cuối cùng

  • Muốn tạo một danh sách các lượt ra mắt đã loại bỏ upvote bot, nhưng không đủ thời gian nên để lại cho bài blog tiếp theo

Tóm tắt của GN⁺

  • Hơn 60% người dùng ProductHunt là tài khoản bot
  • Bình luận và upvote của bot làm méo mó hoạt động của người dùng thật
  • Việc phát hiện bot là khó, nhưng có thể làm được bằng cách gán điểm rủi ro theo nhiều tiêu chí
  • Khi hoạt động của bot gia tăng, độ tin cậy của ProductHunt có thể suy giảm
  • Một sản phẩm khác có chức năng tương tự là Hacker News

1 bình luận

 
GN⁺ 2024-10-02
Ý kiến trên Hacker News
  • Phân tích bắt đầu bằng việc phân loại tùy ý người dùng là bot hay không là có vấn đề. Nếu phân loại này sai thì toàn bộ phân tích đều sai

    • Ví dụ, vào cuối năm 2022, số bình luận bot tăng vọt. Điều này trùng với thời điểm ChatGPT bắt đầu được dùng rộng rãi
    • Các bình luận do ChatGPT tạo ra thường dùng những từ như "game-changer". Bình luận bot giữ nguyên các ký tự hoặc tên sản phẩm khó gõ
    • Vì vậy, họ phân loại những người dùng hành xử giống ChatGPT là bot, rồi cho rằng sau khi ChatGPT ra mắt thì số người dùng như vậy tăng lên. Nhưng cũng có thể trước đó đã có rất nhiều bot rồi
  • Tò mò không biết ProductHunt có dùng giải pháp CAPTCHA hay không

    • CAPTCHA vẫn hữu ích trong việc ngăn các đợt tấn công spam
    • Những chỉ trích phổ biến là về tính dễ dùng, khả năng tiếp cận và quyền riêng tư. Người dùng ghét nó
    • Trong vài năm gần đây đã xuất hiện các CAPTCHA hoạt động mà không cần người dùng nhập gì và vẫn bảo vệ quyền riêng tư
    • Bot cao cấp có thể dễ dàng vượt qua CAPTCHA. Tuy vậy, các kỹ thuật truyền thống vẫn hữu ích để chặn bot cấp thấp. Có thể dùng các kỹ thuật tiên tiến hơn như ML để đối phó với bot cao cấp
    • CAPTCHA không hiệu quả với các cuộc tấn công dùng người thật. Trường hợp đó cần cơ chế khác
  • Khi đăng sản phẩm lên ProductHunt 5 năm trước, tôi đã nhận được hàng chục tin nhắn hứa đảm bảo vị trí số một. Giờ chắc còn tệ hơn nữa

  • Tò mò không biết ai đang ở trên ProductHunt. Khách hàng ư? Có lẽ không. Indiehackers? Có thể. Không rõ đang bán cho ai và liệu ra mắt trên ProductHunt có đáng hay không

  • Có thể thấy rõ nỗ lực và kết quả từ người mà tôi quen biết ngoài đời. Làm tốt lắm

  • Đây là bước tiến của "thuyết internet chết". Nếu muốn bảo đảm tương tác là thật thì cần một danh tính mạnh và đáng tin cậy, nơi hành vi lạm dụng sẽ phải chịu hậu quả

    • Danh tính này phải do chính phủ triển khai. Các công ty công nghệ lớn vẫn chưa giải quyết được, và tôi cũng nghi ngờ họ có ý định giải quyết hay không
    • Ví dụ, nếu Google mạnh tay trấn áp việc này mà 60-80% lưu lượng YouTube lại đến từ bot, thì doanh thu sẽ biến mất
  • Có vài bài đăng trên Reddit, và thỉnh thoảng bot dựa trên GPT để lại những bình luận kiểu như "Chủ đề à? Wow! Thật sự rất gợi suy nghĩ, tôi tự hỏi tại sao nó lại quan trọng"

    • Cũng có thể Reddit đang vận hành những bot như vậy để thúc đẩy tương tác
  • Nhiều người sẽ không nhận ra rằng họ đang trò chuyện với GenAI

    • Chuyện một người dùng nhiều tài khoản để giả làm nhiều người khác đã là vấn đề từ lâu. GenAI khiến việc thao túng narrative thông qua bot trở nên rẻ hơn
    • Đây là vấn đề của mọi mạng xã hội. Cách giải quyết duy nhất là xác minh con người
    • Tôi đang xây dựng một mạng xã hội nơi chỉ con người thật mới có thể upvote/downvote và bình luận
  • Tôi có một tài khoản X đã 1 năm tuổi và chưa từng bình luận lần nào. Nhưng có 35 phụ nữ hấp dẫn theo dõi tôi. Không có đàn ông hay phụ nữ không hấp dẫn nào cả. Chuyện này không phải do sức hấp dẫn từ những lượt like của tôi

    • Đây là một mô hình thu nhỏ của toàn bộ web
  • Ai đó nên bán áo thun "me good LLM"