Bot, quá nhiều bot

(wakatime.com)

1 điểm bởi GN⁺ 2024-10-02 | 1 bình luận | Chia sẻ qua WhatsApp

ProductHunt là nền tảng ra mắt sản phẩm với hơn 1 triệu người đăng ký, nhưng qua phân tích dữ liệu công khai, hơn 60% người đăng ký được phân loại là tài khoản bot tự động
Khi tự ra mắt bằng cách chèn LLM prompt injection vào phần mô tả sản phẩm, gần như mọi bình luận đều cho thấy là tự động; nhiều bình luận gần đây cũng trông như được tạo bởi ChatGPT
Khó kết luận chắc chắn đâu là bot chỉ bằng dữ liệu công khai, nên việc nhận diện dựa trên điểm rủi ro kết hợp thời gian hoạt động, mẫu upvote, mức độ trùng lặp với các bot khác và nội dung bình luận
Từ sau năm 2018, số lượt đăng ký bot đã vượt người dùng thật; đến năm 2022, upvote từ bot vượt upvote thật, làm tăng khả năng các vòng bỏ phiếu ảnh hưởng đến thứ hạng
Ra mắt trên ProductHunt vẫn có thể là cơ hội để được chú ý, nhưng thực tế hơn là chuẩn bị ngắn gọn và không dành quá nhiều thời gian, thay vì kỳ vọng vào việc phản hồi bình luận hay hiệu quả SEO

Hoạt động bot lộ rõ trên ProductHunt

ProductHunt đã hữu ích từ đầu năm 2014 trong việc theo dõi các lần ra mắt sản phẩm công nghệ mới nhất, tìm các công cụ tương tự qua bình luận, hoặc thu thập phản hồi cho sản phẩm của chính mình
Gần đây, hầu hết bình luận về sản phẩm trông như bình luận do ChatGPT tạo, nên tôi đã thử tự ra mắt bằng cách chèn một LLM prompt injection đơn giản vào phần mô tả sản phẩm
Sau khi ra mắt, gần như mọi bình luận đều cho thấy là tự động, làm dấy lên nghi vấn rằng việc người ra mắt trên ProductHunt trả lời bình luận có thể chỉ là lãng phí thời gian
Các email đề nghị cung cấp upvote trả phí liên tục được gửi đến, và trên Reddit cũng có trường hợp nói rằng họ đã mua upvote ProductHunt hai lần

Dữ liệu công khai được dùng để phân tích

Đã phân tích danh sách người dùng, lượt ra mắt, upvote và bình luận ProductHunt có thể truy cập công khai
Quy mô dữ liệu như sau
- Lượt đăng ký người dùng: hơn 1 triệu
- Lượt ra mắt: hơn 300.000
- Bình luận: 2,5 triệu
- Upvote: 20 triệu
Mỗi sản phẩm có thứ hạng hằng ngày, là điểm số sau 24 giờ kể từ nửa đêm PDT vào ngày ra mắt
- Vị trí số 1 có daily rank 1
- Một số sản phẩm có rank là null, có thể do bị xóa, bị báo cáo hoặc chưa ra mắt

Cách nhận diện tài khoản bot

Vì khó phát hiện bot chỉ bằng dữ liệu công khai, một tiêu chí đơn lẻ là không đủ
Ban đầu, tôi cố phân tích khung giờ bình luận của người dùng để tìm xu hướng
- Một người dùng có 677 ngày kể từ khi đăng ký, 2.009 bình luận và 4.649 upvote, trông giống một power user dùng tự động hóa nhưng không được phân loại là bot
- Một người dùng khác có 140 ngày kể từ khi đăng ký, 173 bình luận và 246 upvote; khoảng cách giữa các bình luận đều đặn, biểu đồ không mượt mà mà trông dạng khối
Cuối cùng, nhiều tín hiệu được kết hợp để gán điểm rủi ro cho từng người dùng
- Thời gian hoạt động của tài khoản
- Mẫu upvote theo thời gian
- Số upvote chia sẻ với các bot khác
- Nội dung bình luận
Trong các bình luận do ChatGPT tạo, những từ như game-changer xuất hiện thường xuyên hơn
Bình luận của bot thường có các ký tự khó gõ thông thường như em-dash, hoặc giữ nguyên tên sản phẩm rất dài hay có chứa ™
Một số tài khoản bot dùng nguyên tên và phần giới thiệu LinkedIn của người thật, nhưng những người đó trả lời rằng họ chưa từng tạo tài khoản ProductHunt
Clustering có hiệu quả phần nào, nhưng nhiều tài khoản bot bị bỏ đi sau khi dùng, nên thường chỉ có một trong nhiều phiếu bầu ngẫu nhiên trùng với bot khác
- Do cupy và cudf chưa triển khai các phương thức cần thiết trên GPU, clustering chỉ được chạy trên tập dữ liệu nhỏ
- Nếu người có nhiều kinh nghiệm hơn tiếp cận, việc phát hiện bot có thể được cải thiện
Kết quả phân tích cho thấy hơn 60% lượt đăng ký người dùng được phát hiện là tài khoản bot tự động
- Đây là con số thận trọng vì chưa bắt được tất cả bot
- Nếu có dữ liệu nội bộ của ProductHunt, sẽ dễ tìm hoạt động bot chính xác hơn

Hoạt động bot thay đổi theo thời gian

Đăng ký người dùng
- Từ sau năm 2018, số người dùng bot được tạo nhiều hơn người dùng thật
Bình luận
- Từ cuối năm 2022, bình luận của bot tăng mạnh
- Thời điểm này tương tự lúc ChatGPT trở nên phổ biến rộng rãi
- Mức tăng vọt năm 2024 có thể là do tài khoản bot bị xóa theo thời gian
- Các tài khoản mới nhất nhiều khả năng chưa bị xóa, nên bình luận dễ truy cập hơn
Upvote
- Năm 2022, upvote từ bot vượt upvote của người dùng thật
- Bot hình thành các vòng bỏ phiếu nhằm tăng khả năng được đưa vào newsletter của ProductHunt
Thứ hạng
- Hầu hết các lượt ra mắt chỉ nhận được vài upvote thật
- Vì bot bỏ phiếu ngẫu nhiên để trông có vẻ hòa lẫn, đường xu hướng upvote của bot mượt hơn so với upvote của người dùng thật

Mối quan hệ giữa thứ hạng hằng ngày và upvote từ bot

Các lượt ra mắt đứng số 1 trên ProductHunt được giới thiệu trong newsletter hằng ngày và hằng tuần
Để đạt vị trí số 1, 15% phiếu bot có vẻ là mức an toàn
Các lượt ra mắt có phiếu bot vượt 60% dường như vì lý do nào đó không lên được vị trí số 1
Nếu chỉ nhìn các lượt ra mắt từ sau năm 2020, bot chiếm tỷ trọng upvote lớn hơn trong các bài đăng hàng đầu gần đây
Có thể các lượt ra mắt mua upvote không phải là sản phẩm chất lượng cao, nên thường dừng ở top 5 thay vì vị trí số 1

Hiệu quả thực tế của việc ra mắt trên ProductHunt

Dù phần lớn bình luận và upvote là bot, ProductHunt vẫn có thể còn một số người dùng thật
Nếu trả tiền cho bot để được giới thiệu trong newsletter, khả năng nhiều người thật nhìn thấy sản phẩm hơn có thể tăng
Ra mắt trên ProductHunt không có hiệu quả SEO backlink
- Để Google tính là backlink, phần tử liên kết a trỏ tới sản phẩm không được có nofollow
- Liên kết sản phẩm trên ProductHunt có nofollow, nên công cụ tìm kiếm không tính là backlink
- Nếu chỉ nhập một liên kết cho sản phẩm, đó không phải là liên kết thật mà là phần tử button mở trang sản phẩm bằng JavaScript
- Các trang tổng hợp khác có thể lấy lần ra mắt và liên kết lại, nhưng bản thân ProductHunt không được tính là backlink
Trong giới đầu tư, có nhóm coi trọng huy hiệu #1 của ProductHunt, nên điều đó có thể hữu ích khi trao đổi với nhà đầu tư
Nhìn chung, ra mắt trên ProductHunt vẫn đáng thử, nhưng tốt hơn là không dành quá vài phút để chuẩn bị ra mắt và không lãng phí thời gian trả lời bình luận

Phân tích còn lại và dự án liên quan

Tôi từng muốn tạo danh sách các lượt ra mắt không có phiếu bot để xem liệu sản phẩm số 1 trong ngày có thay đổi khi loại bỏ phiếu bot hay không
Tôi không muốn chỉ đích danh các lượt ra mắt có nhiều upvote bot dù thực ra họ không trả tiền, cũng không muốn quảng bá thêm cho các lượt ra mắt đã trả tiền, nên sẽ để phần phân tích đó cho một bài viết sau
Thảo luận liên quan có trên HN
Như những nỗ lực nhằm cải thiện vấn đề của ProductHunt, wonderful.dev và wonderful.dev/alan cũng được giới thiệu cùng

1 bình luận

GN⁺ 2024-10-02

Ý kiến trên Hacker News

Tò mò không biết ProductHunt có dùng giải pháp CAPTCHA nào không
CAPTCHA thường bị chê nhiều, nhưng tôi nghĩ nó vẫn rất có giá trị trong việc chặn phần lớn các cuộc tấn công spam kiểu này. Các vấn đề về khả dụng, khả năng tiếp cận và quyền riêng tư trong vài năm gần đây đã được cải thiện theo hướng hoạt động không cần người dùng nhập liệu và vẫn bảo vệ quyền riêng tư; còn phê bình rằng bot tinh vi có thể vượt qua thì, để chặn bot nỗ lực thấp, các kỹ thuật truyền thống vẫn đủ hữu dụng. Với các cuộc tấn công dùng người thật thì CAPTCHA vốn không phù hợp ngay từ đầu, nên trang web phải có biện pháp phòng vệ riêng, nhưng tôi không nghĩ đó là nguyên nhân chính của tình trạng spam đang thấy hiện nay
- Gần đây tôi đang nghĩ xem liệu có thể tạo một hệ thống kiểu có đặt cược để chứng minh khả năng cao là con người hay không
  Ví dụ, nếu quyên góp một lần 5 đô la cho tổ chức từ thiện mình muốn trên một trang “chứng thực”, người dùng sẽ nhận được token chứng minh rằng họ đã chi tiền, và các trang đối tác như HN có thể đốt token đó để đánh dấu tài khoản là có khả năng cao là con người, hoặc ít nhất là một bot mà nếu bị chặn thì chủ sở hữu sẽ chịu thiệt. Cách này thân thiện với quyền riêng tư hơn rất nhiều so với nhiều hệ thống tra cứu căn cước quốc gia, và dù trông có vẻ như “mua quyền phát biểu bằng tiền”, trên thực tế nó có thể rẻ hơn thời gian, chi phí đi lại và thủ tục giấy tờ trong các hệ thống miễn phí. Vấn đề lớn có lẽ sẽ là thanh toán gian lận bằng thẻ bị đánh cắp để mua token, các trang chứng thực nhận tiền rồi biến mất, các trang đích bí mật thu thập token chứng thực, và việc xử lý phi tập trung khi nhiều trang quyên góp và trang tài khoản khác nhau tin cậy các token khác nhau
- Ngành dịch vụ giải CAPTCHA đã tồn tại rồi, và phần lớn dùng con người ở các khu vực có chi phí nhân công rẻ
  Ở một trong các dịch vụ phổ biến, giá khoảng $0.001~$0.002 cho mỗi reCAPTCHA, nên dùng cũng không cần trình độ kỹ thuật cao. Ngay cả nếu mỗi bình luận đều cần CAPTCHA, khoảng 50 đô la mỗi năm là có thể spam một trang với 100 bình luận mỗi ngày; có thể lọc được script kiddie trung bình, nhưng nếu có thể kiếm tiền từ spam thì rất dễ có lãi. Khó có thể coi các dịch vụ như vậy là “trường hợp biên”
- Người vận hành website vừa muốn công khai dữ liệu, vừa muốn không cho người khác sao chép
  Đây là một mâu thuẫn nội tại giống như DRM không hoạt động. Các nhà phát triển web cũng làm trang phình to với JavaScript tính bằng MB và thiết kế phức tạp quá mức, trong khi dùng trang tĩnh và CDN có thể rẻ hơn rất nhiều
- Giải pháp gần như hoàn hảo là kiểm duyệt thủ công mọi nội dung gửi lên
  Dùng hệ thống tự động làm tuyến phòng thủ đầu tiên chống spam, rồi thuê người kiểm tra từng nội dung đã vượt qua. Dù là do người thật đăng, quy trình này cũng có thể đảm bảo một tiêu chuẩn chất lượng nhất định. Các nội dung hợp lệ bị bộ lọc spam ban đầu chặn có thể khiếu nại qua email, v.v. để được đưa vào hàng đợi xem xét thủ công. Việc này không dễ và có thể khiến thời gian đăng lâu hơn, nhưng spam và nội dung chất lượng thấp có thể giảm gần như về 0
- Với tư cách là người vốn đã thường xuyên gặp CAPTCHA vì dùng VPN, tôi hy vọng chúng đừng tăng thêm nữa
  Cần nghĩ xem đã có bao nhiêu thời gian của con người bị lãng phí vào những thứ này
Khoảng 5 năm trước, khi tôi đăng sản phẩm lên ProductHunt, tôi cũng nhận được hàng chục lời đề nghị quảng bá đảm bảo hạng nhất
Tin nhắn đổ tới literally chỉ sau một giờ đăng, và bây giờ có lẽ còn tệ hơn
Có vấn đề khi bắt đầu phân tích từ một phân loại tùy ý mà không có cách xác minh người dùng có phải bot hay không
Nếu phân loại đó sai thì toàn bộ phân tích sai. Đặc biệt đáng chú ý là phần “bình luận bot tăng vọt vào khoảng cuối năm 2022, khi ChatGPT bắt đầu được dùng rộng rãi”, trong khi một trong các tiêu chí phân loại là “bình luận do ChatGPT tạo có tần suất cao các từ như game-changer, các ký tự khó gõ như em dash hoặc ™, và giữ nguyên tên sản phẩm dài”. Nói cách khác, họ phân loại những ai hành xử giống ChatGPT là bot, rồi sau khi ChatGPT ra mắt lại xem việc số người dùng như vậy tăng lên như một phát hiện thú vị. Trước đó có thể cũng đã có nhiều bot, nhưng chúng dùng phần mềm khác nên hành xử khác và vì thế không bị phát hiện
- Nói vậy đúng, nhưng nếu phân loại bot dùng ChatGPT là chính xác thì việc bình luận do ChatGPT tạo thực sự tăng vọt tự thân nó cũng đáng chú ý
  Và nếu phân loại đó đúng, thì ngay cả khi đang đếm thiếu tổng số bot do chưa tính các bot không dùng ChatGPT, việc số bình luận do bot tạo đã vượt xa số bình luận của người thật cũng vẫn quan trọng. Tất nhiên, như đã nói, ở đây có khá nhiều chữ “nếu”, và nếu tiền đề sụp đổ thì kết luận cũng sụp đổ
- Bài viết bắt đầu bằng kiểm thử prompt injection, và các tiền đề có bằng chứng đi kèm
  Nếu không đồng ý thì cần đề xuất một cách phân loại thay thế, còn không thì trông có vẻ ác ý và không hữu ích
- Các phương pháp thống kê kiểu này có thể chính xác khi đánh giá một khu vực bình luận có đầy bot hay không, nhưng kém chính xác hơn nhiều khi phán định một bình luận riêng lẻ có phải bot hay không
Câu hỏi cốt lõi là ai đang ở trên ProductHunt
Có phải khách hàng không? Đáng nghi; có phải indie hacker không? Có khả năng. Chúng ta cần xem mình đang bán cho ai, và ngay từ đầu việc ra mắt trên PH có ý nghĩa hay không
- Đây là một điểm rất hay
  Chúng tôi ra mắt trên PH và đứng hạng 1 trong ngày đó cũng như hạng 1 của tuần đó, nhưng gần như không có thêm khách hàng mới; thay vào đó lại nhận được rất nhiều inbound từ nhà đầu tư. Nếu đang gọi vốn thì có giá trị, còn nếu không thì nên đến nơi có khách hàng. Khách hàng của chúng tôi không phải người dùng PH
Phân tích rất hay, nhưng việc ProductHunt là một website “thật” lại còn đáng ngạc nhiên hơn
Từ lâu tôi đã chặn PH bằng ublacklist, vì nó trông như quảng bá SEO/rác và quá giống các trang kiểu “VS/so sánh/5 ứng dụng tốt nhất” gần như không có nội dung. Những trang như vậy mọc lên nhanh hơn tốc độ ta có thể lọc thủ công. Ngay cả sau khi kiểm tra lại và biết rằng đó không phải là nội dung thuần túy do máy tạo, nếu tình cờ gặp nó trong kết quả tìm kiếm thì tôi vẫn không hiểu đề xuất giá trị của nó là gì
- Tôi biết vài công ty khá coi trọng việc có thứ hạng tốt trên PH, nhưng phản ứng của tôi cũng y như vậy
  Người dùng cuối hay các công ty thực sự có quan tâm đến nơi đó không?
Xu hướng giữa bot và con người hơi đáng lo
Người thật được phát hiện có vẻ ngày càng ít bỏ phiếu và bình luận hơn, còn bot thì ngược lại, đang tăng lên. Đây có phải là một dấu hiệu nữa cho thấy thuyết Internet đã chết là đúng không?
- DIT bị đặt tên sai
  Vì nó chưa xảy ra nhưng sẽ thành hiện thực trong tương lai, có lẽ gọi là lời tiên tri Internet đã chết sẽ hay hơn
- Liên quan đến chuyện đó, người thật trên HN bị giới hạn 5 bình luận trong 6 giờ, nhưng tác nhân độc hại chỉ cần tạo hàng trăm tài khoản là có thể né giới hạn này
Trước đây từng có Web of Trust (WOT) để bình chọn cho các website
Liệu một web of trust dành cho con người có thể giúp phòng chống bot không? Nếu tôi có khoảng hơn chục tài khoản có thể bảo chứng rằng tôi là người thật, và người khác cũng có thể bỏ phiếu cho tôi, thì có thể tạo ra một mạng lưới tin cậy. Tất nhiên cần có seed, nhưng có thể xây dựng tương đối dễ bằng tài khoản đã xác thực hoặc kết nối và tương tác trên mạng xã hội. X và Meta hẳn biết khá chắc tài khoản nào là bot, nhưng có vẻ họ không quan tâm đến việc cung cấp tri thức này như một dịch vụ
- AI sẽ tiếp tục ngày càng tốt hơn
  Có lẽ không còn xa đến lúc xuất hiện AI với mục đích xây dựng một hiện diện trực tuyến khiến người ta tin rằng phía sau là người thật. Một nhân vật giả thậm chí có thể đăng cả video tạo sinh về các hoạt động bình thường. Cuối cùng sẽ cần web of trust, bằng chứng, điểm uy tín của agent; trong đó có lẽ phải bao gồm các yếu tố như tương tác trực tiếp ngoài đời thực, một mức hỗ trợ nhất định từ chính phủ, và camera có thể xác thực cảnh quay cùng metadata. Những người tiêu thụ nội dung và muốn kiểm chứng thật giả sẽ phải tham gia hệ thống này hoặc ở lại với báo chí truyền thống, và một số quốc gia có thể ban hành luật giúp công dân tiêu thụ tin tức chân thực. Tuy nhiên, tôi cho rằng không có cách nào tạo ra một mạng lưới tin cậy khá mạnh khi thực sự không biết danh tính của đối phương. Vì vậy mạng lưới tin cậy này cũng sẽ được tội phạm và chính phủ dùng để tìm mục tiêu. Chi phí xã hội của việc cho phép AI giả làm con người là quá lớn, nên việc lập pháp cấm điều này có thể đáng làm
- Rốt cuộc, bạn phải nhớ rằng bạn không phải là khách hàng; một nhà quảng cáo nào đó mới là khách hàng
  Chức năng chính của các dịch vụ này là thổi phồng số lượng người dùng để bán được nhiều quảng cáo hơn
- Một hệ thống như vậy sẽ bị cuốn đi và bóp méo theo các mục đích tiện lợi của nhà nước
Trên Reddit có vài bài không có nhiều bình luận, nhưng khoảng mỗi tuần lại có bot dựa trên GPT vào để lại những câu hỏi rất sáo rỗng kiểu “Ồ! Thật đáng suy ngẫm, tôi tò mò vì sao điều này quan trọng”
Với tôi, trông như một nỗ lực khiến tôi nạp thêm dữ liệu vào hệ thống. Tôi cũng sẽ không ngạc nhiên nếu Reddit tự vận hành những bot như vậy để thúc đẩy tương tác
- Chỉ cần nhìn vào lịch sử của Reddit
  Trước khi bot trở nên khả thi, họ đã curate bằng tài khoản giả do con người trực tiếp quản lý; giờ bot đã khả thi, tôi tin mạnh rằng phần lớn bình luận và bài đăng trong các subreddit phổ biến là bot. Tôi cho rằng một phần đáng kể trong số đó do chính Reddit vận hành

Bot, quá nhiều bot

Hoạt động bot lộ rõ trên ProductHunt

Dữ liệu công khai được dùng để phân tích

Cách nhận diện tài khoản bot

Hoạt động bot thay đổi theo thời gian

Đăng ký người dùng

Bình luận

Upvote

Thứ hạng

Mối quan hệ giữa thứ hạng hằng ngày và upvote từ bot

Hiệu quả thực tế của việc ra mắt trên ProductHunt

Phân tích còn lại và dự án liên quan

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News