Bot ngày càng mô phỏng hoạt động giống người dùng thực hơn

(joindatacops.com)

14 điểm bởi GN⁺ 2025-10-16 | 2 bình luận | Chia sẻ qua WhatsApp

73% khách truy cập vào các website thương mại điện tử rất có thể không phải là con người thật mà là các bot tinh vi
Các công cụ phân tích tiêu chuẩn khó phân biệt được loại lưu lượng bot này, khiến việc phân tích hiệu quả quảng cáo và tính toán ROI marketing bị méo mó
Chúng mô phỏng rất tinh vi hoạt động trên website theo nhiều kiểu như bot tương tác (Engagement Bot), bot bỏ giỏ hàng (Cart Abandonment Bot) và bot truy cập từ mạng xã hội
Một tỷ lệ nhất định của lưu lượng bot đến từ thu thập dữ liệu hoặc tự động hóa hợp pháp, nhưng phần lớn được dùng cho gian lận quảng cáo hoặc thao túng chỉ số nội bộ
Hiện vấn đề này không còn giới hạn ở một vài website cụ thể mà đang lan rộng thành một thách thức có hệ thống trên toàn ngành

Khởi đầu vấn đề: bí ẩn của tỷ lệ chuyển đổi 0,1%

Website của một khách hàng thương mại điện tử ghi nhận 50.000 lượt truy cập mỗi tháng, nhưng doanh số thực tế chỉ vỏn vẹn 47 đơn
Trên các nền tảng phân tích như Google Analytics, dữ liệu trông rất tích cực, nhưng phát hiện ra rằng mức độ liên hệ với doanh thu thực tế rất thấp
Dù chi 4.000 USD mỗi tháng cho quảng cáo, đà tăng trưởng và doanh thu hoàn toàn không tỷ lệ thuận
Trái với suy đoán ban đầu rằng vấn đề nằm ở chính sản phẩm, nhóm đã phát hiện tín hiệu bất thường khi trực tiếp phân tích dữ liệu lưu lượng website
Để làm rõ vấn đề, họ đã phát triển script theo dõi nhằm giám sát cách hành xử của người dùng thực

Điều tra ban đầu: theo dõi để kiểm chứng sự thật về lưu lượng

Phát triển công cụ theo dõi không chỉ đếm số click mà còn quan sát mẫu hành vi thực của người dùng
- Di chuyển chuột: phân tích đường cong tự nhiên so với kiểu di chuyển thẳng mang tính máy móc
- Mẫu cuộn trang: tốc độ thay đổi và có dừng/cuộn ngược so với kiểu cuộn cơ học đều tăm tắp
- Khoảng cách giữa các tương tác: đo độ biến thiên thời gian giữa click, hover và thêm vào giỏ hàng
Chỉ sau một tuần, họ xác nhận rằng lưu lượng phi con người (Non-human) chiếm tới 68%
Phần lớn không phải spam thông thường, mà là những bot xảo quyệt được thiết kế để đánh lừa công cụ phân tích

Vấn đề lan rộng: không phải sự cố cá biệt mà là hiện tượng toàn ngành

Trên các diễn đàn marketing và nhóm Discord, họ hỏi những người vận hành thương mại điện tử khác: "Có ai từng thấy lưu lượng và doanh thu không khớp nhau không?"
Sau khi được phép cài script theo dõi trên hơn 200 website thương mại điện tử nhỏ và vừa, kết quả điều tra kéo dài 6 tháng cho thấy trung bình 73% là lưu lượng giả (bot)
Đây không phải vấn đề riêng lẻ mà là một vấn đề cấu trúc của toàn bộ hệ sinh thái thương mại số

Cấu trúc của gian lận quảng cáo (Ad Fraud) hiện đại: phân tích theo loại lưu lượng

Bot tương tác (Engagement Bot)
- Là loại bot được thiết kế để làm báo cáo phân tích trông đẹp hơn, bằng cách mô phỏng hành vi của khách truy cập chất lượng
- Thực hiện tương tác phức hợp như cuộn trang, rê con trỏ lên sản phẩm và click liên kết nội bộ
- Khiếm khuyết chí mạng: tính nhất quán hoàn hảo
  - Trên mọi trang mô tả sản phẩm, chúng ở lại đúng 11~13 giây
  - Tốc độ cuộn luôn cố định ở mức 3,2 trang mỗi giây
- Hành vi của con người vốn thất thường, còn các bot này thì chính xác đến mức lạnh lùng
Quảng cáo
Bot bỏ giỏ hàng (Cart Abandonment Bot)
- Lặp lại hàng chục lần mỗi ngày quy trình thêm cùng một sản phẩm vào giỏ, giữ trong 4 phút rồi bỏ
- Chúng lặp lại với nhiều IP và phiên khác nhau, cho thấy khả năng nhằm cố ý bóp méo các chỉ số thương mại điện tử quan trọng như tỷ lệ bỏ giỏ hàng, hoặc thao túng thuật toán gợi ý nội bộ
Bot truy cập từ mạng xã hội giả (Phantom Social Media Visitor)
- Là loại lưu lượng được hiển thị trong công cụ phân tích như thể đến từ Instagram, TikTok, v.v.
- Khoảng 64% trong số này rời đi đúng sau 1,8 giây kể từ khi vào trang
- Chúng thoát ngay lập tức mà không cuộn hay click, nhưng vẫn bị tính là "khách truy cập từ mạng xã hội"
- Yếu tố cốt lõi của gian lận quảng cáo: là cách để những bên bán tương tác giả "chứng minh" rằng họ đã gửi lưu lượng

Không phải mọi bot đều có ác ý: scraping dữ liệu hợp pháp

Thông tin do một người trong ngành dữ liệu thương mại điện tử cung cấp: 70 triệu trang web bán lẻ được scrape mỗi ngày
Mục đích business intelligence hợp pháp
- Các nhà bán lẻ lớn như Amazon không phải lúc nào cũng thông báo cho vendor khi hết hàng
- Các thương hiệu trả tiền cho dịch vụ scraping dữ liệu để theo dõi sản phẩm của chính họ
- Kiểm tra mức tồn kho, phân tích cạnh tranh buy box, xác minh độ chính xác của mô tả sản phẩm
- Theo dõi thứ hạng kết quả tìm kiếm theo khu vực và thiết bị di động
- Phân tích quảng cáo banner theo từng nhóm đối tượng mục tiêu
Theo một video của Kurzgesagt, gần 50% tổng lưu lượng Internet là bot
Một phần là phân tích cạnh tranh và giám sát giá hợp pháp, nhưng phần đáng kể là lưu lượng gian lận nhằm đốt ngân sách quảng cáo

Kinh tế học đổ vỡ của quảng cáo số

Một khách hàng chi 12.000 USD mỗi tháng cho Google Ads
Sau khi triển khai phát hiện và lọc lưu lượng bot nâng cao:
- Lưu lượng được báo cáo giảm 71%
- CFO ban đầu bị sốc
- Nhưng doanh thu thực tế lại tăng 34%
Quảng cáo
Những nỗ lực tối ưu tỷ lệ chuyển đổi (CRO) thực sự đã có hiệu quả ngay từ đầu, nhưng bị vùi lấp dưới trận tuyết lở của các click giả
Hàng nghìn USD đã bị lãng phí để quảng cáo cho những cỗ máy được lập trình để không bao giờ mua hàng
ROI marketing lập tức chuyển từ "thảm hại" sang "xuất sắc"
Phản ứng của các nền tảng quảng cáo
- Khi trao đổi với các nền tảng quảng cáo lớn và nhắc đến gian lận click hoặc lưu lượng bot, thái độ thay đổi hẳn
  - "Hệ thống phát hiện bằng AI của chúng tôi thuộc hàng tốt nhất ngành"
  - "Chúng tôi rất nghiêm túc với gian lận quảng cáo"
- Một người phụ trách đã thừa nhận không chính thức: "Ai cũng biết cả"
  - "Nếu lọc đúng cách thì doanh thu sẽ giảm 40% chỉ sau một đêm, và nhà đầu tư sẽ hoảng loạn"
- Xung đột lợi ích khổng lồ: nền tảng quảng cáo kiếm tiền theo click hoặc lượt hiển thị, bất kể đó là khách hàng tiềm năng hay máy chủ click farm

Bạn có đang quảng cáo cho robot? Hướng dẫn thực tế để phát hiện lưu lượng giả

1. Kiểm tra đối chiếu giữa đột biến lưu lượng và dữ liệu doanh thu
- Lưu lượng tăng mạnh có trùng khớp với mức tăng doanh thu không?
- Nếu khi chạy khuyến mãi, lưu lượng tăng gấp đôi nhưng doanh thu đứng yên, khả năng cao là lưu lượng gian lận
2. Phân tích chỉ số hành vi người dùng
- Tìm những con số "quá hoàn hảo"
- "Thời gian trung bình trên trang" của các landing page chính có ổn định đến mức đáng ngờ qua từng tháng không?
- Hành vi con người thật vốn thất thường và biến động
3. Phân đoạn dữ liệu địa lý
- Có lượng truy cập đáng kể đến từ những quốc gia mà bạn không giao hàng không?
- Nếu những lượt truy cập đó không chuyển đổi, đây là tín hiệu mạnh của lưu lượng kém chất lượng hoặc lưu lượng giả
Quảng cáo
4. Điều tra nguồn giới thiệu
- Phân tích kỹ các nguồn lưu lượng hàng đầu
- Nếu website giới thiệu có vẻ không liên quan hoặc chất lượng thấp, rất có thể nó là một phần của mạng lưới trao đổi lưu lượng
- Tìm các "ghost referral" nơi thực tế không hề tồn tại liên kết nào đến website của bạn
5. Tin vào trực giác
- Nếu các con số khiến bạn cảm thấy kỳ lạ, rất có thể thực sự đang có vấn đề
- Trực giác của chủ doanh nghiệp, những người hiểu rõ tệp khách hàng của mình, là một công cụ phát hiện bot rất giá trị

Kết luận lạnh lùng: lâu đài cát kỹ thuật số

Một nhà sáng lập startup đã gọi được 2 triệu USD vốn đầu tư dựa trên chỉ số "tăng trưởng người dùng"
Sau đó mới phát hiện 80% trong số chỉ số đó là bot
Hiện tại, vì nếu thừa nhận sự thật thì công ty và quan hệ với nhà đầu tư có thể gặp nguy hiểm, họ đang giả vờ như mọi thứ vẫn bình thường
Nền kinh tế bot ẩn giấu
- Các nền tảng quảng cáo bán lượt hiển thị cho bot
- Doanh nghiệp mua lưu lượng giả để thổi phồng chỉ số
- Các công ty phân tích chăm chỉ báo cáo các hoạt động bot đó
- Toàn ngành đang đồng lõa trong một màn kịch tập thể, vì sợ rằng nếu thừa nhận sự thật thì hệ thống mong manh này sẽ sụp đổ
Góc nhìn cuối cùng
- Hơn một nửa Internet là ảo ảnh, một sân khấu kỹ thuật số nơi bot diễn cho các bot khác xem
- Tỷ lệ đó đang tăng lên từng ngày khi AI và tự động hóa ngày càng tinh vi hơn
- Câu hỏi giờ đây không còn là "Doanh nghiệp của bạn có bị ảnh hưởng không?"
- Câu hỏi thật sự là "Điều gì sẽ xảy ra khi lâu đài cát kỹ thuật số này cuối cùng cũng sụp đổ?"

2 bình luận

t7vonn 2025-10-16

Giờ thì không chỉ có bot headless, mà cả agent bot như comet browser cũng xuất hiện, nên việc phát hiện lại càng khó hơn nữa.

GN⁺ 2025-10-16

Ý kiến Hacker News

Tôi điều hành một agency marketing, và khi dữ liệu phân tích của một khách hàng hoàn toàn vô lý (50.000 lượt truy cập nhưng chỉ có 47 đơn hàng), tôi đã đào sâu vào vấn đề. Vì vậy tôi viết một script đơn giản để theo dõi hành vi người dùng và phân tích hơn 200 website thương mại điện tử quy mô nhỏ và vừa. Trung bình, 73% tổng lưu lượng truy cập là bot traffic nhưng vẫn được các công cụ phân tích tiêu chuẩn ghi nhận là khách truy cập thật. Giờ đây bot đã cực kỳ giỏi trong việc bắt chước hành vi của con người. Tôi cũng đã tổng hợp những mẫu bất thường mà chính mình gặp phải cùng các cuộc trao đổi không chính thức với người trong ngành adtech. Điều đáng ngạc nhiên là loại bot traffic này là một bí mật công khai mà ai cũng biết nhưng không ai nói thẳng ra. Cảm giác như cả hệ thống này đang vận hành dựa vào những con bot đó. Tôi tò mò không biết các developer, founder hay marketer khác có từng thấy những bộ dữ liệu lệch lạc tương tự không
- Trước đây khi làm ở yellow pages của Thụy Sĩ, chúng tôi có một dashboard để khách hàng trả phí xem số lượt truy cập vào trang doanh nghiệp của họ. Khi team phát triển của chúng tôi lọc bot traffic, các con số giảm mạnh hơn 50%. Chưa đầy một ngày sau, phía business đã yêu cầu gỡ bộ lọc. Cuối cùng bot cũng được tính như người thật
- Thật ra nếu tất cả đều là lừa đảo thì cũng đâu quan trọng? Nếu có 47 đơn mua thật, thì chỉ cần biết chi phí quảng cáo trong giai đoạn đó là bao nhiêu, rồi so với dữ liệu trước và sau là có thể đánh giá chiến dịch thành công hay không. Quảng cáo ngoài trời hay quảng cáo trên xe buýt cũng đâu ai quan tâm chính xác ai xem, hay có phải người thật hay không. Điều quan trọng cuối cùng vẫn là tác động lên các con số thực tế
- Tôi làm tư vấn web analytics, và từng điều tra một mẫu traffic bất thường của một công ty logistics toàn cầu vào năm 2021. Tôi đã tóm tắt trên blog của mình trong bài này. Vấn đề bot traffic đã tồn tại từ rất lâu, và dù có nhiều dịch vụ "phát hiện gian lận quảng cáo" mới nổi nhằm giải quyết chuyện này, tôi vẫn thấy gần như không có dịch vụ nào thực sự hữu ích. Câu hỏi "giải quyết thế nào?" luôn còn lại ở cuối, nhưng không ai biết cách chặn bot hoàn hảo. Phần lớn người mua vẫn dùng các nền tảng lớn như Google, Facebook, Instagram, TikTok, LinkedIn, còn những mạng quảng cáo thay thế với ít bot hơn thì gần như không tồn tại trên thực tế. Ai cũng biết một phần trong đó là giả, nhưng họ vẫn tiếp tục mua traffic đó. Để trạng thái này thay đổi, các công ty big tech đang kiếm hàng tỷ USD từ quảng cáo phải có động lực lớn hơn để thay đổi hệ thống thay vì duy trì nó. Hiện tại họ thậm chí còn không thấy cần phải quan tâm. "Một nửa số tiền tôi chi cho quảng cáo là lãng phí. Vấn đề là tôi không biết đó là nửa nào." - John Wanamaker
- Phần nói về traffic từ "bot tốt" khá thú vị. Trong quá trình điều tra, một người trong ngành dữ liệu đã đưa cho tôi một manh mối rất lớn: công ty nơi anh ấy làm từng crawl 70 triệu trang web bán lẻ mỗi ngày. Đó là một nguồn bot traffic hợp pháp khổng lồ. Ví dụ, vì Amazon không thông báo cho nhà cung cấp khi hết hàng, các thương hiệu dùng dịch vụ data scraping để kiểm tra tình trạng tồn kho sản phẩm của mình, cuộc cạnh tranh giành ưu thế "buy box", mức độ phù hợp của mô tả sản phẩm, thứ hạng tìm kiếm, thậm chí cả banner quảng cáo nào đang được hiển thị cho đối tượng nào. Ngay cả những "bot tốt" này cũng có thể bị nhìn nhận khác nhau tùy góc độ. Tôi không thích việc đối thủ scrape site của mình, nhưng lại thấy ổn khi chính mình thu thập dữ liệu thị trường. Nếu ai đó đã lập trình và vận hành nó, thì đó là một con bot mang lại lợi ích cho họ. Người sáng tạo nội dung xem AI scraping là xấu, nhưng phía làm AI lại cho là tốt. Các site so sánh giá tin rằng crawler của họ là chính nghĩa, còn nhà bán lẻ thì ghét chúng. Vấn đề nằm ở góc nhìn nào quyết định traffic bot là "tốt" hay "xấu"
- Tôi đồng cảm với ý rằng cả hệ thống này dựa trên bot. Trước đây tôi không hẳn là kiểu nổi loạn, nhưng một phần trong tôi vẫn mang sự lạc quan của internet thời kỳ đầu và muốn nhìn mô hình quảng cáo này sụp đổ tan tành. Thực ra ngay cả khi quảng cáo hoạt động "bình thường", nó vốn đã mang mùi bóc lột và lừa dối. Ví dụ: "Nếu bạn không mua sản phẩm này thì bạn bè sẽ ghét bạn"
Văn phong của bài này khá thú vị. Mẫu câu kiểu "không chỉ là X mà là...", các đoạn nhấn đậm, bullet list, v.v. đều mang đúng phong cách ChatGPT mà ta đã thấy ở đâu đó rất nhiều lần. Tất nhiên được ChatGPT hỗ trợ cũng không có gì sai, nhưng trớ trêu là chính nội dung bài báo lại có văn phong rất giống AI. Nếu tác giả ngoài đời vốn đã viết như vậy, có lẽ nghĩa là ChatGPT đã được tinh chỉnh theo chính kiểu văn đó. Không biết truyền thông trong ngành adtech vốn đã như thế này hay sao
- Trớ trêu hơn là bài này lại là một ví dụ về việc con người dùng "ngôn ngữ theo khuôn mẫu" một cách chuẩn chỉnh, nhưng vì bề ngoài trông giống AI nên bị hiểu lầm. Cấu trúc "không phải X mà là Y" là một ngữ pháp có mục đích rất rõ ràng: vì người đọc có thể đang nghĩ là X nên tác giả chuyển góc nhìn sang Y. Trong bài có các đoạn như "không chỉ đếm click mà là nhìn vào hành vi", "không phải bot chỉ ghé rồi rời site mà là bot bắt chước hành vi con người", tức là cố tình phân biệt rõ kỳ vọng của người đọc với thực tế. Nghiên cứu cách phân biệt giữa đặc trưng văn phong AI và bài viết có ý nghĩa của con người cũng có vẻ thú vị. Có khi sau này trong giáo dục bậc cao hay tuyển dụng thật sự sẽ xuất hiện kiểu bài toán phân biệt AI với con người như thế
- Tôi mất hứng ngay từ đoạn "mọi thứ bắt đầu từ một vấn đề đơn giản nhưng chí mạng". Rồi tiếp đó là kiểu triển khai "tôi có một cảm giác xa lạ và khó chịu" cũng khá hụt hơi. Thêm nữa, có vẻ tác giả rốt cuộc cũng là bên đang bán công cụ quảng cáo riêng
- Chính vì là loại bài như thế này nên tôi lại càng thấy mỉa mai. Dù vậy cũng may là mọi người giờ đã có thể nhanh chóng nhận ra và bỏ qua những bài nông như thế này. Startup thì muốn thất bại nhanh, còn tôi muốn nhận diện nhanh nội dung do AI tạo rồi bỏ qua
- Tôi nhận ra ngay các dấu hiệu giống AI trong bài và lập tức kéo xuống phần bình luận. Nếu một bài trông rõ ràng như do AI tạo mà thậm chí còn không được tác giả tự viết hay biên tập lại, thì độ tin cậy sẽ tự động giảm mạnh
- Ảnh minh họa cũng trông như do AI tạo ra, hoặc ít nhất là kiểu clipart lạc quẻ
Tôi đã làm trong ngành adtech 15 năm, và tôi cho rằng cả các ông lớn như Google/FB cũng đánh lừa người dùng. Họ không cho phép tracking kép nên bạn buộc phải tin vào số liệu nội bộ của họ, và nếu nhìn IP click thì đôi khi sẽ thấy IP từ data center của FB/Google. Traffic đến từ đó thực ra là cách họ chạy thuật toán để gán công trạng quảng cáo cho những người vốn dĩ cũng sẽ mua trên site của tôi thôi. Có một số rất ít công ty cố làm đo lường impact metric cho đúng nghĩa, nhưng cực kỳ hiếm. Các website hiển thị quảng cáo chỉ làm người dùng khó chịu mà chẳng được lợi gì. Nhà quảng cáo thì chỉ tốn tiền mà không thu lại gì. Cuối cùng chỉ có các bên trung gian là hưởng lợi
- Khi chạy quảng cáo Google, cảm giác như tôi đang trả tiền cho người đứng trước cửa hàng mình để phát tờ rơi. Có thể phần lớn khách ghé cửa hàng tôi đã nhận tờ rơi qua quảng cáo Google, nhưng tôi đâu biết trong số đó có bao nhiêu người thật sự là khách hàng mới
- Facebook Ads, SA360 có hỗ trợ tracking của bên thứ ba, và có thể dùng nhiều công cụ phân tích third-party khác nhau. Chuyện IP hiện lên là data center của FB/Google nghe quá đơn giản hóa, và tôi chưa từng nghe bao giờ. Chẳng lẽ các công ty lớn lại không có VPN? Còn lập luận kiểu "dùng thuật toán để cướp organic traffic" thì tôi không hiểu. Tôi cũng ở trong ngành hơn 10 năm rồi nhưng thấy nhận định đó không thuyết phục. Làm 15 năm vẫn có thể không thực sự hiểu rõ ngành và công nghệ của nó
Tôi cứ nghĩ trong ngành ai cũng đã biết rằng số liệu traffic phần lớn là hư cấu, còn dữ liệu click quảng cáo thì hơn một nửa là gian lận. Vậy mà OP, người tự nhận làm "phân tích chi phí quảng cáo chính xác", giờ mới phát hiện ra điều này thì nghe khá thiếu thực tế. Những phần đó không mới, nên việc OP có vẻ như đúng là mới biết khiến tôi thấy đáng nghi. Ngược lại, phần phân loại các kiểu mẫu bot thì khá thú vị, và tôi chưa thấy bài nào nói chi tiết như vậy
- Một số người trong ngành đã biết từ lâu, nhưng tình hình đang ngày càng tệ hơn. Lý thuyết của tôi sau 10 năm làm cùng các team marketing là: phần lớn mọi người tin số liệu một cách thiếu phản biện. Đặc biệt vì các chỉ số phải tăng theo cấp số nhân qua từng năm thì team mới sống sót, nên những con số bong bóng thậm chí còn là điều tốt, còn chuyện không bán được thì cứ đổ cho team sales là xong
- Ở startup trước của tôi cũng vậy, chúng tôi đổ rất nhiều tài nguyên marketing và phát triển vào việc tối ưu conversion funnel, nhưng bản thân hướng đi kinh doanh đã sai ngay từ đầu. Nếu không bị dữ liệu nhiễu vô nghĩa dẫn dắt, có lẽ chúng tôi đã có thể pivot nhanh hơn
- Đây là vấn đề mà trong ngành ai cũng biết hơn 10 năm nay. Ở một mức độ nào đó, đây là bài viết marketing cho công ty datacops
- Có người phản ứng kiểu "Sao OP giờ mới ngộ ra!?", nhưng có vẻ công ty này (Datacops) mới thành lập chưa lâu. Thực tế có lẽ họ tung bài này ra đúng lúc ra mắt sản phẩm. Tham khảo
- Với 50.000 traffic mà chỉ có 47 chuyển đổi, theo tiêu chuẩn của tôi thì số giả còn có vẻ nhiều hơn thế rất nhiều. Ngày xưa còn có thể nói một nửa là gian lận, nhưng giờ cảm giác người dùng thật chỉ còn là một thiểu số rất nhỏ
Nếu chạy quảng cáo Facebook mà bị dội vào một đống traffic gian lận, tôi thắc mắc ai là người chạy những con bot đó và vì mục đích gì. Facebook đúng là có động cơ, nhưng nếu bị phát hiện thì coi như xong nên tôi không nghĩ họ dám làm. Đối thủ cạnh tranh? Nếu mục tiêu là đốt ngân sách của tôi thì có vẻ quá tinh vi về mặt kỹ thuật. Cũng không rõ có thật ai đó thuê hẳn một thế lực ngầm làm việc đó không. Agency quảng cáo ư? Nếu dữ liệu tệ hại thì khách sẽ đòi hoàn tiền quảng cáo ngay, nên cũng không hợp lý. Vậy rốt cuộc là ai, và để làm gì?
- Có lẽ chỉ đơn giản là bot đang mô phỏng để trông như người thật. Không phải chọn riêng quảng cáo của tôi để click, mà là giả lập hành vi người dùng thật một cách bừa khắp nơi
- Quảng cáo Facebook không chỉ có mô hình trả theo click mà còn có mô hình trả theo doanh số thực tế hoặc chuyển đổi, nên ở phía đó lợi ích liên quan còn rõ ràng hơn
- Khuyên bạn nên tìm vụ methbot. Phần lớn là để kiếm doanh thu quảng cáo: họ chạy bot để đánh lừa thuật toán, dồn traffic về nội dung/trang do chính họ dựng lên, rồi giả làm người thật để lôi kéo thêm ngân sách quảng cáo. Cấu trúc của hệ thống khiến FB/Google rất khó lọc sạch hoàn toàn
- Có người nói "Facebook chẳng lẽ lại làm vậy?", nhưng xét về lịch sử thì cách tiếp cận kiểu "cứ tin công ty thôi" trong chuyện tính toán số liệu luôn là ngây thơ. Đây là công thức áp dụng cho mọi công ty. Nếu lợi nhuận kỳ vọng lớn hơn chi phí cộng với rủi ro bị phát hiện, họ sẽ hành động
- Cũng có thể Facebook không trực tiếp làm, nhưng miễn là nhà quảng cáo vẫn tiếp tục mua quảng cáo thì họ chẳng có nhiều động lực để quan tâm đến vấn đề này
Tôi muốn xem script đó được công khai. Tôi muốn kiểm tra xem phương pháp có đúng không, liệu có phải đang nhầm người dùng bình thường dùng ad blocker hoặc tắt JS thành bot hay không. 73% thậm chí cũng không làm tôi ngạc nhiên. Tôi còn đoán con số thực sẽ cao hơn. Điểm ấn tượng là mỗi lần nhắc đến bot/click fraud với đội sales của các nền tảng quảng cáo, cuộc trò chuyện lập tức chuyển sang giọng corporate cứng nhắc. Tôi còn nhớ có một nhân viên sales từng khá thân, ngoài biên bản đã thú nhận: "Ai cũng biết mà. Tất cả đều biết, nhưng nếu thật sự lọc cho sạch thì doanh thu bốc hơi 40% chỉ sau một đêm và nhà đầu tư sẽ phát điên"
- Nếu incentive của người làm marketing được thiết kế dựa trên vanity metrics, thì họ sẽ chỉ xem vấn đề chuyển đổi là chuyện ở những bước cuối của funnel. Ngay cả các startup được venture-backed cũng rõ ràng có động cơ cố tình để bot signup tồn tại nhằm thổi phồng số liệu trước mặt nhà đầu tư
- Khi nghe câu kiểu "nếu lọc sạch thì 40% doanh thu biến mất", tôi không khỏi nghĩ liệu đây có phải là chuyện đủ để thành một vụ kiện tập thể không
Ngay từ đầu những năm 2000, khi làm trong đội vận hành quảng cáo của Lycos, tôi đã thấy kết quả kiểm toán nội bộ cho thấy tỷ lệ bot đã ở mức 25~75%. Khi đó người ta cũng đã cố ngăn chặn nhưng vô ích, và đến giờ vẫn thế. Quảng cáo online phần lớn là lãng phí tiền bạc. Nó trông như đang tạo ra hoạt động kinh tế, nhưng thực chất là lãng phí thời gian và tài nguyên
- Quảng cáo vốn dĩ từ trước tới nay phần lớn đã là lãng phí tiền bạc, vấn đề là làm sao tìm ra phần nào có hiệu quả. Quảng cáo internet từng hứa hẹn nhắm mục tiêu chính xác hơn và đo hiệu quả tốt hơn, nhưng thực tế lại không như vậy. Muốn biết quảng cáo có hiệu quả hay không, bạn phải trực tiếp hỏi khách hàng biết đến mình bằng cách nào, rồi điều chỉnh ngân sách quảng cáo và quan sát thay đổi. Nhưng cách đó mất rất nhiều thời gian, và còn nhiều kiểu sai lầm khác. Ví dụ, bạn đổ mạnh quảng cáo nên traffic tăng nhưng dịch vụ hay cấu hình sản phẩm lại chưa đủ tốt nên vẫn mất khách; hoặc một chiến dịch coupon kéo về lượng truy cập vượt quá khả năng xử lý. Bài viết nói có 50.000 lượt truy cập, 47 đơn hàng và 4.000 USD tiền quảng cáo, nhưng không rõ đó là toàn bộ traffic hay chỉ traffic từ quảng cáo. Không nên đánh giá hiệu quả chỉ bằng số lượt truy cập hay số đơn hàng, mà phải nhìn vào các chỉ số cốt lõi như lợi nhuận ròng. Nếu mỗi đơn mang lại 500 USD lợi nhuận ròng thì 47 đơn với 4.000 USD tiền quảng cáo là ổn; nhưng nếu mỗi đơn chỉ lãi 1 USD thì đó là vấn đề lớn
Vì bài viết không nói cụ thể về biện pháp phòng vệ trước bot, tôi xin bổ sung vài ý: nếu tăng cường chống bot (captcha, v.v.), tỷ lệ rời bỏ của người dùng thật sẽ tăng mạnh. Điều đó gây ảnh hưởng rất nghiêm trọng đến conversion rate. Khi bot ngày càng giống người, tôi nghĩ vấn đề này phải được giải ở giai đoạn phân tích và attribution, chứ không nên giải bằng cách làm giảm usability
- Có hai loại bot. Loại trực tiếp gây tải lên site như DDoS, và loại không đến mức đó nhưng vẫn gây phiền. Với nhóm thứ hai, cách hiệu quả nhất không phải là chặn mà là âm thầm loại chúng khỏi công cụ phân tích
Dưới đây là một trường hợp thực tế tôi từng trải qua
```
Sau khi áp dụng lọc bot traffic nâng cao, traffic được báo cáo giảm 71%
Nhưng trong báo cáo doanh thu, doanh thu thực tế lại tăng 34%
Các nỗ lực tối ưu hóa tỷ lệ chuyển đổi (CRO) vốn dĩ có hiệu quả, chỉ là bị chôn vùi và cản trở bởi vô số click giả
Không phải họ làm marketing kém, mà đơn giản là đang đổ tiền quảng cáo cho robot
Chỉ sau một đêm, ROI marketing chuyển từ "thảm hại" sang "hàng đầu"
```
Nhưng điều tôi thắc mắc là: vậy kiểu lọc bot này làm sao lại dẫn trực tiếp đến việc giảm chi tiêu quảng cáo? Ví dụ có thể báo trực tiếp với Google Ads rằng "tôi không muốn trả tiền cho các click này" hay không? Hay là họ đã chỉnh lại targeting để tránh bot?
- Có thể hình dung rằng nếu chặn bot traffic, retargeting sẽ được dùng chính xác hơn cho người thật nên chuyển đổi có thể tăng lên
- Có lẽ khi hệ thống lọc xác định "thằng này là bot", nó sẽ đơn giản không hiển thị quảng cáo cho đối tượng đó nữa
- Nếu bot lẫn vào lúc tạo tệp Lookalike hay audience remarketing, thì nó có thể gửi tín hiệu sai cho các nền tảng như Facebook. Và trong Google Ads, bạn không thể nói rằng mình không muốn trả tiền cho một click cụ thể
Trước đây tôi từng đọc một bài cũng lập luận tương tự: "thị trường quảng cáo web thực chất gần như toàn là giả mạo/lừa đảo/bot, và mọi công ty cũng như cả ngành đều nhắm mắt duy trì điều đó". Rất nhiều công việc, công ty và cả nền công nghiệp phụ thuộc vào việc không thừa nhận sự thật đó
- Tôi cũng nhớ bài đó. Ban đầu tôi tưởng bài lần này là bản xào lại của nó, nhưng nhìn ngày tháng thì đây là bài mới. Cũng có thể là một hiện tượng phản chiếu kỳ lạ (Mandela effect)

Bot ngày càng mô phỏng hoạt động giống người dùng thực hơn

Khởi đầu vấn đề: bí ẩn của tỷ lệ chuyển đổi 0,1%

Điều tra ban đầu: theo dõi để kiểm chứng sự thật về lưu lượng

Vấn đề lan rộng: không phải sự cố cá biệt mà là hiện tượng toàn ngành

Cấu trúc của gian lận quảng cáo (Ad Fraud) hiện đại: phân tích theo loại lưu lượng

Bot tương tác (Engagement Bot)

Bot bỏ giỏ hàng (Cart Abandonment Bot)

Bot truy cập từ mạng xã hội giả (Phantom Social Media Visitor)

Không phải mọi bot đều có ác ý: scraping dữ liệu hợp pháp

Kinh tế học đổ vỡ của quảng cáo số

Phản ứng của các nền tảng quảng cáo

Bạn có đang quảng cáo cho robot? Hướng dẫn thực tế để phát hiện lưu lượng giả

1. Kiểm tra đối chiếu giữa đột biến lưu lượng và dữ liệu doanh thu

2. Phân tích chỉ số hành vi người dùng

3. Phân đoạn dữ liệu địa lý

4. Điều tra nguồn giới thiệu

5. Tin vào trực giác

Kết luận lạnh lùng: lâu đài cát kỹ thuật số

Nền kinh tế bot ẩn giấu

Góc nhìn cuối cùng

Bài viết liên quan

2 bình luận

Ý kiến Hacker News