Google Search bị áp đảo bởi cuộc tấn công spam quy mô lớn
- Kết quả tìm kiếm của Google trong vài ngày qua đã bị tấn công spam đến mức gần như không thể kiểm soát hoàn toàn.
- Nhiều domain đang chiếm thứ hạng cho hàng trăm nghìn từ khóa, cho thấy quy mô của cuộc tấn công này có thể lên tới hàng triệu cụm từ khóa.
Thuật toán của Google có thể bị khai thác như thế nào
- Có vẻ như các trang spam đang tận dụng ít nhất ba cơ hội trong cách Google xếp hạng website.
- Các truy vấn tìm kiếm mà trang spam leo hạng thường có mức độ cạnh tranh thấp nên dễ được xếp hạng hơn.
- Có những cơ hội liên quan đến thuật toán tìm kiếm địa phương, từ khóa đuôi dài, và các domain mới đăng ký.
- Các website mới có lợi thế là có thể tạm thời xếp hạng cho các truy vấn tìm kiếm trong một khoảng thời gian ngắn khi thuật toán của Google դեռ đang đánh giá site.
Liên kết giúp Google tìm ra các trang spam
- Tác giả biết được điều này thông qua một bài đăng của Bill Hartzer, người đã dùng công cụ backlink của Majestic để phơi bày mạng lưới liên kết của nhiều trang spam.
- Dù đã bỏ rất nhiều công sức để tạo mạng lưới backlink, nhưng liên kết không phải là yếu tố thực sự quyết định thứ hạng cao.
- Liên kết giúp Google phát hiện và crawl các trang spam mới, từ đó cuối cùng đưa chúng vào xếp hạng.
Spam ngoài tầm kiểm soát trên Google SERPs
- Nhiều site đang xếp hạng cho các cụm từ đuôi dài dễ leo top và các cụm từ có thành phần tìm kiếm địa phương.
- Khái niệm long tail đã tồn tại gần 20 năm và được phổ biến rộng rãi nhờ cuốn sách "The Long Tail" xuất bản năm 2006.
- Các trang spam có thể xếp hạng cho những cụm từ ít cạnh tranh, và lợi dụng điều này để leo hạng cho hàng trăm nghìn từ khóa trong thời gian ngắn.
Các trang spam trông như thế nào
- Không thể truy cập trực tiếp các trang spam bằng trình duyệt.
- Các site spam sẽ tự động chuyển hướng sang domain khác.
- Tác giả đã dùng công cụ Rich Results tester của Google để truy cập trang spam và ghi lại HTML của trang.
Một domain xếp hạng cho hơn 300.000 từ khóa
- Bảng tính Bill gửi có chứa danh sách các cụm từ khóa mà một trang spam đã xếp hạng.
- Một trang spam đã xếp hạng cho hơn 300.000 cụm từ khóa.
Vì sao kỹ thuật spam này hiệu quả
- Tìm kiếm địa phương sử dụng thuật toán khác với thuật toán không theo địa phương.
- Thuật toán tìm kiếm địa phương có xu hướng nới lỏng hơn để các site mang tính địa phương có thể xếp hạng.
- Google đã biết về vấn đề spam này ít nhất từ ngày 19/12, điều này được xác nhận qua tweet của Danny Sullivan.
Ý kiến của GN⁺
- Điểm quan trọng nhất của bài viết là kết quả tìm kiếm của Google dễ bị tấn công spam ở quy mô lớn, điều này có thể ảnh hưởng đến độ tin cậy của công cụ tìm kiếm.
- Lý do các đợt tấn công spam này hiệu quả là vì chúng khai thác những điểm yếu cụ thể trong thuật toán của Google, qua đó nhấn mạnh sự cần thiết phải cải thiện thuật toán.
- Bài viết thú vị không chỉ ở khía cạnh kỹ thuật mà còn cho thấy ngay cả một công ty công nghệ lớn như Google vẫn có thể đối mặt với những vấn đề không lường trước được.
7 bình luận
Tài liệu web báo cáo spam của Google: khi bạn báo cáo spam web, nếu đó là một tên miền như abc.abc.uk/trashasda thì hãy báo cáo dưới dạng abc.uk, và nếu đưa abc.abc.uk/sitemap.xml vào ô từ khóa tìm kiếm có thể xác định chính xác vấn đề thì sẽ hữu ích. Có vẻ đây là một website đã được hoàn thiện sẵn như một giải pháp, nhưng được cấu trúc để khi người dùng thông thường truy cập thì ngay lập tức lại tạo ra các trang phát sinh. Cách ứng phó đúng là hãy tích cực báo cáo, vì cứ mỗi lần bị Google xử lý thì lại có thêm các trang spam mới được tạo ra, và còn có quá trình khiến bot truy cập như google.com/url, image.google.com/url, naver redirect rồi lại chuyển tiếp sang trang spam
được tạo ra, vì vậy xin đừng nhấp vào mà chỉ lấy liên kết để báo cáo là được. Có vẻ chừng nào thuật toán chuyển hướng được chỉ định bằng google.com/url chưa bị loại bỏ thì vấn đề hiện tại sẽ vẫn tiếp tục tái diễn.(báo cáo spam, tài liệu web spam)
Khi báo cáo các tài liệu web thuộc diện các giải pháp chống spam ở trên,
trong tổng cộng 5 ô thì ô đầu tiên nên điền tên miền chính, còn 4 URL bổ sung nên ghi danh sách các tài liệu được tạo phát sinh từ đó; đồng thời nên đưa sitemap của tên miền đó vào ô từ khóa tìm kiếm. Nếu mở sitemap ra sẽ thấy họ dùng chiến lược khiến tài liệu được tạo ngay khi vừa truy cập, kiểu như
/new/asdasd, nên nếu viết báo cáo theo từng tài liệu thì rốt cuộc khi Google truy cập, nó lại tiếp tục tạo thêm các tài liệu để né tránh. Vì đây là một chiêu trò được tính toán rất kỹ, bạn nên báo cáo cả tên miền đó.Trường hợp của tôi thì
(h đã đổi thành x, / đã đổi thành |)
xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2
Sau khi viết báo cáo như vậy
Nếu là kiểu tên miền mà đã mục ruỗng từ subdomain trở đi thì tôi viết báo cáo với từ khóa kiểu này: site:*baddomain.com, rồi gửi đi.
Sau đó nếu bản thân trang web hoàn toàn là spam thì tôi cũng gửi kèm cả báo cáo trang phishing.
Trớ trêu thay, phần mềm của các website spam này lại được tích hợp tag manager, và dù sử dụng những trang như https://picsum.photos thì vẫn được lập chỉ mục bình thường. Điều đó cũng có nghĩa là Google không hề kiểm duyệt. Dù đã vượt quá phạm vi thông thường của hoạt động spam, nếu các trang tài liệu web spam còn đang chạy quảng cáo AdWords thì dù có báo cáo, các tài liệu phát sinh vẫn được tạo ra nhanh hơn tương ứng với lượng truy cập từ quảng cáo. Chi tiết khiến người ta rợn người là các website spam đang sử dụng tag manager một cách hoàn toàn bình thường.
Tôi đã gửi báo cáo spam suốt một tháng nay; nếu bạn cũng báo cáo đó là tài liệu spam hoặc tài liệu lừa đảo và đồng thời báo trên trang khai báo website phishing thì sẽ được xử lý nhanh hơn. Tôi cũng điền cả trang đó, nhưng nếu tên miền cấp cao nhất là
abc.abc.ukthì cần nhập làabc.ukmới giúp dọn dẹp chính tên miền đó. Đây đã trở thành việc thường nhật như một bài tập về nhà đối với các webmaster.Google vốn dĩ từ trước đã dễ thấy chất lượng tổng thể của kết quả tìm kiếm đi xuống, nên nếu còn bị tấn công ồ ạt trong thời gian ngắn theo kiểu này thì sẽ càng có nhiều người không còn tin tưởng vào kết quả tìm kiếm của Google nữa.
Ý kiến trên Hacker News
Các trang spam kiểm tra địa chỉ IP của Googlebot
Trải nghiệm của người dùng đã chuyển sang công cụ tìm kiếm Kagi
Số lượng trang web cung cấp lượng văn bản quá mức chỉ để trả lời những câu hỏi đơn giản đang gia tăng
Quan sát về sự suy giảm chất lượng của kết quả tìm kiếm Google
Đặt câu hỏi về công cụ tìm kiếm
Chỉ ra các thay đổi trong thuật toán công cụ tìm kiếm của Google
Lập luận rằng Google đã từ bỏ tìm kiếm tự nhiên
Chỉ ra giới hạn của công cụ tìm kiếm Google
Chia sẻ trải nghiệm chuyển sang Bing
Chỉ trích cách hành xử của Google như một công ty quảng cáo