1 điểm bởi GN⁺ 2023-12-24 | 7 bình luận | Chia sẻ qua WhatsApp

Google Search bị áp đảo bởi cuộc tấn công spam quy mô lớn

  • Kết quả tìm kiếm của Google trong vài ngày qua đã bị tấn công spam đến mức gần như không thể kiểm soát hoàn toàn.
  • Nhiều domain đang chiếm thứ hạng cho hàng trăm nghìn từ khóa, cho thấy quy mô của cuộc tấn công này có thể lên tới hàng triệu cụm từ khóa.

Thuật toán của Google có thể bị khai thác như thế nào

  • Có vẻ như các trang spam đang tận dụng ít nhất ba cơ hội trong cách Google xếp hạng website.
  • Các truy vấn tìm kiếm mà trang spam leo hạng thường có mức độ cạnh tranh thấp nên dễ được xếp hạng hơn.
  • Có những cơ hội liên quan đến thuật toán tìm kiếm địa phương, từ khóa đuôi dài, và các domain mới đăng ký.
  • Các website mới có lợi thế là có thể tạm thời xếp hạng cho các truy vấn tìm kiếm trong một khoảng thời gian ngắn khi thuật toán của Google դեռ đang đánh giá site.

Liên kết giúp Google tìm ra các trang spam

  • Tác giả biết được điều này thông qua một bài đăng của Bill Hartzer, người đã dùng công cụ backlink của Majestic để phơi bày mạng lưới liên kết của nhiều trang spam.
  • Dù đã bỏ rất nhiều công sức để tạo mạng lưới backlink, nhưng liên kết không phải là yếu tố thực sự quyết định thứ hạng cao.
  • Liên kết giúp Google phát hiện và crawl các trang spam mới, từ đó cuối cùng đưa chúng vào xếp hạng.

Spam ngoài tầm kiểm soát trên Google SERPs

  • Nhiều site đang xếp hạng cho các cụm từ đuôi dài dễ leo top và các cụm từ có thành phần tìm kiếm địa phương.
  • Khái niệm long tail đã tồn tại gần 20 năm và được phổ biến rộng rãi nhờ cuốn sách "The Long Tail" xuất bản năm 2006.
  • Các trang spam có thể xếp hạng cho những cụm từ ít cạnh tranh, và lợi dụng điều này để leo hạng cho hàng trăm nghìn từ khóa trong thời gian ngắn.

Các trang spam trông như thế nào

  • Không thể truy cập trực tiếp các trang spam bằng trình duyệt.
  • Các site spam sẽ tự động chuyển hướng sang domain khác.
  • Tác giả đã dùng công cụ Rich Results tester của Google để truy cập trang spam và ghi lại HTML của trang.

Một domain xếp hạng cho hơn 300.000 từ khóa

  • Bảng tính Bill gửi có chứa danh sách các cụm từ khóa mà một trang spam đã xếp hạng.
  • Một trang spam đã xếp hạng cho hơn 300.000 cụm từ khóa.

Vì sao kỹ thuật spam này hiệu quả

  • Tìm kiếm địa phương sử dụng thuật toán khác với thuật toán không theo địa phương.
  • Thuật toán tìm kiếm địa phương có xu hướng nới lỏng hơn để các site mang tính địa phương có thể xếp hạng.
  • Google đã biết về vấn đề spam này ít nhất từ ngày 19/12, điều này được xác nhận qua tweet của Danny Sullivan.

Ý kiến của GN⁺

  • Điểm quan trọng nhất của bài viết là kết quả tìm kiếm của Google dễ bị tấn công spam ở quy mô lớn, điều này có thể ảnh hưởng đến độ tin cậy của công cụ tìm kiếm.
  • Lý do các đợt tấn công spam này hiệu quả là vì chúng khai thác những điểm yếu cụ thể trong thuật toán của Google, qua đó nhấn mạnh sự cần thiết phải cải thiện thuật toán.
  • Bài viết thú vị không chỉ ở khía cạnh kỹ thuật mà còn cho thấy ngay cả một công ty công nghệ lớn như Google vẫn có thể đối mặt với những vấn đề không lường trước được.

7 bình luận

 
devstudyman7 2024-03-09

Tài liệu web báo cáo spam của Google: khi bạn báo cáo spam web, nếu đó là một tên miền như abc.abc.uk/trashasda thì hãy báo cáo dưới dạng abc.uk, và nếu đưa abc.abc.uk/sitemap.xml vào ô từ khóa tìm kiếm có thể xác định chính xác vấn đề thì sẽ hữu ích. Có vẻ đây là một website đã được hoàn thiện sẵn như một giải pháp, nhưng được cấu trúc để khi người dùng thông thường truy cập thì ngay lập tức lại tạo ra các trang phát sinh. Cách ứng phó đúng là hãy tích cực báo cáo, vì cứ mỗi lần bị Google xử lý thì lại có thêm các trang spam mới được tạo ra, và còn có quá trình khiến bot truy cập như google.com/url, image.google.com/url, naver redirect rồi lại chuyển tiếp sang trang spam được tạo ra, vì vậy xin đừng nhấp vào mà chỉ lấy liên kết để báo cáo là được. Có vẻ chừng nào thuật toán chuyển hướng được chỉ định bằng google.com/url chưa bị loại bỏ thì vấn đề hiện tại sẽ vẫn tiếp tục tái diễn.

 
devstudyman7 2024-03-09

Khi báo cáo các tài liệu web thuộc diện các giải pháp chống spam ở trên,
trong tổng cộng 5 ô thì ô đầu tiên nên điền tên miền chính, còn 4 URL bổ sung nên ghi danh sách các tài liệu được tạo phát sinh từ đó; đồng thời nên đưa sitemap của tên miền đó vào ô từ khóa tìm kiếm. Nếu mở sitemap ra sẽ thấy họ dùng chiến lược khiến tài liệu được tạo ngay khi vừa truy cập, kiểu như /new/asdasd, nên nếu viết báo cáo theo từng tài liệu thì rốt cuộc khi Google truy cập, nó lại tiếp tục tạo thêm các tài liệu để né tránh. Vì đây là một chiêu trò được tính toán rất kỹ, bạn nên báo cáo cả tên miền đó.

 
devstudyman7 2024-03-09

Trường hợp của tôi thì
(h đã đổi thành x, / đã đổi thành |)

xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2

Sau khi viết báo cáo như vậy

Nếu là kiểu tên miền mà đã mục ruỗng từ subdomain trở đi thì tôi viết báo cáo với từ khóa kiểu này: site:*baddomain.com, rồi gửi đi.

Sau đó nếu bản thân trang web hoàn toàn là spam thì tôi cũng gửi kèm cả báo cáo trang phishing.

 
devstudyman7 2024-03-09

Trớ trêu thay, phần mềm của các website spam này lại được tích hợp tag manager, và dù sử dụng những trang như https://picsum.photos thì vẫn được lập chỉ mục bình thường. Điều đó cũng có nghĩa là Google không hề kiểm duyệt. Dù đã vượt quá phạm vi thông thường của hoạt động spam, nếu các trang tài liệu web spam còn đang chạy quảng cáo AdWords thì dù có báo cáo, các tài liệu phát sinh vẫn được tạo ra nhanh hơn tương ứng với lượng truy cập từ quảng cáo. Chi tiết khiến người ta rợn người là các website spam đang sử dụng tag manager một cách hoàn toàn bình thường.

 
devstudyman7 2024-03-09

Tôi đã gửi báo cáo spam suốt một tháng nay; nếu bạn cũng báo cáo đó là tài liệu spam hoặc tài liệu lừa đảo và đồng thời báo trên trang khai báo website phishing thì sẽ được xử lý nhanh hơn. Tôi cũng điền cả trang đó, nhưng nếu tên miền cấp cao nhất là abc.abc.uk thì cần nhập là abc.uk mới giúp dọn dẹp chính tên miền đó. Đây đã trở thành việc thường nhật như một bài tập về nhà đối với các webmaster.

 
aobamisaki 2023-12-24

Google vốn dĩ từ trước đã dễ thấy chất lượng tổng thể của kết quả tìm kiếm đi xuống, nên nếu còn bị tấn công ồ ạt trong thời gian ngắn theo kiểu này thì sẽ càng có nhiều người không còn tin tưởng vào kết quả tìm kiếm của Google nữa.

 
GN⁺ 2023-12-24
Ý kiến trên Hacker News
  • Các trang spam kiểm tra địa chỉ IP của Googlebot

    • Nếu được xác nhận là Googlebot, chúng sẽ hiển thị nội dung trên trang đó
    • Những khách truy cập khác sẽ bị chuyển hướng sang một tên miền khác có nội dung đáng ngờ
    • Trước đây, Google không cho phép các trang web hiển thị nội dung khác nhau cho Googlebot và người dùng bình thường, và việc vi phạm sẽ bị phạt rất nặng
    • Chính sách này đã biến mất, nhưng nếu các công cụ tự động hoạt động tốt thì nó vẫn có thể hữu ích
  • Trải nghiệm của người dùng đã chuyển sang công cụ tìm kiếm Kagi

    • Đôi khi vẫn khó có được kết quả tìm kiếm tốt, nhưng ở Google thì kết quả cũng không hẳn tốt hơn
    • Người dùng điều chỉnh kết quả tìm kiếm theo sở thích cá nhân bằng cách "boost" và "pin" các tên miền
    • Họ vẫn dùng các dịch vụ khác của Google như Gmail và Google Maps, nhưng không còn dùng tìm kiếm nữa
  • Số lượng trang web cung cấp lượng văn bản quá mức chỉ để trả lời những câu hỏi đơn giản đang gia tăng

    • Câu trả lời thực sự nằm ở cuối trang
    • Bề ngoài có vẻ liên quan, nhưng thực chất chỉ là nội dung chung chung
  • Quan sát về sự suy giảm chất lượng của kết quả tìm kiếm Google

    • Không chắc xu hướng này bắt đầu từ khi nào, nhưng có thể trong thời gian dài nó đã không nhận đủ sự chú ý
    • Làn sóng tấn công spam này có thể là giai đoạn cuối cùng
  • Đặt câu hỏi về công cụ tìm kiếm

    • Khái niệm công cụ tìm kiếm đơn mục đích dựa trên web crawling có thể sẽ biến mất
    • Có lẽ tốt hơn là thay Google bằng nhiều hệ thống phục vụ các mục đích cụ thể
    • Ví dụ, câu hỏi kỹ thuật thì tìm trực tiếp trên StackOverflow và Github, còn địa điểm địa phương thì tìm trong các cơ sở dữ liệu đáng tin cậy
    • Công cụ tìm kiếm có thể phát triển theo hướng dùng LLM (mô hình ngôn ngữ lớn) để đoán loại tìm kiếm và chuyển sang các công cụ tìm kiếm chuyên biệt đã được tuyển chọn
  • Chỉ ra các thay đổi trong thuật toán công cụ tìm kiếm của Google

    • Google đôi khi thay đổi thuật toán và điều đó ảnh hưởng đến thứ hạng của các trang web
    • Những thay đổi này có thể khiến các kết quả chất lượng thấp cho một số truy vấn nhất định leo lên vị trí cao
    • Trước đây, việc theo dõi và thảo luận các bản cập nhật thuật toán này trên các trang về SEO là rất quan trọng
  • Lập luận rằng Google đã từ bỏ tìm kiếm tự nhiên

    • Ngay cả những người rất giỏi SEO cũng khó hiểu được vì sao Google lại xếp hạng kết quả theo cách đó
    • Google làm cho các kết quả trả phí trở nên có giá trị hơn để khuyến khích người dùng nhấp vào quảng cáo trả phí
  • Chỉ ra giới hạn của công cụ tìm kiếm Google

    • Khi cần tìm một thứ rất cụ thể thì nó vẫn hữu ích, nhưng ngoài ra họ dùng Bing, ChatGPT, Phind v.v.
    • Trò chơi của người dùng xuất hiện ở top kết quả trên Bing và các công cụ tìm kiếm khác, nhưng trên Google thì các trang quảng cáo spam lại được ưu tiên
  • Chia sẻ trải nghiệm chuyển sang Bing

    • Nhờ sự phát triển của Bing với ChatGPT, họ bắt đầu dùng Bing thay cho Google
    • Nó không hoàn hảo, nhưng so với Google thì cho kết quả thỏa mãn hơn
  • Chỉ trích cách hành xử của Google như một công ty quảng cáo

    • Dù tạo tài khoản Gmail mới và không hề thông báo cho ai, họ vẫn nhận được email spam
    • Việc suy đoán rằng Google bán danh sách địa chỉ email của chính mình là điều hợp lý