2 điểm bởi GN⁺ 1 giờ trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Pokémon Central Wiki đã là nguồn thông tin Pokémon bằng tiếng Ý chủ chốt trong hơn 15 năm, nhưng hiện gần như biến mất khỏi kết quả tìm kiếm của Google
  • wiki.pokemoncentral.it là một wiki lớn dựa trên MediaWiki, vậy mà kết quả tìm site: giờ chỉ trả về đúng 4 mục
  • Mức sụt giảm chỉ mục bắt đầu vào khoảng thời gian trước và sau core update tháng 3/2026, và Search Console hiển thị hàng loạt trạng thái "crawled - currently not indexed"
  • Bing, DuckDuckGo và các công cụ khác vẫn lập chỉ mục bình thường, nên có vẻ đây là vấn đề chỉ xảy ra với Google; việc chặn Google-Extended theo tài liệu thì không nên ảnh hưởng đến lập chỉ mục
  • Đã áp dụng tối ưu về máy chủ, Cloudflare, thẻ Open Graph và schema.org, cũng như SWR, nhưng vẫn chưa thấy hiệu quả và nguyên nhân vẫn chưa rõ

Sụt giảm mạnh chỉ mục tìm kiếm của Google

  • Pokémon Central Wiki đã là nguồn nổi tiếng nhất về thông tin Pokémon bằng tiếng Ý trong hơn 15 năm, nhưng hiện gần như không còn xuất hiện trong kết quả tìm kiếm Google
  • wiki.pokemoncentral.it vận hành trên MediaWiki, phần mềm mã nguồn mở dùng cho Wikipedia, và là một trong 500 instance MediaWiki lớn nhất thế giới theo Wikistats
  • PCW là một phần của mạng lưới wiki quốc tế Encyclopaediae Pokémonis, mạng lưới này cũng bao gồm Bulbapedia
  • Nhiều nội dung đã được dịch từ Bulbapedia với sự cho phép, và hàng nghìn tình nguyện viên đã tham gia thực hiện
  • Các wiki EP khác vẫn được lập chỉ mục bình thường theo xác nhận từ cộng đồng và qua tìm kiếm site:
  • Khi tìm site:http://wiki.pokemoncentral.it cho PCW, hiện chỉ trả về 4 kết quả
  • Vài tuần trước, vào khoảng thời gian trước và sau core update tháng 3/2026, rất nhiều trang trong Google Search Console bắt đầu xuất hiện với trạng thái "crawled - currently not indexed"
  • Google chỉ cho biết các trang đó có thể sẽ được lập chỉ mục sau này hoặc cũng có thể không, và không đưa ra lý do cụ thể

Nguyên nhân đã kiểm tra và cách ứng phó

  • Khó có thể xem đây là vấn đề do chất lượng nội dung hoặc vận hành
    • Không có thay đổi trong chính sách biên tập, không có lạm dụng, cũng không có suy giảm chất lượng
    • Nếu là lỗi kỹ thuật thuần túy như 5xx, nhiều khả năng Google Search Console đã hiển thị theo dạng khác
  • Có vẻ đây là vấn đề chỉ giới hạn ở Google
    • Bing, DuckDuckGo và các công cụ tìm kiếm khác vẫn lập chỉ mục PCW bình thường
  • Trang đang chặn các scraper phục vụ huấn luyện AI thông qua Cloudflare
    • Không chặn các bot AI dùng PCW làm nguồn căn cứ hoặc tài liệu tham chiếu cho truy vấn người dùng
    • Có chặn Google-Extended trong robots.txt, nhưng theo tài liệu của Google thì điều này không nên ảnh hưởng đến lập chỉ mục tìm kiếm
  • Managed challenge của Cloudflare chỉ được áp dụng cho các mục không quan trọng đối với lập chỉ mục như lịch sử trang, trang kỹ thuật, v.v.
    • Các mục này cũng không được cho phép rõ ràng trong robots.txt
    • Các trang đó khó cache và tiêu tốn nhiều tài nguyên máy chủ
    • Bot gửi hàng nghìn yêu cầu mỗi phút, gây quá tải cho máy chủ
  • Đã điều chỉnh máy chủ và cấu hình Cloudflare để tăng tốc trang web
    • Trong vài tuần gần đây đã áp dụng các thực hành SEO chính đáng và tối ưu hóa tốt nhất có thể
    • Dùng Claude Code để liên tục cải thiện thẻ Open Graph và schema.org
    • Đã cấu hình để Cloudflare SWR hoạt động, giúp phần lớn yêu cầu được phục vụ ở edge trong vài mili giây mà không đi qua máy chủ, đồng thời tái xác thực ở chế độ nền
  • Những thay đổi này vẫn chưa mang lại hiệu quả
    • Có thể cần vài tuần để thay đổi được phản ánh, và Google quá thiếu minh bạch nên khó xác nhận ngay liệu chúng có tác dụng thật hay không
  • Một giả thuyết có thể là Google đã điều chỉnh thuật toán và trong thời đại AI đã đánh giá “chất lượng nội dung” của PCW là chưa đủ
    • Các LLM có thể đã được huấn luyện bằng văn bản của PCW từ trước khi bị chặn
    • Các trang web khác sao chép rất nhiều nội dung PCW nguyên xi vẫn còn hiện diện trong kết quả tìm kiếm
    • Nội dung của PCW dùng giấy phép CC BY-NC-SA, nên bản thân việc sao chép thường không phải là vấn đề
  • Những người dùng trung thành không hiểu chuyện gì đang xảy ra và đã gửi câu hỏi, đồng thời cũng đã có bài đăng liên quan trên Reddit
  • Hiện tại họ đang hướng dẫn người dùng đánh dấu trang wiki.pokemoncentral.it để truy cập trực tiếp
  • Họ hy vọng có thể tiếp cận được ai đó có khả năng kiểm tra nội bộ ở Google để hiểu chuyện gì đang xảy ra

2 bình luận

 

Có vẻ đúng là vấn đề ở phía Google. Với tôi cũng xảy ra y hệt trên nhiều site đang vận hành.
Google đơn giản là không index mà chẳng có lý do gì cả. Họ nói có thể một lúc nào đó sẽ làm, nhưng có lẽ đúng là vào một ngày nào đó thật.

 
Ý kiến trên Hacker News
  • Không hẳn là Google ghét chúng ta, mà tệ hơn là họ gần như thờ ơ
    Muốn ghét thì ít nhất cũng phải nhận thức được sự tồn tại của mình. Chỉ riêng vụ này có thể chưa nói lên nhiều điều, nhưng nhìn tổng thể thì Google đang đi theo một hướng khá kỳ lạ. Từng là tiên phong, nhưng sau 20 năm có vẻ họ đã trở thành thêm một tập đoàn lớn nữa sẵn sàng hy sinh chất lượng vì lợi ích cổ đông
    Là công cụ tìm kiếm thì giờ gần như vô dụng. Link quảng bá luôn hiện trước cả thứ mình thực sự cần tìm. Tôi chuyển sang Kagi rồi và không ngoái lại nữa
    Với AI cũng không hợp lắm. Có giới hạn sử dụng ngẫu nhiên bị reset sau 5 tiếng, rồi hạn ngạch tuần hiển thị bằng phần trăm, mức độ thiếu minh bạch thì khỏi nói. Kagi cho thấy rất rõ còn lại bao nhiêu trong chi tiết mức sử dụng. Nói trước là tôi không làm cho Kagi, chỉ là khách hàng hài lòng thôi
    Là lưu trữ đám mây cũng không ổn. Thỉnh thoảng nó lại bắn thông báo nội dung người lớn vì đâu đó trong thư mục chia sẻ đang cộng tác có user spam hoặc tài khoản bị hack. Không chỉ mình tôi gặp chuyện này (https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Tôi chuyển sang Apple iCloud rồi xong luôn
    Mail thì vẫn ổn. Nhưng dùng 22 năm rồi nên giờ nó đã bị đẩy xuống mức không còn quá quan trọng trong đời tôi nữa. Mấy thứ quan trọng thì tôi chuyển qua nhà cung cấp châu Âu hết rồi

    • Nghe có vẻ như kẻ điên, nhưng phương án cuối cùng của tôi là dùng Yandex, và nó cho kết quả khá tốt khi tìm những thứ mà có vẻ Google đã quyết định không còn muốn hiển thị nữa
      Tôi cũng thử DDG rồi, nhưng với nhu cầu của tôi thì còn tệ hơn Google
    • Khi tìm một nhà hàng cụ thể trên Google Maps, có cảm giác họ chỉ mặc định rằng bạn đang đói nói chung
      Tôi vừa tìm A&W thì nó hiện cả Tim Hortons, Popeyes, McDonald's. Apple Maps thì không bao giờ làm vậy. Dù thế tôi vẫn thường dùng Google vì muốn biết nó có đang mở cửa không và giờ mở cửa có chính xác không
    • Kagi rất tuyệt
      Dù vậy, việc một công ty khổng lồ như Google vẫn công bố miễn phí những nghiên cứu xuất sắc như AlphaFold hay, ở mức nào đó kém hơn, Gemma, vẫn là điều đáng nể. Nó khiến họ giống kiểu ATT PAC Bell hay IBM của thời đại này
    • Link quảng bá giờ đúng kiểu phát điên, nhiều lúc 5–6 link đầu trông chẳng khác gì quảng cáo
    • Tôi tò mò không biết dùng Kagi AI thế nào
      Tôi đã trả tiền cho dịch vụ tìm kiếm được một năm nhưng vẫn chưa xem phần tính năng AI của họ
  • Chắc cũng có thể vì đó là wiki. Dạo này spammer wiki rất lì lợm
    Cái wiki nhỏ cho một game ít tên tuổi, dưới 10 nghìn người chơi, mà tôi có tham gia quản trị cũng vừa phải chặn đăng ký mới gần đây. Spam quá nặng, mà lại bị kẹt ở bản MediaWiki cũ không hỗ trợ CAPTCHA
    Nếu là wiki nổi tiếng, mà cái này có vẻ cũng khá nổi, thì chỉ CAPTCHA thôi có lẽ cũng khó chặn được bọn spam wiki. Nếu bọn spam không chỉ đăng rác kiểu “mua thuốc tăng cường sinh lý” mà còn gắn link tới site malware, thì Google hoàn toàn có thể đã có phần chính đáng khi xem wiki đó là nguồn phát tán nội dung độc hại kiểu vậy
    Có lẽ cách xử lý mà tác giả bài gốc có thể làm là kiểm tra và dọn sạch toàn bộ nội dung độc hại trên wiki rồi khiếu nại với Google. Tất nhiên vì là Google nên dù có phản hồi thì chắc cũng mất vài tháng
    Rốt cuộc nếu trong đội Google xử lý vụ này không có fan Pokémon người Ý thì trông cũng khá bế tắc

    • Bọn tôi đang vận hành hệ thống chống bot với giới hạn quyền cho tài khoản mới, các quy tắc Cloudflare được tinh chỉnh kỹ, và một đội tình nguyện viên tận tụy liên tục tuần tra các chỉnh sửa gần đây
      Không thể loại trừ hoàn toàn khả năng có một link spam nằm đâu đó trên hơn 37 nghìn trang rất ít người ghé qua, nhưng khó tin đó lại là lý do bị loại khỏi chỉ mục. Nếu đúng vậy chắc nó đã hiện trong Google Search Console rồi
    • Một khi dự án đủ nổi để đáng bị viết tự động hóa tùy chỉnh, thì gần như không còn cách nào để chống spam nữa
      Nếu còn đủ nhỏ, chỉ cần thêm một bước không theo chuẩn vào luồng đăng ký là thường tránh được hầu hết bot spam. Ví dụ dùng ảnh tĩnh hoặc audio mà chỉ cộng đồng mới nhận ra rồi bắt chọn trong dropdown “Tôi không phải bot”, hoặc thêm một bước xác minh email nữa cho bài viết/chỉnh sửa đầu tiên, hoặc yêu cầu đáp án nằm ở một mốc thời gian cụ thể trong video YouTube dài. Cứ thứ gì phi chuẩn là hiệu quả
      99,9% hệ thống tự động hóa sẽ gãy, và đám spammer thao túng kết quả tìm kiếm sẽ không đi làm công cụ riêng chỉ cho một wiki hay forum cụ thể
      Nếu site quá nổi tiếng thì đương nhiên sẽ thành cuộc chạy đua vũ trang vô tận. Lúc đó có thể dùng thứ như Hashcash để bắt chúng đốt nhiều CPU/GPU/RAM mỗi lần, khiến spammer đơn giản là đưa site vào blacklist luôn
    • Mấy hôm trước ở đây có người nói là họ dùng bot AI giải Captcha hằng ngày, và chi phí mỗi lần giải là 0,003 USD
      Nên kể cả có là bản mới có CAPTCHA thì cũng chưa chắc giúp được gì
    • CAPTCHA chẳng làm được gì với spammer cả
      Chặn theo domain email lúc đăng ký lại hoạt động khá tốt. Danh sách của tôi ở https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... Đây là tính năng có sẵn của MediaWiki nên phần lớn phiên bản đều dùng ổn
    • Tôi không rõ có căn cứ nào để nói wiki này bị spam phủ kín không, hay chỉ là đoán mò qua loa
      Trong thread Twitter họ nói rất rõ rằng nó không hề ngập trong nội dung rác do AI tạo ra, và họ đã kiểm tra danh sách các trang bị đánh dấu là “đã crawl nhưng chưa được lập chỉ mục” mà không tìm thấy dấu hiệu lạm dụng nào
      Việc bạn từng bị sốc khi wiki mình quản lý bị tấn công spam là điều dễ hiểu, nhưng lấy trải nghiệm đó rồi khái quát sang trường hợp này thì không hợp lý
  • Thành thật mà nói, khả năng cao đây là một lỗi cẩu thả từ phía Google
    Tìm kiếm có rất nhiều quan hệ nhân quả bị trễ, và một website phạm phải sai sót nhỏ khiến 0,1% web bị rơi khỏi khâu crawl hay lập chỉ mục thì dễ hơn rất nhiều so với việc phát hiện chuyện đó đã xảy ra. Đặc biệt là trước khi chính site bị ảnh hưởng báo lại
    Tôi cũng từng gặp bug tương tự ở marginalia. Nếu root path không hỗ trợ HEAD nhưng có hỗ trợ GET với header Range, và trả về HTTP 206 đúng chuẩn, thì site đó lại không được lập chỉ mục. Lý do là đoạn code kiểm tra vấn đề ở tài liệu gốc trong bước khám phá ban đầu đã xử lý trường hợp đó như một trạng thái lỗi
    Phần lớn site hỗ trợ range request cũng hỗ trợ HEAD, vì điều đó thường có nghĩa tài liệu không được tạo động. Nhưng vẫn có ngoại lệ, như một số cấu hình dựa trên Caddy, chiếm khoảng 0,3% máy chủ

    • Hoặc cũng có thể có AI nào đó đã gắn cờ đây là loại nội dung không nên hiển thị
      Kiểu phân loại như vậy thì không thể nào hoàn hảo được
    • Nếu số trang được lập chỉ mục rơi từ 511 nghìn xuống còn 11, thì đó là một mức cẩu thả khá nghiêm trọng đấy
  • Google đã cào dữ liệu xong và huấn luyện mô hình rồi thì còn lý do gì phải gửi traffic về website nữa
    Những người làm nội dung và các website tử tế coi như đã bị dùng xong rồi vứt

    • Nhân cách hóa Google theo kiểu này thì không thực tế lắm
      Chỉ riêng đội tìm kiếm của Google đã có hàng nghìn người, mỗi người làm những việc khác nhau dưới một sứ mệnh chung là làm web dễ tiếp cận hơn chứ không phải khó tiếp cận hơn. Bản phát hành của bất kỳ ai trong số họ cũng có thể tạo ra loại tác dụng phụ này
      Cũng có khả năng đây là chính sách được triển khai có chủ đích, nhưng xác suất có vẻ rất thấp
    • Tôi cũng đã nghĩ như vậy. Phần lớn dữ liệu kiểu này chẳng phải là ổn định và tĩnh sao
      Nếu kho ngữ liệu về cơ bản đã hoàn chỉnh rồi thì tôi không hiểu vì sao còn cần liên tục crawl và lập chỉ mục lại những thứ giá trị thấp như vậy
    • Đọc câu đó đúng lúc tôi đang nghe Suffragette City của David Bowie
      Có vẻ Bowie là một trong những người đã phổ biến câu “wham bam, thank you ma’am”
    • Thế chẳng phải cũng giống điều người dùng chặn quảng cáo đã làm suốt 20 năm qua sao
      Có downvote thì cũng không giải thích được khác biệt là gì
      Khi người ta nói người chặn quảng cáo làm mất doanh thu của người sáng tạo, thì phản hồi thường là internet năm 1996 vẫn ổn, hoặc đừng mong được trả tiền chỉ vì đăng nội dung lên mạng, hoặc đây là máy tính của tôi nên tôi có quyền chọn tải gì. Mấy lập luận đó giờ đi đâu rồi
  • Vài tuần trước blog của tôi cũng gặp y hệt
    Đó là blog đã được tham chiếu tốt suốt nhiều năm, vậy mà đột nhiên gần như toàn bộ bài viết không còn được lập chỉ mục nữa. Search Console chỉ báo URL đã được crawl nhưng hiện chưa được lập chỉ mục, và không như lỗi kỹ thuật, tôi chẳng có gì để sửa cả. Giờ tôi đành chấp nhận rằng phần lớn bài viết của mình không thể được tìm thấy qua Google nữa
    Tôi không thực sự nghĩ là có liên quan, nhưng nhìn lại thì thời điểm này trùng với lúc tôi bắt đầu cấu hình TDMRep để ngăn nội dung của mình bị dùng cho việc huấn luyện LLM

    • Tôi cũng vậy. Tôi đã duy trì blog cá nhân hơn 20 năm, mà năm ngoái trên Google không tìm thấy nổi một link nào đến blog của tôi
      Vào Google Search Console thì thấy tất cả link đều ở trạng thái “đã crawl nhưng chưa được lập chỉ mục”, và không có lý do nào được cung cấp
    • Nếu Google đã hút hết dữ liệu huấn luyện từ site rồi, thì việc không lập chỉ mục có thể trở thành một dạng hào bảo vệ trước những đối thủ đang dùng Google Search để khám phá website
  • Xây một site cộng đồng thật sự đúng là sai lầm SEO kiểu cổ điển
    Đáng lẽ phải làm thread Reddit, thư mục con coupon, và bản tóm tắt AI. Nói đùa vậy thôi, hy vọng họ sớm khôi phục được

  • Có thể nói là Google ghét tất cả chúng ta

    • Google không ghét cũng chẳng yêu bất kỳ ai trong chúng ta
      Điều một tổ chức như vậy quan tâm chỉ là nhồi càng nhiều quảng cáo càng tốt trước càng nhiều người càng tốt để tạo ra đống tiền ngày càng lố bịch
      Đây không phải lời bào chữa cho Google. Google, giống gần như mọi tập đoàn lớn khác, hoàn toàn mang tính xã hội bệnh hoạn
  • Nhân tiện, Google cũng ghét OpenCV
    Những thứ từng rất dễ tìm, ví dụ tìm “opencv orb”, giờ toàn ra các site spam hết trang này đến trang khác. Về cơ bản là kiểu blog spam “học OpenCV tại đây!”
    Kết quả đầu tiên của “docs.opencv.org” tận trang 4, mà còn trỏ đến bản 3.4 từ 9 năm trước
    Còn trang tôi muốn là https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht... thì chẳng thấy đâu cả

    • Tôi nghĩ với những sản phẩm không sống bằng phí thuê bao, chuyện này đã lộ rõ từ lâu do enshittification
      Phải bỏ tiền để bỏ phiếu, và chuyển sang sản phẩm tốt hơn, lấy khách hàng làm trung tâm thay vì nhà quảng cáo
      Tôi vẫn nhớ rất rõ hồi tuổi teen và đầu tuổi 20 lang thang trên Newgrounds, thấy biết ơn những người trả tiền vận hành máy chủ. Tôi từng tự hứa rằng khi ổn định và có chút tiền dư, tôi cũng sẽ đóng góp cho thế hệ sau; mất lâu hơn dự tính, nhưng tôi đã làm vậy gần 10 năm nay
      Vì thế tôi muốn khuyến khích việc bình thường hóa văn hóa đó: có một tỷ lệ khách hàng trả phí để vẫn giữ được phần miễn phí cho những người không có khả năng chi trả, hoặc để hỗ trợ tăng trưởng. Rất có thể hàng chục nghìn sự nghiệp lập trình và hoạt hình đã bắt đầu, hoặc ít nhất được truyền cảm hứng, từ những site tuyệt vời như Newgrounds, và xét về mặt xã hội thì hiệu ứng ròng là cực kỳ tích cực
    • Tài liệu OpenStack trên Google cũng gặp vấn đề tương tự
  • Nhìn vào keynote hôm qua và các thay đổi của Search, có vẻ khá rõ rằng trong tương lai gần Google sẽ ngừng gửi traffic đến website
    Kết quả tìm kiếm sẽ chỉ còn là phần chú thích cho câu trả lời Gemini

  • Wiki là loại có độ rủi ro cao về mặt SEO
    Ngay cả việc làm cho wiki cá nhân của tôi được lập chỉ mục cũng khó đến mức tôi gần như bỏ cuộc, mãi sau mới xong nhờ một người bạn rành hơn giúp đặt đúng mọi cấu hình cần thiết
    Nếu không cẩn thận, người ta rất dễ nhét spam khắp site, và như vậy thì sự hiện diện trên công cụ tìm kiếm sẽ bị phá hỏng thật sự
    Dù vậy Google rất lớn. Rất, rất lớn. Lớn đến mức ngay cả người trong Google cũng không phải lúc nào cũng là người được mọi bên trong Google tin tưởng hoàn toàn về các chủ đề thế này
    Nhưng không phải Google ghét wiki nói chung. Chỉ là phải làm rất nhiều việc, đảm bảo wiki không có spam, điền thông tin meta tag, có cả sitemap.xml, v.v. Ví dụ wiki của tôi ở đây: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...