- Pokémon Central Wiki đã là nguồn thông tin Pokémon bằng tiếng Ý chủ chốt trong hơn 15 năm, nhưng hiện gần như biến mất khỏi kết quả tìm kiếm của Google
- wiki.pokemoncentral.it là một wiki lớn dựa trên MediaWiki, vậy mà kết quả tìm
site: giờ chỉ trả về đúng 4 mục
- Mức sụt giảm chỉ mục bắt đầu vào khoảng thời gian trước và sau core update tháng 3/2026, và Search Console hiển thị hàng loạt trạng thái
"crawled - currently not indexed"
- Bing, DuckDuckGo và các công cụ khác vẫn lập chỉ mục bình thường, nên có vẻ đây là vấn đề chỉ xảy ra với Google; việc chặn Google-Extended theo tài liệu thì không nên ảnh hưởng đến lập chỉ mục
- Đã áp dụng tối ưu về máy chủ, Cloudflare, thẻ Open Graph và schema.org, cũng như SWR, nhưng vẫn chưa thấy hiệu quả và nguyên nhân vẫn chưa rõ
Sụt giảm mạnh chỉ mục tìm kiếm của Google
- Pokémon Central Wiki đã là nguồn nổi tiếng nhất về thông tin Pokémon bằng tiếng Ý trong hơn 15 năm, nhưng hiện gần như không còn xuất hiện trong kết quả tìm kiếm Google
- wiki.pokemoncentral.it vận hành trên MediaWiki, phần mềm mã nguồn mở dùng cho Wikipedia, và là một trong 500 instance MediaWiki lớn nhất thế giới theo Wikistats
- PCW là một phần của mạng lưới wiki quốc tế Encyclopaediae Pokémonis, mạng lưới này cũng bao gồm Bulbapedia
- Nhiều nội dung đã được dịch từ Bulbapedia với sự cho phép, và hàng nghìn tình nguyện viên đã tham gia thực hiện
- Các wiki EP khác vẫn được lập chỉ mục bình thường theo xác nhận từ cộng đồng và qua tìm kiếm
site:
- Khi tìm
site:http://wiki.pokemoncentral.it cho PCW, hiện chỉ trả về 4 kết quả
- Vài tuần trước, vào khoảng thời gian trước và sau core update tháng 3/2026, rất nhiều trang trong Google Search Console bắt đầu xuất hiện với trạng thái
"crawled - currently not indexed"
- Google chỉ cho biết các trang đó có thể sẽ được lập chỉ mục sau này hoặc cũng có thể không, và không đưa ra lý do cụ thể
Nguyên nhân đã kiểm tra và cách ứng phó
- Khó có thể xem đây là vấn đề do chất lượng nội dung hoặc vận hành
- Không có thay đổi trong chính sách biên tập, không có lạm dụng, cũng không có suy giảm chất lượng
- Nếu là lỗi kỹ thuật thuần túy như 5xx, nhiều khả năng Google Search Console đã hiển thị theo dạng khác
- Có vẻ đây là vấn đề chỉ giới hạn ở Google
- Bing, DuckDuckGo và các công cụ tìm kiếm khác vẫn lập chỉ mục PCW bình thường
- Trang đang chặn các scraper phục vụ huấn luyện AI thông qua Cloudflare
- Không chặn các bot AI dùng PCW làm nguồn căn cứ hoặc tài liệu tham chiếu cho truy vấn người dùng
- Có chặn Google-Extended trong
robots.txt, nhưng theo tài liệu của Google thì điều này không nên ảnh hưởng đến lập chỉ mục tìm kiếm
- Managed challenge của Cloudflare chỉ được áp dụng cho các mục không quan trọng đối với lập chỉ mục như lịch sử trang, trang kỹ thuật, v.v.
- Các mục này cũng không được cho phép rõ ràng trong
robots.txt
- Các trang đó khó cache và tiêu tốn nhiều tài nguyên máy chủ
- Bot gửi hàng nghìn yêu cầu mỗi phút, gây quá tải cho máy chủ
- Đã điều chỉnh máy chủ và cấu hình Cloudflare để tăng tốc trang web
- Trong vài tuần gần đây đã áp dụng các thực hành SEO chính đáng và tối ưu hóa tốt nhất có thể
- Dùng Claude Code để liên tục cải thiện thẻ Open Graph và schema.org
- Đã cấu hình để Cloudflare SWR hoạt động, giúp phần lớn yêu cầu được phục vụ ở edge trong vài mili giây mà không đi qua máy chủ, đồng thời tái xác thực ở chế độ nền
- Những thay đổi này vẫn chưa mang lại hiệu quả
- Có thể cần vài tuần để thay đổi được phản ánh, và Google quá thiếu minh bạch nên khó xác nhận ngay liệu chúng có tác dụng thật hay không
- Một giả thuyết có thể là Google đã điều chỉnh thuật toán và trong thời đại AI đã đánh giá “chất lượng nội dung” của PCW là chưa đủ
- Các LLM có thể đã được huấn luyện bằng văn bản của PCW từ trước khi bị chặn
- Các trang web khác sao chép rất nhiều nội dung PCW nguyên xi vẫn còn hiện diện trong kết quả tìm kiếm
- Nội dung của PCW dùng giấy phép CC BY-NC-SA, nên bản thân việc sao chép thường không phải là vấn đề
- Những người dùng trung thành không hiểu chuyện gì đang xảy ra và đã gửi câu hỏi, đồng thời cũng đã có bài đăng liên quan trên Reddit
- Hiện tại họ đang hướng dẫn người dùng đánh dấu trang wiki.pokemoncentral.it để truy cập trực tiếp
- Họ hy vọng có thể tiếp cận được ai đó có khả năng kiểm tra nội bộ ở Google để hiểu chuyện gì đang xảy ra
2 bình luận
Có vẻ đúng là vấn đề ở phía Google. Với tôi cũng xảy ra y hệt trên nhiều site đang vận hành.
Google đơn giản là không index mà chẳng có lý do gì cả. Họ nói có thể một lúc nào đó sẽ làm, nhưng có lẽ đúng là vào một ngày nào đó thật.
Ý kiến trên Hacker News
Không hẳn là Google ghét chúng ta, mà tệ hơn là họ gần như thờ ơ
Muốn ghét thì ít nhất cũng phải nhận thức được sự tồn tại của mình. Chỉ riêng vụ này có thể chưa nói lên nhiều điều, nhưng nhìn tổng thể thì Google đang đi theo một hướng khá kỳ lạ. Từng là tiên phong, nhưng sau 20 năm có vẻ họ đã trở thành thêm một tập đoàn lớn nữa sẵn sàng hy sinh chất lượng vì lợi ích cổ đông
Là công cụ tìm kiếm thì giờ gần như vô dụng. Link quảng bá luôn hiện trước cả thứ mình thực sự cần tìm. Tôi chuyển sang Kagi rồi và không ngoái lại nữa
Với AI cũng không hợp lắm. Có giới hạn sử dụng ngẫu nhiên bị reset sau 5 tiếng, rồi hạn ngạch tuần hiển thị bằng phần trăm, mức độ thiếu minh bạch thì khỏi nói. Kagi cho thấy rất rõ còn lại bao nhiêu trong chi tiết mức sử dụng. Nói trước là tôi không làm cho Kagi, chỉ là khách hàng hài lòng thôi
Là lưu trữ đám mây cũng không ổn. Thỉnh thoảng nó lại bắn thông báo nội dung người lớn vì đâu đó trong thư mục chia sẻ đang cộng tác có user spam hoặc tài khoản bị hack. Không chỉ mình tôi gặp chuyện này (https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Tôi chuyển sang Apple iCloud rồi xong luôn
Mail thì vẫn ổn. Nhưng dùng 22 năm rồi nên giờ nó đã bị đẩy xuống mức không còn quá quan trọng trong đời tôi nữa. Mấy thứ quan trọng thì tôi chuyển qua nhà cung cấp châu Âu hết rồi
Tôi cũng thử DDG rồi, nhưng với nhu cầu của tôi thì còn tệ hơn Google
Tôi vừa tìm A&W thì nó hiện cả Tim Hortons, Popeyes, McDonald's. Apple Maps thì không bao giờ làm vậy. Dù thế tôi vẫn thường dùng Google vì muốn biết nó có đang mở cửa không và giờ mở cửa có chính xác không
Dù vậy, việc một công ty khổng lồ như Google vẫn công bố miễn phí những nghiên cứu xuất sắc như AlphaFold hay, ở mức nào đó kém hơn, Gemma, vẫn là điều đáng nể. Nó khiến họ giống kiểu ATT PAC Bell hay IBM của thời đại này
Tôi đã trả tiền cho dịch vụ tìm kiếm được một năm nhưng vẫn chưa xem phần tính năng AI của họ
Chắc cũng có thể vì đó là wiki. Dạo này spammer wiki rất lì lợm
Cái wiki nhỏ cho một game ít tên tuổi, dưới 10 nghìn người chơi, mà tôi có tham gia quản trị cũng vừa phải chặn đăng ký mới gần đây. Spam quá nặng, mà lại bị kẹt ở bản MediaWiki cũ không hỗ trợ CAPTCHA
Nếu là wiki nổi tiếng, mà cái này có vẻ cũng khá nổi, thì chỉ CAPTCHA thôi có lẽ cũng khó chặn được bọn spam wiki. Nếu bọn spam không chỉ đăng rác kiểu “mua thuốc tăng cường sinh lý” mà còn gắn link tới site malware, thì Google hoàn toàn có thể đã có phần chính đáng khi xem wiki đó là nguồn phát tán nội dung độc hại kiểu vậy
Có lẽ cách xử lý mà tác giả bài gốc có thể làm là kiểm tra và dọn sạch toàn bộ nội dung độc hại trên wiki rồi khiếu nại với Google. Tất nhiên vì là Google nên dù có phản hồi thì chắc cũng mất vài tháng
Rốt cuộc nếu trong đội Google xử lý vụ này không có fan Pokémon người Ý thì trông cũng khá bế tắc
Không thể loại trừ hoàn toàn khả năng có một link spam nằm đâu đó trên hơn 37 nghìn trang rất ít người ghé qua, nhưng khó tin đó lại là lý do bị loại khỏi chỉ mục. Nếu đúng vậy chắc nó đã hiện trong Google Search Console rồi
Nếu còn đủ nhỏ, chỉ cần thêm một bước không theo chuẩn vào luồng đăng ký là thường tránh được hầu hết bot spam. Ví dụ dùng ảnh tĩnh hoặc audio mà chỉ cộng đồng mới nhận ra rồi bắt chọn trong dropdown “Tôi không phải bot”, hoặc thêm một bước xác minh email nữa cho bài viết/chỉnh sửa đầu tiên, hoặc yêu cầu đáp án nằm ở một mốc thời gian cụ thể trong video YouTube dài. Cứ thứ gì phi chuẩn là hiệu quả
99,9% hệ thống tự động hóa sẽ gãy, và đám spammer thao túng kết quả tìm kiếm sẽ không đi làm công cụ riêng chỉ cho một wiki hay forum cụ thể
Nếu site quá nổi tiếng thì đương nhiên sẽ thành cuộc chạy đua vũ trang vô tận. Lúc đó có thể dùng thứ như Hashcash để bắt chúng đốt nhiều CPU/GPU/RAM mỗi lần, khiến spammer đơn giản là đưa site vào blacklist luôn
Nên kể cả có là bản mới có CAPTCHA thì cũng chưa chắc giúp được gì
Chặn theo domain email lúc đăng ký lại hoạt động khá tốt. Danh sách của tôi ở https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... Đây là tính năng có sẵn của MediaWiki nên phần lớn phiên bản đều dùng ổn
Trong thread Twitter họ nói rất rõ rằng nó không hề ngập trong nội dung rác do AI tạo ra, và họ đã kiểm tra danh sách các trang bị đánh dấu là “đã crawl nhưng chưa được lập chỉ mục” mà không tìm thấy dấu hiệu lạm dụng nào
Việc bạn từng bị sốc khi wiki mình quản lý bị tấn công spam là điều dễ hiểu, nhưng lấy trải nghiệm đó rồi khái quát sang trường hợp này thì không hợp lý
Thành thật mà nói, khả năng cao đây là một lỗi cẩu thả từ phía Google
Tìm kiếm có rất nhiều quan hệ nhân quả bị trễ, và một website phạm phải sai sót nhỏ khiến 0,1% web bị rơi khỏi khâu crawl hay lập chỉ mục thì dễ hơn rất nhiều so với việc phát hiện chuyện đó đã xảy ra. Đặc biệt là trước khi chính site bị ảnh hưởng báo lại
Tôi cũng từng gặp bug tương tự ở marginalia. Nếu root path không hỗ trợ HEAD nhưng có hỗ trợ GET với header
Range, và trả về HTTP 206 đúng chuẩn, thì site đó lại không được lập chỉ mục. Lý do là đoạn code kiểm tra vấn đề ở tài liệu gốc trong bước khám phá ban đầu đã xử lý trường hợp đó như một trạng thái lỗiPhần lớn site hỗ trợ range request cũng hỗ trợ HEAD, vì điều đó thường có nghĩa tài liệu không được tạo động. Nhưng vẫn có ngoại lệ, như một số cấu hình dựa trên Caddy, chiếm khoảng 0,3% máy chủ
Kiểu phân loại như vậy thì không thể nào hoàn hảo được
Google đã cào dữ liệu xong và huấn luyện mô hình rồi thì còn lý do gì phải gửi traffic về website nữa
Những người làm nội dung và các website tử tế coi như đã bị dùng xong rồi vứt
Chỉ riêng đội tìm kiếm của Google đã có hàng nghìn người, mỗi người làm những việc khác nhau dưới một sứ mệnh chung là làm web dễ tiếp cận hơn chứ không phải khó tiếp cận hơn. Bản phát hành của bất kỳ ai trong số họ cũng có thể tạo ra loại tác dụng phụ này
Cũng có khả năng đây là chính sách được triển khai có chủ đích, nhưng xác suất có vẻ rất thấp
Nếu kho ngữ liệu về cơ bản đã hoàn chỉnh rồi thì tôi không hiểu vì sao còn cần liên tục crawl và lập chỉ mục lại những thứ giá trị thấp như vậy
Có vẻ Bowie là một trong những người đã phổ biến câu “wham bam, thank you ma’am”
Có downvote thì cũng không giải thích được khác biệt là gì
Khi người ta nói người chặn quảng cáo làm mất doanh thu của người sáng tạo, thì phản hồi thường là internet năm 1996 vẫn ổn, hoặc đừng mong được trả tiền chỉ vì đăng nội dung lên mạng, hoặc đây là máy tính của tôi nên tôi có quyền chọn tải gì. Mấy lập luận đó giờ đi đâu rồi
Vài tuần trước blog của tôi cũng gặp y hệt
Đó là blog đã được tham chiếu tốt suốt nhiều năm, vậy mà đột nhiên gần như toàn bộ bài viết không còn được lập chỉ mục nữa. Search Console chỉ báo URL đã được crawl nhưng hiện chưa được lập chỉ mục, và không như lỗi kỹ thuật, tôi chẳng có gì để sửa cả. Giờ tôi đành chấp nhận rằng phần lớn bài viết của mình không thể được tìm thấy qua Google nữa
Tôi không thực sự nghĩ là có liên quan, nhưng nhìn lại thì thời điểm này trùng với lúc tôi bắt đầu cấu hình TDMRep để ngăn nội dung của mình bị dùng cho việc huấn luyện LLM
Vào Google Search Console thì thấy tất cả link đều ở trạng thái “đã crawl nhưng chưa được lập chỉ mục”, và không có lý do nào được cung cấp
Xây một site cộng đồng thật sự đúng là sai lầm SEO kiểu cổ điển
Đáng lẽ phải làm thread Reddit, thư mục con coupon, và bản tóm tắt AI. Nói đùa vậy thôi, hy vọng họ sớm khôi phục được
Có thể nói là Google ghét tất cả chúng ta
Điều một tổ chức như vậy quan tâm chỉ là nhồi càng nhiều quảng cáo càng tốt trước càng nhiều người càng tốt để tạo ra đống tiền ngày càng lố bịch
Đây không phải lời bào chữa cho Google. Google, giống gần như mọi tập đoàn lớn khác, hoàn toàn mang tính xã hội bệnh hoạn
Nhân tiện, Google cũng ghét OpenCV
Những thứ từng rất dễ tìm, ví dụ tìm “opencv orb”, giờ toàn ra các site spam hết trang này đến trang khác. Về cơ bản là kiểu blog spam “học OpenCV tại đây!”
Kết quả đầu tiên của “docs.opencv.org” tận trang 4, mà còn trỏ đến bản 3.4 từ 9 năm trước
Còn trang tôi muốn là https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht... thì chẳng thấy đâu cả
Phải bỏ tiền để bỏ phiếu, và chuyển sang sản phẩm tốt hơn, lấy khách hàng làm trung tâm thay vì nhà quảng cáo
Tôi vẫn nhớ rất rõ hồi tuổi teen và đầu tuổi 20 lang thang trên Newgrounds, thấy biết ơn những người trả tiền vận hành máy chủ. Tôi từng tự hứa rằng khi ổn định và có chút tiền dư, tôi cũng sẽ đóng góp cho thế hệ sau; mất lâu hơn dự tính, nhưng tôi đã làm vậy gần 10 năm nay
Vì thế tôi muốn khuyến khích việc bình thường hóa văn hóa đó: có một tỷ lệ khách hàng trả phí để vẫn giữ được phần miễn phí cho những người không có khả năng chi trả, hoặc để hỗ trợ tăng trưởng. Rất có thể hàng chục nghìn sự nghiệp lập trình và hoạt hình đã bắt đầu, hoặc ít nhất được truyền cảm hứng, từ những site tuyệt vời như Newgrounds, và xét về mặt xã hội thì hiệu ứng ròng là cực kỳ tích cực
Nhìn vào keynote hôm qua và các thay đổi của Search, có vẻ khá rõ rằng trong tương lai gần Google sẽ ngừng gửi traffic đến website
Kết quả tìm kiếm sẽ chỉ còn là phần chú thích cho câu trả lời Gemini
Wiki là loại có độ rủi ro cao về mặt SEO
Ngay cả việc làm cho wiki cá nhân của tôi được lập chỉ mục cũng khó đến mức tôi gần như bỏ cuộc, mãi sau mới xong nhờ một người bạn rành hơn giúp đặt đúng mọi cấu hình cần thiết
Nếu không cẩn thận, người ta rất dễ nhét spam khắp site, và như vậy thì sự hiện diện trên công cụ tìm kiếm sẽ bị phá hỏng thật sự
Dù vậy Google rất lớn. Rất, rất lớn. Lớn đến mức ngay cả người trong Google cũng không phải lúc nào cũng là người được mọi bên trong Google tin tưởng hoàn toàn về các chủ đề thế này
Nhưng không phải Google ghét wiki nói chung. Chỉ là phải làm rất nhiều việc, đảm bảo wiki không có spam, điền thông tin meta tag, có cả sitemap.xml, v.v. Ví dụ wiki của tôi ở đây: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...