1 điểm bởi GN⁺ 2025-12-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Blog cá nhân blog.james-zhan.com đã bị loại hoàn toàn khỏi chỉ mục tìm kiếm của Google chỉ sau một tháng hoạt động
  • Ngay sau khi xác thực nhầm URL nguồn cấp RSS trong Google Search Console (GSC), mọi bài viết đều bị hiển thị ở trạng thái “Crawled – currently not indexed”
  • Đã kiểm tra nhiều nguyên nhân khả dĩ như cấu hình tên miền, chất lượng nội dung, cấu trúc liên kết nội bộ, nhưng đều không phát hiện vấn đề
  • Với sự hỗ trợ của Herman, nhà sáng lập Bear Blog, tác giả cũng loại trừ khả năng do DNS, HTML/CSS hoặc nền tảng, đồng thời các công cụ tìm kiếm khác vẫn lập chỉ mục bình thường
  • Cuối cùng, tác giả chuyển blog sang một tên miền phụ mới và để Google tự lập chỉ mục một cách tự nhiên, nhưng nguyên nhân vẫn chưa được làm rõ

Tình huống ban đầu

  • Blog được tạo vào ngày 4 tháng 10 và đăng bài viết dài đầu tiên theo dạng bình luận thời sự
    • Sau khi gửi sitemap lên Google Search Console (GSC) và yêu cầu lập chỉ mục, bài viết đã xuất hiện trên kết quả tìm kiếm ngay ngày hôm sau
    • Sau đó, mỗi khi đăng bài mới, tác giả đều tiếp tục gửi yêu cầu lập chỉ mục và mọi thứ được phản ánh bình thường

Sự cố xảy ra

  • Ngày 14 tháng 10, thấy thông báo trong GSC rằng một URL chưa được lập chỉ mục, tác giả đã nhấn nút “Validate”
    • URL đó là nguồn cấp RSS (feed/?type=rss), không phải một trang thực tế
  • Ngày 20 tháng 10, sau khi nhận email từ GSC với nội dung “một số lỗi sửa không thành công”, toàn bộ bài viết bị gỡ khỏi chỉ mục
    • Thông báo trạng thái là “Page is not indexed: Crawled – currently not indexed”
    • Việc gửi lại sitemap và yêu cầu lập chỉ mục cho từng URL riêng lẻ đều không có tác dụng

Lần theo nguyên nhân

  • Ngày bắt đầu xác thực lập chỉ mục và ngày toàn bộ bài viết bị chuyển sang trạng thái không được lập chỉ mục là trùng nhau
    • Chưa rõ liệu việc thử xác thực nguồn cấp RSS có gây ra sự cố hay không
  • Những bài viết được đăng mới sau đó cũng đều tiếp tục ở cùng trạng thái lỗi
    • Đến ngày 3 tháng 11, ngay cả bài viết cuối cùng còn sót lại cũng bị gỡ khỏi chỉ mục

Kiểm tra các giả thuyết nguyên nhân

  • Vấn đề tên miền: james-zhan.com đang dùng tại GoDaddy vẫn được lập chỉ mục bình thường ở các tên miền phụ khác → không phải nguyên nhân
  • Chất lượng nội dung: so với các trường hợp Bear Blog khác, không có vấn đề về số lượng hay chất lượng nội dung → không phải nguyên nhân
  • Thiếu liên kết nội bộ: cấu trúc mặc định của Bear Blog là giống nhau và các blog khác vẫn được lập chỉ mục bình thường → không phải nguyên nhân
  • Các yếu tố khác: theo xác nhận của Herman, nhà sáng lập Bear Blog
    • DNS, HTML/CSS và cấu hình nền tảng đều bình thường
    • Mã CSS tùy chỉnh của người dùng cũng không ảnh hưởng đến việc lập chỉ mục

Các công cụ tìm kiếm khác và biện pháp xử lý

  • Trên DuckDuckGo, Bing, Brave..., blog vẫn được lập chỉ mục bình thường
    • Điều này cho thấy nhiều khả năng đây là vấn đề từ phía Google chứ không phải lỗi kỹ thuật
  • Tác giả đã chuyển blog sang tên miền phụ mới (journal.james-zhan.com)
    • Chuyển tên miền từ GoDaddy sang Porkbun
    • Thiết lập chuyển tiếp URL để các liên kết cũ tự động dẫn sang blog mới
  • Với blog mới, tác giả không gửi sitemap lên GSC mà để Google tự lập chỉ mục một cách tự nhiên
  • Nguyên nhân đến nay vẫn chưa được xác định, và tác giả đặt câu hỏi về sự thiếu minh bạch trong hệ thống lập chỉ mục của Google

1 bình luận

 
GN⁺ 2025-12-13
Ý kiến trên Hacker News
  • Lưu lượng truy cập blog của tôi đã giảm mạnh trong năm nay. Khi lần theo nguyên nhân, tôi thấy có hai yếu tố
    1. Do AI Overview. Hiển thị và thứ hạng vẫn giữ nguyên, nhưng CTR giảm mạnh. Người dùng chỉ đọc phần tóm tắt rồi không nhấp vào
    2. Do vấn đề hiển thị spam. Trên trang tìm kiếm, truy vấn của người dùng được hiển thị dưới dạng h1 nên Google nhận diện đó là nội dung spam.
      AI Overview thì tôi không kiểm soát được, nhưng sau khi thêm noindex vào trang tìm kiếm, lưu lượng đã phục hồi chỉ sau một tuần
      Tôi đã ghi chi tiết trong bài blog của mình
    • Vấn đề thứ hai có vẻ giống một cuộc tấn công Negative SEO. Có lẽ trang /search đã bị cache và lộ ra cho crawler.
      Tốt hơn là đừng cache trang tìm kiếm, và áp dụng noindex bằng X-Robots-Tag
    • Khoảng tháng 9 đã có thay đổi trong cách Google thống kê lượt nhấp và hiển thị. Nghe nói dữ liệu cũ không còn so sánh được nữa.
      Có lẽ từ giờ phải theo dõi lưu lượng bằng công cụ phân tích riêng
    • Tôi nghi Google đã lên kế hoạch cho tình trạng này từ lâu.
      1. Tăng các site SEO để đẩy nội dung hữu ích xuống dưới
      2. Đặt quảng cáo ở trên cùng để đẩy xuống thêm nữa
      3. Đưa vào tóm tắt AI để người dùng không còn lý do nhấp vào
        Giờ mọi người chỉ xem tóm tắt và quảng cáo rồi rời đi
    • Tôi có một thắc mắc. Khi ai đó tìm “crypto” trên blog của tôi, làm sao trang kết quả đó lại được Google lập chỉ mục?
      Có phải một site khác đã đặt link tới URL tìm kiếm đó nên mới bị crawl không?
    • Có vẻ AI Overview sẽ không biến mất. Người dùng phổ thông chỉ đọc phần tóm tắt.
      Nếu Google gắn liên kết nguồn vào các câu trong phần tóm tắt, có lẽ CTR sẽ phục hồi phần nào
  • Dù trường hợp này có đúng sự thật hay không, vấn đề nằm ở cơ chế trừng phạt thiếu minh bạch của Google
    Khi site bị phạt, không thể biết lý do, cũng không thể khiếu nại.
    Google về thực chất đang đóng vai trò gatekeeper.
    Vì nó vận hành gần như một hàng hóa công cộng, nên cần có hệ thống hỗ trợ và trách nhiệm tương xứng.
    Quy định không phải liều thuốc vạn năng, nhưng với một doanh nghiệp ở tầm tiện ích công cộng như vậy thì ít nhất phải có nghĩa vụ bảo đảm quyền tiếp cận
    • Đây gần với vấn đề độc quyền hơn là vấn đề gatekeeper. Google sở hữu cả bộ máy index lẫn công cụ tìm kiếm
    • Nếu Google cảm thấy có trách nhiệm đạo đức, họ nên nới lỏng cạnh tranh đấu giá quảng cáo để các site bình thường có thể xuất hiện ở trang đầu.
      Hiện giờ cấu trúc là phải trả tiền quảng cáo thì mới được nhìn thấy trên tìm kiếm
  • Sáu tháng trước, theo khuyến nghị của Ahrefs, tôi đã bỏ ký tự Unicode khỏi đường dẫn URL và thiết lập redirect.
    Kết quả là số trang được index giảm từ vài nghìn xuống còn 100
    Xem ảnh chụp màn hình.
    Sau 6 tháng vẫn chưa phục hồi. Vì đây là dự án cá nhân nên còn ổn, nhưng nếu là kinh doanh thì tôi đã nổi giận rồi
    Ảnh chụp màn hình cập nhật
    • Có lẽ do Google dồn tài nguyên vào AI, nên sau khi cache bị vô hiệu hóa, thứ hạng của các trang được crawl lại đã thay đổi
    • Google đã thu thập đủ nội dung họ cần rồi. Giờ website đã trở thành đối thủ dùng cho việc huấn luyện AI
    • Bài học rất đơn giản — nếu đang chạy tốt thì đừng động vào
    • Tôi cũng có trải nghiệm tương tự. Hàng nghìn trang bị de-index, cuối cùng tôi phải đóng mảng kinh doanh nội dung dựa trên quảng cáo
  • Trên Google Maps có rất nhiều quảng cáo bất hợp pháp. Các cơ sở lưu trú không giấy phép hay cửa hàng bán rượu vẫn được đăng công khai.
    Nếu hoạt động đủ lâu, đôi khi còn được công nhận là “quyền sử dụng hiện có”.
    Tôi thậm chí còn thấy ảnh chụp Google Maps được nộp làm bằng chứng tại tòa
    • Tôi cũng từng là nạn nhân của kiểu này. Tôi tìm thợ khóa gần đó trên Google Maps,
      nhưng thực ra đó là một đơn vị lừa đảo. Họ làm hỏng ổ khóa rồi đòi 600 USD.
      Khi tôi báo cáo thì Google xóa rất nhanh, nhưng tôi nghĩ những thứ như vậy cần xác minh danh tính thật ngay từ lúc đăng ký
    • Chuyện này làm tôi nhớ tới các trap street mà người làm bản đồ ngày xưa từng thêm vào.
      Vấn đề là đôi khi thực tế lại thay đổi theo bản đồ
    • Tôi tò mò không biết các quảng cáo kiểu này có bị đối xử khác với các quảng cáo khác hay không.
      Trong thủ tục hành chính thường hay có kiểu “không ai phản đối thì xem như ổn”
    • Đây gần giống một dạng legal citogenesis — hiện tượng thông tin sai bị cố định thành tài liệu chính thức
  • Dạo này chất lượng tìm kiếm của Google giảm mạnh.
    Site của tôi bị nhận diện nhầm là nội dung trùng lặp nên đang bị de-index.
    Trên Bing thì không sao, chỉ Google mới mắc lỗi này
    • Tôi cũng thấy tương tự. Các model phổ biến trên Hugging Face không hiện ra trong tìm kiếm,
      còn các trang Reddit thì chỉ hiện phiên bản bị dịch sang một ngôn ngữ kỳ quặc.
      Có lẽ logic loại trùng lặp đang hoạt động sai
    • Có lẽ nên kiểm tra xem yêu cầu SNI có đang bị định tuyến sai không.
      Nếu reverse proxy qua domain khác thì Google sẽ index trùng lặp.
      Nên dùng thẻ canonical và liên kết đường dẫn tuyệt đối
    • Amazon và Google đều đầy hàng giả và kết quả spam
    • Bing hoạt động tốt với mọi site của tôi, còn Google thì thất bại toàn bộ
    • Giờ Google Search gần như vô dụng. Thật ngạc nhiên khi họ bỏ mặc năng lực cốt lõi của mình đến mức này
  • Tôi cũng gặp đúng vấn đề đó. Tôi dùng theme Bear cho Hugo, và gần đây nó đã bị de-index hoàn toàn khỏi Bing.
    Đây là một blog 17 năm nay chưa từng có vấn đề gì
  • Có lẽ việc xác thực RSS thất bại đã kích hoạt cờ spam.
    Spam quá nhiều nên có vẻ tỷ lệ false positive cũng tăng lên
    • Nếu chỉ một lỗi RSS mà khiến cả site bị de-index thì đó là vấn đề nghiêm trọng.
      Cách làm này ngược lại còn tạo tác dụng phụ làm giảm tỷ lệ nội dung hợp lệ
  • Thành thật mà nói, thấy tiêu đề “Google de-indexed my Bear Blog” tôi đã nhấp vào vì tưởng là chuyện về một blog về gấu
    • Nếu tìm được blog thực sự về gấu thì có thể bạn sẽ thấy kết quả bất ngờ
    • Tôi vẫn chưa hiểu vì sao lại có từ “Bear” trong tiêu đề
    • Với tư cách một quietfox, điều quan trọng là phải tự bảo vệ mình ^^
  • Cái này giống với thread HN trước đó.
    Điểm chung là Google có cấu trúc quyết định ai sẽ sống sót
    • Một trường hợp liên quan là bài này.
      Có thể lỗi RSS chỉ đơn thuần là cú kích hoạt của sự thờ ơ
    • Trước đây TripAdvisor chiếm 60% thị trường review địa phương ở Anh,
      nhưng Google Maps có thật sự bắt kịp nhanh đến vậy không?
      Ảnh hưởng của Instagram hay TikTok cũng không thể xem nhẹ,
      nên cách diễn giải trao quá nhiều quyền lực cho Google có vẻ hơi quá
  • Google Search ưu ái các site lớn và làm bất lợi cho site mới.
    Cuối cùng lại dẫn tới bài toán con gà hay quả trứng có trước.
    Các site nhỏ không có hiển thị nên không thể phát triển,
    còn các site lớn thì vẫn tiếp tục đứng đầu mà không gặp trở ngại nào