- Blog cá nhân blog.james-zhan.com đã bị loại hoàn toàn khỏi chỉ mục tìm kiếm của Google chỉ sau một tháng hoạt động
- Ngay sau khi xác thực nhầm URL nguồn cấp RSS trong Google Search Console (GSC), mọi bài viết đều bị hiển thị ở trạng thái “Crawled – currently not indexed”
- Đã kiểm tra nhiều nguyên nhân khả dĩ như cấu hình tên miền, chất lượng nội dung, cấu trúc liên kết nội bộ, nhưng đều không phát hiện vấn đề
- Với sự hỗ trợ của Herman, nhà sáng lập Bear Blog, tác giả cũng loại trừ khả năng do DNS, HTML/CSS hoặc nền tảng, đồng thời các công cụ tìm kiếm khác vẫn lập chỉ mục bình thường
- Cuối cùng, tác giả chuyển blog sang một tên miền phụ mới và để Google tự lập chỉ mục một cách tự nhiên, nhưng nguyên nhân vẫn chưa được làm rõ
Tình huống ban đầu
- Blog được tạo vào ngày 4 tháng 10 và đăng bài viết dài đầu tiên theo dạng bình luận thời sự
- Sau khi gửi sitemap lên Google Search Console (GSC) và yêu cầu lập chỉ mục, bài viết đã xuất hiện trên kết quả tìm kiếm ngay ngày hôm sau
- Sau đó, mỗi khi đăng bài mới, tác giả đều tiếp tục gửi yêu cầu lập chỉ mục và mọi thứ được phản ánh bình thường
Sự cố xảy ra
- Ngày 14 tháng 10, thấy thông báo trong GSC rằng một URL chưa được lập chỉ mục, tác giả đã nhấn nút “Validate”
- URL đó là nguồn cấp RSS (
feed/?type=rss), không phải một trang thực tế
- Ngày 20 tháng 10, sau khi nhận email từ GSC với nội dung “một số lỗi sửa không thành công”, toàn bộ bài viết bị gỡ khỏi chỉ mục
- Thông báo trạng thái là “Page is not indexed: Crawled – currently not indexed”
- Việc gửi lại sitemap và yêu cầu lập chỉ mục cho từng URL riêng lẻ đều không có tác dụng
Lần theo nguyên nhân
- Ngày bắt đầu xác thực lập chỉ mục và ngày toàn bộ bài viết bị chuyển sang trạng thái không được lập chỉ mục là trùng nhau
- Chưa rõ liệu việc thử xác thực nguồn cấp RSS có gây ra sự cố hay không
- Những bài viết được đăng mới sau đó cũng đều tiếp tục ở cùng trạng thái lỗi
- Đến ngày 3 tháng 11, ngay cả bài viết cuối cùng còn sót lại cũng bị gỡ khỏi chỉ mục
Kiểm tra các giả thuyết nguyên nhân
- Vấn đề tên miền:
james-zhan.com đang dùng tại GoDaddy vẫn được lập chỉ mục bình thường ở các tên miền phụ khác → không phải nguyên nhân
- Chất lượng nội dung: so với các trường hợp Bear Blog khác, không có vấn đề về số lượng hay chất lượng nội dung → không phải nguyên nhân
- Thiếu liên kết nội bộ: cấu trúc mặc định của Bear Blog là giống nhau và các blog khác vẫn được lập chỉ mục bình thường → không phải nguyên nhân
- Các yếu tố khác: theo xác nhận của Herman, nhà sáng lập Bear Blog
- DNS, HTML/CSS và cấu hình nền tảng đều bình thường
- Mã CSS tùy chỉnh của người dùng cũng không ảnh hưởng đến việc lập chỉ mục
Các công cụ tìm kiếm khác và biện pháp xử lý
- Trên DuckDuckGo, Bing, Brave..., blog vẫn được lập chỉ mục bình thường
- Điều này cho thấy nhiều khả năng đây là vấn đề từ phía Google chứ không phải lỗi kỹ thuật
- Tác giả đã chuyển blog sang tên miền phụ mới (
journal.james-zhan.com) và
- Chuyển tên miền từ GoDaddy sang Porkbun
- Thiết lập chuyển tiếp URL để các liên kết cũ tự động dẫn sang blog mới
- Với blog mới, tác giả không gửi sitemap lên GSC mà để Google tự lập chỉ mục một cách tự nhiên
- Nguyên nhân đến nay vẫn chưa được xác định, và tác giả đặt câu hỏi về sự thiếu minh bạch trong hệ thống lập chỉ mục của Google
1 bình luận
Ý kiến trên Hacker News
AI Overview thì tôi không kiểm soát được, nhưng sau khi thêm
noindexvào trang tìm kiếm, lưu lượng đã phục hồi chỉ sau một tuầnTôi đã ghi chi tiết trong bài blog của mình
/searchđã bị cache và lộ ra cho crawler.Tốt hơn là đừng cache trang tìm kiếm, và áp dụng noindex bằng X-Robots-Tag
Có lẽ từ giờ phải theo dõi lưu lượng bằng công cụ phân tích riêng
Giờ mọi người chỉ xem tóm tắt và quảng cáo rồi rời đi
Có phải một site khác đã đặt link tới URL tìm kiếm đó nên mới bị crawl không?
Nếu Google gắn liên kết nguồn vào các câu trong phần tóm tắt, có lẽ CTR sẽ phục hồi phần nào
Khi site bị phạt, không thể biết lý do, cũng không thể khiếu nại.
Google về thực chất đang đóng vai trò gatekeeper.
Vì nó vận hành gần như một hàng hóa công cộng, nên cần có hệ thống hỗ trợ và trách nhiệm tương xứng.
Quy định không phải liều thuốc vạn năng, nhưng với một doanh nghiệp ở tầm tiện ích công cộng như vậy thì ít nhất phải có nghĩa vụ bảo đảm quyền tiếp cận
Hiện giờ cấu trúc là phải trả tiền quảng cáo thì mới được nhìn thấy trên tìm kiếm
Kết quả là số trang được index giảm từ vài nghìn xuống còn 100
Xem ảnh chụp màn hình.
Sau 6 tháng vẫn chưa phục hồi. Vì đây là dự án cá nhân nên còn ổn, nhưng nếu là kinh doanh thì tôi đã nổi giận rồi
Ảnh chụp màn hình cập nhật
Nếu hoạt động đủ lâu, đôi khi còn được công nhận là “quyền sử dụng hiện có”.
Tôi thậm chí còn thấy ảnh chụp Google Maps được nộp làm bằng chứng tại tòa
nhưng thực ra đó là một đơn vị lừa đảo. Họ làm hỏng ổ khóa rồi đòi 600 USD.
Khi tôi báo cáo thì Google xóa rất nhanh, nhưng tôi nghĩ những thứ như vậy cần xác minh danh tính thật ngay từ lúc đăng ký
Vấn đề là đôi khi thực tế lại thay đổi theo bản đồ
Trong thủ tục hành chính thường hay có kiểu “không ai phản đối thì xem như ổn”
Site của tôi bị nhận diện nhầm là nội dung trùng lặp nên đang bị de-index.
Trên Bing thì không sao, chỉ Google mới mắc lỗi này
còn các trang Reddit thì chỉ hiện phiên bản bị dịch sang một ngôn ngữ kỳ quặc.
Có lẽ logic loại trùng lặp đang hoạt động sai
Nếu reverse proxy qua domain khác thì Google sẽ index trùng lặp.
Nên dùng thẻ canonical và liên kết đường dẫn tuyệt đối
Đây là một blog 17 năm nay chưa từng có vấn đề gì
Spam quá nhiều nên có vẻ tỷ lệ false positive cũng tăng lên
Cách làm này ngược lại còn tạo tác dụng phụ làm giảm tỷ lệ nội dung hợp lệ
Điểm chung là Google có cấu trúc quyết định ai sẽ sống sót
Có thể lỗi RSS chỉ đơn thuần là cú kích hoạt của sự thờ ơ
nhưng Google Maps có thật sự bắt kịp nhanh đến vậy không?
Ảnh hưởng của Instagram hay TikTok cũng không thể xem nhẹ,
nên cách diễn giải trao quá nhiều quyền lực cho Google có vẻ hơi quá
Cuối cùng lại dẫn tới bài toán con gà hay quả trứng có trước.
Các site nhỏ không có hiển thị nên không thể phát triển,
còn các site lớn thì vẫn tiếp tục đứng đầu mà không gặp trở ngại nào