Phân tích tài liệu API Google Search bị rò rỉ
(sparktoro.com)- Cách đây không lâu, tôi nhận được một email từ một nguồn ẩn danh nói rằng một lượng lớn tài liệu API tìm kiếm của Google đã bị rò rỉ
- Tính xác thực của các tài liệu đã được các cựu nhân viên Google xác nhận, và cũng có thêm thông tin từ các cuộc trao đổi với một số cựu nhân viên Google
Các khẳng định chính
- Google từ lâu liên tục phủ nhận việc sử dụng các tín hiệu người dùng dựa trên lượt nhấp, nhưng các tài liệu bị rò rỉ đã bác bỏ điều này
- Các tuyên bố của Google rằng không đánh giá riêng subdomain, không có sandbox cho website mới và không xem xét tuổi đời tên miền cũng bị phủ nhận
- Ngay từ đầu, nhóm Google Search đã cần dữ liệu clickstream của rất nhiều người dùng web (mọi URL được truy cập trong trình duyệt) để cải thiện chất lượng kết quả tìm kiếm
- Hệ thống NavBoost được trích dẫn trong vụ kiện DoJ đã thu thập dữ liệu từ Google Toolbar PageRank, và là một động lực chính khiến Google phát triển trình duyệt Chrome để thu thập thêm dữ liệu clickstream
- NavBoost phân tích số lượt tìm kiếm cho một từ khóa cụ thể, số lượt nhấp vào kết quả tìm kiếm, các lượt nhấp ngắn và dài để đánh giá ý định người dùng, và nếu có nhiều lượt nhấp vào video hoặc hình ảnh thì sẽ kích hoạt tính năng video hoặc hình ảnh cho các truy vấn liên quan đến NavBoost
- Sử dụng dữ liệu nhấp chuột: Google dùng lịch sử cookie, dữ liệu Chrome khi đã đăng nhập, phát hiện mẫu hành vi... để ngăn chặn spam nhấp chuột thủ công và tự động, đồng thời phân tích lượt nhấp và mức độ tương tác của người dùng để phản ánh vào kết quả tìm kiếm
- Đánh giá chất lượng trang web: Dữ liệu NavBoost được dùng để đánh giá chất lượng tổng thể của một website (được gọi là Panda), và thứ hạng sẽ tăng hoặc giảm theo đánh giá này
- NavBoost cũng đánh giá dữ liệu nhấp chuột có tính đến dữ liệu địa lý, phân tách theo cấp quốc gia và bang/tỉnh
- Áp dụng whitelist cho các kết quả tìm kiếm liên quan đến COVID-19 và bầu cử để ưu tiên hiển thị một số website nhất định
Kiểm chứng độ tin cậy của tài liệu
- Một phần trong số này trùng với những gì đã được tiết lộ trong vụ việc Google/DOJ, nhưng phần lớn là nội dung mới
- Nguồn ẩn danh đã công khai danh tính vào ngày 28/5, và đó là Erfan Azimi (chuyên gia SEO)
- Xác nhận từ cựu nhân viên Google: Hai trong số ba cựu nhân viên Google đã xác nhận độ tin cậy của tài liệu
- Rà soát kỹ thuật: Chuyên gia technical SEO Mike King đã xem xét tài liệu và xác nhận độ tin cậy của chúng
Google API Contents Warehouse ?
- Mục đích của tài liệu API này: Đây là tài liệu nhằm giúp các thành viên trong nhóm Google hiểu các thành phần dữ liệu có thể dùng trong dự án
- Con đường rò rỉ: Tài liệu từng được công khai tạm thời trên GitHub, và trong khoảng thời gian đó đã bị rò rỉ
Các phát hiện chính
#1: Navboost và việc sử dụng dữ liệu nhấp chuột
- Lọc dữ liệu nhấp chuột: Google lọc dữ liệu nhấp chuột được đưa vào hệ thống xếp hạng, đồng thời đo độ dài lượt nhấp và số lần hiển thị.
- Google có cách để loại bỏ những lượt nhấp mà họ không muốn đưa vào hệ thống xếp hạng, và giữ lại những lượt nhấp mà họ muốn tính đến
- Có vẻ họ đo thời lượng nhấp chuột (ví dụ: người tìm kiếm nhấp vào kết quả rồi nhanh chóng bấm nút quay lại vì không hài lòng với câu trả lời tìm được) và số lần hiển thị
#2: Sử dụng clickstream của trình duyệt Chrome
- Dữ liệu clickstream của Chrome: Google sử dụng dữ liệu nhấp chuột từ trình duyệt Chrome để xác định Sitelinks (các URL phổ biến của website đó)
#3: Whitelist cho du lịch, COVID, chính trị
- Sự tồn tại của whitelist: Ưu tiên hiển thị một số tên miền nhất định trong kết quả tìm kiếm liên quan đến du lịch, COVID và bầu cử
#4: Sử dụng phản hồi của người đánh giá chất lượng
- Dữ liệu từ người đánh giá chất lượng: Có khả năng các đánh giá của quality rater được sử dụng trực tiếp trong hệ thống tìm kiếm
#5: Dùng dữ liệu nhấp chuột để xác định trọng số xếp hạng của liên kết
- Phân loại chỉ mục liên kết: Sử dụng dữ liệu nhấp chuột để phân loại chỉ mục liên kết thành chất lượng cao, trung bình và thấp
Các hàm ý chính cho marketer
- Tầm quan trọng của thương hiệu: Google ưu tiên phản ánh các thương hiệu lớn trong xếp hạng
- Tầm quan trọng của các yếu tố E-E-A-T suy giảm: Có khả năng các yếu tố trải nghiệm, chuyên môn, thẩm quyền và độ tin cậy mà một số SEO nhấn mạnh không được phản ánh trực tiếp vào xếp hạng
- Experience, Expertise, Authoritativeness, Trustworthiness
- Ý định người dùng và mô hình nhấp chuột là các yếu tố xếp hạng quan trọng hơn nội dung và liên kết
- Tầm quan trọng của các yếu tố xếp hạng truyền thống đang giảm như PageRank, anchor text...
- Độ khó của SEO: Với doanh nghiệp vừa và nhỏ cùng các nhà sáng tạo/nhà xuất bản mới, SEO ngày càng khó cạnh tranh với các thương hiệu lớn hơn
3 bình luận
Thế thì chặn luôn để nút quay lại không hoạt động đi nhỉ haha
Dù trước đó cũng chỉ mơ hồ đoán vậy thôi, nhưng khi mọi thứ bị phơi bày ra như thế này thì đúng là choáng váng...
Đến mức
Navboostthì có lẽ vẫn còn có thể chấp nhận được...Nhưng whitelist thì thật sự gây sốc. Gọi là whitelist cho hay thôi, chứ thực chất là một chính sách phân biệt đối xử trắng trợn.
Tài liệu Google Content API Warehouse bị rò rỉ
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…