Phân tích tài liệu API Google Search bị rò rỉ

xguru · 2024-05-29T11:53:51+09:00

Cách đây không lâu, tôi nhận được một email từ một nguồn ẩn danh nói rằng một lượng lớn tài liệu API tìm kiếm của Google đã bị rò rỉ Tính xác thực của các tài liệu đã được các cựu nhân viên Google xác nhận, và cũng có thêm thông tin từ các cuộc trao đổi với một số cựu nhân viên Google Các khẳng định chính Google từ lâu liên tục phủ nhận việc sử dụng các tín hiệu người dùng dựa trên lượt nhấp, nhưng các tài liệu bị rò rỉ đã bác bỏ điều này Các tuyên bố của Google rằng không đánh giá riêng subdomain, không có sandbox cho website mới và không xem xét tuổi đời tên miền cũng bị phủ nhận Ngay từ đầu, nhóm Google Search đã cần dữ liệu clickstream của rất nhiều người dùng web (mọi URL được truy cập trong trình duyệt) để cải thiện chất lượng kết quả tìm kiếm Hệ thống NavBoost được trích dẫn trong vụ kiện DoJ đã thu thập dữ liệu từ Google Toolbar PageRank, và là một động lực chính khiến Google phát triển trình duyệt Chrome để thu thập thêm dữ liệu clickstream NavBoost phân tích số lượt tìm kiếm cho một từ khóa cụ thể, số lượt nhấp vào kết quả tìm kiếm, các lượt nhấp ngắn và dài để đánh giá ý định người dùng, và nếu có nhiều lượt nhấp vào video hoặc hình ảnh thì sẽ kích hoạt tính năng video hoặc hình ảnh cho các truy vấn liên quan đến NavBoost Sử dụng dữ liệu nhấp chuột: Google dùng lịch sử cookie, dữ liệu Chrome khi đã đăng nhập, phát hiện mẫu hành vi... để ngăn chặn spam nhấp chuột thủ công và tự động, đồng thời phân tích lượt nhấp và mức độ tương tác của người dùng để phản ánh vào kết quả tìm kiếm Đánh giá chất lượng trang web: Dữ liệu NavBoost được dùng để đánh giá chất lượng tổng thể của một website (được gọi là Panda), và thứ hạng sẽ tăng hoặc giảm theo đánh giá này NavBoost cũng đánh giá dữ liệu nhấp chuột có tính đến dữ liệu địa lý, phân tách theo cấp quốc gia và bang/tỉnh Áp dụng whitelist cho các kết quả tìm kiếm liên quan đến COVID-19 và bầu cử để ưu tiên hiển thị một số website nhất định Kiểm chứng độ tin cậy của tài liệu Một phần trong số này trùng với những gì đã được tiết lộ trong vụ việc Google/DOJ, nhưng phần lớn là nội dung mới Nguồn ẩn danh đã công khai danh tính vào ngày 28/5, và đó là Erfan Azimi (chuyên gia SEO) Xác nhận từ cựu nhân viên Google: Hai trong số ba cựu nhân viên Google đã xác nhận độ tin cậy của tài liệu Rà soát kỹ thuật: Chuyên gia technical SEO Mike King đã xem xét tài liệu và xác nhận độ tin cậy của chúng Google API Contents Warehouse ? Mục đích của tài liệu API này: Đây là tài liệu nhằm giúp các thành viên trong nhóm Google hiểu các thành phần dữ liệu có thể dùng trong dự án Con đường rò rỉ: Tài liệu từng được công khai tạm thời trên GitHub, và trong khoảng thời gian đó đã bị rò rỉ Các phát hiện chính #1: Navboost và việc sử dụng dữ liệu nhấp chuột Lọc dữ liệu nhấp chuột: Google lọc dữ liệu nhấp chuột được đưa vào hệ thống xếp hạng, đồng thời đo độ dài lượt nhấp và số lần hiển thị. Google có cách để loại bỏ những lượt nhấp mà họ không muốn đưa vào hệ thống xếp hạng, và giữ lại những lượt nhấp mà họ muốn tính đến Có vẻ họ đo thời lượng nhấp chuột (ví dụ: người tìm kiếm nhấp vào kết quả rồi nhanh chóng bấm nút quay lại vì không hài lòng với câu trả lời tìm được) và số lần hiển thị #2: Sử dụng clickstream của trình duyệt Chrome Dữ liệu clickstream của Chrome: Google sử dụng dữ liệu nhấp chuột từ trình duyệt Chrome để xác định Sitelinks (các URL phổ biến của website đó) #3: Whitelist cho du lịch, COVID, chính trị Sự tồn tại của whitelist: Ưu tiên hiển thị một số tên miền nhất định trong kết quả tìm kiếm liên quan đến du lịch, COVID và bầu cử #4: Sử dụng phản hồi của người đánh giá chất lượng Dữ liệu từ người đánh giá chất lượng: Có khả năng các đánh giá của quality rater được sử dụng trực tiếp trong hệ thống tìm kiếm #5: Dùng dữ liệu nhấp chuột để xác định trọng số xếp hạng của liên kết Phân loại chỉ mục liên kết: Sử dụng dữ liệu nhấp chuột để phân loại chỉ mục liên kết thành chất lượng cao, trung bình và thấp Các hàm ý chính cho marketer Tầm quan trọng của thương hiệu: Google ưu tiên phản ánh các thương hiệu lớn trong xếp hạng Tầm quan trọng của các yếu tố E-E-A-T suy giảm: Có khả năng các yếu tố trải nghiệm, chuyên môn, thẩm quyền và độ tin cậy mà một số SEO nhấn mạnh không được phản ánh trực tiếp vào xếp hạng Experience, Expertise, Authoritativeness, Trustworthiness Ý định người dùng và mô hình nhấp chuột là các yếu tố xếp hạng quan trọng hơn nội dung và liên kết Tầm quan trọng của các yếu tố xếp hạng truyền thống đang giảm như PageRank, anchor text... Độ khó của SEO: Với doanh nghiệp vừa và nhỏ cùng các nhà sáng tạo/nhà xuất bản mới, SEO ngày càng khó cạnh tranh với các thương hiệu lớn hơn

(sparktoro.com)

29 điểm bởi xguru 2024-05-29 | 3 bình luận | Chia sẻ qua WhatsApp

Cách đây không lâu, tôi nhận được một email từ một nguồn ẩn danh nói rằng một lượng lớn tài liệu API tìm kiếm của Google đã bị rò rỉ
Tính xác thực của các tài liệu đã được các cựu nhân viên Google xác nhận, và cũng có thêm thông tin từ các cuộc trao đổi với một số cựu nhân viên Google

Các khẳng định chính

Google từ lâu liên tục phủ nhận việc sử dụng các tín hiệu người dùng dựa trên lượt nhấp, nhưng các tài liệu bị rò rỉ đã bác bỏ điều này
Các tuyên bố của Google rằng không đánh giá riêng subdomain, không có sandbox cho website mới và không xem xét tuổi đời tên miền cũng bị phủ nhận
Ngay từ đầu, nhóm Google Search đã cần dữ liệu clickstream của rất nhiều người dùng web (mọi URL được truy cập trong trình duyệt) để cải thiện chất lượng kết quả tìm kiếm
Hệ thống NavBoost được trích dẫn trong vụ kiện DoJ đã thu thập dữ liệu từ Google Toolbar PageRank, và là một động lực chính khiến Google phát triển trình duyệt Chrome để thu thập thêm dữ liệu clickstream
NavBoost phân tích số lượt tìm kiếm cho một từ khóa cụ thể, số lượt nhấp vào kết quả tìm kiếm, các lượt nhấp ngắn và dài để đánh giá ý định người dùng, và nếu có nhiều lượt nhấp vào video hoặc hình ảnh thì sẽ kích hoạt tính năng video hoặc hình ảnh cho các truy vấn liên quan đến NavBoost
Sử dụng dữ liệu nhấp chuột: Google dùng lịch sử cookie, dữ liệu Chrome khi đã đăng nhập, phát hiện mẫu hành vi... để ngăn chặn spam nhấp chuột thủ công và tự động, đồng thời phân tích lượt nhấp và mức độ tương tác của người dùng để phản ánh vào kết quả tìm kiếm
Đánh giá chất lượng trang web: Dữ liệu NavBoost được dùng để đánh giá chất lượng tổng thể của một website (được gọi là Panda), và thứ hạng sẽ tăng hoặc giảm theo đánh giá này
NavBoost cũng đánh giá dữ liệu nhấp chuột có tính đến dữ liệu địa lý, phân tách theo cấp quốc gia và bang/tỉnh
Áp dụng whitelist cho các kết quả tìm kiếm liên quan đến COVID-19 và bầu cử để ưu tiên hiển thị một số website nhất định

Kiểm chứng độ tin cậy của tài liệu

Một phần trong số này trùng với những gì đã được tiết lộ trong vụ việc Google/DOJ, nhưng phần lớn là nội dung mới
Nguồn ẩn danh đã công khai danh tính vào ngày 28/5, và đó là Erfan Azimi (chuyên gia SEO)
Xác nhận từ cựu nhân viên Google: Hai trong số ba cựu nhân viên Google đã xác nhận độ tin cậy của tài liệu
Rà soát kỹ thuật: Chuyên gia technical SEO Mike King đã xem xét tài liệu và xác nhận độ tin cậy của chúng

Google API Contents Warehouse ?

Mục đích của tài liệu API này: Đây là tài liệu nhằm giúp các thành viên trong nhóm Google hiểu các thành phần dữ liệu có thể dùng trong dự án
Con đường rò rỉ: Tài liệu từng được công khai tạm thời trên GitHub, và trong khoảng thời gian đó đã bị rò rỉ

Các phát hiện chính

#1: Navboost và việc sử dụng dữ liệu nhấp chuột

Lọc dữ liệu nhấp chuột: Google lọc dữ liệu nhấp chuột được đưa vào hệ thống xếp hạng, đồng thời đo độ dài lượt nhấp và số lần hiển thị.
Google có cách để loại bỏ những lượt nhấp mà họ không muốn đưa vào hệ thống xếp hạng, và giữ lại những lượt nhấp mà họ muốn tính đến
Có vẻ họ đo thời lượng nhấp chuột (ví dụ: người tìm kiếm nhấp vào kết quả rồi nhanh chóng bấm nút quay lại vì không hài lòng với câu trả lời tìm được) và số lần hiển thị

#2: Sử dụng clickstream của trình duyệt Chrome

Dữ liệu clickstream của Chrome: Google sử dụng dữ liệu nhấp chuột từ trình duyệt Chrome để xác định Sitelinks (các URL phổ biến của website đó)

#3: Whitelist cho du lịch, COVID, chính trị

Sự tồn tại của whitelist: Ưu tiên hiển thị một số tên miền nhất định trong kết quả tìm kiếm liên quan đến du lịch, COVID và bầu cử

#4: Sử dụng phản hồi của người đánh giá chất lượng

Dữ liệu từ người đánh giá chất lượng: Có khả năng các đánh giá của quality rater được sử dụng trực tiếp trong hệ thống tìm kiếm

#5: Dùng dữ liệu nhấp chuột để xác định trọng số xếp hạng của liên kết

Phân loại chỉ mục liên kết: Sử dụng dữ liệu nhấp chuột để phân loại chỉ mục liên kết thành chất lượng cao, trung bình và thấp

Các hàm ý chính cho marketer

Tầm quan trọng của thương hiệu: Google ưu tiên phản ánh các thương hiệu lớn trong xếp hạng
Tầm quan trọng của các yếu tố E-E-A-T suy giảm: Có khả năng các yếu tố trải nghiệm, chuyên môn, thẩm quyền và độ tin cậy mà một số SEO nhấn mạnh không được phản ánh trực tiếp vào xếp hạng
- Experience, Expertise, Authoritativeness, Trustworthiness
Ý định người dùng và mô hình nhấp chuột là các yếu tố xếp hạng quan trọng hơn nội dung và liên kết
Tầm quan trọng của các yếu tố xếp hạng truyền thống đang giảm như PageRank, anchor text...
Độ khó của SEO: Với doanh nghiệp vừa và nhỏ cùng các nhà sáng tạo/nhà xuất bản mới, SEO ngày càng khó cạnh tranh với các thương hiệu lớn hơn

3 bình luận

yangeok 2024-06-09

Thế thì chặn luôn để nút quay lại không hoạt động đi nhỉ haha

wkang586 2024-06-03

Dù trước đó cũng chỉ mơ hồ đoán vậy thôi, nhưng khi mọi thứ bị phơi bày ra như thế này thì đúng là choáng váng...
Đến mức Navboost thì có lẽ vẫn còn có thể chấp nhận được...
Nhưng whitelist thì thật sự gây sốc. Gọi là whitelist cho hay thôi, chứ thực chất là một chính sách phân biệt đối xử trắng trợn.

xguru 2024-05-29

Tài liệu Google Content API Warehouse bị rò rỉ
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…