Hiện tượng Google ngày càng tệ đi
(baldurbjarnason.com)- Lưu lượng truy cập web media từ Google và Facebook không còn có thể được kỳ vọng một cách ổn định, khiến nền tảng sinh tồn của cả những hãng truyền thông độc lập vận hành tiết kiệm cũng bị lung lay
- Google đã đưa vào xếp hạng dựa trên machine learning để cải thiện chất lượng tìm kiếm, nhưng bị chỉ trích vì spam do LLM tạo ra vẫn lọt qua, còn blog và các website nhỏ lại bị đẩy khỏi kết quả
- Một người tham dự Google Web Creator Summit 2024 cho biết doanh thu năm trước là 250.000 USD, nhưng lưu lượng truy cập đã giảm 97% và hiện phải dựa vào ngân hàng thực phẩm
- Những người tham dự Summit kể rằng Google nói “vấn đề không nằm ở nội dung”; Danny đã cùng đội kỹ sư debug các ví dụ, nhưng không tìm ra lý do vì sao chúng không được hiển thị
- Khi hệ thống xếp hạng tìm kiếm trở thành một hộp đen khó hiểu ngay cả trong nội bộ Google, điều này dẫn đến chỉ trích rằng ở vị thế độc quyền, việc mức độ hữu ích của sản phẩm suy giảm không trực tiếp chuyển thành kết quả kinh doanh kém đi
Sự sụp đổ lưu lượng truy cập của các web media độc lập
- “The End Of Independent Publishing And Giant Freakin Robot” thông báo Giant Freakin Robot đóng cửa, cho biết trong 2 năm qua hàng trăm nhà xuất bản độc lập đã ngừng hoạt động và hàng nghìn đơn vị khác sẽ đi theo con đường tương tự
- Sau khi liên hệ với các nhà xuất bản độc lập ở nhiều chủ đề khác nhau, tình hình được mô tả là không nơi nào làm ăn tốt, và phần lớn dự kiến sẽ sớm đóng cửa
- Họ đã trực tiếp chuyển vấn đề đến Google, nhưng thông điệp nhận lại là Google không quan tâm, thậm chí xuất hiện cả cách nói “ngành của chúng tôi đã kết thúc”
- Các công ty web media giờ khó có thể kỳ vọng ổn định vào lưu lượng truy cập giới thiệu đến từ Google hay Facebook, và rất ít nơi có thể trụ được chỉ bằng phần lưu lượng còn lại
Quá trình xếp hạng tìm kiếm trở thành hộp đen
- Vấn đề không chỉ dừng ở thất bại của một số website, mà còn gắn với xu hướng Google dùng machine learning trong xếp hạng website để sửa kết quả tìm kiếm
- Theo What we can learn from the Google creators summit for HCU impacted sites, helpful content system là một hệ thống machine learning học từ các ví dụ tốt và xấu để dự đoán một ví dụ chưa từng thấy gần với bên nào hơn
- Tuy nhiên, trong 1 năm qua Google Search bị chỉ trích vì để lọt nhiều spam do LLM tạo ra, đồng thời khiến blog và các website nhỏ biến mất khỏi phần lớn kết quả
- Một số website gần như đã bị mô hình machine learning loại trừ, và lý do chính xác vẫn không ai biết
- Trong I Drank the Kool-Aid at the 2024 Google Web Creator Summit, một người tham dự cho biết sau khi đạt doanh thu 250.000 USD trong năm trước, lưu lượng truy cập đã giảm 97%, và hiện phải kiếm bữa ăn từ ngân hàng thực phẩm
- Vấn đề càng nổi bật hơn vì họ được mời tới Summit chính bởi họ là những người tạo ra loại nội dung mà Google muốn thấy xuất hiện trong kết quả tìm kiếm
- Trong một cuộc trao đổi trên Twitter, có chia sẻ rằng phía Google nhiều lần nói “vấn đề không nằm ở nội dung”, và Danny đã mang các ví dụ của người tham dự đến debug cùng đội kỹ sư nhưng không thể tìm ra vì sao chúng không được hiển thị
- Thuật toán tìm kiếm dường như đã trở thành một hộp đen mà ngay cả kỹ sư Google cũng khó nắm bắt
Cấu trúc khiến sản phẩm tệ đi nhưng không phản ánh vào kết quả kinh doanh
- Việc các chuyên gia ML của Google từng cảnh báo nên tránh LLM vì chúng có thể khiến sản phẩm trở nên hỗn loạn và khó kiểm soát cũng liên quan đến vấn đề này
- Khi các đợt sa thải quy mô lớn khiến những người hiểu sâu hệ thống nội bộ rời đi, hệ thống còn lại có thể càng dễ bị hộp đen hóa
- Lý do căn bản khiến sự xuống cấp tiếp diễn là vì nó không tác động trực tiếp đến kết quả kinh doanh của Google; một doanh nghiệp độc quyền vẫn có thể thu giữ giá trị phát sinh xung quanh ngay cả khi mức độ hữu ích của sản phẩm giảm đi
- Xét đến tình hình chính trị ở Mỹ, điều này dẫn đến dự báo rằng độc quyền và độc quyền nhóm trong ngành công nghệ sẽ mạnh hơn, còn năng suất, hiệu năng và hiệu quả thực tế của sản phẩm sẽ ngày càng ít quan trọng hơn
1 bình luận
Các ý kiến trên Hacker News
Về căn bản, tôi cho rằng điều đó bắt đầu từ khoảnh khắc phe quảng cáo thắng phe công cụ tìm kiếm trong cuộc đấu quyền lực. Trước đây, quảng cáo là phương tiện tài trợ cho việc tạo ra những công nghệ tuyệt vời, và như một phần thưởng thêm, là cách để trở nên cực kỳ giàu có.
Còn giờ đây, nó chỉ là phương tiện để hút đến giọt giá trị cuối cùng khỏi hệ thống và mãi mãi đẩy các con số lên cao; ban lãnh đạo cấp cao của Google trông cũng hoàn toàn thiếu tầm nhìn hay chiến lược.
Google Docs cũng từng gây kinh ngạc vào năm 2006, nhưng gần 20 năm sau thì chỉ có vài cải tiến nhỏ về khả năng sử dụng; còn lại nhiều thứ có vẻ đã bị đóng cửa, hoặc ngay từ đầu không mấy đổi mới, hoặc chỉ uể oải chạy theo công việc của người khác.
Quảng cáo có thể lấp đầy các kết quả được tài trợ ở phía trên, nhưng không ảnh hưởng đến kết quả tìm kiếm tự nhiên. Nếu “phe quảng cáo đã thắng” nghĩa là số vị trí được tài trợ tăng lên, thì điều đó chỉ có nghĩa là số vị trí tăng lên, chứ không giải thích được chất lượng của kết quả tự nhiên.
Nếu không phải vậy, thì công nghệ tuyệt vời kia có thể chỉ là mồi nhử để kéo đối tượng quảng cáo vào, tức chỉ là một thành phần của công nghệ dịch vụ quảng cáo. Tôi cũng thắc mắc vì sao không bán hoặc cấp phép công nghệ đó, thay vì phải thuê nhân sự quảng cáo.
Như Morgan nói, điều gây ấn tượng là Danny ngồi trong phòng với nhóm kỹ sư, đưa ra ví dụ “tại sao những người này không xuất hiện”, và họ đã đi qua quy trình debug nhưng không tìm ra nguyên nhân.
Trong khi đó, một người ở Thụy Điển, chỉ với một máy tính để bàn trong phòng khách, đã tạo ra một công cụ tìm kiếm đủ tốt để người ta thường xuyên chuyển sang dùng mỗi khi Google thất bại. Dạo này tôi dùng Kagi; nó có danh sách ưu tiên và chặn, nhưng kết quả mặc định đã tốt nên tôi không dùng các tính năng đó.
Điều thú vị là dù Kagi đang xây dựng chỉ mục riêng, trong một thời gian dài nó gần như chỉ bọc kết quả Google+Bing rồi bán lại, vậy mà vẫn tốt hơn rất nhiều.
Có hai khả năng. Hoặc Kagi có một hệ thống rất thông minh để đọc và sắp xếp lại vài chục kết quả hàng đầu, hoặc hợp lý hơn là thông qua truy cập API, họ bỏ qua “bộ mở rộng truy vấn kiêm làm ngu” ở đầu vào của Google và bước cá nhân hóa ở đầu ra, để tương tác trực tiếp với phần lõi Google Search vẫn còn hoạt động.
Ở đây, “bộ làm ngu” là pipeline kiểu đổi
obscure-js-libthànhwell-knowm-js-lib-with-kind-of-similar-namecó tên na ná, hoặc khi tìmmat-tablecủa Angular thì lại phán rằng bạn muốn một cái bàn có trải thảm, không liên quan gì đến Angular.exactly-this-thing.pytrên Google thì nó trả về: “Ý bạn gõ nhầmsorta-related.jsphải không. Đây này.” Tự nhiên chỉ muốn đáp: “Tôi nói lắp à?”Tôi không rõ chính xác tác giả đang nói đến vấn đề gì. Là chuyện một số trang đã xây dựng mô hình kinh doanh dựa trên kết quả tìm kiếm, hay Google đã thay đổi thuật toán tìm kiếm và họ không thích thứ tự ưu tiên mới, hay là vấn đề nào khác?
Kỳ vọng rằng Google tuyệt đối không được thử nghiệm thuật toán thì hơi phi lý, và về bản chất nó gần như là một trò chơi tổng bằng không. Hôm nay là người thắng, ngày mai có thể thành kẻ thua
Nếu lo về chia sẻ doanh thu, lưu lượng truy cập, vị trí đặt quảng cáo, thì việc xây dựng một doanh nghiệp mà thành công hoàn toàn phụ thuộc vào sự thất thường của một công ty khác là rất thiếu khôn ngoan
Tôi cho rằng tìm kiếm đang dần bị các mô hình ngôn ngữ lớn thay thế, và vì đã bị biến thành trò chơi bởi tối ưu hóa công cụ tìm kiếm trong nhiều năm, nó ngày càng trở nên tệ hơn như một cách khám phá nội dung
Với việc khám phá nội dung, mô hình để các cộng đồng có cùng mối quan tâm như Hacker News cùng nhau tìm kiếm, hoặc mô hình được tuyển chọn, có vẻ phù hợp hơn. Nếu người tuyển chọn hay cộng đồng lệch khỏi mối quan tâm của mình thì phải tìm cái mới, nhưng kỳ lạ là điều đó vẫn có thể diễn ra trong cùng một khuôn mẫu
Các website ngày xưa nhận lưu lượng từ webring, thư mục, nhiều công cụ tìm kiếm nhỏ, nhưng bây giờ gần như tất cả là Google hoặc các tài sản của họ, và Meta với tỷ trọng nhỏ hơn. Các mô hình khám phá dựa trên người tuyển chọn và cộng đồng là nạn nhân của Google, chứ không phải giải pháp
Nói cách khác, Google đã tung ra 1000 thử nghiệm có vẻ vô hại nhằm tăng tỷ lệ nhấp thêm 0,2%, và kết quả là tạo ra một hệ thống chỉ muốn trả về các liên kết Reddit và Quora
Tôi đã thấy chuyện này vài lần trong mục Blind không công khai của Google, thường đi kèm các cuộc trao đổi rằng người phụ trách tìm kiếm trước năm 2020 lo ngại kết quả kiểu này nên đã có cách tiếp cận thận trọng hơn
Với tư cách cựu nhân viên Google, tôi rời vào tháng 10/2023 và không làm trong nhóm Search, nhưng bên ngoài Google có vẻ giả thuyết này chưa được hiểu rõ. Ngoại lệ chỉ là khoảng hai bài blog nổi tiếng mà tôi không nhớ tên nhưng đã nêu trúng trọng tâm
Tôi tò mò liệu có danh sách các truy vấn mà Google trả kết quả tệ hay không. Tôi xem lại lịch sử tìm kiếm vài phút, phần lớn là các truy vấn đơn giản như tên người, và Google xử lý tốt. Khi tìm người, đôi khi tôi thấy Google còn tốt hơn LinkedIn
Tôi cũng thử so sánh vài truy vấn phức tạp với Kagi. “How much bitcoin does microstrategy own” thì Google trả về đúng snippet ở đây, còn Kagi chỉ liên kết tới các bài viết về việc họ đã mua bao nhiêu trong vài ngày gần đây
“how to pronounce stratchery” thì Google hiển thị đúng snippet từ website Stratechery, kết quả đầu tiên của Kagi là một mục spam có phát âm sai, còn kết quả thứ hai mới là tweet có phát âm đúng
Tôi cũng nhớ đến bài của Dan Luu (https://danluu.com/seo-spam/), nhưng khi xem lại lịch sử tìm kiếm, các truy vấn mà anh ấy dùng hoàn toàn không đại diện cho tìm kiếm hằng ngày của tôi
[0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
[1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
[2]https://www.howtopronounce.com/stratechery
Đánh giá sản phẩm thì đầy rác tối ưu hóa công cụ tìm kiếm, tức các danh sách “Top 10” spam blog; còn nội dung liên quan du lịch thì quảng cáo lấp đầy cả một trang trước khi thấy kết quả tự nhiên. Vì phiền nên người ta thậm chí chẳng buồn thử, và cuối cùng chỉ còn lại những truy vấn vẫn còn hoạt động tốt
Tôi tò mò liệu có ví dụ cụ thể nào khó tìm bằng Google nhưng lại dễ với công cụ khác không
Thống kê sử dụng toàn cầu gần đây là Google 89,33%, Bing 4,15%, YANDEX 2,8%, Yahoo! 1,33%, Baidu 0,83%, DuckDuckGo 0,69%. Tính đến tháng 10/2024 https://gs.statcounter.com/search-engine-market-share
Nếu Google tệ đến vậy, tôi tự hỏi vì sao mọi người, gồm cả tôi, không nhấp sang công cụ tìm kiếm khác. Việc Giant Freakin Robot không nhận được lượt nhấp thì đáng tiếc, nhưng đó là vấn đề khác với việc Google tệ xét từ góc nhìn người dùng
Tôi đã bấm thử tất cả và chúng đều hoạt động. Baidu hiển thị bằng tiếng Trung; khi tôi tìm The Sound of Music thì theo Google Dịch, kết quả tiếng Trung hiện ra kiểu như “nữ tu và bảy đứa trẻ nghịch ngợm”, khá buồn cười
Google rõ ràng đã chuyển hướng từ việc ưu tiên giá trị cho khách hàng và người sáng tạo nội dung sang ưu tiên các chỉ số hiệu suất cốt lõi nội bộ mờ ám. Điều này càng đúng hơn với các nhà sáng tạo, không phải nhà quảng cáo
Vài năm trước tôi chuyển sang DuckDuckGo, năm ngoái chuyển sang Kagi, và mỗi lần thỉnh thoảng quay lại Google, tôi đều cảm nhận rõ họ đã lạc lối đến mức nào
Có lẽ phải mất thêm 10 năm nữa họ mới đánh mất vị thế thống trị, nhưng các dấu hiệu đã rất rõ. Quán tính và vị thế thị trường là lý do duy nhất họ vẫn còn ở trên đỉnh. Trong khi đó, thế hệ trẻ hầu như không dùng tìm kiếm web, còn những người rành công nghệ thì đang rời bỏ ngày càng nhanh
Với các startup thì đây là điều đáng kỳ vọng. Google giờ không còn là con khỉ đột 800 pound sẽ đến cướp bữa trưa của bạn, mà giống một gã khổng lồ sống dở chết dở biết đi đang chờ bị thu hoạch các bộ phận khái niệm hơn
Năm nay số lần tôi vào Google từ Kagi bằng
!gchỉ đếm trên đầu ngón tay, và lần nào tôi cũng hối hận ngay lập tứcVài năm trước khi dùng DuckDuckGo,
!ggần như là phản xạ, và có lẽ một nửa số lần tôi thấy kết quả của Google tốt hơn. Kiên trì dùng DuckDuckGo giống như một lựa chọn lý tưởng chủ nghĩa, còn chất lượng thì như hạng hai, nhưng Kagi thì không như vậy. 10 đô la mỗi tháng hoàn toàn xứng đáng nhờ năng suất tăng lênVì Kagi cũng dùng chỉ mục tìm kiếm của Google như một nguồn, không phải Google không thể cải thiện kết quả hay trải nghiệm người dùng về mặt kỹ thuật. Chỉ là về mặt tổ chức thì có vẻ bất khả thi
Đã từng có cảnh báo rằng một trong những hệ quả phổ biến của sa thải quy mô lớn là biến các hệ thống nội bộ thành hộp đen, vì những người hiểu sâu các hệ thống đó đều rời đi
Việc mất trực tiếp những người có kiến thức là chuyện có thật, nhưng đó không phải lý do chính khiến các hệ thống này trở thành hộp đen
Cứ mỗi người có kiến thức bị sa thải, có khoảng hai mươi người ở lại và phải thích nghi với thực tế rằng tương lai của họ ở công ty trở nên bất định hơn rất nhiều. Mỗi người thích nghi theo một cách khác nhau, nhưng thật sự không ai nói: “Chà, mình nên cải thiện tài liệu và chia sẻ kiến thức để việc sa thải mình trở nên dễ dàng hơn!”
Một tháng sau công ty liên hệ đề nghị tôi làm việc theo hợp đồng, nhưng tôi từ chối. Trong suốt 1 năm sau đó, nhân viên trực tiếp liên hệ nhờ tôi giúp, nhưng mọi thứ tôi giúp họ đều đã được ghi trong tài liệu
Tôi cho rằng trong công ty không có giải pháp nào thật sự đúng nghĩa cho việc chuyển giao tri thức. Vì vậy, nhìn người ta bị sa thải theo kiểu ứng biến rất thú vị, và công ty mất nhiều hơn rất nhiều so với chỉ một nhân viên
Silo kiến thức không đảm bảo an toàn nghề nghiệp. Ngược lại, nó hạn chế khả năng thăng tiến, khả năng cộng tác giữa các tổ chức, khả năng thích nghi, khả năng nhận việc khác, khả năng ủy quyền, đồng thời làm giảm mức độ hợp tác và tỷ lệ thành công của dự án, khiến thành tích nhìn thấy được trong tổ chức cũng giảm. Không chỉ có hại cho tổ chức, mà còn có nhiều lý do cho thấy nó cũng tệ với chính kỹ sư sống trong silo đó, và đã có nhiều nghiên cứu liên quan
Yandex, tức Google của Nga, thực chất gần với Google năm 2006 hơn. Ý tôi là nó cho tôi thấy thứ tôi muốn, chứ không phải thứ mà các luật sư của Google và những người chuẩn bị tài liệu thăng tiến ở SF muốn cho tôi thấy
Nội dung liên quan đến nội địa Nga có thể bị kiểm duyệt, nhưng đó phần lớn nằm ngoài phạm vi sử dụng của tôi
Tôi không biết ngoài quy mô và máy chủ thì còn điều gì ngăn cản một công cụ tìm kiếm mới. Nếu thứ chúng ta muốn chỉ là kiểu tìm kiếm web cũ bình thường từng tồn tại năm 2006, thì có vẻ có thể tái hiện được
Cũng có các công cụ khác như DuckDuckGo, nhưng tôi nhận ra trên thực tế nó gần với Bing hơn. Nếu vậy, tôi cũng tự hỏi vì sao Bing không chiếm lĩnh nếu Google tệ đến thế. Nó không quá tốt, nhưng cũng không tệ đến vậy
Đọc thêm thì có vẻ Kagi đang làm việc này
Đây là một bài viết lạnh lùng cho thấy Google đã bị phá hủy từ bên trong như thế nào
https://www.wheresyoured.at/the-men-who-killed-google/
Thực ra nó xảy ra muộn hơn tôi dự đoán, nhưng có vẻ là một sự kiện rõ rệt đến mức dư chấn vẫn kéo dài đến tận bây giờ
Giant Freakin' Robot từng là một trang tổng hợp. “Nội dung” của nó chỉ là các liên kết tới những trang web khác và những lời dài dòng về các liên kết đó. Có vẻ Google giờ nhận diện các trang tổng hợp và xếp hạng chúng thấp hơn
Bản thân Google cũng là một trang tổng hợp, nên chẳng có lý do gì để chuyển lưu lượng truy cập cho các trang tổng hợp khác. Ước gì họ cũng hạ hạng những thứ như Yelp
Tôi tò mò những người đã dùng Internet lâu năm dùng tìm kiếm Internet vào mục đích gì. Trường hợp của tôi là một trong ba việc sau
Thứ nhất, tôi biết thông tin nằm ở website nào và truy cập thẳng vào đó. Ví dụ như Wikipedia, Github, Google Maps
Thứ hai, vì cần ý kiến hoặc phản hồi của người thật nên thường chỉ Google trong phạm vi domain Reddit
Thứ ba, tôi cần những thông tin nổi tiếng, dễ kiểm chứng, và đây là vấn đề mà các mô hình ngôn ngữ lớn làm rất tốt
Vì những thứ này chiếm hơn 95% hoạt động “lướt web” của tôi, nên có lẽ ngay cả khi một công cụ tìm kiếm lớn nào đó sập vào một ngày nào đó, tôi cũng hầu như không nhận ra