- Một dự án đã scrape dữ liệu của toàn bộ nhà hàng ở London và xây dựng mô hình machine learning để phân tích tác động mang tính cấu trúc của thuật toán Google Maps lên sự sống còn của doanh nghiệp nhỏ trong đô thị
- Xếp hạng trên Google Maps không chỉ là một danh sách đơn thuần mà còn đóng vai trò 'nhà tạo lập thị trường' khi chủ động tổ chức nhu cầu thông qua các tín hiệu relevance, distance, prominence
- Cấu trúc này cho thấy sự củng cố mang tính tích lũy nhờ số lượng/tốc độ review, độ nhận biết thương hiệu, mức độ được nhắc đến trên web, tạo ra vòng lặp hiển thị ban đầu → nhu cầu tăng → review tăng → hiển thị tăng thêm
- Cơ chế này có lợi cho các chuỗi cửa hàng và nhà hàng ở khu trung tâm, trong khi nhà hàng độc lập mới rất khó được khám phá vì thiếu review, tức gặp ‘bài toán cold start’
- Để phân biệt điều này, dự án xây dựng một mô hình ML dự đoán điểm số kỳ vọng (counterfactual) chỉ từ các điều kiện cấu trúc của nhà hàng, rồi tính chênh lệch với điểm thực tế dưới dạng residual để nhận diện những nhà hàng bị thuật toán đánh giá quá cao hoặc quá thấp
- Xa hơn, dự án còn tổng hợp nhà hàng theo khu vực và phân tích độ mạnh mang tính cấu trúc của các hub nhà hàng bằng PCA và clustering, qua đó cho thấy nền tảng đang tái định hình hệ sinh thái ẩm thực đô thị như thế nào
Google Maps không phải thư mục tra cứu mà là nhà tạo lập thị trường
- Trái với câu chuyện chính thức rằng Google Maps chỉ thụ động phản ánh “những gì mọi người thích”, trên thực tế nó tổ chức nhu cầu thông qua ba tín hiệu cốt lõi là relevance, distance, prominence
- relevance được suy ra bằng cách đối sánh văn bản giữa từ khóa tìm kiếm và metadata của doanh nghiệp, còn distance là yếu tố không gian thuần túy
- prominence được tính từ số lượng review, tốc độ review, điểm trung bình, độ nhận biết thương hiệu, khả năng hiển thị trên web... và đây là nơi ảnh hưởng chính trị - kinh tế bắt đầu
- Nó phản ánh mức độ mọi người tương tác, nhắc tới và đã nhận biết về một địa điểm
- Nói cách khác, Google Maps không “phản ánh” nhu cầu mà là một nhà tạo lập thị trường tổ chức nhu cầu bằng thuật toán xếp hạng
Cấu trúc lợi thế tích lũy và hiệu ứng Matthew
- Mức độ hiển thị trong danh sách xếp hạng quyết định lượng khách ghé thăm, lượng khách quyết định tốc độ tích lũy review, và chính review đó lại được đưa trở lại vào tín hiệu prominence, tạo nên lợi thế tích lũy (cumulative advantage)
- Điều này tương tự cách vốn tăng trưởng theo lãi kép trong thị trường tài chính, và là một phiên bản của hiệu ứng Matthew mà Robert Merton nêu ra, áp vào cả các quán kebab
- Nguyên lý “ai có sẽ được cho thêm”
- Chuỗi cửa hàng có lợi thế nhờ độ nhận biết thương hiệu tại nhiều điểm giao nhau, còn các cơ sở ở khu vực lưu lượng cao sẽ tích lũy review nhanh hơn dù chất lượng tương đương, từ đó leo hạng prominence
- Các cơ sở độc lập mới phải đối mặt với bài toán cold start: không có review thì khó được tìm thấy, mà không được tìm thấy thì cũng khó tích lũy review
- Điều trông giống như lựa chọn trung lập của người tiêu dùng thực chất cần được hiểu là thiết kế thị trường do thuật toán làm trung gian
Nền tảng với vai trò nhà tạo lập thị trường
- Trong kinh tế học, market maker không chỉ phản ánh cung - cầu mà còn là trung gian chủ động định hình thanh khoản, ghép nối, khám phá giá
- Những nền tảng như Google Maps thực hiện chức năng tương tự đối với dịch vụ địa phương bằng cách kiểm soát khả năng hiển thị thay vì giá cả
- Theo thuật ngữ kinh tế số, thuật toán xếp hạng đóng vai trò attention allocator khi phân phối sự chú ý, đẩy nhu cầu về phía một số doanh nghiệp và kéo nó ra xa những doanh nghiệp khác
Thành phố phản thực tế được xây bằng machine learning
- Nếu Google Maps là nhà tạo lập thị trường của nhu cầu đô thị, thì câu hỏi cốt lõi là thành phố sẽ trông như thế nào nếu bỏ đi lớp khuếch đại đó
- Để tách hiệu quả nội tại của nhà hàng khỏi tác động của khả năng hiển thị trên nền tảng, nhóm nghiên cứu đã xây dựng một mô hình machine learning
- Sử dụng HistGradientBoostingRegressor (gradient-boosted decision tree của scikit-learn)
- Phù hợp với dữ liệu bảng hỗn hợp, lớn và lộn xộn, đồng thời có thể nắm bắt hiệu ứng tương tác mà không cần chỉ định thủ công
- Các đặc trưng của mô hình:
- Số lượng review (được log-transform để phản ánh hiệu ứng lợi ích giảm dần của sự chú ý)
- Loại ẩm thực, là chuỗi hay độc lập, mức giá, loại hình kinh doanh (nhà hàng/quán cà phê/mang đi/quán bar)
- Vị trí trong thành phố thông qua lưới không gian
Xây dựng riêng mô hình phân loại loại ẩm thực
- Nhóm nghiên cứu phát hiện việc phân loại loại ẩm thực trên Google Maps có vấn đề thiếu chính xác và không nhất quán
- Nhiều nơi bị gắn nhãn mơ hồ như “restaurant”, “cafe”, “meal takeaway”
- Vì vậy họ xây dựng một mô hình phân loại riêng để dự đoán loại ẩm thực từ tên nhà hàng, ngôn ngữ thực đơn và nội dung review
- Bộ lọc loại ẩm thực trong dashboard là kết quả từ machine learning, không phải tag của Google
- Nếu phân loại sai loại ẩm thực, các phân tích về tính đa dạng, clustering và quan hệ cạnh tranh theo khoảng cách sẽ bị méo mó
Đo mức bị thuật toán đánh giá thấp bằng rating residual
- Tất cả đặc trưng đều đi qua một pipeline tiền xử lý chuẩn hóa (điền khuyết, encoding...)
- Mô hình chỉ học ánh xạ giữa các đặc trưng có thể quan sát trên nền tảng và điểm số
- Với mỗi nhà hàng, mô hình tạo ra một điểm kỳ vọng phản thực tế (counterfactual expected rating)
- Chênh lệch giữa điểm thực tế và điểm dự đoán chính là rating residual
- Residual dương: hiệu quả thực chất tốt hơn mức nền của nền tảng
- Residual âm: hiệu quả kém hơn mức mà thuật toán thường tưởng thưởng
- Đây không phải thước đo hoàn hảo cho chất lượng món ăn, nhưng là chỉ báo mạnh để đo algorithmic mispricing
- Nó nắm bắt những điểm mà giá trị xã hội hoặc ẩm thực lệch khỏi thứ mà nền tảng đang khuếch đại về mặt cấu trúc
Giới hạn của khả năng hiển thị trả phí
- Một số nhà hàng có trả tiền cho promoted pins hoặc quảng cáo tìm kiếm địa phương
- Không thể ước lượng khả năng hiển thị trả phí vì dữ liệu này không được công khai
- Đây cũng là dấu hiệu cho thấy ảnh hưởng của nền tảng đã trở nên thiếu minh bạch đến mức nào
- Rating residual có thể phản ánh một phần khoản chi quảng cáo không thể quan sát được
Giới thiệu London Food Dashboard
- Nhóm nghiên cứu đã xây dựng London food dashboard để tóm tắt các kết quả phân tích
- Các tính năng hiện có: tìm kiếm theo tên, bộ lọc quán ngon bị đánh giá thấp (do thuật toán machine learning xác định), loại ẩm thực, borough, mức giá, điểm tối thiểu và số lượng review
- Dù mới ở bản beta, dashboard này đóng vai trò như kính hiển vi để nhìn vào nền kinh tế ẩm thực mang tính thuật toán của London
- Địa chỉ truy cập: laurenleek.eu/food-map
- Bộ lọc “underrated gems” là ví dụ cho cách ứng dụng residual từ machine learning
- Bong bóng càng lớn và càng đậm thì càng cho thấy địa điểm bị thuật toán đánh giá thấp
Từ nhà hàng riêng lẻ đến khu phố láng giềng theo logic thuật toán
- Nhà hàng không thất bại một mình, mà thất bại trong một hệ sinh thái
- Để phân tích điều xảy ra khi động lực nền tảng mở rộng từ từng nhà hàng riêng lẻ sang toàn bộ hệ sinh thái ẩm thực của khu phố, nhóm nghiên cứu thêm một lớp mô hình hóa thứ hai
- Họ tổng hợp nhà hàng vào các ô không gian nhỏ (lục giác trên bản đồ — có lợi hơn hình vuông về edge effect)
- Tính các đặc trưng tóm tắt của từng khu vực: mật độ nhà hàng, điểm trung bình, residual trung bình, tổng số review, tỷ lệ chuỗi cửa hàng, cuisine entropy, mức giá
- Chuẩn hóa các đặc trưng rồi chạy PCA để nén toàn bộ “độ mạnh của hệ sinh thái nhà hàng” thành một hub score liên tục
- Sau đó áp dụng K-means clustering trong cùng không gian đặc trưng để phân loại khu vực thành 4 kiểu cấu trúc:
- Hub elite, strong, everyday, weak
Kết quả phân tích hub
- Mô hình thu được cho ra một bức tranh quen thuộc: trung tâm London chiếm ưu thế
- Điều quan trọng không phải hub nằm ở đâu mà là nó thuộc kiểu hub nào
- Dựa trên hub score tổng thể chứ không phải điểm thô, nhóm nghiên cứu xác định 5 hub nhà hàng mạnh nhất về mặt cấu trúc ở London
- Đây là những nơi hội tụ mật độ, sự chú ý từ thuật toán, khả năng sống còn của cơ sở độc lập và sức mua của người tiêu dùng
- Chúng được gắn nhãn trên bản đồ
- Để tránh khơi mào xung đột giữa các khu phố, bài viết không liệt kê thứ hạng cụ thể trong phần diễn giải
Mật độ loại ẩm thực và tính đa dạng ẩm thực của London
- Khi chồng lớp mật độ loại ẩm thực lên phân tích hub, kết quả hiện ra còn rõ ràng hơn
- Tính đa dạng ẩm thực của London không phân bố đồng đều trong toàn bộ nền kinh tế nền tảng
- Ẩm thực của người nhập cư tập trung mạnh ở các vùng đô thị có khả năng hiển thị thuật toán yếu về mặt cấu trúc
- Italian, Indian, Turkish, Chinese, Thai, British, Japanese, French, American, fish-and-chips mỗi loại đều phản ánh lịch sử định cư riêng, mạng lưới lao động, hình thức bán lẻ và quan hệ với vốn cũng như tiền thuê mặt bằng
- Một số loại ẩm thực tạo thành những hành lang dài liên tục, số khác lại xuất hiện thành các cụm rời rạc gắn với những dãy cửa hàng cụ thể hoặc các tầng lớp thu nhập nhất định
- Đa dạng ẩm thực không chỉ là chuyện khẩu vị: nó gắn với việc các gia đình định cư ở đâu, dãy cửa hàng nào đủ rẻ đủ lâu để thế hệ thứ hai mở kinh doanh, và những phần nào của thành phố đã có di cư đến trước khi hệ sinh thái ẩm thực trưởng thành
Hàm ý chính sách
- Dự án này bắt đầu từ một bài toán tìm kiếm nhưng cuối cùng dẫn tới một vấn đề lớn hơn
- Kết quả quan trọng nhất không phải khu phố nào đứng hạng nhất, mà là nhận thức rằng nền tảng hiện đang âm thầm cấu trúc khả năng sống còn trong các thị trường đô thị thường nhật
- Bối cảnh nhà hàng ở London không còn được tổ chức chỉ bằng khẩu vị
- Nó được tổ chức bởi khả năng hiển thị tăng theo lãi kép, bởi tiền thuê mặt bằng tăng khi một nơi được khám phá, và bởi các thuật toán phân phối sự chú ý từ rất lâu trước khi người tiêu dùng xuất hiện
- Điều trông như “lựa chọn” ngày càng trở thành hiệu ứng hạ nguồn của các hệ thống xếp hạng
Cần minh bạch thuật toán và khả năng audit
- Nếu khả năng được khám phá giờ đây định hình sự sống còn của doanh nghiệp nhỏ, thì cạnh tranh, công bằng và tái sinh đô thị không thể tiếp tục bỏ qua các hệ thống xếp hạng của nền tảng
- Dù chính quyền địa phương có tái thiết đường phố và nới lỏng giấy phép, sự vô hình do thuật toán tạo ra vẫn có thể cô lập một địa điểm về mặt kinh tế
- Tính minh bạch của nền tảng và khả năng audit không còn là tranh luận công nghệ ngách mà đang âm thầm trở thành công cụ của chính sách kinh tế địa phương
- Tối thiểu thì các thuật toán xếp hạng tạo ra hệ quả kinh tế lớn đến mức này phải có khả năng audit
- Cũng như thị trường tài chính được audit, thị trường sự chú ý cũng cần được audit
- Cần chú ý đến quy mô quyền lực mà Google Maps nắm giữ với tư cách một ứng dụng điều hướng
2 bình luận
Tôi nghĩ việc các chủ quán tích cực can thiệp vào phần đánh giá cũng đang tạo ra sự kém hiệu quả rất lớn. Đây là một vấn đề khó. Trước đây tôi từng tin tưởng các đánh giá trên Google Maps để đi, nhưng giờ có vẻ như phần khám phá đã hỏng hoàn toàn rồi.
Naver Maps giờ đã trở nên rất khó để tin cậy, còn Kakao Map thì đỡ hơn đôi chút. Nhưng ngay cả ở đó cũng có bình luận thuê, nên trong những lĩnh vực như thế này, dịch vụ càng lớn thì độ tin cậy lại càng giảm.