6 điểm bởi GN⁺ 2025-04-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình o3 mới nhất đã chiến thắng trước người chơi Geoguessr hạng Master I
    • Hạng Master I tương ứng với trình độ thuộc khoảng top 1~2%. Mức cao nhất là Champion, khoảng 0,1~0,5%
  • Ngay cả khi chèn dữ liệu GPS EXIF giả mạo vào ảnh, mô hình vẫn có thể suy ra chính xác vị trí thực chỉ từ các manh mối thị giác
  • Mô hình suy luận theo cách Chain of Thought (COT), phân tích tổng hợp các đặc điểm chi tiết như tòa nhà, địa hình, vạch đường, ngôn ngữ, biển báo
  • Ở một số vòng, mô hình có sử dụng tìm kiếm web, nhưng kết quả kiểm tra lại cho thấy ngay cả không tìm kiếm vẫn có thể đưa ra cùng đáp án đúng
  • Thời gian suy luận trung bình của o3 dài hơn con người, nhưng độ chính xác lại vượt trội hơn

AI vs con người: Khởi đầu cuộc đối đầu Geoguessr

  • Tác giả là người chơi Geoguessr hạng Master I, và đã đấu với AI qua 5 vòng theo cách gần giống lối chơi thực tế
  • Mỗi vòng chỉ được cung cấp 2 ảnh Street View, và phải suy ra vị trí mà không có metadata
  • Cách chấm điểm giống Geoguessr thông thường: tối đa 5.000 điểm mỗi vòng, tổng điểm tối đa 25.000

Tóm tắt kết quả từng vòng

  • Vòng 1 (Bulgaria): con người thắng khi đoán vị trí gần hơn một chút, nhưng chênh lệch chỉ khoảng 100 điểm
  • Vòng 2 (Áo): o3 tìm kiếm tên miền trên xe taxi để xác định tên thành phố thực tế, rồi đoán gần như hoàn hảo vị trí đúng và giành số điểm gần 5.000
  • Vòng 3 (Ireland): cả hai đều phân tích rất tốt, và o3 đã suy ra chính xác khu vực Burren dựa trên vạch đường, địa hình đá vôi... rồi thắng sát nút
  • Vòng 4 (Colombia): o3 suy luận chính xác hơn con người dựa trên ký hiệu đường, biển số xe, biển hiệu cửa hàng, địa hình..., đồng thời cho thấy kết quả rất tốt ngay cả không dùng tìm kiếm web
  • Vòng 5 (Slovakia): con người thắng khi đoán vị trí gần hơn đôi chút, nhưng không đủ để đảo ngược chênh lệch tổng điểm

Như vậy, o3 đã xác định chính xác cả 5 quốc gia, và ở hai vòng còn đoán chính xác hơn con người tới hàng trăm kilômét, cho thấy độ chuẩn xác rất cao.

Thử nghiệm thao túng EXIF: AI không bị đánh lừa

  • Để kiểm tra, người ta dùng ảnh có chèn dữ liệu EXIF chứa tọa độ GPS không liên quan tới vị trí thực, nhưng o3 nhận ra thông tin đó không khớp với nội dung ảnh thật và bỏ qua
  • Ngay cả khi cung cấp thông tin EXIF dưới dạng văn bản, mô hình vẫn có thể suy ra chính xác một vị trí hoàn toàn khác dựa trên môi trường trong ảnh
  • Điều này chứng minh AI không đơn thuần phụ thuộc vào metadata mà đang phân tích sâu nội dung hình ảnh

Khác biệt giữa con người và AI

  • o3 cần trung bình 2~6 phút suy luận mỗi vòng, trong khi người chơi là con người thường hoàn tất phần lớn dự đoán trong vòng 1~2 phút
  • AI đôi khi dành thời gian cho những yếu tố kém quan trọng như biển quảng cáo, trong khi con người nhanh chóng nhận ra manh mối quan trọng và ưu tiên chúng
  • Tuy nhiên, o3 cho thấy độ chính xác cao nhờ kết hợp tinh vi nhiều loại thông tin thị giác như biển báo đường, biển số xe, phong cách kiến trúc, địa hình và thảm thực vật

Kết luận

  • o3 đưa ra đáp án không phải nhờ mẹo dùng EXIF hay tìm kiếm, mà dựa trên năng lực phân tích thị giác thực sự
  • Mô hình thể hiện trình độ chơi tiệm cận hoặc vượt mức Geoguessr Master I
  • Con người vẫn chiếm ưu thế về tốc độ và trực giác, nhưng về độ chính xác thì AI đã ở mức rất đáng gờm
  • Đây không chỉ là một màn trình diễn công nghệ, mà còn là một ví dụ cho thấy hiện trạng của AI thị giác hiệu năng cao có thể ứng dụng thực tế

1 bình luận

 
GN⁺ 2025-04-30
Ý kiến trên Hacker News
  • Có một nhãn dán ghi "www.taxilinder.at"; trên xe. Có thể dùng tìm kiếm web để biết Taxi Linder GmbH đặt tại Dornbirn, Áo

    • Dùng tìm kiếm web thì không công bằng. Trong các vòng GeoGuessr trong thành phố, có thể tra một vài doanh nghiệp để đạt điểm tuyệt đối, nhưng đó không phải mục đích của trò chơi
  • Tác giả vui khi mọi người thấy chủ đề này thú vị

    • Khuyến khích mọi người thử GeoGuessr. Tác giả rất yêu thích trò chơi này
    • Có nhiều ý kiến cho rằng việc mô hình o3 dùng tìm kiếm web ở 2 trong 5 vòng là không công bằng và làm kết quả không còn hợp lệ
    • Để kiểm chứng, tác giả chạy lại hai vòng có dùng tìm kiếm và cập nhật kết quả
    • Kết luận: kết quả gần như giống hệt. Có thể xem tọa độ GPS trong bài viết
    • Tác giả đưa ra ví dụ về việc mô hình nhận diện thành phố ở vòng Áo dựa trên ngọn núi ở hậu cảnh
    • Mô hình đã có sẵn rất nhiều thông tin nên không cần tìm kiếm
    • Sẽ có lúc tìm kiếm hữu ích. Nhưng trong trường hợp này thì không liên quan
  • Tôi ở cấp Master trong GeoGuessr. Cấp này chắc chắn đòi hỏi phải biết mình đang làm gì, nhưng không cao như tiêu đề nghe có vẻ

    • Master khoảng 800-1200 ELO, còn pro khoảng 1900-2000. Ở 95% số vòng tôi có thể nhận ra ngay quốc gia, nhưng ở Nga hay Brazil thì nếu không có manh mối sẽ không thể xác định vị trí. Người dùng script có thể đánh bại tôi
  • Tôi hiểu rằng o3 được huấn luyện trên dữ liệu đa phương thức, bao gồm cả dữ liệu hình ảnh. Không phải là giả định vô lý khi cho rằng dữ liệu huấn luyện có chứa hình ảnh về các vị trí và đặc điểm cụ thể

    • GeoGuessr dùng Google Maps, còn Google Maps mua phần lớn hình ảnh từ bên thứ ba. Nếu bên thứ ba đó không bán cho tất cả các công ty AI lớn thì sẽ rất đáng ngạc nhiên
  • Ngoài GeoGuessr ra, tôi hy vọng công nghệ này một ngày nào đó có thể giúp cứu trẻ em. Ví dụ, nó có thể hỗ trợ ECAP của FBI

  • Bình luận từ bài trước:

    • Sẽ có những khu vực mà việc đoán vị trí có thể chính xác đến mức đáng sợ. Ví dụ như bài báo đoán đúng ngôi làng chỉ như một phỏng đoán dự phòng
    • Nhưng nhìn vào chuỗi suy luận, sẽ có rất nhiều khu vực mà độ chính xác giảm mạnh. Nếu đưa cho mô hình một bức ảnh công viên nhà di động ở Kansas, có lẽ nó chỉ đoán đúng bang
    • Bài viết này không có cỡ mẫu lớn, nhưng phản ánh đúng những gì tôi dự đoán về cách các mô hình như vậy hoạt động. Ngay cả với các bức ảnh không có nhiều thông tin thị giác, nó vẫn đoán quốc gia khá đáng tin cậy
    • Bài trước chỉ thử một ảnh, và ở lần đoán thứ hai đã đoán đúng ngôi làng, tác giả mô tả điều đó là "chính xác đến mức đáng sợ". Đây là vấn đề góc nhìn đánh giá
    • Có vẻ như o3 khi bật tìm kiếm web có thể chơi GeoGuessr ở trình độ cao. Giờ tôi muốn thấy một bot o3 GeoGuessr chơi nhiều trận và xem ELO của nó
  • Tuần này tôi định thử nghịch với o3, và thú vị là nó cố gắng làm pattern matching nhiều hơn. Ví dụ, nó có thể dễ dàng suy ra ảnh ở châu Âu hay Mỹ

    • Nhưng với những nơi không có nhiều ảnh trên mạng, nó không đào sâu hơn mà cố pattern match với cơ sở dữ liệu/internet của nó
    • Ví dụ có thể là một con đường mòn nổi tiếng trên một hòn đảo đã phát triển từ sau năm 2020. Ban đầu nó nhắc đến đá trên đảo và thảm thực vật của Brazil, nhưng rồi cố tìm một địa điểm ở Rio de Janeiro
    • Một ví dụ khác là bãi biển nổi tiếng với các hồ bơi tự nhiên khi thủy triều xuống. Khi ảnh được chụp lúc thủy triều lên, nó nhận ra đúng thảm thực vật và bang, nhưng lại tiếp tục cố tìm về một nơi nổi tiếng hơn
  • Thật bất ngờ. Tôi khá tích cực với AI, nhưng trong trường hợp này tôi nghĩ con người sẽ thắng. Tôi chờ màn dời khung mục tiêu kiểu "đó không phải là suy luận thực sự"

  • Cá nhân tôi thấy đây là một trong những ứng dụng LLM kém ấn tượng hơn. Nó vốn đã biết mọi loài thực vật, biển báo đường, v.v. Tôi hình dung mạng nơ-ron truyền thống cũng sẽ làm tốt ở đây

  • Đây sẽ là yếu tố thay đổi cuộc chơi cho các tác vụ kiểu OSINT (Bellingcat/Trace an object). Tôi tự hỏi liệu điều đó đã xảy ra chưa

    • Có thể sẽ có các cuộc thi kiểu GeoGuessr, và ít nhất với vai trò đồng phi công hỗ trợ, nó có thể đóng góp rất lớn cho việc nhận diện hàng loạt