- Mô hình o3 mới nhất đã chiến thắng trước người chơi Geoguessr hạng Master I
- Hạng Master I tương ứng với trình độ thuộc khoảng top 1~2%. Mức cao nhất là Champion, khoảng 0,1~0,5%
- Ngay cả khi chèn dữ liệu GPS EXIF giả mạo vào ảnh, mô hình vẫn có thể suy ra chính xác vị trí thực chỉ từ các manh mối thị giác
- Mô hình suy luận theo cách Chain of Thought (COT), phân tích tổng hợp các đặc điểm chi tiết như tòa nhà, địa hình, vạch đường, ngôn ngữ, biển báo
- Ở một số vòng, mô hình có sử dụng tìm kiếm web, nhưng kết quả kiểm tra lại cho thấy ngay cả không tìm kiếm vẫn có thể đưa ra cùng đáp án đúng
- Thời gian suy luận trung bình của o3 dài hơn con người, nhưng độ chính xác lại vượt trội hơn
AI vs con người: Khởi đầu cuộc đối đầu Geoguessr
- Tác giả là người chơi Geoguessr hạng Master I, và đã đấu với AI qua 5 vòng theo cách gần giống lối chơi thực tế
- Mỗi vòng chỉ được cung cấp 2 ảnh Street View, và phải suy ra vị trí mà không có metadata
- Cách chấm điểm giống Geoguessr thông thường: tối đa 5.000 điểm mỗi vòng, tổng điểm tối đa 25.000
Tóm tắt kết quả từng vòng
- Vòng 1 (Bulgaria): con người thắng khi đoán vị trí gần hơn một chút, nhưng chênh lệch chỉ khoảng 100 điểm
- Vòng 2 (Áo): o3 tìm kiếm tên miền trên xe taxi để xác định tên thành phố thực tế, rồi đoán gần như hoàn hảo vị trí đúng và giành số điểm gần 5.000
- Vòng 3 (Ireland): cả hai đều phân tích rất tốt, và o3 đã suy ra chính xác khu vực Burren dựa trên vạch đường, địa hình đá vôi... rồi thắng sát nút
- Vòng 4 (Colombia): o3 suy luận chính xác hơn con người dựa trên ký hiệu đường, biển số xe, biển hiệu cửa hàng, địa hình..., đồng thời cho thấy kết quả rất tốt ngay cả không dùng tìm kiếm web
- Vòng 5 (Slovakia): con người thắng khi đoán vị trí gần hơn đôi chút, nhưng không đủ để đảo ngược chênh lệch tổng điểm
Như vậy, o3 đã xác định chính xác cả 5 quốc gia, và ở hai vòng còn đoán chính xác hơn con người tới hàng trăm kilômét, cho thấy độ chuẩn xác rất cao.
Thử nghiệm thao túng EXIF: AI không bị đánh lừa
- Để kiểm tra, người ta dùng ảnh có chèn dữ liệu EXIF chứa tọa độ GPS không liên quan tới vị trí thực, nhưng o3 nhận ra thông tin đó không khớp với nội dung ảnh thật và bỏ qua
- Ngay cả khi cung cấp thông tin EXIF dưới dạng văn bản, mô hình vẫn có thể suy ra chính xác một vị trí hoàn toàn khác dựa trên môi trường trong ảnh
- Điều này chứng minh AI không đơn thuần phụ thuộc vào metadata mà đang phân tích sâu nội dung hình ảnh
Khác biệt giữa con người và AI
- o3 cần trung bình 2~6 phút suy luận mỗi vòng, trong khi người chơi là con người thường hoàn tất phần lớn dự đoán trong vòng 1~2 phút
- AI đôi khi dành thời gian cho những yếu tố kém quan trọng như biển quảng cáo, trong khi con người nhanh chóng nhận ra manh mối quan trọng và ưu tiên chúng
- Tuy nhiên, o3 cho thấy độ chính xác cao nhờ kết hợp tinh vi nhiều loại thông tin thị giác như biển báo đường, biển số xe, phong cách kiến trúc, địa hình và thảm thực vật
Kết luận
- o3 đưa ra đáp án không phải nhờ mẹo dùng EXIF hay tìm kiếm, mà dựa trên năng lực phân tích thị giác thực sự
- Mô hình thể hiện trình độ chơi tiệm cận hoặc vượt mức Geoguessr Master I
- Con người vẫn chiếm ưu thế về tốc độ và trực giác, nhưng về độ chính xác thì AI đã ở mức rất đáng gờm
- Đây không chỉ là một màn trình diễn công nghệ, mà còn là một ví dụ cho thấy hiện trạng của AI thị giác hiệu năng cao có thể ứng dụng thực tế
1 bình luận
Ý kiến trên Hacker News
Có một nhãn dán ghi "www.taxilinder.at" trên xe. Có thể dùng tìm kiếm web để biết Taxi Linder GmbH đặt tại Dornbirn, Áo
Tác giả vui khi mọi người thấy chủ đề này thú vị
Tôi ở cấp Master trong GeoGuessr. Cấp này chắc chắn đòi hỏi phải biết mình đang làm gì, nhưng không cao như tiêu đề nghe có vẻ
Tôi hiểu rằng o3 được huấn luyện trên dữ liệu đa phương thức, bao gồm cả dữ liệu hình ảnh. Không phải là giả định vô lý khi cho rằng dữ liệu huấn luyện có chứa hình ảnh về các vị trí và đặc điểm cụ thể
Ngoài GeoGuessr ra, tôi hy vọng công nghệ này một ngày nào đó có thể giúp cứu trẻ em. Ví dụ, nó có thể hỗ trợ ECAP của FBI
Bình luận từ bài trước:
Tuần này tôi định thử nghịch với o3, và thú vị là nó cố gắng làm pattern matching nhiều hơn. Ví dụ, nó có thể dễ dàng suy ra ảnh ở châu Âu hay Mỹ
Thật bất ngờ. Tôi khá tích cực với AI, nhưng trong trường hợp này tôi nghĩ con người sẽ thắng. Tôi chờ màn dời khung mục tiêu kiểu "đó không phải là suy luận thực sự"
Cá nhân tôi thấy đây là một trong những ứng dụng LLM kém ấn tượng hơn. Nó vốn đã biết mọi loài thực vật, biển báo đường, v.v. Tôi hình dung mạng nơ-ron truyền thống cũng sẽ làm tốt ở đây
Đây sẽ là yếu tố thay đổi cuộc chơi cho các tác vụ kiểu OSINT (Bellingcat/Trace an object). Tôi tự hỏi liệu điều đó đã xảy ra chưa