Khả năng đoán vị trí từ ảnh của o3 vừa siêu thực, vừa phản địa đàng, lại vừa thú vị

(simonwillison.net)

6 điểm bởi GN⁺ 2025-04-27 | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình mới o3 của OpenAI có khả năng đoán nơi chụp chỉ từ một bức ảnh với độ chính xác đáng kinh ngạc
Mô hình cho thấy quá trình phân tích các manh mối thị giác và dùng thao tác phóng to/cắt ảnh để rút ra thêm chi tiết
Ban đầu mô hình đoán Cambria, California, nhưng dự đoán thứ hai là El Granada mới chính xác
Quá trình phân tích ảnh bằng hệ thống suy luận có tích hợp công cụ cho thấy một mẫu hình rất đột phá
Bài viết nhấn mạnh sự cảnh báo về tính hai mặt của công nghệ, đồng thời chỉ ra rủi ro của việc chia sẻ ảnh

Khả năng đoán vị trí từ ảnh đáng kinh ngạc của mô hình o3

Mô hình o3 của OpenAI có khả năng nhìn ảnh và đoán nơi chụp với độ chính xác đáng kinh ngạc
Người dùng cung cấp một bức ảnh phong cảnh đường phố thông thường, không có mốc địa danh rõ ràng, và hỏi: “Bức ảnh này có vẻ được chụp ở đâu?”
Ban đầu mô hình hiểu nhầm rằng nó không thể xem ảnh, nhưng sau đó nhanh chóng bắt đầu phân tích thị giác
Mô hình thu hẹp vị trí chụp bằng cách phân tích nhiều manh mối thị giác như nhà cửa, bồn hoa, đồi dốc và biển báo

Quy trình phân tích ảnh của o3

Mô hình dùng cách cắt và phóng to ảnh để kiểm tra biển số xe
Mô hình dùng mã Python để cắt ra các phần cụ thể của ảnh rồi phân tích kết quả
Từ thiết kế của biển số, mô hình suy luận đây là California, đồng thời phân tích cả môi trường xung quanh và phong cách kiến trúc
Từ đó, mô hình đi đến dự đoán cuối cùng là Cambria, California, và đưa ra Half Moon Bay–El Granada như phương án thay thế thứ hai

Độ chính xác của phân tích và các thử nghiệm bổ sung

Địa điểm chụp thực tế là El Granada, nên dự đoán thứ hai của mô hình là chính xác
Thử nghiệm cho thấy mô hình có thể suy ra vị trí mà không cần dùng siêu dữ liệu EXIF
Khi người dùng thử bằng ảnh chụp màn hình đã loại bỏ thông tin EXIF, mô hình vẫn có thể suy luận chính xác
Một mô hình khác là Claude 3.5/3.7 Sonnet cũng cho thấy hiệu năng tốt, nhưng không hỗ trợ phóng to như o3
Mô hình Gemini đôi khi dùng thông tin vị trí không chính xác hoặc đưa ra dự đoán sai

Hệ thống suy luận tích hợp công cụ và ý nghĩa của nó

o3 áp dụng một phương pháp mới là Tool-augmented Chain-of-Thought, trong đó mô hình trực tiếp dùng các công cụ cần thiết trong lúc “đang suy nghĩ”
Mẫu hình này không chỉ mạnh trong phân tích ảnh mà còn cho hiệu năng ấn tượng ở nhiều tác vụ khác như tìm kiếm
Trong tương lai, nhiều mô hình AI khác cũng được kỳ vọng sẽ phổ biến cách làm tương tự

Sự thú vị và rủi ro của công nghệ

Việc quan sát quá trình suy luận của mô hình mang lại một trải nghiệm rất thú vị và cuốn hút
Đồng thời, cũng cần cảnh giác rằng khả năng truy vết vị trí qua ảnh nay đã trở nên phổ biến hơn
Chỉ với những bức ảnh đời thường, bất kỳ ai cũng có thể lần ra vị trí của người khác, nên cần nhận thức rõ về quyền riêng tư và an toàn

Thông tin bổ sung về khả năng truy cập dữ liệu vị trí của mô hình o3

o3 có thể tham chiếu thông tin vị trí gần đúng của người dùng, nhưng đó không phải yếu tố chính trong việc suy luận vị trí chính xác
Ngay cả khi không có siêu dữ liệu EXIF, mô hình vẫn phân tích khá chính xác các bức ảnh chụp ở khu vực cách xa hàng nghìn dặm
Các người dùng khác cũng đã thử nghiệm ở nhiều địa điểm khác nhau và tiếp tục xác nhận năng lực phân tích của o3

2 bình luận

unsure4000 2025-04-27

Nếu thử đưa thông tin giả vào EXIF thì sao?

GN⁺ 2025-04-27

Ý kiến trên Hacker News

Tôi chơi Geoguessr mang tính cạnh tranh ở trình độ cao và muốn thử kiểm tra mô hình này
- Nó giỏi đến mức đáng kinh ngạc
- Nó đoán chính xác ảnh ở khu vực tôi sống và có nhắc rằng đã dùng thông tin tôi sống gần đó
- Nó cũng đoán ảnh kỳ nghỉ cũ tốt hơn cả người chơi chuyên nghiệp
- Bao gồm nhiều địa điểm ở châu Âu, Trung Mỹ và Mỹ
- Cách nó đi đến kết luận khá giống con người
- Nó phân tích thực vật, địa hình, kiến trúc, hạ tầng đường sá, biển báo, v.v.
- Con người cũng làm được nhưng cần hàng nghìn ván chơi hoặc học rất sâu
- Tôi dùng hàng trăm thẻ ghi nhớ để nhớ các loại vạch đường, cột điện, kiến trúc, v.v.
- Các mô hình này có nhiều thông tin hơn mức một cá nhân có thể ghi nhớ
Tôi tin chắc nó không xem dữ liệu EXIF
- Nếu có thì ban đầu nó đã không đoán Cambria
- Có lần nó còn nói rằng hoàn toàn không thể xem dữ liệu hình ảnh
- Không bao giờ có thể tin câu đó
- Cần xóa dữ liệu EXIF và chạy lại
Với mọi ảnh tôi thử, mô hình cơ bản xác định vị trí ảnh với độ chính xác khoảng 95%
- Ở ảnh ban đầu của OP, 4o đoán Carmel-by-the-Sea chính xác hơn
- Trong CoT có thể thấy vị trí gần như chính xác ở bước suy luận đầu tiên
- Mô hình lại bỏ qua nó và thử các địa điểm khác
- Khi mô hình cơ bản không biết manh mối thì o3 không hành xử thông minh
- Mô hình đã được RL-ed để dẫn đến đáp án đúng bất kể số lần dùng công cụ
Tôi đã thử điều tương tự và kết quả rất buồn cười
- Nó hoàn toàn không biết manh mối
- Tôi nhiều lần thấy prompt nói đó không phải thành phố nơi tôi đang ở
- Lúc nó bắt đầu phân tích mặt nhựa đường mờ nhòe là buồn cười nhất
- Sau 6 phút, o3 vẫn sai nhưng rất tự tin
o3 mô hình hóa vị trí của người dùng ở mức đại khái
- Tôi tin đó là để hỗ trợ tính năng tìm kiếm mới
- Tôi chạy thêm hai truy vấn ví dụ nữa và cả hai đều cho kết quả thuyết phục
Điều này làm tôi nhớ đến việc mọi người ngạc nhiên khi thấy quảng cáo về thứ họ vừa nói đến lúc xem YouTubeTV
- Thực ra ML hiện đại có thể đoán khá tốt mức độ liên quan của quảng cáo bằng cách dùng vị trí, đối tác dữ liệu và các tìm kiếm gần đây
- Giải thích như vậy rồi mà vẫn có người tin máy tính đang nghe lén
Sẽ có những lĩnh vực mà khả năng đoán vị trí chính xác đến mức đáng sợ
- Nhưng nếu nhìn vào quá trình suy luận thì cũng sẽ có nhiều lĩnh vực kém chính xác hơn
- Nếu đưa ảnh một khu trailer park ở Kansas thì mô hình có lẽ chỉ đoán đúng bang
- Nếu robot apocalypse xảy ra thì California sẽ là nơi gặp nguy hiểm đầu tiên
Tôi tin chắc nó không xem dữ liệu EXIF
- Nếu nó gian lận trong một tác vụ tương tự thì nó sẽ đề xuất một vị trí hơi sai một chút
- Sẽ rất thú vị khi xem nó làm thế nào với cùng bức ảnh đã bị xóa dữ liệu EXIF
Vào ngày khác thì nó không ấn tượng lắm
- Nó không tìm ra ảnh tôi cung cấp
- Nó lặp đi lặp lại việc crop ảnh và tìm kiếm tương tự
- Dùng tính năng tạo ảnh có thể thấy nó đang dùng cơ sở dữ liệu ảnh lớn làm tư liệu tham chiếu
Tôi không chắc o4-mini có thật sự thất bại ở tác vụ này không
- Nó làm không tốt với bức ảnh tôi đưa
- Tôi đưa một ảnh có chứa chữ 'Sprüngli' ở Basel Main Train Station, nhưng mô hình lại gợi ý Zurich
- Ảnh thứ hai khó hơn
- Đó là ảnh bên trong một bảo tàng ở Metz, và mô hình trượt ngay từ đầu
- Nhìn chung, khả năng hiểu ảnh và suy luận vẫn rất ấn tượng nhưng nó không làm tốt ở các địa điểm ít phổ biến hơn

Khả năng đoán vị trí từ ảnh của o3 vừa siêu thực, vừa phản địa đàng, lại vừa thú vị

Khả năng đoán vị trí từ ảnh đáng kinh ngạc của mô hình o3

Quy trình phân tích ảnh của o3

Độ chính xác của phân tích và các thử nghiệm bổ sung

Hệ thống suy luận tích hợp công cụ và ý nghĩa của nó

Sự thú vị và rủi ro của công nghệ

Thông tin bổ sung về khả năng truy cập dữ liệu vị trí của mô hình o3

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News