- Mô hình mới o3 của OpenAI có khả năng đoán nơi chụp chỉ từ một bức ảnh với độ chính xác đáng kinh ngạc
- Mô hình cho thấy quá trình phân tích các manh mối thị giác và dùng thao tác phóng to/cắt ảnh để rút ra thêm chi tiết
- Ban đầu mô hình đoán Cambria, California, nhưng dự đoán thứ hai là El Granada mới chính xác
- Quá trình phân tích ảnh bằng hệ thống suy luận có tích hợp công cụ cho thấy một mẫu hình rất đột phá
- Bài viết nhấn mạnh sự cảnh báo về tính hai mặt của công nghệ, đồng thời chỉ ra rủi ro của việc chia sẻ ảnh
Khả năng đoán vị trí từ ảnh đáng kinh ngạc của mô hình o3
- Mô hình o3 của OpenAI có khả năng nhìn ảnh và đoán nơi chụp với độ chính xác đáng kinh ngạc
- Người dùng cung cấp một bức ảnh phong cảnh đường phố thông thường, không có mốc địa danh rõ ràng, và hỏi: “Bức ảnh này có vẻ được chụp ở đâu?”
- Ban đầu mô hình hiểu nhầm rằng nó không thể xem ảnh, nhưng sau đó nhanh chóng bắt đầu phân tích thị giác
- Mô hình thu hẹp vị trí chụp bằng cách phân tích nhiều manh mối thị giác như nhà cửa, bồn hoa, đồi dốc và biển báo
Quy trình phân tích ảnh của o3
- Mô hình dùng cách cắt và phóng to ảnh để kiểm tra biển số xe
- Mô hình dùng mã Python để cắt ra các phần cụ thể của ảnh rồi phân tích kết quả
- Từ thiết kế của biển số, mô hình suy luận đây là California, đồng thời phân tích cả môi trường xung quanh và phong cách kiến trúc
- Từ đó, mô hình đi đến dự đoán cuối cùng là Cambria, California, và đưa ra Half Moon Bay–El Granada như phương án thay thế thứ hai
Độ chính xác của phân tích và các thử nghiệm bổ sung
- Địa điểm chụp thực tế là El Granada, nên dự đoán thứ hai của mô hình là chính xác
- Thử nghiệm cho thấy mô hình có thể suy ra vị trí mà không cần dùng siêu dữ liệu EXIF
- Khi người dùng thử bằng ảnh chụp màn hình đã loại bỏ thông tin EXIF, mô hình vẫn có thể suy luận chính xác
- Một mô hình khác là Claude 3.5/3.7 Sonnet cũng cho thấy hiệu năng tốt, nhưng không hỗ trợ phóng to như o3
- Mô hình Gemini đôi khi dùng thông tin vị trí không chính xác hoặc đưa ra dự đoán sai
Hệ thống suy luận tích hợp công cụ và ý nghĩa của nó
- o3 áp dụng một phương pháp mới là Tool-augmented Chain-of-Thought, trong đó mô hình trực tiếp dùng các công cụ cần thiết trong lúc “đang suy nghĩ”
- Mẫu hình này không chỉ mạnh trong phân tích ảnh mà còn cho hiệu năng ấn tượng ở nhiều tác vụ khác như tìm kiếm
- Trong tương lai, nhiều mô hình AI khác cũng được kỳ vọng sẽ phổ biến cách làm tương tự
Sự thú vị và rủi ro của công nghệ
- Việc quan sát quá trình suy luận của mô hình mang lại một trải nghiệm rất thú vị và cuốn hút
- Đồng thời, cũng cần cảnh giác rằng khả năng truy vết vị trí qua ảnh nay đã trở nên phổ biến hơn
- Chỉ với những bức ảnh đời thường, bất kỳ ai cũng có thể lần ra vị trí của người khác, nên cần nhận thức rõ về quyền riêng tư và an toàn
Thông tin bổ sung về khả năng truy cập dữ liệu vị trí của mô hình o3
- o3 có thể tham chiếu thông tin vị trí gần đúng của người dùng, nhưng đó không phải yếu tố chính trong việc suy luận vị trí chính xác
- Ngay cả khi không có siêu dữ liệu EXIF, mô hình vẫn phân tích khá chính xác các bức ảnh chụp ở khu vực cách xa hàng nghìn dặm
- Các người dùng khác cũng đã thử nghiệm ở nhiều địa điểm khác nhau và tiếp tục xác nhận năng lực phân tích của o3
2 bình luận
Nếu thử đưa thông tin giả vào EXIF thì sao?
Ý kiến trên Hacker News
Tôi chơi Geoguessr mang tính cạnh tranh ở trình độ cao và muốn thử kiểm tra mô hình này
Tôi tin chắc nó không xem dữ liệu EXIF
Với mọi ảnh tôi thử, mô hình cơ bản xác định vị trí ảnh với độ chính xác khoảng 95%
Tôi đã thử điều tương tự và kết quả rất buồn cười
o3 mô hình hóa vị trí của người dùng ở mức đại khái
Điều này làm tôi nhớ đến việc mọi người ngạc nhiên khi thấy quảng cáo về thứ họ vừa nói đến lúc xem YouTubeTV
Sẽ có những lĩnh vực mà khả năng đoán vị trí chính xác đến mức đáng sợ
Tôi tin chắc nó không xem dữ liệu EXIF
Vào ngày khác thì nó không ấn tượng lắm
Tôi không chắc o4-mini có thật sự thất bại ở tác vụ này không