4 điểm bởi GN⁺ 2025-04-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • o3 có thể phóng to, cắt ảnh và làm sáng để suy luận chính xác “địa điểm chụp bức ảnh này”

Giờ nếu công khai một bức ảnh chụp ngoài trời thì phải đổi cách nghĩ thành “bất kỳ kẻ theo dõi nào cũng có thể tìm ra tôi với 20.000 won mỗi tháng”. Không còn là chuyện chỉ người có kỹ năng cao mới làm được.

  • Những thứ như GeoGuessr (dịch vụ trò chơi web nơi người dùng tải ảnh lên rồi đoán đó là đâu) giờ có thể bị giải rất dễ
  • Trước đây chỉ các chuyên gia mới có thể lần ra vị trí từ ảnh, nhưng giờ đã xuất hiện các công cụ mà ai cũng dễ dàng tiếp cận như ChatGPT và Google Lens. Cần cập nhật threat model.

1 bình luận

 
GN⁺ 2025-04-19
Ý kiến trên Hacker News
  • Đã cung cấp 11 ảnh đã bị xóa metadata. Nó nhận diện sai hai bức ảnh chụp ở một thị trấn đại học nhỏ ở vùng đông bắc nước Mỹ, nhưng đoán đúng chính xác hai bức ảnh chụp ở Hàn Quốc. Mọi câu hỏi khác trong phạm vi nước Mỹ đều trả lời chính xác. Chưa hoàn hảo, nhưng tôi rất ngạc nhiên với hiệu năng này

    • LLM đa phương thức có vẻ sẽ giỏi ở GeoGuesser. Tuy nhiên, chỉ vài ví dụ thì chưa đủ để nói rằng trò chơi đã được "giải". Tôi cũng tự hỏi liệu có khả năng đã xảy ra rò rỉ dữ liệu hay không
    • Không phải là thành tựu này không ấn tượng, mà tôi chỉ muốn làm rõ rằng nó chưa chứng minh được điều mà tiêu đề đang khẳng định
    • Rất có thể nó đã được huấn luyện bằng nhiều ảnh kèm thông tin vị trí, và có khả năng tách ra các đặc trưng. Khi kết hợp với khả năng diễn giải chỉ dẫn và suy đoán, nó đã có đủ yếu tố cho trò chơi này
  • Tôi đã yêu cầu ChatGPT o4-mini-high tìm vị trí của 4 bức ảnh với độ khó khác nhau. Nó sai cả 4, nhưng các phỏng đoán không tệ. Quá trình cắt một phần ảnh ra để xem kỹ hơn khá thú vị

    • Tôi cũng thử Gemini 2.5 Pro với cùng prompt và ảnh, nhưng nó cũng sai hết. Tôi nghĩ dữ liệu bản đồ và Street View của Google sẽ cho kết quả tốt hơn, nhưng hóa ra không phải vậy
  • Có nhiều mức độ khác nhau của từ "giải". Việc xác định được khu vực chung là rất ngầu, nhưng tôi sẽ không gọi đây là "bài toán đã được giải quyết" cho đến khi nó có thể liên tục thắng với độ chính xác kiểu như Rainbolt. Vẫn chưa có đối chiếu nào với những con đường hoàn toàn ngẫu nhiên, mà chủ yếu mới là các địa điểm nổi tiếng

    • Chọn ra một thứ cụ thể đã được chụp hàng nghìn lần và nhìn vào một phong cảnh nông thôn ngẫu nhiên rồi tìm ra mọi đặc điểm độc nhất là hai bài toán khác nhau
  • Tôi tự hỏi thế hệ AI mới này chiếm bao nhiêu phần trong "Geoguesser Meta Iceberg"

  • Tôi vẫn luôn nói với phụ nữ rằng hãy giữ lại tất cả ảnh nhạy cảm họ nhận được. Từ nhiễu đặc trưng riêng của cảm biến camera, có thể biết liệu các ảnh khác có được chụp bằng cùng một camera hay không. Chỉ cần một công cụ tìm kiếm có thể làm điều đó. Với AI, có lẽ trong 2-3 năm nữa người ta sẽ tải ảnh nhạy cảm lên AI và nhận lại hồ sơ mạng xã hội của người đó

  • Ví dụ về Alki Beach thật sự điên rồ. Một mặt, tôi không thể chờ đến lúc hàng nghìn bức ảnh được tự động gắn thẻ ngữ nghĩa và địa lý. Mặt khác, quyền riêng tư sẽ biến mất. Áp dụng điều này cho ảnh lịch sử hoặc ảnh cũ cũng sẽ rất thú vị

  • Tôi tự hỏi trong mọi ví dụ, liệu có thể gián tiếp tận dụng vị trí của người dùng hay không. Không phải metadata của ảnh, mà là qua IP nguồn của yêu cầu chẳng hạn. Khi tôi hỏi ChatGPT dự báo thời tiết, nó sẽ có được thông tin về vị trí của tôi

    • Cũng sẽ rất thú vị nếu có người từ quốc gia khác tái hiện lại điều này
  • Như bài viết đã đề cập, mô hình đe dọa về việc có thể xác định nơi một bức ảnh được đăng lên cần phải chuyển từ mức "một người chuyên nghiệp và lành nghề" sang mức "bất kỳ ai có 20 đô"

    • Đó là lý do thay đổi này quan trọng. Chúng ta đã quá quen với việc đăng ảnh lên mạng. Về lâu dài, tôi không chắc đó có phải là ý hay hay không
  • Rất ấn tượng, và nó gần như tìm đúng nhà thờ ở làng tôi. Tuy nhiên, việc nó kết luận sang ngôi làng bên cạnh cho thấy sự thiếu hiểu biết. Bởi vì kết luận về vị trí đó xuất phát từ việc nó "đọc" một biển chỉ sang ngôi làng khác. Dù vậy vẫn rất ấn tượng, và nó đã có nhiều quan sát chính xác về chủ thể như chi tiết kiến trúc, chữ số La Mã trên đồng hồ, v.v.