3 điểm bởi GN⁺ 2024-11-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Niantic đang phát triển Large Geospatial Model (LGM), sử dụng học máy quy mô lớn để hiểu cảnh vật và kết nối chúng với hàng triệu cảnh khác trên toàn thế giới
  • Con người có thể dùng năng lực nhận thức không gian để hình dung một cấu trúc từ nhiều góc độ khác nhau, nhưng đây là một bài toán khó đối với máy móc
  • Visual Positioning System (VPS) của Niantic được vận hành tại hơn 1 triệu địa điểm nhờ huấn luyện hơn 5 tỷ mạng nơ-ron
  • Large Geospatial Model là gì?
    • LGM giúp máy tính có thể nhận biết, hiểu và điều hướng trong thế giới vật lý
    • Tương tự LLM, LGM được xây dựng bằng lượng lớn dữ liệu thô, cho phép hình thành hiểu biết dựa trên vị trí về không gian, cấu trúc và tương tác vật lý
    • Vượt ra ngoài các mô hình thị giác 3D, mô hình địa không gian được gắn với các vị trí địa lý cụ thể và có thể đo lường ở đơn vị tỷ lệ chính xác
  • Tình hình công việc của Niantic
    • Trong 5 năm qua, Niantic đã xây dựng VPS để người dùng có thể đặt nội dung số một cách chính xác vào môi trường vật lý
    • VPS được xây dựng từ các lượt quét của người dùng, tức dữ liệu thu thập từ góc nhìn người đi bộ, bao gồm cả những nơi ô tô không thể tiếp cận
    • Hiện có 10 triệu địa điểm đã được quét trên toàn thế giới, và mỗi tuần hệ thống thu thập thêm 1 triệu lượt quét mới
  • Từ hệ thống cục bộ đến hiểu biết dùng chung
    • Các bản đồ nơ-ron hiện tại là những mô hình địa không gian có thể sử dụng, nhưng LGM hướng đến một tầm nhìn vượt ra ngoài các bản đồ khu vực độc lập
    • LGM cho phép chia sẻ dữ liệu giữa các mô hình khu vực và có thể suy luận mặt sau của một tòa nhà từ một vị trí cụ thể
    • Điều này hiện thực hóa một sự hiểu biết tập trung về thế giới dựa trên dữ liệu địa không gian và thị giác
  • Sự hiểu biết giống con người
    • Con người có khả năng nhận ra những gì đã thấy ngay cả từ các góc nhìn khác
    • Kiểu hiểu biết này trên thực tế chỉ có thể đạt được thông qua học máy quy mô lớn, và đó là mục tiêu Niantic đang theo đuổi
  • Phát triển thành mô hình nền tảng mang tính bổ trợ
    • LGM có thể được dùng cho nhiều mục đích hơn là chỉ định vị, mở ra các phương thức mới để biểu diễn, thao tác và tạo sinh cảnh vật
    • Nhiều loại foundation model khác nhau sẽ bổ trợ cho nhau, giúp các hệ thống có thể nhận biết, hiểu và vận hành trong thế giới vật lý
    • Niantic đặt mục tiêu dẫn đầu trong việc phát triển Large Geospatial Model quy mô lớn để mang đến cho người dùng những trải nghiệm mới

1 bình luận

 
GN⁺ 2024-11-21
Ý kiến trên Hacker News
  • Với tư cách là người chơi Pokémon GO, tôi có cảm giác mình đang cung cấp dữ liệu huấn luyện thông qua trò chơi, và họ đang kiếm lợi từ công sức của tôi. Tôi đã ngừng quét PokéStop vì công sức bỏ ra lớn hơn phần thưởng nhận được. Nếu họ công bố mô hình và trọng số, tôi sẽ cảm thấy điều đó đóng góp cho lợi ích công lớn hơn.

  • Tôi ít dùng công nghệ AR của Pokémon GO vì nó chậm, nên khá ngạc nhiên khi giờ nó đã phát triển đến mức có thể được dùng để huấn luyện LGM. Về mặt kinh tế cũng hợp lý: người chơi có một trò chơi miễn phí, Niantic có doanh thu, và công nghệ mới được đưa ra thế giới.

  • Trong MyFitnessPal, khi người dùng quét mã vạch, ứng dụng thu thập tiếng ồn nền để dùng làm dữ liệu huấn luyện. Nhờ đó có thể thu được thông tin về các kho thực phẩm, tủ lạnh và lối đi siêu thị ở mức trung bình.

  • Tôi thấy bài đăng blog này và phản ứng trên HN khá gây bối rối. Thực ra họ chưa huấn luyện mô hình mà mới chỉ công bố kế hoạch. Họ nói đã huấn luyện 50 triệu mạng nơ-ron, nhưng đó chỉ là một phần trong những gì họ vốn đã làm. Nó giống một tài liệu tầm nhìn nhằm định vị Niantic như một công ty AI hơn.

  • Có ý kiến mang tính triết học rằng dữ liệu địa không gian nên là tài sản công. Dữ liệu được crowdsourcing đến từ người dân bình thường, nên tri thức và sự thật nên trở thành tài sản chung của công chúng.

  • Tôi không nghĩ việc tạo cảnh 3D theo thời gian thực là tương lai của bản đồ. Các tòa nhà, con đường, biển báo... đều khá tĩnh và không thay đổi nhiều đối với phần lớn trường hợp sử dụng. Sẽ hữu ích hơn nếu lấy một mô hình chính xác từ đám mây.

  • Có lẽ trong một cuộc họp giữa Google/Niantic đã xuất hiện ý tưởng xây dựng thế hệ mô hình 3D mới thông qua crowdsourcing. Họ đã mua quyền Pokémon để hiện thực hóa điều đó.

  • Brian Maclendon (Niantic) đã đưa ra một số chi tiết thú vị về việc này trong bài thuyết trình tại Bellingfest.

  • Khá khó hiểu LGM thực sự là gì. Có vẻ đây không phải dữ liệu địa không gian mà là về việc cải thiện mô hình thị giác để dự đoán mặt sau của các tòa nhà. Dữ liệu huấn luyện đến từ những hình ảnh được tạo ra khi bắt Pokémon.

  • Có ý kiến cho rằng CIA có lẽ đã có quyền truy cập vào dữ liệu này. Những lo ngại về quyền riêng tư đã được nêu ra từ vài năm trước.