Genie 2 của DeepMind: mô hình thế giới nền tảng quy mô lớn

(deepmind.google)

5 điểm bởi GN⁺ 2024-12-05 | 1 bình luận | Chia sẻ qua WhatsApp

Genie 2 là một mô hình thế giới nền tảng tạo ra nhiều môi trường 3D đa dạng mà con người hoặc tác nhân AI có thể thao tác bằng bàn phím và chuột
Trò chơi đóng vai trò quan trọng trong nghiên cứu AI, và Genie 2 cho phép huấn luyện cũng như đánh giá tác nhân trong những thế giới mới với chương trình học vô hạn
Tính năng
- Tạo mẫu nhanh: Genie 2 cho phép tạo mẫu nhanh nhiều trải nghiệm tương tác khác nhau, giúp các nhà nghiên cứu thử nghiệm các môi trường mới.
- Triển khai tác nhân: Có thể dùng Genie 2 để nhanh chóng tạo ra các môi trường phong phú và đa dạng cho tác nhân AI.
- Kiến trúc mô hình: Được huấn luyện trên bộ dữ liệu video quy mô lớn, Genie 2 có thể mô hình hóa nhiều tương tác đối tượng, hoạt ảnh nhân vật phức tạp, vật lý và hơn thế nữa.
- Phát triển có trách nhiệm: Genie 2 cho thấy tiềm năng của mô hình thế giới nền tảng trong việc tạo ra nhiều môi trường 3D đa dạng và tăng tốc nghiên cứu về tác nhân.
Năng lực emergent
- Genie 2 có thể tạo ra nhiều thế giới 3D đa dạng, đồng thời mô hình hóa tương tác đối tượng, hoạt ảnh nhân vật phức tạp, vật lý và hơn thế nữa.
- Người dùng có thể mô tả thế giới bằng văn bản, chọn bản dựng hình của ý tưởng đó rồi tương tác với thế giới mới được tạo ra.
- Điều khiển hành động: Genie 2 nhận diện đúng nhân vật và di chuyển chúng theo đầu vào bàn phím.
- Tạo trải nghiệm phản thực: Có thể mô phỏng trải nghiệm phản thực cho huấn luyện tác nhân bằng cách tạo ra nhiều lộ trình khác nhau từ cùng một khung hình khởi đầu.
- Bộ nhớ dài hạn: Genie 2 có thể ghi nhớ những phần của thế giới nằm ngoài tầm nhìn và dựng lại chính xác khi chúng có thể được quan sát trở lại.
- Môi trường đa dạng: Genie 2 có thể tạo ra nhiều góc nhìn khác nhau như góc nhìn thứ nhất, isometric, và video lái xe góc nhìn thứ ba.
- Cấu trúc 3D: Có thể tạo ra các cảnh thị giác 3D phức tạp.
- Tương tác đối tượng: Có thể mô hình hóa nhiều tương tác đối tượng như làm nổ bóng bay, mở cửa, bắn chất nổ.
- Hoạt ảnh nhân vật: Có thể tạo hoạt ảnh cho các nhân vật thực hiện nhiều hoạt động khác nhau.
- NPC: Có thể mô hình hóa các tương tác phức tạp với các tác nhân khác.
- Vật lý: Có thể mô hình hóa hiệu ứng nước, hiệu ứng khói, trọng lực, ánh sáng và hơn thế nữa.
- Chơi từ hình ảnh thực: Thông qua prompt từ hình ảnh thực, có thể mô hình hóa nước chảy qua cỏ hoặc cỏ lay động trong gió.
Tạo mẫu nhanh cho nhiều trải nghiệm tương tác đa dạng
- Genie 2 hỗ trợ thử nghiệm nhanh các môi trường mới và huấn luyện, kiểm thử các tác nhân AI hiện thân
  - Ví dụ: dùng hình ảnh được tạo bởi Imagen 3 để mô phỏng nhiều môi trường điều khiển máy bay giấy, rồng, chim ưng và dù lượn
- Với khả năng khái quát hóa ngoài phân phối của Genie 2, có thể chuyển concept art và tranh vẽ thành môi trường tương tác hoàn chỉnh
  - Tạo mẫu nhanh giúp khởi động quá trình sáng tạo và tăng tốc thiết kế môi trường
  Quảng cáo
Tạo môi trường đánh giá với Genie 2
- Genie 2 có thể nhanh chóng tạo ra các môi trường phong phú và đa dạng cho tác nhân AI
  - Tạo các bài toán đánh giá mới mà tác nhân chưa gặp trong quá trình huấn luyện để kiểm thử tác nhân
- Tác nhân SIMA do DeepMind phát triển cùng các nhà phát triển game thực hiện nhiệm vụ trong thế giới game 3D dựa trên chỉ dẫn ngôn ngữ tự nhiên
  - Genie 2 tạo môi trường 3D từ một prompt hình ảnh duy nhất, còn tác nhân SIMA tương tác thông qua đầu vào bàn phím và chuột
- Dù vẫn là nghiên cứu giai đoạn đầu, Genie 2 được kỳ vọng sẽ góp phần giải quyết vấn đề huấn luyện an toàn cho tác nhân hiện thân bằng cách cung cấp sự đa dạng và tính tổng quát của môi trường huấn luyện
- Đặt nền tảng cho sự phát triển của AGI (trí tuệ nhân tạo tổng quát) thông qua huấn luyện khái quát hóa cho tác nhân AI
Quảng cáo
Mô hình thế giới khuếch tán
- Genie 2 là mô hình khuếch tán tiềm ẩn được huấn luyện dựa trên bộ dữ liệu video quy mô lớn
- Các khung hình được chuyển sang không gian tiềm ẩn thông qua autoencoder, sau đó được đưa vào mô hình động học dựa trên transformer
- Khi huấn luyện, mô hình áp dụng mặt nạ nhân quả tương tự như cách dùng trong mô hình ngôn ngữ
- Suy luận theo kiểu tự hồi quy
  - Khi suy luận, Genie 2 lấy mẫu các khung hình tiềm ẩn trong quá khứ và dữ liệu hành động theo từng khung hình bằng phương pháp tự hồi quy
  - Sử dụng kỹ thuật Classifier-Free Guidance để cải thiện khả năng điều khiển hành động
- Genie 2 tạo ra môi trường 3D độ phân giải cao một cách hiệu quả trong khi vẫn duy trì khả năng điều khiển hành động
- Kết hợp mô hình khuếch tán với cách tiếp cận tự hồi quy để cung cấp công nghệ thế hệ tiếp theo cho các môi trường ảo giàu tính nhập vai
Phát triển công nghệ có trách nhiệm
- Genie 2 cho thấy tiềm năng của mô hình thế giới nền tảng trong việc tạo ra nhiều môi trường 3D đa dạng và tăng tốc nghiên cứu về tác nhân.

1 bình luận

GN⁺ 2024-12-05

Ý kiến trên Hacker News

Tò mò về quy mô của mô hình này và thấy đáng tiếc vì thiếu chi tiết kỹ thuật. Chỉ ra rằng cách tiếp cận của Google vẫn còn khép kín. Tuy vậy, khả năng khám phá thế giới dựa trên ảnh và mô tả văn bản vẫn rất đáng kinh ngạc.
Thấy thú vị khi áp lực đối với việc tạo video và thế giới vẫn tiếp tục gia tăng. Bày tỏ sự quan tâm đến các trò chơi tạo cốt truyện vô hạn và kỳ vọng vào một thời kỳ hoàng kim của kể chuyện tương tác trong tương lai.
Chỉ ra rằng công nghệ này có thể không hữu ích cho phát triển game. Game coi trọng tính tương tác và nhà thiết kế cần kiểm soát sâu. Cho rằng phần tạo thế giới là hữu ích nhất.
Nhấn mạnh rằng công nghệ này sẽ mang lại bước tiến lớn cho AGI và robot học. Xem đây là điểm khởi đầu để bổ sung cho máy móc những chức năng tương tự cách bộ não con người hoạt động.
Giải thích rằng mục tiêu thực sự của nghiên cứu là phát triển mô hình vượt qua khả năng hiểu thế giới 3D của con người. Điều này sẽ góp phần thúc đẩy robot học và xe tự hành.
Bày tỏ sự thất vọng vì Genie 2 bỏ qua các chi tiết của concept art. Chỉ trích việc những sinh vật ngoài hành tinh tuyệt đẹp ban đầu bị phớt lờ.
Giải thích rằng AI tạo sinh mang lại tính linh hoạt nhưng đòi hỏi rất nhiều tính toán. Bày tỏ sự tò mò về vai trò của lập trình truyền thống và AI tạo sinh.
Đặt câu hỏi về giá trị thực tế của công nghệ này. Chỉ ra rằng chi phí tính toán cao và hành vi thất thường là vấn đề.
Do cuộn trang không hoạt động trên MS Edge nên đã dùng Firefox, đồng thời nhắc rằng chất lượng hình ảnh của video không tốt. Đặt câu hỏi vì sao các nhà nghiên cứu AI lại muốn thay thế những hệ thống hiện có vốn đang hoạt động tốt.

Genie 2 của DeepMind: mô hình thế giới nền tảng quy mô lớn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News