- Project Genie của Google là một nguyên mẫu nghiên cứu thử nghiệm cho phép người dùng tạo, khám phá và phối lại các thế giới ảo có thể tương tác bằng văn bản và hình ảnh
- Dựa trên mô hình Genie 3, hệ thống tạo đường đi và môi trường theo thời gian thực dựa trên chuyển động của người dùng
- Được cung cấp dưới dạng ứng dụng web, tích hợp Nano Banana Pro và Gemini để hỗ trợ phác thảo thế giới, khám phá và phối lại
- Do giới hạn của mô hình, phiên bản đầu có các ràng buộc như không nhất quán với quy luật vật lý, độ trễ khi điều khiển nhân vật, giới hạn 60 giây
- Hiện được cung cấp cho người đăng ký Google AI Ultra tại Mỹ (từ 18 tuổi trở lên) và dự kiến sẽ mở rộng sang nhiều khu vực hơn trong tương lai
Tổng quan về Project Genie
- Project Genie là một nguyên mẫu nghiên cứu thử nghiệm dựa trên Genie 3 do Google DeepMind phát triển, cung cấp môi trường để người dùng trực tiếp tạo, khám phá và phối lại các thế giới ảo
- Có sẵn cho người đăng ký Google AI Ultra tại Mỹ (từ 18 tuổi trở lên)
- Người dùng có thể tạo thế giới bằng prompt văn bản và hình ảnh, rồi khám phá theo thời gian thực
- Dự án này là bước đầu tiên đưa công nghệ tạo thế giới nhập vai đến với người dùng phổ thông, đồng thời là phần mở rộng của nghiên cứu mô hình thế giới (world model)
Sự phát triển của Mô hình thế giới (World Model)
- Mô hình thế giới là hệ thống mô phỏng các thay đổi động của môi trường và dự đoán tác động của hành động
- Google DeepMind hướng tới việc vượt ra ngoài nghiên cứu các tác nhân cho môi trường cụ thể như cờ vua hay cờ vây, để phát triển hệ thống AGI có thể khám phá sự đa dạng của thế giới thực
- Genie 3 tạo đường đi theo thời gian thực theo chuyển động của người dùng và mô phỏng tương tác vật lý
- Hỗ trợ tạo thế giới động, thay vì chỉ là ảnh chụp 3D tĩnh
- Có thể ứng dụng trong nhiều kịch bản như robot, hoạt hình, hư cấu, khám phá các địa điểm lịch sử
Cách Project Genie hoạt động
- Đây là nguyên mẫu dựa trên web, ngoài Genie 3 còn tích hợp các mô hình Nano Banana Pro và Gemini
- Gồm ba chức năng cốt lõi
-
1. World Sketching (phác thảo thế giới)
- Sử dụng văn bản và hình ảnh (được tạo hoặc tải lên) để thiết kế một môi trường sống động
- Có thể định nghĩa nhân vật và cách khám phá, hỗ trợ nhiều hình thức di chuyển như đi bộ, bay, lái xe
- Nhờ tích hợp Nano Banana Pro, người dùng có thể xem trước và tinh chỉnh chi tiết của thế giới
- Có thể chọn góc nhìn ngôi thứ nhất hoặc ngôi thứ ba
-
2. World Exploration (khám phá thế giới)
- Thế giới được tạo ra là môi trường có thể khám phá, trong đó đường đi được tạo theo thời gian thực theo hành động của người dùng
- Có thể điều chỉnh góc camera trong quá trình khám phá
-
3. World Remixing (phối lại thế giới)
- Có thể tái cấu trúc một thế giới theo cách diễn giải mới dựa trên prompt của thế giới hiện có
- Có thể khám phá hoặc chỉnh sửa thế giới của người dùng khác thông qua thư viện hoặc tính năng khám phá ngẫu nhiên
- Có thể tải xuống dưới dạng video thế giới hoàn chỉnh và quá trình khám phá
Xây dựng AI có trách nhiệm
- Project Genie là nguyên mẫu nghiên cứu thử nghiệm được triển khai trong Google Labs, và được vận hành theo các nguyên tắc phát triển AI có trách nhiệm
- Do giới hạn hiện tại của mô hình, các ràng buộc sau đã được nêu rõ
- Thế giới được tạo ra có thể khác với thực tế hoặc không khớp với prompt và các quy luật vật lý
- Có thể xảy ra độ trễ khi điều khiển nhân vật hoặc giảm độ phản hồi
- Có giới hạn thời gian tạo 60 giây
- Tính năng thay đổi sự kiện dựa trên prompt được công bố vào tháng 8/2025 hiện vẫn chưa được đưa vào
- Có thể theo dõi các bản cập nhật và cải tiến trong tương lai trên trang chính thức của DeepMind
Kế hoạch sắp tới và mở rộng khả năng tiếp cận
- Project Genie được phát triển dựa trên nghiên cứu hợp tác với các nhóm thử nghiệm đáng tin cậy
- Đợt công bố lần này là một bước để hiểu cách người dùng thực sự sử dụng mô hình thế giới
- Hiện tại chỉ được cung cấp cho người đăng ký Google AI Ultra tại Mỹ, và sẽ mở rộng sang nhiều khu vực hơn trong thời gian tới
- Về dài hạn, Google có kế hoạch mở công nghệ tạo thế giới cho nhiều người dùng hơn
Chưa có bình luận nào.