Diffusion Models Are Real-Time Game Engines
- GameNGen: game engine đầu tiên được vận hành bằng mô hình thần kinh, cung cấp tương tác thời gian thực với các môi trường phức tạp ở chất lượng cao
- Mô phỏng DOOM: có thể mô phỏng tương tác trò chơi kinh điển DOOM ở hơn 20 khung hình/giây trên một TPU duy nhất
- PSNR: đạt 29.4 PSNR trong dự đoán khung hình tiếp theo, tương đương với nén JPEG có mất dữ liệu
- Người đánh giá: người đánh giá là con người chỉ nhỉnh hơn một chút so với đoán ngẫu nhiên trong việc phân biệt clip gameplay thật với clip mô phỏng
Video gameplay đầy đủ
Thu thập dữ liệu bằng agent chơi game
- Agent RL tự động: do không thể thu thập lượng lớn dữ liệu gameplay của con người, bước đầu tiên là huấn luyện agent RL tự động để chơi game, rồi ghi lại hành động và quan sát trong các episode huấn luyện đó để dùng làm dữ liệu huấn luyện cho mô hình sinh
Huấn luyện mô hình khuếch tán sinh
- Stable Diffusion v1.4: tái sử dụng một mô hình khuếch tán nhỏ, được điều kiện hóa theo chuỗi hành động và quan sát (khung hình) trước đó
- Thêm nhiễu Gaussian: trong quá trình huấn luyện, thêm nhiễu Gaussian vào các khung hình đã mã hóa để làm hỏng các khung hình ngữ cảnh, nhờ đó mạng có thể sửa đổi thông tin được lấy mẫu từ các khung hình trước. Điều này rất quan trọng để duy trì độ ổn định thị giác trong thời gian dài
Tinh chỉnh latent decoder
- Autoencoder được huấn luyện trước của Stable Diffusion v1.4: nén các mảng 8x8 pixel thành 4 kênh latent, điều này gây ra các artifact đáng kể khi dự đoán khung hình game, đặc biệt ảnh hưởng đến các chi tiết nhỏ và HUD ở thanh dưới
- Huấn luyện decoder: để cải thiện chất lượng hình ảnh, chỉ huấn luyện decoder của latent autoencoder bằng cách tính loss MSE trên pixel của khung hình mục tiêu
Tóm tắt của GN⁺
- GameNGen là game engine đầu tiên sử dụng mô hình thần kinh để tương tác với các môi trường game phức tạp theo thời gian thực
- Thông qua mô phỏng DOOM, hệ thống cung cấp khả năng dự đoán khung hình chất lượng cao, tinh vi đến mức người đánh giá khó phân biệt giữa game thật và mô phỏng
- Tái sử dụng các mô hình sẵn có như Stable Diffusion v1.4 để tăng hiệu quả, đồng thời duy trì độ ổn định thị giác bằng các kỹ thuật như thêm nhiễu Gaussian
- Cải thiện chất lượng hình ảnh bằng tinh chỉnh latent decoder, giúp bảo toàn chi tiết trong các khung hình game
1 bình luận
Ý kiến trên Hacker News
Mô hình khuếch tán của Google dùng SD 1.4 chứa nhiều yếu tố nguyên nhân, kết quả và trình tự hơn dự kiến
Bài báo này không mô tả một hệ thống nhận đầu vào người dùng theo thời gian thực để điều chỉnh đầu ra
Điều đáng ngạc nhiên là mô hình này có thể render ở 20fps
Nỗ lực chạy Doom trên mọi thứ vẫn tiếp tục
Thật thú vị khi đọc những bình luận chỉ ra rằng việc này là vô nghĩa
So sánh cấu hình yêu cầu của Doom với Stable Diffusion v1
Vai trò của game engine là render thế giới
Dù không được cung cấp điều kiện văn bản, có thể chỉ với text prompt cũng tạo ra được game mới