1 điểm bởi GN⁺ 2024-08-29 | 1 bình luận | Chia sẻ qua WhatsApp

Diffusion Models Are Real-Time Game Engines

  • GameNGen: game engine đầu tiên được vận hành bằng mô hình thần kinh, cung cấp tương tác thời gian thực với các môi trường phức tạp ở chất lượng cao
  • Mô phỏng DOOM: có thể mô phỏng tương tác trò chơi kinh điển DOOM ở hơn 20 khung hình/giây trên một TPU duy nhất
  • PSNR: đạt 29.4 PSNR trong dự đoán khung hình tiếp theo, tương đương với nén JPEG có mất dữ liệu
  • Người đánh giá: người đánh giá là con người chỉ nhỉnh hơn một chút so với đoán ngẫu nhiên trong việc phân biệt clip gameplay thật với clip mô phỏng

Video gameplay đầy đủ

Thu thập dữ liệu bằng agent chơi game

  • Agent RL tự động: do không thể thu thập lượng lớn dữ liệu gameplay của con người, bước đầu tiên là huấn luyện agent RL tự động để chơi game, rồi ghi lại hành động và quan sát trong các episode huấn luyện đó để dùng làm dữ liệu huấn luyện cho mô hình sinh

Huấn luyện mô hình khuếch tán sinh

  • Stable Diffusion v1.4: tái sử dụng một mô hình khuếch tán nhỏ, được điều kiện hóa theo chuỗi hành động và quan sát (khung hình) trước đó
  • Thêm nhiễu Gaussian: trong quá trình huấn luyện, thêm nhiễu Gaussian vào các khung hình đã mã hóa để làm hỏng các khung hình ngữ cảnh, nhờ đó mạng có thể sửa đổi thông tin được lấy mẫu từ các khung hình trước. Điều này rất quan trọng để duy trì độ ổn định thị giác trong thời gian dài

Tinh chỉnh latent decoder

  • Autoencoder được huấn luyện trước của Stable Diffusion v1.4: nén các mảng 8x8 pixel thành 4 kênh latent, điều này gây ra các artifact đáng kể khi dự đoán khung hình game, đặc biệt ảnh hưởng đến các chi tiết nhỏ và HUD ở thanh dưới
  • Huấn luyện decoder: để cải thiện chất lượng hình ảnh, chỉ huấn luyện decoder của latent autoencoder bằng cách tính loss MSE trên pixel của khung hình mục tiêu

Tóm tắt của GN⁺

  • GameNGen là game engine đầu tiên sử dụng mô hình thần kinh để tương tác với các môi trường game phức tạp theo thời gian thực
  • Thông qua mô phỏng DOOM, hệ thống cung cấp khả năng dự đoán khung hình chất lượng cao, tinh vi đến mức người đánh giá khó phân biệt giữa game thật và mô phỏng
  • Tái sử dụng các mô hình sẵn có như Stable Diffusion v1.4 để tăng hiệu quả, đồng thời duy trì độ ổn định thị giác bằng các kỹ thuật như thêm nhiễu Gaussian
  • Cải thiện chất lượng hình ảnh bằng tinh chỉnh latent decoder, giúp bảo toàn chi tiết trong các khung hình game

1 bình luận

 
GN⁺ 2024-08-29
Ý kiến trên Hacker News
  • Mô hình khuếch tán của Google dùng SD 1.4 chứa nhiều yếu tố nguyên nhân, kết quả và trình tự hơn dự kiến

    • Cho tác tử chơi Doom để có được dữ liệu huấn luyện vô hạn
    • Thêm nhiễu Gaussian vào các khung hình nguồn và thưởng cho tác tử khi "sửa" các khung hình tuần tự
    • Điều quan trọng là dạy mô hình cách sửa lỗi và duy trì độ ổn định
    • Tò mò liệu có thể tinh chỉnh mô hình này theo phong cách "ảnh chân thực" hoặc ray tracing hay không
  • Bài báo này không mô tả một hệ thống nhận đầu vào người dùng theo thời gian thực để điều chỉnh đầu ra

    • Mô hình được huấn luyện trên bộ dữ liệu lớn nơi tác tử chơi Doom
    • Đầu vào của người dùng không được phản ánh vào mô phỏng theo thời gian thực
    • Bài báo bỏ qua phần giải thích về việc người dùng chơi game theo thời gian thực
  • Điều đáng ngạc nhiên là mô hình này có thể render ở 20fps

    • Trông giống như giao điểm giữa mô hình khuếch tán và RNN
    • Tương tự như việc mô hình đang mơ về một trò chơi mà nó đã chơi rất nhiều
    • Con người cũng có thể là cỗ máy dự đoán khoảnh khắc tiếp theo
  • Nỗ lực chạy Doom trên mọi thứ vẫn tiếp tục

    • Đây là phiên bản Doom có yêu cầu phần cứng cao nhất
    • Doom đang hiện diện ở cả hai đầu của phổ thông số phần cứng
  • Thật thú vị khi đọc những bình luận chỉ ra rằng việc này là vô nghĩa

    • Không phải mọi thứ đều cần được tạo ra vì lợi nhuận
    • Tạo ra thứ gì đó vì trải nghiệm học hỏi, thử thách và tò mò cũng rất quan trọng
    • Thời gian cảm thấy vui vẻ không bao giờ là lãng phí
  • So sánh cấu hình yêu cầu của Doom với Stable Diffusion v1

    • Doom: 4MB RAM, 12MB dung lượng đĩa
    • Stable Diffusion v1: 860M UNet và CLIP ViT-L/14, kích thước checkpoint 4.27GB, chạy trên TPU-v5e
    • Dù mô hình có đủ dung lượng để ghi nhớ trò chơi hàng trăm lần, vẫn còn rất nhiều chỗ để tối ưu
    • Nếu tự động hóa trò chơi đủ mức, bạn có thể sao chép lại trò chơi đó
  • Vai trò của game engine là render thế giới

    • Thông báo "cánh cửa này cần chìa khóa màu xanh" không tự trao cho người dùng chiếc chìa khóa màu xanh
    • Game engine có thể tạo game mới và sửa luật của game hiện có theo thời gian thực
    • Mô hình khuếch tán không phải là game engine
  • Dù không được cung cấp điều kiện văn bản, có thể chỉ với text prompt cũng tạo ra được game mới

    • Sử dụng RL để học cách Doom trông như thế nào và vận hành ra sao
    • Sẽ rất khó để mô phỏng một game thế giới mở với số trạng thái vô hạn