1 điểm bởi GN⁺ 2023-12-14 | 1 bình luận | Chia sẻ qua WhatsApp

Trường bức xạ có thể truyền phát và tiết kiệm bộ nhớ (SMERF) cho việc khám phá cảnh quy mô lớn theo thời gian thực

  • Những tiến bộ trong công nghệ tổng hợp góc nhìn thời gian thực đã khiến việc kết xuất cảnh gần như ảnh thật theo thời gian thực trở nên khả thi.
  • Tồn tại sự căng thẳng giữa biểu diễn cảnh tường minh có thể raster hóa và các neural field dựa trên ray marching.
  • SMERF giới thiệu một phương pháp tổng hợp góc nhìn đạt độ chính xác hàng đầu theo thời gian thực trên các cảnh quy mô lớn.

Cách tăng cường khả năng biểu đạt để xử lý cảnh quy mô lớn

  • Mô hình hóa cảnh nhiều phòng quy mô lớn thành nhiều mô hình con độc lập, và khi kết xuất sẽ chọn mô hình con dựa trên gốc camera.
  • Để mô hình hóa các hiệu ứng phụ thuộc góc nhìn phức tạp, hệ thống bổ sung thêm các tham số MLP trì hoãn được căn chỉnh theo lưới trong từng mô hình con.
  • Mỗi mô hình con biểu diễn toàn bộ cảnh, nhưng chỉ các ô lưới được gán cho mô hình con mới được mô hình hóa ở độ phân giải cao.

Cách tận dụng chưng cất (distillation) để tối đa hóa khả năng biểu đạt

  • Cho thấy chất lượng hình ảnh có thể được cải thiện đáng kể thông qua chưng cất.
  • Trước tiên huấn luyện trường bức xạ offline hiện đại nhất (Zip-NeRF), rồi sử dụng dự đoán màu RGB của mô hình này làm tín hiệu giám sát cho mô hình của mình.
  • Giảm thiểu các giá trị mật độ thể tích của mô hình giáo viên để giảm thiểu khác biệt về trọng số kết xuất thể tích giữa mô hình giáo viên và mô hình học sinh.

Ý kiến của GN⁺

  • SMERF là một công nghệ đột phá cho phép tổng hợp góc nhìn chất lượng cao theo thời gian thực trong các cảnh quy mô lớn.
  • Công nghệ này cho phép điều hướng 6DOF trong trình duyệt web và mang lại hiệu năng thời gian thực trên nhiều thiết bị tiêu dùng phổ thông khác nhau.
  • Cách tiếp cận của SMERF cho thấy hiệu năng vượt trội hơn các công nghệ hiện có trong lĩnh vực tổng hợp góc nhìn thời gian thực, và đây là một bước tiến thú vị có thể được ứng dụng trong nhiều lĩnh vực như thực tế ảo, phát triển game và tour bất động sản trực tuyến.

1 bình luận

 
GN⁺ 2023-12-14
Ý kiến trên Hacker News
  • Có thể nhìn thấy căn bếp của phòng bên cạnh qua chiếc gương trên tường trong nhà vệ sinh ở Berlin. Có vẻ hiện tượng này xảy ra vì thuật toán đo độ sâu sử dụng thị sai, còn gương thì gây nhầm lẫn như thể đó là một cửa sổ. Mặt sau của gương tạo ra một vùng mờ trong căn bếp, nhưng vẫn có thể nhìn thấy cả hai căn phòng xuyên qua phần mờ đó. Hiệu ứng này hơi rùng rợn. Nó mang lại cảm giác như một bóng ma đi xuyên qua tường. Ngay cả trên chiếc s21fe đã 2 năm tuổi, nó vẫn hoạt động ấn tượng đến bất ngờ.
  • Rất ấn tượng khi trong bản demo Berlin, càng khám phá không gian thì càng có thêm nhiều hình ảnh được stream tới. Hiệu ứng phản chiếu trên TV cũng rất ấn tượng. Tuy nhiên, cảnh không được render cho đến khi mọi hình ảnh đều được tải xong, nên phải mất khá lâu để tải xong khoảng 40 hình đầu tiên. Tôi tự hỏi liệu có thể bắt đầu render từng phần ngay khi ảnh tới hay không, hay bắt buộc phải đợi toàn bộ trước khi thực hiện lần render lớn đầu tiên.
  • Tôi có vài câu hỏi về bản demo fulllivingroom. (Tôi thích chế độ FPS hơn)
    1. Có bao nhiêu ảnh đầu vào?
    2. Mất bao lâu để tính toán mô hình này?
    3. Mất bao lâu để chuẩn bị mô hình này trong trình duyệt với mọi level, v.v.?
    4. Đã từng thử cái này trong VR chưa?
  • Tôi tự hỏi kỹ thuật render này có liên hệ gì với các cảnh BD được tạo ra trong Cyberpunk 2077 hay không. Cách hoạt động của volume và "voxel" trông rất giống nhau.
  • Tôi biết đến công nghệ này qua Two Minutes Paper và rất mong được sử dụng nó. Ông tôi đã qua đời cách đây 2 năm, và tôi đã chụp ảnh như trong bản demo. Xin cảm ơn.
  • Tôi tự hỏi liệu có một toolchain mã nguồn mở nào để capture, xử lý và host các chuyến walkthrough 3D có thể khám phá được không (ví dụ như một Matterport mã nguồn mở).
  • Những thông tin về việc công nghệ này so sánh với 3D Gaussian Splatting như thế nào về mặt hiệu năng, chất lượng hoặc kích thước dữ liệu thật sự rất ấn tượng.
  • Điều có thể thấy từ các công nghệ này là một hình ảnh 3D đơn lẻ có thể khám phá với độ chính xác rất cao. Tuy nhiên, tôi vẫn chưa thấy gì về khả năng nhận diện tính năng và vật thể, che khuất và trích xuất. Hy vọng rằng một codec hiệu quả hơn và có thể stream được sẽ cần một cấu trúc dễ áp dụng cho việc phân tích hơn.
  • Tôi tự hỏi khi nào chúng ta sẽ thấy công nghệ này trong VR tiêu dùng. Tôi từng nghĩ là nó đã có rồi, nhưng có vẻ vẫn chưa vì các ràng buộc tính toán. Tôi cũng tò mò liệu công nghệ này có giải quyết đủ các giới hạn tính toán để chạy trên Quest 2/3 hay không, hoặc còn yếu tố nào khác cản trở việc dùng cho hai mắt.
  • Câu hỏi cho tác giả: tôi tự hỏi liệu có cơ hội nào để tái dựng mô hình của cảnh mà không cần dùng các phương pháp tối ưu hóa hay tinh chỉnh không. Các bạn đang cải thiện cách render các góc nhìn của cảnh một cách hiệu quả, nhưng bản thân cảnh vẫn là tĩnh. Việc tái dựng cảnh vẫn mất thời gian. Tôi tự hỏi liệu có cách nào đạt được hình ảnh và chi tiết tuyệt vời của RF và GS mà không phải chịu chi phí tái dựng đắt đỏ, và giờ khi việc render đã nhanh hơn với các biểu diễn mới, liệu có cách nào dùng các phương pháp CG truyền thống để tái dựng cảnh theo kiểu tham lam hay không. Xin lỗi trước nếu tôi hiểu sai, và tôi thật sự rất trân trọng công việc mà các bạn đang thực hiện.