- SHARP do Apple công bố là công nghệ tổng hợp góc nhìn mới mang tính photorealistic bằng cách ước lượng biểu diễn Gaussian 3D từ một bức ảnh duy nhất
- Xử lý bằng một lượt feedforward của mạng nơ-ron duy nhất trong dưới 1 giây trên GPU tiêu chuẩn, đồng thời hỗ trợ rendering thời gian thực
- Biểu diễn 3D được tạo ra là biểu diễn metric có thang đo tuyệt đối, hỗ trợ di chuyển camera thực tế
- Cho thấy hiệu năng khái quát hóa zero-shot trên nhiều bộ dữ liệu, với LPIPS giảm 25–34%, DISTS giảm 21–43% so với các mô hình trước đó
- Tăng tốc độ tổng hợp lên 1000 lần so với trước đây, đặt ra chuẩn mực mới cho tổng hợp góc nhìn 3D từ một ảnh duy nhất
Tổng quan về SHARP
- SHARP(Sharp Monocular View Synthesis) là một phương pháp thực hiện tổng hợp góc nhìn 3D photorealistic từ một ảnh duy nhất
- Ước lượng theo cách hồi quy các tham số biểu diễn Gaussian 3D của cảnh từ một bức ảnh đầu vào
- Quá trình này hoàn tất trong dưới 1 giây trên GPU tiêu chuẩn
- Biểu diễn Gaussian 3D được tạo ra hỗ trợ rendering thời gian thực và sinh ra ảnh độ phân giải cao ở các góc nhìn lân cận
- Đạt tốc độ rendering hơn 100 khung hình/giây
- Duy trì cấu trúc tinh vi và chi tiết sắc nét
Đặc điểm kỹ thuật
- Biểu diễn 3D của SHARP là biểu diễn metric bao gồm thang đo tuyệt đối, phản ánh chuyển động camera thực tế
- Được xử lý chỉ với một lượt feedforward của mạng nơ-ron duy nhất, cho kết quả nhanh mà không cần quy trình tối ưu hóa phức tạp
- Duy trì hiệu năng ổn định ngay cả trên các bộ dữ liệu chưa được huấn luyện nhờ khả năng khái quát hóa zero-shot
Hiệu năng và kết quả so sánh
- Đạt state of the art trên nhiều bộ dữ liệu
- Cải thiện chỉ số LPIPS 25–34%, chỉ số DISTS 21–43%
- Rút ngắn thời gian tổng hợp 1000 lần so với mô hình tốt nhất trước đó
- Những cải thiện này giúp nâng đồng thời cả hiệu quả lẫn chất lượng của tổng hợp góc nhìn 3D từ một ảnh duy nhất
Kết quả trực quan
- SHARP sử dụng ảnh từ Unsplash làm ví dụ để trực quan hóa biểu diễn 3D được tạo ra từ một ảnh đầu vào duy nhất
- Kết quả rendering ở các góc nhìn lân cận vẫn giữ được chi tiết sắc nét và cấu trúc tinh vi
- Hiện thực hóa chuyển đổi góc nhìn tự nhiên bằng rendering thời gian thực
Nguồn nghiên cứu
- Bài báo nghiên cứu được đăng trên arXiv:2512.10685
- Tiêu đề: Sharp Monocular View Synthesis in Less Than a Second
- Nhóm nghiên cứu: Lars Mescheder và 12 người khác
- Đơn vị: Apple
1 bình luận
Ý kiến trên Hacker News
“Unsplash > Gen3C > The fly video” thực sự là một đoạn video như ác mộng
Nếu muốn tự xem, có thể tham khảo liên kết này
Cuối cùng con người có lẽ sẽ đánh mất các mối quan hệ ngoài đời và bám vào những bộ đồ giải trí ảo
Nếu may mắn thì có lẽ vẫn còn những nỗ lực gặp người ‘thật’ trong thực tế tăng cường, nhưng ngay cả bây giờ chúng ta cũng đã phụ thuộc vào công nghệ quá nhiều
Công nghệ có tiến bộ hơn thì cũng khó nói liệu kết quả có tốt cho con người hay không
Tôi đã làm cho nó chạy được trên Apple Silicon
Trong kho GitHub ml-sharp cũng có một GIF demo nhỏ
Tôi đang cố xấp xỉ Gaussian splat mà không phải triển khai lại từ đầu, nhưng thật lòng là hơi quá sức
Tôi thấy ấn tượng ở chỗ AI nhận ra cấu trúc ảnh trong ảnh và chỉ giữ phần ngọn lửa ở dạng 2D
“Chính xác thì cái này làm gì vậy?”
Phần mềm này xử lý việc đó trong chưa đến 1 giây để tạo ra mô hình 3D
Gaussian splatting đặc biệt rất ngầu
Việc tách người cũng làm khá tốt, và cũng xử lý được cảnh có nhiều chủ thể
Nguyên lý khá giống hiệu ứng Portrait Mode
“Photorealistic” nghĩa là vẫn giữ được chất liệu và ánh sáng như thật
Nó tương tự tính năng Spatial Scene trong ứng dụng Apple Photos — video demo
Sau đó từng mặt phẳng được di chuyển để tạo hiệu ứng thị sai — giống hiệu ứng chiều sâu nền trong game 2D side-scrolling
Dễ thấy là trong các ví dụ hầu như không có khuôn mặt người
Theo kinh nghiệm của tôi từ trước đến nay, các mô hình kiểu này khi nhìn ở dạng nổi khối thì nhân vật thường trông như hình nhân giấy 2D
Không rõ mô hình này có thể thể hiện cảm giác nổi khối thật sự hay không, nhưng việc thiếu khuôn mặt người cũng khá đáng nói
Depth Pro GitHub / Giải thích trên LearnOpenCV
Do Apple làm ra, nhưng lại chỉ dành cho GPU CUDA ở phần liên quan tài liệu liên quan
Có lẽ phải chờ thêm vài năm
Đây là một trong những kho AI dễ chạy nhất mà tôi từng thử
Bản thân mô hình vẫn chạy được trên GPU, CPU và MPS
Bạn sẽ nhận được file
.plylàm đầu ra và có thể đưa nó vào trình xem SparkJSCUDA chỉ cần cho việc render video side-scrolling
Điểm mấu chốt là “tạo ra biểu diễn 3D chân thực từ một bức ảnh duy nhất trong chưa đến 1 giây”
Tính năng Spatial Scene của ứng dụng Apple Photos cũng hoạt động theo cách tương tự
video demo
Đã có lúc Content-Aware Fill của Photoshop còn làm tốt hơn
Có file mẫu Gaussian splat nào không?
Tuy nhiên chỉ có đúng một ví dụ nên khó khái quát
Kết quả khá ấn tượng nhưng cho cảm giác quá sắc và hơi nhân tạo
Chỉ là TMPI lúc nào cũng sáng hơn, nên tôi không rõ bên nào mới chính xác hơn