SHARP - Phương pháp tổng hợp góc nhìn photorealistic từ một ảnh duy nhất

(apple.github.io)

5 điểm bởi GN⁺ 2025-12-17 | 1 bình luận | Chia sẻ qua WhatsApp

SHARP do Apple công bố là công nghệ tổng hợp góc nhìn mới mang tính photorealistic bằng cách ước lượng biểu diễn Gaussian 3D từ một bức ảnh duy nhất
Xử lý bằng một lượt feedforward của mạng nơ-ron duy nhất trong dưới 1 giây trên GPU tiêu chuẩn, đồng thời hỗ trợ rendering thời gian thực
Biểu diễn 3D được tạo ra là biểu diễn metric có thang đo tuyệt đối, hỗ trợ di chuyển camera thực tế
Cho thấy hiệu năng khái quát hóa zero-shot trên nhiều bộ dữ liệu, với LPIPS giảm 25–34%, DISTS giảm 21–43% so với các mô hình trước đó
Tăng tốc độ tổng hợp lên 1000 lần so với trước đây, đặt ra chuẩn mực mới cho tổng hợp góc nhìn 3D từ một ảnh duy nhất

Tổng quan về SHARP

SHARP(Sharp Monocular View Synthesis) là một phương pháp thực hiện tổng hợp góc nhìn 3D photorealistic từ một ảnh duy nhất
- Ước lượng theo cách hồi quy các tham số biểu diễn Gaussian 3D của cảnh từ một bức ảnh đầu vào
- Quá trình này hoàn tất trong dưới 1 giây trên GPU tiêu chuẩn
Biểu diễn Gaussian 3D được tạo ra hỗ trợ rendering thời gian thực và sinh ra ảnh độ phân giải cao ở các góc nhìn lân cận
- Đạt tốc độ rendering hơn 100 khung hình/giây
- Duy trì cấu trúc tinh vi và chi tiết sắc nét

Đặc điểm kỹ thuật

Biểu diễn 3D của SHARP là biểu diễn metric bao gồm thang đo tuyệt đối, phản ánh chuyển động camera thực tế
Được xử lý chỉ với một lượt feedforward của mạng nơ-ron duy nhất, cho kết quả nhanh mà không cần quy trình tối ưu hóa phức tạp
Duy trì hiệu năng ổn định ngay cả trên các bộ dữ liệu chưa được huấn luyện nhờ khả năng khái quát hóa zero-shot

Hiệu năng và kết quả so sánh

Đạt state of the art trên nhiều bộ dữ liệu
- Cải thiện chỉ số LPIPS 25–34%, chỉ số DISTS 21–43%
- Rút ngắn thời gian tổng hợp 1000 lần so với mô hình tốt nhất trước đó
Những cải thiện này giúp nâng đồng thời cả hiệu quả lẫn chất lượng của tổng hợp góc nhìn 3D từ một ảnh duy nhất

Kết quả trực quan

SHARP sử dụng ảnh từ Unsplash làm ví dụ để trực quan hóa biểu diễn 3D được tạo ra từ một ảnh đầu vào duy nhất
- Kết quả rendering ở các góc nhìn lân cận vẫn giữ được chi tiết sắc nét và cấu trúc tinh vi
- Hiện thực hóa chuyển đổi góc nhìn tự nhiên bằng rendering thời gian thực

Nguồn nghiên cứu

Bài báo nghiên cứu được đăng trên arXiv:2512.10685
- Tiêu đề: Sharp Monocular View Synthesis in Less Than a Second
- Nhóm nghiên cứu: Lars Mescheder và 12 người khác
- Đơn vị: Apple

1 bình luận

GN⁺ 2025-12-17

Ý kiến trên Hacker News

“Unsplash > Gen3C > The fly video” thực sự là một đoạn video như ác mộng
Nếu muốn tự xem, có thể tham khảo liên kết này
- Các công ty chắc sẽ nhìn những kết quả kinh khủng như thế này rồi lại cố phát triển nhanh hơn, nhưng tôi vẫn hy vọng video đời thực còn tồn tại
  Cuối cùng con người có lẽ sẽ đánh mất các mối quan hệ ngoài đời và bám vào những bộ đồ giải trí ảo
  Nếu may mắn thì có lẽ vẫn còn những nỗ lực gặp người ‘thật’ trong thực tế tăng cường, nhưng ngay cả bây giờ chúng ta cũng đã phụ thuộc vào công nghệ quá nhiều
  Công nghệ có tiến bộ hơn thì cũng khó nói liệu kết quả có tốt cho con người hay không
- Nó lại mang cảm giác như thời kỳ AI ngày xưa khi “mọi thứ đều biến thành đầu chó”, nên theo một cách nào đó còn thấy đẹp
- “san check, 1d10” — đùa rằng đây là kiểu video đáng sợ đến mức phải kiểm tra tinh thần như trong meme game kinh dị
- “Seth Brundle has entered the chat.” — nhắc đến nhân vật chính của phim The Fly để ví bầu không khí đột biến của video
Tôi đã làm cho nó chạy được trên Apple Silicon
Trong kho GitHub ml-sharp cũng có một GIF demo nhỏ
Tôi đang cố xấp xỉ Gaussian splat mà không phải triển khai lại từ đầu, nhưng thật lòng là hơi quá sức
- Các banding artifact trong GIF lại khiến ngọn lửa trông như đang chập chờn thật, khá thú vị
  Tôi thấy ấn tượng ở chỗ AI nhận ra cấu trúc ảnh trong ảnh và chỉ giữ phần ngọn lửa ở dạng 2D
- Kết quả ví dụ nói thật là không mấy ấn tượng. Nhìn 20% phía dưới sẽ thấy chất lượng giảm rõ
“Chính xác thì cái này làm gì vậy?”
- Đây là công nghệ dùng để tách người hoặc vật thể khỏi nền trong ảnh cũ, kiểu như phim tài liệu lịch sử, rồi tạo chuyển động có chiều sâu cho chúng
  Phần mềm này xử lý việc đó trong chưa đến 1 giây để tạo ra mô hình 3D
  Gaussian splatting đặc biệt rất ngầu
- Nó mô phỏng hiệu ứng thị sai như thể đang đổi góc camera chỉ từ một ảnh 2D duy nhất
  Việc tách người cũng làm khá tốt, và cũng xử lý được cảnh có nhiều chủ thể
  Nguyên lý khá giống hiệu ứng Portrait Mode
- Nó biến một bức ảnh đơn thành cảnh 3D thô, rồi chỉ cần di chuyển camera nhẹ là có thể thấy góc nhìn mới
  “Photorealistic” nghĩa là vẫn giữ được chất liệu và ánh sáng như thật
  Nó tương tự tính năng Spatial Scene trong ứng dụng Apple Photos — video demo
- Nó suy ra một biểu diễn 3D tiềm ẩn từ một bức ảnh duy nhất, rồi tạo ra hình ảnh chân thực từ một góc nhìn hơi khác
- Về cơ bản, nó dùng ước lượng độ sâu (depth estimation) để chia cảnh thành nhiều mặt phẳng, rồi dùng inpainting để lấp các phần bị che khuất
  Sau đó từng mặt phẳng được di chuyển để tạo hiệu ứng thị sai — giống hiệu ứng chiều sâu nền trong game 2D side-scrolling
Dễ thấy là trong các ví dụ hầu như không có khuôn mặt người
Theo kinh nghiệm của tôi từ trước đến nay, các mô hình kiểu này khi nhìn ở dạng nổi khối thì nhân vật thường trông như hình nhân giấy 2D
Không rõ mô hình này có thể thể hiện cảm giác nổi khối thật sự hay không, nhưng việc thiếu khuôn mặt người cũng khá đáng nói
- Apple đang dùng mô hình Depth Pro cho ước lượng độ sâu, và nghe nói phần thể hiện khuôn mặt làm khá ổn
  Depth Pro GitHub / Giải thích trên LearnOpenCV
Do Apple làm ra, nhưng lại chỉ dành cho GPU CUDA ở phần liên quan tài liệu liên quan
- Điều thú vị là chính mô hình của Apple lại không chạy được trên MPS
  Có lẽ phải chờ thêm vài năm
- Đầu ra Gaussian splat vẫn có thể tạo trên CPU
  Đây là một trong những kho AI dễ chạy nhất mà tôi từng thử
- Phiên bản đã chỉnh sửa nằm ở đây
- Giới hạn này chỉ áp dụng cho render video
  Bản thân mô hình vẫn chạy được trên GPU, CPU và MPS
- Mô hình vẫn hoạt động mà không cần CUDA
  Bạn sẽ nhận được file .ply làm đầu ra và có thể đưa nó vào trình xem SparkJS
  CUDA chỉ cần cho việc render video side-scrolling
Điểm mấu chốt là “tạo ra biểu diễn 3D chân thực từ một bức ảnh duy nhất trong chưa đến 1 giây”
Tính năng Spatial Scene của ứng dụng Apple Photos cũng hoạt động theo cách tương tự
video demo
- Nhưng kết quả đôi khi tạo ra không gian mờ và thiếu tự nhiên
  Đã có lúc Content-Aware Fill của Photoshop còn làm tốt hơn
Có file mẫu Gaussian splat nào không?
- Tôi đã đăng kết quả tự thử nghiệm lên kho này
  Tuy nhiên chỉ có đúng một ví dụ nên khó khái quát
Kết quả khá ấn tượng nhưng cho cảm giác quá sắc và hơi nhân tạo
- Cá nhân tôi thích cả kết quả của TMPI lẫn SHARP
  Chỉ là TMPI lúc nào cũng sáng hơn, nên tôi không rõ bên nào mới chính xác hơn

SHARP - Phương pháp tổng hợp góc nhìn photorealistic từ một ảnh duy nhất

Tổng quan về SHARP

Đặc điểm kỹ thuật

Hiệu năng và kết quả so sánh

Kết quả trực quan

Nguồn nghiên cứu

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News