5 điểm bởi GN⁺ 2025-12-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • SHARP do Apple công bố là công nghệ tổng hợp góc nhìn mới mang tính photorealistic bằng cách ước lượng biểu diễn Gaussian 3D từ một bức ảnh duy nhất
  • Xử lý bằng một lượt feedforward của mạng nơ-ron duy nhất trong dưới 1 giây trên GPU tiêu chuẩn, đồng thời hỗ trợ rendering thời gian thực
  • Biểu diễn 3D được tạo ra là biểu diễn metric có thang đo tuyệt đối, hỗ trợ di chuyển camera thực tế
  • Cho thấy hiệu năng khái quát hóa zero-shot trên nhiều bộ dữ liệu, với LPIPS giảm 25–34%, DISTS giảm 21–43% so với các mô hình trước đó
  • Tăng tốc độ tổng hợp lên 1000 lần so với trước đây, đặt ra chuẩn mực mới cho tổng hợp góc nhìn 3D từ một ảnh duy nhất

Tổng quan về SHARP

  • SHARP(Sharp Monocular View Synthesis) là một phương pháp thực hiện tổng hợp góc nhìn 3D photorealistic từ một ảnh duy nhất
    • Ước lượng theo cách hồi quy các tham số biểu diễn Gaussian 3D của cảnh từ một bức ảnh đầu vào
    • Quá trình này hoàn tất trong dưới 1 giây trên GPU tiêu chuẩn
  • Biểu diễn Gaussian 3D được tạo ra hỗ trợ rendering thời gian thực và sinh ra ảnh độ phân giải cao ở các góc nhìn lân cận
    • Đạt tốc độ rendering hơn 100 khung hình/giây
    • Duy trì cấu trúc tinh vi và chi tiết sắc nét

Đặc điểm kỹ thuật

  • Biểu diễn 3D của SHARP là biểu diễn metric bao gồm thang đo tuyệt đối, phản ánh chuyển động camera thực tế
  • Được xử lý chỉ với một lượt feedforward của mạng nơ-ron duy nhất, cho kết quả nhanh mà không cần quy trình tối ưu hóa phức tạp
  • Duy trì hiệu năng ổn định ngay cả trên các bộ dữ liệu chưa được huấn luyện nhờ khả năng khái quát hóa zero-shot

Hiệu năng và kết quả so sánh

  • Đạt state of the art trên nhiều bộ dữ liệu
    • Cải thiện chỉ số LPIPS 25–34%, chỉ số DISTS 21–43%
    • Rút ngắn thời gian tổng hợp 1000 lần so với mô hình tốt nhất trước đó
  • Những cải thiện này giúp nâng đồng thời cả hiệu quả lẫn chất lượng của tổng hợp góc nhìn 3D từ một ảnh duy nhất

Kết quả trực quan

  • SHARP sử dụng ảnh từ Unsplash làm ví dụ để trực quan hóa biểu diễn 3D được tạo ra từ một ảnh đầu vào duy nhất
    • Kết quả rendering ở các góc nhìn lân cận vẫn giữ được chi tiết sắc nét và cấu trúc tinh vi
    • Hiện thực hóa chuyển đổi góc nhìn tự nhiên bằng rendering thời gian thực

Nguồn nghiên cứu

  • Bài báo nghiên cứu được đăng trên arXiv:2512.10685
    • Tiêu đề: Sharp Monocular View Synthesis in Less Than a Second
    • Nhóm nghiên cứu: Lars Mescheder và 12 người khác
    • Đơn vị: Apple

1 bình luận

 
GN⁺ 2025-12-17
Ý kiến trên Hacker News
  • “Unsplash > Gen3C > The fly video” thực sự là một đoạn video như ác mộng
    Nếu muốn tự xem, có thể tham khảo liên kết này

    • Các công ty chắc sẽ nhìn những kết quả kinh khủng như thế này rồi lại cố phát triển nhanh hơn, nhưng tôi vẫn hy vọng video đời thực còn tồn tại
      Cuối cùng con người có lẽ sẽ đánh mất các mối quan hệ ngoài đời và bám vào những bộ đồ giải trí ảo
      Nếu may mắn thì có lẽ vẫn còn những nỗ lực gặp người ‘thật’ trong thực tế tăng cường, nhưng ngay cả bây giờ chúng ta cũng đã phụ thuộc vào công nghệ quá nhiều
      Công nghệ có tiến bộ hơn thì cũng khó nói liệu kết quả có tốt cho con người hay không
    • Nó lại mang cảm giác như thời kỳ AI ngày xưa khi “mọi thứ đều biến thành đầu chó”, nên theo một cách nào đó còn thấy đẹp
    • “san check, 1d10” — đùa rằng đây là kiểu video đáng sợ đến mức phải kiểm tra tinh thần như trong meme game kinh dị
    • “Seth Brundle has entered the chat.” — nhắc đến nhân vật chính của phim The Fly để ví bầu không khí đột biến của video
  • Tôi đã làm cho nó chạy được trên Apple Silicon
    Trong kho GitHub ml-sharp cũng có một GIF demo nhỏ
    Tôi đang cố xấp xỉ Gaussian splat mà không phải triển khai lại từ đầu, nhưng thật lòng là hơi quá sức

    • Các banding artifact trong GIF lại khiến ngọn lửa trông như đang chập chờn thật, khá thú vị
      Tôi thấy ấn tượng ở chỗ AI nhận ra cấu trúc ảnh trong ảnh và chỉ giữ phần ngọn lửa ở dạng 2D
    • Kết quả ví dụ nói thật là không mấy ấn tượng. Nhìn 20% phía dưới sẽ thấy chất lượng giảm rõ
  • “Chính xác thì cái này làm gì vậy?”

    • Đây là công nghệ dùng để tách người hoặc vật thể khỏi nền trong ảnh cũ, kiểu như phim tài liệu lịch sử, rồi tạo chuyển động có chiều sâu cho chúng
      Phần mềm này xử lý việc đó trong chưa đến 1 giây để tạo ra mô hình 3D
      Gaussian splatting đặc biệt rất ngầu
    • Nó mô phỏng hiệu ứng thị sai như thể đang đổi góc camera chỉ từ một ảnh 2D duy nhất
      Việc tách người cũng làm khá tốt, và cũng xử lý được cảnh có nhiều chủ thể
      Nguyên lý khá giống hiệu ứng Portrait Mode
    • Nó biến một bức ảnh đơn thành cảnh 3D thô, rồi chỉ cần di chuyển camera nhẹ là có thể thấy góc nhìn mới
      “Photorealistic” nghĩa là vẫn giữ được chất liệu và ánh sáng như thật
      Nó tương tự tính năng Spatial Scene trong ứng dụng Apple Photos — video demo
    • Nó suy ra một biểu diễn 3D tiềm ẩn từ một bức ảnh duy nhất, rồi tạo ra hình ảnh chân thực từ một góc nhìn hơi khác
    • Về cơ bản, nó dùng ước lượng độ sâu (depth estimation) để chia cảnh thành nhiều mặt phẳng, rồi dùng inpainting để lấp các phần bị che khuất
      Sau đó từng mặt phẳng được di chuyển để tạo hiệu ứng thị sai — giống hiệu ứng chiều sâu nền trong game 2D side-scrolling
  • Dễ thấy là trong các ví dụ hầu như không có khuôn mặt người
    Theo kinh nghiệm của tôi từ trước đến nay, các mô hình kiểu này khi nhìn ở dạng nổi khối thì nhân vật thường trông như hình nhân giấy 2D
    Không rõ mô hình này có thể thể hiện cảm giác nổi khối thật sự hay không, nhưng việc thiếu khuôn mặt người cũng khá đáng nói

  • Do Apple làm ra, nhưng lại chỉ dành cho GPU CUDA ở phần liên quan tài liệu liên quan

    • Điều thú vị là chính mô hình của Apple lại không chạy được trên MPS
      Có lẽ phải chờ thêm vài năm
    • Đầu ra Gaussian splat vẫn có thể tạo trên CPU
      Đây là một trong những kho AI dễ chạy nhất mà tôi từng thử
    • Phiên bản đã chỉnh sửa nằm ở đây
    • Giới hạn này chỉ áp dụng cho render video
      Bản thân mô hình vẫn chạy được trên GPU, CPU và MPS
    • Mô hình vẫn hoạt động mà không cần CUDA
      Bạn sẽ nhận được file .ply làm đầu ra và có thể đưa nó vào trình xem SparkJS
      CUDA chỉ cần cho việc render video side-scrolling
  • Điểm mấu chốt là “tạo ra biểu diễn 3D chân thực từ một bức ảnh duy nhất trong chưa đến 1 giây”

  • Tính năng Spatial Scene của ứng dụng Apple Photos cũng hoạt động theo cách tương tự
    video demo

    • Nhưng kết quả đôi khi tạo ra không gian mờ và thiếu tự nhiên
      Đã có lúc Content-Aware Fill của Photoshop còn làm tốt hơn
  • Có file mẫu Gaussian splat nào không?

    • Tôi đã đăng kết quả tự thử nghiệm lên kho này
      Tuy nhiên chỉ có đúng một ví dụ nên khó khái quát
  • Kết quả khá ấn tượng nhưng cho cảm giác quá sắc và hơi nhân tạo

    • Cá nhân tôi thích cả kết quả của TMPI lẫn SHARP
      Chỉ là TMPI lúc nào cũng sáng hơn, nên tôi không rõ bên nào mới chính xác hơn