6 điểm bởi GN⁺ 2025-12-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • SHARP là mô hình nhận đầu vào là một ảnh đơn và chuyển nó thành biểu diễn Gaussian 3D để tạo ra các góc nhìn 3D chân thực
  • Dự đoán tham số cảnh 3D chỉ với một lần suy luận mạng nơ-ron trong chưa đến 1 giây trên GPU tiêu chuẩn
  • Biểu diễn 3D được tạo ra có thể render thời gian thực, đồng thời hỗ trợ di chuyển camera theo hệ mét bao gồm cả thang đo tuyệt đối
  • Trên nhiều bộ dữ liệu, đạt cải thiện LPIPS 25–34%, DISTS 21–43%tốc độ tổng hợp nhanh hơn ba bậc độ lớn so với các mô hình trước đó
  • Được phát hành mã nguồn mở, cho phép nhà phát triển trực tiếp chạy dự đoán·render dựa trên CLI và tích hợp với nhiều trình render 3D khác nhau

Tổng quan về SHARP

  • SHARP(Sharp Monocular View Synthesis) là một phương pháp tạo ra góc nhìn 3D chân thực như ảnh thật từ một bức ảnh đơn
    • Ước lượng theo cách hồi quy các tham số của biểu diễn Gaussian 3D dựa trên ảnh đầu vào
    • Đạt tốc độ xử lý dưới 1 giây chỉ với một lần feedforward pass trên GPU tiêu chuẩn
  • Biểu diễn Gaussian 3D được tạo ra có thể render thời gian thực, đồng thời cung cấp hình ảnh độ phân giải cao từ các góc nhìn lân cận
  • Biểu diễn này có cấu trúc theo hệ mét bao gồm cả thang đo tuyệt đối, hỗ trợ chuyển động camera thực tế

Hiệu năng và khả năng tổng quát hóa

  • Kết quả thực nghiệm cho thấy SHARP thể hiện hiệu năng zero-shot generalization trên nhiều bộ dữ liệu khác nhau
  • So với mô hình tốt nhất trước đó, giảm LPIPS 25–34%DISTS 21–43%
  • Thời gian tổng hợp được rút ngắn ba bậc độ lớn, tức tốc độ xử lý nhanh hơn khoảng 1000 lần so với trước đây

Cài đặt và chạy

  • Có thể chạy trong môi trường Python 3.13, cài đặt phụ thuộc bằng pip install -r requirements.txt
  • Thực hiện dự đoán trong giao diện dòng lệnh (CLI) như sau
    • sharp predict -i 입력경로 -o 출력경로
    • Ở lần chạy đầu tiên, checkpoint của mô hình sẽ được tự động tải xuống và lưu vào bộ nhớ đệm cục bộ
    • Nếu tải thủ công, có thể chỉ định bằng tùy chọn -c
  • Kết quả đầu ra được lưu thành tệp .ply ở định dạng 3D Gaussian Splat(3DGS) và tương thích với các trình render 3DGS công khai

Tính năng render

  • Trong môi trường GPU CUDA, có thể render video theo quỹ đạo camera
    • Dùng tùy chọn --render để thực hiện đồng thời dự đoán và render
    • Hoặc có thể render riêng bằng cách dùng kết quả trung gian (.ply)
  • Tuân theo hệ tọa độ OpenCV (x sang phải, y xuống dưới, z hướng về phía trước); khi dùng trình render bên ngoài cần hiệu chỉnh thang đo và xoay

Đánh giá và tài liệu tham khảo

  • Kết quả đánh giá định lượng và định tính được trình bày trong bài báo
  • Có thể xem ví dụ video so sánh tại trang dự án

Giấy phép và trích dẫn

  • Mã nguồn và mô hình có thể được sử dụng theo các điều khoản trong tệp LICENSELICENSE_MODEL tương ứng
  • Khi trích dẫn nghiên cứu, tham khảo bài báo arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
  • Codebase được xây dựng dựa trên nhiều đóng góp mã nguồn mở

1 bình luận

 
GN⁺ 2025-12-28
Ý kiến trên Hacker News
  • Dự án SHARP của Apple lại trở thành chủ đề nóng trên HN
    Cuộc thảo luận liên quan cũng đã xuất hiện trong thread trước

    • Bài viết từng được giới thiệu với tiêu đề “SHARP, an approach to photorealistic view synthesis from a single image” được chia sẻ lại
    • Có ý kiến chỉ ra rằng hướng dẫn cài đặt trên GitHub cho các dự án AI thường không hoạt động đúng. Phần lớn đều giả định môi trường phát triển đã được thiết lập sẵn, nên rào cản gia nhập với người mới khá cao
  • Tài liệu chính thức của SHARP có thể xem tại trang dự ánbài báo (arXiv)

    • Một người dùng nói rằng video demo của Bradley ấn tượng hơn nhiều so với trang chính thức
    • Một người khác bày tỏ thắc mắc về sự thay đổi trong cơ cấu nhân lực STEM, khi thấy các tác giả dường như đều có xuất thân nước ngoài
  • Giấy phép mô hình ghi rõ là “chỉ dành cho mục đích nghiên cứu”, nên trên thực tế không phải mã nguồn mở

    • README cũng không hề nói đây là mã nguồn mở, mà chỉ nói nó được xây dựng dựa trên nền tảng mã nguồn mở
    • Có ý kiến cho rằng Meta đã làm méo mó ý nghĩa của “open source”, khiến giờ đây nhiều người có xu hướng hiểu đơn giản là công khai trọng số = mã nguồn mở
    • Một người dùng nói rằng “trọng số có thể không thuộc đối tượng chịu bản quyền”, nên mấu chốt cuối cùng là hiệu lực pháp lý mà Apple có thể thực thi
    • Có vẻ sự nhầm lẫn xuất phát từ việc giấy phép chính không nêu rõ các giới hạn
    • Có người còn nói sẽ “nghiên cứu xem liệu có thể tạo ra sản phẩm sinh lời từ cái này hay không”
  • Một người dùng cho biết đã fork dự án để có thể render trên MPS, đồng thời chia sẻ kho GitHub của mình

    • Một người khác đáp lại rằng “trông ổn đấy” và gửi lời cảm ơn
  • Có người đùa rằng đây là “ngày trọng đại của VR porn”

    • Đáp lại, người khác giải thích rằng trên thực tế giới hạn chất lượng của nội dung VR vẫn rất rõ ràng.
      Mô hình chỉ suy luận theo một trục, độ phân giải cũng bị giới hạn ở 768px + 2 layer, và còn không thể xử lý thời gian thực
      Họ nói thêm rằng năm nay, đổi mới lớn hơn thực ra lại đến từ phía mô hình chỉnh sửa ảnh và video
    • Một người khác lại đùa rằng cụm từ “Gaussian splat” nghe như mang một nghĩa hoàn toàn khác
  • Có ý kiến nói rằng “mỗi khi công ty lớn công bố mô hình thì tranh cãi về định nghĩa open source lại lặp lại”, đồng thời chỉ ra rằng khái niệm ‘source’ của mô hình AI khác với phần mềm
    Họ phân tích rằng Apple dường như muốn có được uy tín học thuật nhưng vẫn giữ lại quyền lựa chọn về thương mại

    • Một người khác nói “công nghệ này tự nó đã rất ấn tượng, thật tiếc khi tranh cãi về giấy phép lại chiếm vị trí đầu”, đồng thời đánh giá điểm mạnh thật sự của Apple là khả năng dùng công nghệ này để trải nghiệm ảnh cũ trong VR
    • Một người khác đùa rằng cách diễn đạt “which isn’t unsurprising” quá vòng vèo
    • Kiểu hài hước như “không ngạc nhiên đến mức thành ra lại ngạc nhiên” cũng tiếp tục xuất hiện
  • Có người nhận xét rằng “mọi người thường chụp nhiều tấm cùng một đối tượng, nên về bản chất đó đã là dữ liệu ảnh lập thể rồi”

    • Một người khác bổ sung rằng “các frame trong Live Photo cũng có thể tận dụng được”
  • Có người nói họ ghét Conda nên còn do dự chưa muốn thử

    • Người khác giới thiệu pixi, đồng thời chia sẻ cụ thể rằng thật ra chỉ cần Python 3.13 và uv, không cần Conda
    • Một người khác đồng tình rằng “đó không phải là kiểu ghét vô lý đâu”
  • Có người cho biết trong kỳ nghỉ họ đang thử nghiệm các dự án liên quan như StereoCrafterGeometryCrafter,
    và nếu áp dụng vào video thì sẽ khó hơn nhiều và tốn tính toán hơn do vấn đề tính nhất quán theo thời gian (temporal consistency),
    nhưng khi thử spatialize các video gia đình cũ từ thời Chiến tranh Triều Tiên thì kết quả lại tốt đến mức đáng ngạc nhiên
    Liên kết StereoCrafter, Liên kết GeometryCrafter

    • Một người khác trả lời rằng “nhất định tôi muốn xem ví dụ đó”