- SHARP là mô hình nhận đầu vào là một ảnh đơn và chuyển nó thành biểu diễn Gaussian 3D để tạo ra các góc nhìn 3D chân thực
- Dự đoán tham số cảnh 3D chỉ với một lần suy luận mạng nơ-ron trong chưa đến 1 giây trên GPU tiêu chuẩn
- Biểu diễn 3D được tạo ra có thể render thời gian thực, đồng thời hỗ trợ di chuyển camera theo hệ mét bao gồm cả thang đo tuyệt đối
- Trên nhiều bộ dữ liệu, đạt cải thiện LPIPS 25–34%, DISTS 21–43% và tốc độ tổng hợp nhanh hơn ba bậc độ lớn so với các mô hình trước đó
- Được phát hành mã nguồn mở, cho phép nhà phát triển trực tiếp chạy dự đoán·render dựa trên CLI và tích hợp với nhiều trình render 3D khác nhau
Tổng quan về SHARP
- SHARP(Sharp Monocular View Synthesis) là một phương pháp tạo ra góc nhìn 3D chân thực như ảnh thật từ một bức ảnh đơn
- Ước lượng theo cách hồi quy các tham số của biểu diễn Gaussian 3D dựa trên ảnh đầu vào
- Đạt tốc độ xử lý dưới 1 giây chỉ với một lần feedforward pass trên GPU tiêu chuẩn
- Biểu diễn Gaussian 3D được tạo ra có thể render thời gian thực, đồng thời cung cấp hình ảnh độ phân giải cao từ các góc nhìn lân cận
- Biểu diễn này có cấu trúc theo hệ mét bao gồm cả thang đo tuyệt đối, hỗ trợ chuyển động camera thực tế
Hiệu năng và khả năng tổng quát hóa
- Kết quả thực nghiệm cho thấy SHARP thể hiện hiệu năng zero-shot generalization trên nhiều bộ dữ liệu khác nhau
- So với mô hình tốt nhất trước đó, giảm LPIPS 25–34% và DISTS 21–43%
- Thời gian tổng hợp được rút ngắn ba bậc độ lớn, tức tốc độ xử lý nhanh hơn khoảng 1000 lần so với trước đây
Cài đặt và chạy
- Có thể chạy trong môi trường Python 3.13, cài đặt phụ thuộc bằng
pip install -r requirements.txt
- Thực hiện dự đoán trong giao diện dòng lệnh (CLI) như sau
sharp predict -i 입력경로 -o 출력경로
- Ở lần chạy đầu tiên, checkpoint của mô hình sẽ được tự động tải xuống và lưu vào bộ nhớ đệm cục bộ
- Nếu tải thủ công, có thể chỉ định bằng tùy chọn
-c
- Kết quả đầu ra được lưu thành tệp
.ply ở định dạng 3D Gaussian Splat(3DGS) và tương thích với các trình render 3DGS công khai
Tính năng render
- Trong môi trường GPU CUDA, có thể render video theo quỹ đạo camera
- Dùng tùy chọn
--render để thực hiện đồng thời dự đoán và render
- Hoặc có thể render riêng bằng cách dùng kết quả trung gian (
.ply)
- Tuân theo hệ tọa độ OpenCV (x sang phải, y xuống dưới, z hướng về phía trước); khi dùng trình render bên ngoài cần hiệu chỉnh thang đo và xoay
Đánh giá và tài liệu tham khảo
- Kết quả đánh giá định lượng và định tính được trình bày trong bài báo
- Có thể xem ví dụ video so sánh tại trang dự án
Giấy phép và trích dẫn
- Mã nguồn và mô hình có thể được sử dụng theo các điều khoản trong tệp LICENSE và LICENSE_MODEL tương ứng
- Khi trích dẫn nghiên cứu, tham khảo bài báo arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
- Codebase được xây dựng dựa trên nhiều đóng góp mã nguồn mở
1 bình luận
Ý kiến trên Hacker News
Dự án SHARP của Apple lại trở thành chủ đề nóng trên HN
Cuộc thảo luận liên quan cũng đã xuất hiện trong thread trước
Tài liệu chính thức của SHARP có thể xem tại trang dự án và bài báo (arXiv)
Giấy phép mô hình ghi rõ là “chỉ dành cho mục đích nghiên cứu”, nên trên thực tế không phải mã nguồn mở
Một người dùng cho biết đã fork dự án để có thể render trên MPS, đồng thời chia sẻ kho GitHub của mình
Có người đùa rằng đây là “ngày trọng đại của VR porn”
Mô hình chỉ suy luận theo một trục, độ phân giải cũng bị giới hạn ở 768px + 2 layer, và còn không thể xử lý thời gian thực
Họ nói thêm rằng năm nay, đổi mới lớn hơn thực ra lại đến từ phía mô hình chỉnh sửa ảnh và video
Có ý kiến nói rằng “mỗi khi công ty lớn công bố mô hình thì tranh cãi về định nghĩa open source lại lặp lại”, đồng thời chỉ ra rằng khái niệm ‘source’ của mô hình AI khác với phần mềm
Họ phân tích rằng Apple dường như muốn có được uy tín học thuật nhưng vẫn giữ lại quyền lựa chọn về thương mại
Có người nhận xét rằng “mọi người thường chụp nhiều tấm cùng một đối tượng, nên về bản chất đó đã là dữ liệu ảnh lập thể rồi”
Có người nói họ ghét Conda nên còn do dự chưa muốn thử
uv, không cần CondaCó người cho biết trong kỳ nghỉ họ đang thử nghiệm các dự án liên quan như StereoCrafter và GeometryCrafter,
và nếu áp dụng vào video thì sẽ khó hơn nhiều và tốn tính toán hơn do vấn đề tính nhất quán theo thời gian (temporal consistency),
nhưng khi thử spatialize các video gia đình cũ từ thời Chiến tranh Triều Tiên thì kết quả lại tốt đến mức đáng ngạc nhiên
Liên kết StereoCrafter, Liên kết GeometryCrafter