Apple ra mắt Depth Pro: Mô hình AI tái định nghĩa các quy tắc của thị giác 3D

xguru · 2024-10-07T09:51:02+09:00

Nhóm nghiên cứu AI của Apple đã phát triển mô hình mới Depth Pro, có thể thúc đẩy mạnh mẽ cách máy móc nhận thức độ sâu Công nghệ này có thể mang lại đổi mới cho nhiều ngành, từ thực tế tăng cường đến xe tự hành Những đặc điểm chính của Depth Pro Tạo bản đồ độ sâu 3D chi tiết từ một ảnh 2D duy nhất với tốc độ cực cao mà không phụ thuộc vào dữ liệu camera vốn trước đây là bắt buộc Đánh dấu một bước nhảy vọt lớn trong lĩnh vực ước lượng độ sâu đơn ảnh (monocular depth estimation) Có thể được ứng dụng rộng rãi trong các lĩnh vực mà nhận thức không gian theo thời gian thực là yếu tố quan trọng Ước lượng độ sâu nhanh và chính xác ngay cả khi không có metadata Ước lượng độ sâu đơn ảnh vốn là một bài toán khó vì theo truyền thống cần nhiều ảnh hoặc metadata như tiêu cự Tuy nhiên, Depth Pro vượt qua các yêu cầu đó để tạo bản đồ độ sâu độ phân giải cao chỉ trong 0,3 giây trên GPU tiêu chuẩn Mô hình tạo ra bản đồ 2,25 megapixel với độ rõ nét vượt trội, đồng thời nắm bắt được các chi tiết rất nhỏ như tóc hay cây cối mà những phương pháp khác dễ bỏ sót Nhóm nghiên cứu giải thích rằng: "Những đặc tính này có được nhờ nhiều đóng góp kỹ thuật, trong đó có vision transformer đa tỷ lệ hiệu quả cho dự đoán dày đặc" Kiến trúc này có thể đồng thời xử lý cả ngữ cảnh tổng thể của ảnh lẫn các chi tiết tinh vi, tạo nên một bước tiến lớn so với các mô hình trước đây vốn chậm và thiếu chính xác Điểm khác biệt của metric depth và zero-shot learning Điểm thực sự khác biệt của Depth Pro là tính năng "metric depth", cho phép ước lượng cả độ sâu tương đối lẫn độ sâu tuyệt đối Điều này có nghĩa là mô hình có thể cung cấp các giá trị đo thực tế, rất cần thiết cho các ứng dụng như thực tế tăng cường (AR), nơi vật thể ảo phải được đặt chính xác trong không gian vật lý Depth Pro không cần huấn luyện diện rộng trên các bộ dữ liệu chuyên biệt theo từng miền để đưa ra dự đoán chính xác, và điều này được gọi là "zero-shot learning" Nhờ đó, tính đa dụng của mô hình rất cao, có thể áp dụng cho nhiều loại ảnh khác nhau mà không cần dữ liệu theo từng camera vốn thường là điều bắt buộc với các mô hình ước lượng độ sâu Các tác giả giải thích rằng: "Depth Pro tạo ra bản đồ metric depth ở thang đo tuyệt đối cho các ảnh tùy ý ngoài thực tế mà không cần metadata như tham số nội tại của camera" Sự linh hoạt này mở ra nhiều khả năng, từ nâng cao trải nghiệm AR đến cải thiện khả năng phát hiện và tránh vật cản của xe tự hành Các trường hợp ứng dụng thực tế Trong thương mại điện tử, khi người tiêu dùng hướng camera điện thoại vào căn phòng, hệ thống có thể cho thấy đồ nội thất sẽ phù hợp như thế nào Với một camera duy nhất trên xe tự hành, việc tạo bản đồ độ sâu độ phân giải cao theo thời gian thực có thể góp phần cải thiện nhận thức môi trường lái xe và độ an toàn Nhóm nghiên cứu nhấn mạnh rằng: "Lý tưởng nhất là trong chế độ zero-shot này, hệ thống phải tạo ra bản đồ metric depth tái hiện chính xác hình dạng vật thể, bố cục cảnh và thang đo tuyệt đối", đồng thời nhấn mạnh tiềm năng cắt giảm thời gian và chi phí của quá trình huấn luyện mô hình AI truyền thống Giải quyết bài toán khó trong ước lượng độ sâu Một trong những thách thức khó nhất trong ước lượng độ sâu là xử lý hiện tượng được gọi là "flying pixels" "Flying pixels" là các pixel trông như đang lơ lửng trong không trung do lỗi ánh xạ độ sâu Depth Pro trực diện xử lý vấn đề này, nên đặc biệt hiệu quả cho các ứng dụng như tái dựng 3D hay môi trường ảo, nơi độ chính xác là yếu tố quan trọng nhất Depth Pro cũng thể hiện hiệu năng vượt trội trong việc bám biên, với khả năng mô tả rõ ràng vật thể và các đường viền của chúng tốt hơn các mô hình trước đó Nhóm nghiên cứu cho rằng Depth Pro "vượt trội hơn các hệ thống khác theo cấp số nhân về độ chính xác ở biên", điều rất quan trọng với các ứng dụng cần phân tách vật thể chính xác như image matting hay hình ảnh y tế Phát hành mã nguồn mở và khả năng mở rộng Apple đã phát hành Depth Pro dưới dạng mã nguồn mở để đẩy nhanh việc tiếp nhận công nghệ Mã nguồn và trọng số mô hình đã được huấn luyện trước được cung cấp trên GitHub để các nhà phát triển và nhà nghiên cứu có thể dễ dàng thử nghiệm và cải tiến Công ty cũng khuyến khích khám phá tiềm năng của công nghệ này trong nhiều lĩnh vực như robotics, sản xuất và chăm sóc sức khỏe Tương lai của AI nhận thức độ sâu Depth Pro đặt ra một chuẩn mới về tốc độ và độ chính xác trong lĩnh vực ước lượng độ sâu đơn ảnh Khả năng tạo bản đồ độ sâu chất lượng cao theo thời gian thực từ một ảnh duy nhất sẽ có tác động lớn đến nhiều ngành phụ thuộc vào nhận thức không gian Với việc được phát hành mã nguồn mở, Depth Pro nhiều khả năng sẽ trở thành công nghệ cốt lõi trong nhiều ngành, từ xe tự hành đến thực tế tăng cường

(venturebeat.com)

24 điểm bởi xguru 2024-10-07 | 5 bình luận | Chia sẻ qua WhatsApp

Nhóm nghiên cứu AI của Apple đã phát triển mô hình mới Depth Pro, có thể thúc đẩy mạnh mẽ cách máy móc nhận thức độ sâu
Công nghệ này có thể mang lại đổi mới cho nhiều ngành, từ thực tế tăng cường đến xe tự hành

Những đặc điểm chính của Depth Pro

Tạo bản đồ độ sâu 3D chi tiết từ một ảnh 2D duy nhất với tốc độ cực cao mà không phụ thuộc vào dữ liệu camera vốn trước đây là bắt buộc
Đánh dấu một bước nhảy vọt lớn trong lĩnh vực ước lượng độ sâu đơn ảnh (monocular depth estimation)
Có thể được ứng dụng rộng rãi trong các lĩnh vực mà nhận thức không gian theo thời gian thực là yếu tố quan trọng

Ước lượng độ sâu nhanh và chính xác ngay cả khi không có metadata

Ước lượng độ sâu đơn ảnh vốn là một bài toán khó vì theo truyền thống cần nhiều ảnh hoặc metadata như tiêu cự
Tuy nhiên, Depth Pro vượt qua các yêu cầu đó để tạo bản đồ độ sâu độ phân giải cao chỉ trong 0,3 giây trên GPU tiêu chuẩn
Mô hình tạo ra bản đồ 2,25 megapixel với độ rõ nét vượt trội, đồng thời nắm bắt được các chi tiết rất nhỏ như tóc hay cây cối mà những phương pháp khác dễ bỏ sót
Nhóm nghiên cứu giải thích rằng: "Những đặc tính này có được nhờ nhiều đóng góp kỹ thuật, trong đó có vision transformer đa tỷ lệ hiệu quả cho dự đoán dày đặc"
Kiến trúc này có thể đồng thời xử lý cả ngữ cảnh tổng thể của ảnh lẫn các chi tiết tinh vi, tạo nên một bước tiến lớn so với các mô hình trước đây vốn chậm và thiếu chính xác

Điểm khác biệt của metric depth và zero-shot learning

Điểm thực sự khác biệt của Depth Pro là tính năng "metric depth", cho phép ước lượng cả độ sâu tương đối lẫn độ sâu tuyệt đối
Điều này có nghĩa là mô hình có thể cung cấp các giá trị đo thực tế, rất cần thiết cho các ứng dụng như thực tế tăng cường (AR), nơi vật thể ảo phải được đặt chính xác trong không gian vật lý
Depth Pro không cần huấn luyện diện rộng trên các bộ dữ liệu chuyên biệt theo từng miền để đưa ra dự đoán chính xác, và điều này được gọi là "zero-shot learning"
Nhờ đó, tính đa dụng của mô hình rất cao, có thể áp dụng cho nhiều loại ảnh khác nhau mà không cần dữ liệu theo từng camera vốn thường là điều bắt buộc với các mô hình ước lượng độ sâu
Các tác giả giải thích rằng: "Depth Pro tạo ra bản đồ metric depth ở thang đo tuyệt đối cho các ảnh tùy ý ngoài thực tế mà không cần metadata như tham số nội tại của camera"
Sự linh hoạt này mở ra nhiều khả năng, từ nâng cao trải nghiệm AR đến cải thiện khả năng phát hiện và tránh vật cản của xe tự hành

Các trường hợp ứng dụng thực tế

Trong thương mại điện tử, khi người tiêu dùng hướng camera điện thoại vào căn phòng, hệ thống có thể cho thấy đồ nội thất sẽ phù hợp như thế nào
Với một camera duy nhất trên xe tự hành, việc tạo bản đồ độ sâu độ phân giải cao theo thời gian thực có thể góp phần cải thiện nhận thức môi trường lái xe và độ an toàn
Nhóm nghiên cứu nhấn mạnh rằng: "Lý tưởng nhất là trong chế độ zero-shot này, hệ thống phải tạo ra bản đồ metric depth tái hiện chính xác hình dạng vật thể, bố cục cảnh và thang đo tuyệt đối", đồng thời nhấn mạnh tiềm năng cắt giảm thời gian và chi phí của quá trình huấn luyện mô hình AI truyền thống

Giải quyết bài toán khó trong ước lượng độ sâu

Một trong những thách thức khó nhất trong ước lượng độ sâu là xử lý hiện tượng được gọi là "flying pixels"
- "Flying pixels" là các pixel trông như đang lơ lửng trong không trung do lỗi ánh xạ độ sâu
Depth Pro trực diện xử lý vấn đề này, nên đặc biệt hiệu quả cho các ứng dụng như tái dựng 3D hay môi trường ảo, nơi độ chính xác là yếu tố quan trọng nhất
Depth Pro cũng thể hiện hiệu năng vượt trội trong việc bám biên, với khả năng mô tả rõ ràng vật thể và các đường viền của chúng tốt hơn các mô hình trước đó
Nhóm nghiên cứu cho rằng Depth Pro "vượt trội hơn các hệ thống khác theo cấp số nhân về độ chính xác ở biên", điều rất quan trọng với các ứng dụng cần phân tách vật thể chính xác như image matting hay hình ảnh y tế

Phát hành mã nguồn mở và khả năng mở rộng

Apple đã phát hành Depth Pro dưới dạng mã nguồn mở để đẩy nhanh việc tiếp nhận công nghệ
Mã nguồn và trọng số mô hình đã được huấn luyện trước được cung cấp trên GitHub để các nhà phát triển và nhà nghiên cứu có thể dễ dàng thử nghiệm và cải tiến
Công ty cũng khuyến khích khám phá tiềm năng của công nghệ này trong nhiều lĩnh vực như robotics, sản xuất và chăm sóc sức khỏe

Tương lai của AI nhận thức độ sâu

Depth Pro đặt ra một chuẩn mới về tốc độ và độ chính xác trong lĩnh vực ước lượng độ sâu đơn ảnh
Khả năng tạo bản đồ độ sâu chất lượng cao theo thời gian thực từ một ảnh duy nhất sẽ có tác động lớn đến nhiều ngành phụ thuộc vào nhận thức không gian
Với việc được phát hành mã nguồn mở, Depth Pro nhiều khả năng sẽ trở thành công nghệ cốt lõi trong nhiều ngành, từ xe tự hành đến thực tế tăng cường

5 bình luận

plaaat0102 2024-10-07

Hơi có cảm giác là đáng ra phải ghi Meta thay vì Apple..

savvykang 2024-10-07

Làm tôi nhớ đến Microsoft Photosynth (2006)

is9117 2024-10-07

Theo tôi được biết, tại Tesla AI họ đang giải quyết bài toán nhận thức độ sâu này bằng cách triển khai mô hình occupancy network tận dụng multi-view và NeRF. Cũng khiến tôi tò mò không biết các công ty thương mại như vậy sẽ ứng dụng mô hình này ra sao và tiếp tục cải thiện nó như thế nào.

nemorize 2024-10-07

wow..

eususu 2024-10-07

Khi LLM đang cực kỳ hot mà Apple lại im hơi lặng tiếng nên tôi còn tự hỏi rốt cuộc họ đang làm gì, hóa ra là đang đào sâu vào mảng này.