Meta giới thiệu Segment Anything Model 2
(ai.meta.com)Giới thiệu Meta Segment Anything Model 2 (SAM 2)
Tính năng chính
-
Phân đoạn đối tượng trong mọi video và hình ảnh
- SAM 2 là mô hình hợp nhất đầu tiên phân đoạn đối tượng trong cả hình ảnh và video
- Có thể chọn đối tượng trong hình ảnh hoặc khung hình video bằng cách dùng nhấp chuột, hộp và mặt nạ làm đầu vào
-
Chọn và điều chỉnh đối tượng giữa các khung hình video
- Có thể dùng SAM 2 để chọn một hoặc nhiều đối tượng trong các khung hình video
- Có thể tinh chỉnh chi tiết dự đoán của mô hình bằng các prompt bổ sung
-
Hiệu năng phân đoạn mạnh mẽ cả với video chưa từng thấy
- SAM 2 thể hiện hiệu năng zero-shot mạnh mẽ ngay cả với các đối tượng, hình ảnh và video mà mô hình chưa thấy trong quá trình huấn luyện
- Có thể được dùng trong nhiều ứng dụng thực tế khác nhau
-
Tương tác và kết quả theo thời gian thực
- SAM 2 cho phép các ứng dụng tương tác thời gian thực thông qua suy luận streaming
-
Hiệu năng phân đoạn đối tượng tiên tiến nhất
- SAM 2 cho hiệu năng vượt trội hơn các mô hình tốt nhất trong phân đoạn đối tượng trên video và hình ảnh
Điểm nổi bật
- Hiệu năng tốt hơn SAM trong phân đoạn hình ảnh
- Hiệu năng vượt trội hơn các mô hình phân đoạn đối tượng video hiện có, đặc biệt ở theo dõi bộ phận
- Cần ít thời gian tương tác hơn so với các phương pháp phân đoạn video tương tác hiện có
Dùng thử trực tiếp
- Có thể theo dõi một đối tượng chỉ với một cú nhấp trên một khung hình của video và tạo ra các hiệu ứng thú vị
- Thử bản demo
Kiến trúc mô hình
- Thiết kế Meta Segment Anything Model 2
- Mô hình SAM 2 được mở rộng sang miền video bằng cách thêm mô-đun bộ nhớ theo từng phiên
- Mô-đun này ghi lại thông tin về đối tượng mục tiêu trong video, cho phép theo dõi đối tượng trên mọi khung hình video ngay cả khi đối tượng tạm thời không hiển thị
- Cũng hỗ trợ khả năng chỉnh sửa dự đoán mặt nạ dựa trên các prompt bổ sung
- Kiến trúc streaming của SAM 2 xử lý từng khung hình video một và được tổng quát hóa sang miền video một cách tự nhiên
Segment Anything Video Dataset
-
Bộ dữ liệu phân đoạn video quy mô lớn và đa dạng
- SAM 2 được huấn luyện trên tập lớn và đa dạng gồm video và masklet (mặt nạ đối tượng theo thời gian)
- Dữ liệu huấn luyện bao gồm bộ dữ liệu SA-V mã nguồn mở
-
Điểm nổi bật
- Thu thập hơn khoảng 600.000 masklet từ khoảng 51.000 video
- Các kịch bản thực tế đa dạng về địa lý tại 47 quốc gia
- Chú thích bao gồm toàn bộ đối tượng, bộ phận và các hiện tượng che khuất đầy thách thức
Công bố nghiên cứu
-
Đổi mới mở
- Công bố các mô hình Segment Anything 2 đã được tiền huấn luyện, bộ dữ liệu SA-V, demo và mã nguồn để cộng đồng nghiên cứu có thể xây dựng tiếp trên nền tảng này
-
Điểm nổi bật
- Cung cấp tính minh bạch cho dữ liệu huấn luyện SAM 2
- Ưu tiên tính đa dạng địa lý của bộ dữ liệu SA-V để đại diện cho thế giới thực
- Thực hiện đánh giá tính công bằng của SAM 2
Ứng dụng mô hình tiềm năng
-
Đầu ra có thể mở rộng
- Đầu ra phân đoạn đối tượng video của SAM 2 có thể được dùng làm đầu vào cho các hệ thống AI khác như các mô hình tạo video hiện đại
-
Đầu vào có thể mở rộng
- SAM 2 có thể chấp nhận các loại prompt đầu vào khác, cho phép các cách sáng tạo để tương tác với đối tượng trong video thời gian thực hoặc video trực tiếp
Khám phá thêm tài nguyên
Tóm tắt của GN⁺
- SAM 2 là mô hình hợp nhất để phân đoạn đối tượng trong hình ảnh và video, cung cấp khả năng tương tác thời gian thực và hiệu năng zero-shot mạnh mẽ
- Mô hình được thiết kế để dùng trong nhiều kịch bản thực tế khác nhau, đồng thời đi kèm bộ dữ liệu và mã nguồn được công bố cho cộng đồng nghiên cứu
- Mô hình cho hiệu năng vượt trội hơn các mô hình hiện có trong theo dõi và phân đoạn đối tượng video, đồng thời mang lại độ chính xác cao với ít thời gian tương tác hơn
- SAM 2 có thể kết hợp với các hệ thống AI khác như mô hình tạo video để mở ra những trải nghiệm mới
Chưa có bình luận nào.