- Segment Anything Model 2 là mô hình nhằm giải quyết bài toán phân đoạn thị giác có thể nhận prompt trên hình ảnh và video
- Mở rộng sang video bằng cách coi hình ảnh như một video chỉ có một khung hình
- Sử dụng kiến trúc transformer đơn giản với bộ nhớ luồng cho xử lý video theo thời gian thực
- Xây dựng data engine để cải thiện mô hình và dữ liệu thông qua tương tác của người dùng, từ đó thu thập bộ dữ liệu SA-V
- Mang lại hiệu năng mạnh mẽ trên nhiều tác vụ và miền thị giác khác nhau
- Cũng công bố bộ dữ liệu Segment Anything Video (SA-V)
- Gồm 50.583 video đa dạng và 642.036 mặt nạ phân đoạn không-thời gian chất lượng cao (Masklet)
- Giấy phép CC by 4.0
2 bình luận
Segment Anything Model (SAM): mô hình AI của Meta có thể tách bất kỳ đối tượng nào từ hình ảnh
SAM.cpp - triển khai Segment Anything Model của Meta bằng C/C++ thuần túy
Ý kiến trên Hacker News
Quan tâm đến việc mIoU và tốc độ xử lý ảnh được cải thiện gấp 6 lần
Nhóm Segment Anything đã phát hành mô hình SAM 2
Đã từng làm việc với SAM 1
Muốn huấn luyện một mô hình để phân loại khung hình video và tìm các khung hình cụ thể
Rất thích hàm mất mát của SAM
Bản demo web rất gọn gàng
Mô hình SAM đầu tiên là mô hình hữu ích nhất
Bản demo nghiên cứu không dùng được tại bang Illinois và Texas
Có lo ngại về việc sử dụng cho mục đích quân sự
Thành quả thật đáng kinh ngạc