SAM 2: Segment Anything cho hình ảnh và video

(github.com/facebookresearch)

5 điểm bởi GN⁺ 2024-07-30 | 2 bình luận | Chia sẻ qua WhatsApp

Segment Anything Model 2 là mô hình nhằm giải quyết bài toán phân đoạn thị giác có thể nhận prompt trên hình ảnh và video
- Mở rộng sang video bằng cách coi hình ảnh như một video chỉ có một khung hình
- Sử dụng kiến trúc transformer đơn giản với bộ nhớ luồng cho xử lý video theo thời gian thực
- Xây dựng data engine để cải thiện mô hình và dữ liệu thông qua tương tác của người dùng, từ đó thu thập bộ dữ liệu SA-V
Mang lại hiệu năng mạnh mẽ trên nhiều tác vụ và miền thị giác khác nhau
Cũng công bố bộ dữ liệu Segment Anything Video (SA-V)
- Gồm 50.583 video đa dạng và 642.036 mặt nạ phân đoạn không-thời gian chất lượng cao (Masklet)
- Giấy phép CC by 4.0

2 bình luận

xguru 2024-07-31

Segment Anything Model (SAM): mô hình AI của Meta có thể tách bất kỳ đối tượng nào từ hình ảnh
SAM.cpp - triển khai Segment Anything Model của Meta bằng C/C++ thuần túy

GN⁺ 2024-07-30

Ý kiến trên Hacker News

Quan tâm đến việc mIoU và tốc độ xử lý ảnh được cải thiện gấp 6 lần
- Mức tăng tốc chủ yếu nhờ bộ mã hóa hiệu quả hơn
- Với nhiều lần phân đoạn trên cùng một ảnh, lợi thế có thể không nhiều
- Cần so sánh với SAM gốc
Nhóm Segment Anything đã phát hành mô hình SAM 2
- Đây là mô hình hợp nhất đầu tiên cho phân đoạn đối tượng theo thời gian thực
- Đã công bố mã nguồn, mô hình, bộ dữ liệu, bài báo nghiên cứu và bản demo
- Mong chờ xem người dùng sẽ tạo ra điều gì
Đã từng làm việc với SAM 1
- Tóm tắt bài báo về SAM 2:
  - Được huấn luyện trong 108 giờ bằng 256 GPU A100
  - Chi phí huấn luyện khoảng $50k, khá rẻ
  - Bộ dữ liệu SA-V mới gồm 50k video
  - Sử dụng phương pháp bootstrap gán nhãn 3 giai đoạn
  - Đã bổ sung cơ chế memory attention
Muốn huấn luyện một mô hình để phân loại khung hình video và tìm các khung hình cụ thể
- Tò mò liệu có thể dùng SAM-2 làm mô hình nền tảng hay không
Rất thích hàm mất mát của SAM
- Gửi lời cảm ơn
Bản demo web rất gọn gàng
- Khi chọn từng chiếc giày làm đối tượng riêng lẻ, mô hình vẫn phân đoạn được ngay cả khi chúng chồng lấn lên nhau
Mô hình SAM đầu tiên là mô hình hữu ích nhất
- Rất mong được thử SAM2
Bản demo nghiên cứu không dùng được tại bang Illinois và Texas
- Tò mò về lý do
Có lo ngại về việc sử dụng cho mục đích quân sự
Thành quả thật đáng kinh ngạc

SAM 2: Segment Anything cho hình ảnh và video

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News