5 điểm bởi GN⁺ 2024-07-30 | 2 bình luận | Chia sẻ qua WhatsApp
  • Segment Anything Model 2 là mô hình nhằm giải quyết bài toán phân đoạn thị giác có thể nhận prompt trên hình ảnh và video
    • Mở rộng sang video bằng cách coi hình ảnh như một video chỉ có một khung hình
    • Sử dụng kiến trúc transformer đơn giản với bộ nhớ luồng cho xử lý video theo thời gian thực
    • Xây dựng data engine để cải thiện mô hình và dữ liệu thông qua tương tác của người dùng, từ đó thu thập bộ dữ liệu SA-V
  • Mang lại hiệu năng mạnh mẽ trên nhiều tác vụ và miền thị giác khác nhau
  • Cũng công bố bộ dữ liệu Segment Anything Video (SA-V)
    • Gồm 50.583 video đa dạng và 642.036 mặt nạ phân đoạn không-thời gian chất lượng cao (Masklet)
    • Giấy phép CC by 4.0

2 bình luận

 
GN⁺ 2024-07-30
Ý kiến trên Hacker News
  • Quan tâm đến việc mIoU và tốc độ xử lý ảnh được cải thiện gấp 6 lần

    • Mức tăng tốc chủ yếu nhờ bộ mã hóa hiệu quả hơn
    • Với nhiều lần phân đoạn trên cùng một ảnh, lợi thế có thể không nhiều
    • Cần so sánh với SAM gốc
  • Nhóm Segment Anything đã phát hành mô hình SAM 2

    • Đây là mô hình hợp nhất đầu tiên cho phân đoạn đối tượng theo thời gian thực
    • Đã công bố mã nguồn, mô hình, bộ dữ liệu, bài báo nghiên cứu và bản demo
    • Mong chờ xem người dùng sẽ tạo ra điều gì
  • Đã từng làm việc với SAM 1

    • Tóm tắt bài báo về SAM 2:
      • Được huấn luyện trong 108 giờ bằng 256 GPU A100
      • Chi phí huấn luyện khoảng $50k, khá rẻ
      • Bộ dữ liệu SA-V mới gồm 50k video
      • Sử dụng phương pháp bootstrap gán nhãn 3 giai đoạn
      • Đã bổ sung cơ chế memory attention
  • Muốn huấn luyện một mô hình để phân loại khung hình video và tìm các khung hình cụ thể

    • Tò mò liệu có thể dùng SAM-2 làm mô hình nền tảng hay không
  • Rất thích hàm mất mát của SAM

    • Gửi lời cảm ơn
  • Bản demo web rất gọn gàng

    • Khi chọn từng chiếc giày làm đối tượng riêng lẻ, mô hình vẫn phân đoạn được ngay cả khi chúng chồng lấn lên nhau
  • Mô hình SAM đầu tiên là mô hình hữu ích nhất

    • Rất mong được thử SAM2
  • Bản demo nghiên cứu không dùng được tại bang Illinois và Texas

    • Tò mò về lý do
  • Có lo ngại về việc sử dụng cho mục đích quân sự

  • Thành quả thật đáng kinh ngạc