Meta công bố Segment Anything Model 2

(ai.meta.com)

2 điểm bởi GN⁺ 2024-08-02 | 1 bình luận | Chia sẻ qua WhatsApp

Segment Anything Model 2 (SAM 2) của Meta FAIR là một mô hình phân đoạn hợp nhất để chọn và phân đoạn đối tượng nhanh trong ảnh và video
Người dùng có thể chỉ định đối tượng bằng các prompt như nhấp chuột, khung hộp và mặt nạ, đồng thời có thể hiệu chỉnh dự đoán mặt nạ bằng các prompt bổ sung
Trong video, mô-đun bộ nhớ theo từng phiên giữ lại thông tin đối tượng từ các khung hình trước, giúp tiếp tục theo dõi xuyên suốt toàn bộ khung hình ngay cả khi đối tượng bị che khuất tạm thời
SAM 2 cải thiện khả năng phân đoạn ảnh so với SAM trước đây, và trong phân đoạn đối tượng video đặc biệt nhấn mạnh vào theo dõi bộ phận và thời gian tương tác
Meta đã công bố mô hình pretrained, mã nguồn, bản demo và bộ dữ liệu SA-V; SA-V bao gồm khoảng 51K video và hơn 600K masklet

Phân đoạn xử lý đồng thời ảnh và video

SAM 2 là mô hình hợp nhất đầu tiên phân đoạn đối tượng trên cả ảnh và video
Người dùng có thể chọn đối tượng bằng cách nhập cú nhấp, khung hộp hoặc mặt nạ trên ảnh hay khung hình video
Trong video, có thể chỉ định một hoặc nhiều đối tượng, và có thể tinh chỉnh dự đoán bằng các prompt bổ sung ở bất kỳ khung hình nào
Mô hình được thiết kế để đạt hiệu năng zero-shot mạnh ngay cả với các đối tượng, hình ảnh và video chưa từng xuất hiện trong quá trình huấn luyện, nên có thể được ứng dụng cho nhiều bài toán thực tế khác nhau
Mô hình xử lý video hiệu quả thông qua suy luận dạng streaming và hỗ trợ các ứng dụng thời gian thực, có tính tương tác

Hiệu năng và trải nghiệm sử dụng tương tác

SAM 2 được giới thiệu là mô hình cho hiệu năng tốt hơn các mô hình hàng đầu trong lĩnh vực ở cả phân đoạn đối tượng video và ảnh
Các điểm hiệu năng chính
- Cải thiện so với SAM trước đây trong phân đoạn ảnh
- Vượt trội hơn các mô hình phân đoạn đối tượng video hiện có, đặc biệt mạnh ở theo dõi bộ phận
- Cần ít thời gian tương tác hơn so với các phương pháp phân đoạn video tương tác hiện có
Trong bản demo, chỉ với một lần nhấp ở một khung hình, mô hình vẫn có thể theo dõi đối tượng xuyên suốt toàn bộ video theo cách tương tác và tạo hiệu ứng
Bản demo có tại SAM 2 demo

Kiến trúc mô hình cho theo dõi video

Đây là kiến trúc mở rộng khả năng chọn dựa trên prompt của SAM sang miền video
Mô hình bổ sung mô-đun bộ nhớ theo từng phiên để lưu trữ thông tin về đối tượng mục tiêu trong video
- Có thể theo dõi đối tượng đã chọn trên tất cả các khung hình video
- Tận dụng ngữ cảnh từ các khung hình trước ngay cả khi đối tượng tạm thời biến mất khỏi tầm nhìn
Có thể thêm prompt ở bất kỳ khung hình nào để hiệu chỉnh dự đoán mặt nạ
Kiến trúc streaming xử lý từng khung hình video, mỗi lần một khung
Khi áp dụng cho ảnh, mô-đun bộ nhớ để trống và mô hình hoạt động giống như SAM

Bộ dữ liệu SA-V

SAM 2 được huấn luyện trên video quy mô lớn, đa dạng và các masklet
- masklet là các mặt nạ đối tượng theo thời gian
- Dữ liệu được tạo bằng cách áp dụng SAM 2 theo kiểu tương tác trong một data engine model-in-the-loop
Dữ liệu huấn luyện bao gồm bộ dữ liệu SA-V được phát hành mã nguồn mở
Các số liệu chính của bộ dữ liệu SA-V
- Thu thập hơn 600K masklet từ khoảng 51K video
- Bao gồm các kịch bản thực tế đa dạng về địa lý, được thu thập từ 47 quốc gia
- Có chú thích cho toàn bộ đối tượng, các bộ phận của đối tượng và những tình huống che khuất khó
Có thể gửi vấn đề hoặc câu hỏi liên quan đến bộ dữ liệu SA-V tới support@segment-anything.com
Có thể xem bộ dữ liệu tại Explore the dataset

Tài nguyên công khai và khả năng ứng dụng

Meta đã công bố mô hình Segment Anything 2 được huấn luyện sẵn, bộ dữ liệu SA-V, bản demo và mã nguồn để cộng đồng nghiên cứu có thể tiếp tục phát triển các công trình tiếp theo
Cùng với các tài nguyên công khai, Meta nhấn mạnh các điểm sau
- Cung cấp tính minh bạch về dữ liệu huấn luyện của SAM 2
- Ưu tiên đa dạng địa lý của bộ dữ liệu SA-V để phản ánh thế giới thực
- Thực hiện đánh giá công bằng đối với SAM 2
Có thể tải mô hình và mã nguồn tại Download the model
Có thể xem bài báo nghiên cứu tại Read the research paper
SAM 2 có thể được dùng độc lập hoặc làm một phần của hệ thống lớn hơn khi kết hợp với các mô hình khác trong tương lai
- Đầu ra phân đoạn đối tượng video có thể được dùng làm đầu vào cho các hệ thống AI khác như những mô hình tạo video mới nhất, qua đó cho phép các tính năng chỉnh sửa chính xác
- Trong tương lai, mô hình có thể được mở rộng sang các loại prompt đầu vào khác để hỗ trợ những cách tương tác sáng tạo với đối tượng trong video thời gian thực hoặc video trực tiếp

1 bình luận

GN⁺ 2024-08-02

Ý kiến trên Hacker News

Meta đang làm rất tốt. Google có vẻ đang tụt lại trong nghiên cứu AI và các kết quả hữu ích được chia sẻ với cộng đồng
Tôi tin rằng Llama và các dự án khác sẽ thúc đẩy những sáng tạo, công ty và bước tiến mới. Cách họ công khai chia sẻ mã nguồn và nghiên cứu cuối cùng cũng sẽ quay lại tạo giá trị kinh doanh cho Meta
Sự khác biệt giữa một công ty do nhà sáng lập dẫn dắt và một công ty bị thị trường kéo đi thể hiện ở đây. Google dường như quan tâm nhiều hơn đến các mục tiêu ngắn hạn như tránh một quý kết quả kinh doanh xấu, hoặc tránh việc các khoản chi vốn lớn bị ghi nhận cho những dự án chưa thấy lợi nhuận ngay như VR
Khoảnh khắc Meta tìm ra killer app của VR, các công ty khác có thể đã bị bỏ quá xa đến mức phải mua phần mềm từ Meta hoặc gần như không giành được thị phần mới. Tương tự như việc Nvidia đi trước trong chip AI, đây là lĩnh vực mà không ai đầu tư đủ
- Google vẫn đang dẫn trước trong nghiên cứu AI. Điều đó gần như trái ngược với việc hành động ngắn hạn, và lý do trông không như vậy có thể là vì nhiều công việc là nghiên cứu nền tảng, hoặc liên quan đến hóa học/vật lý, hoặc ở những mảng không được công bố như Facebook
  Tuy nhiên, họ tụt lại trong việc biến nghiên cứu thành sản phẩm. Cho đến nay, có vẻ như họ chỉ bỏ ra nỗ lực tối thiểu trong quá trình đưa các mô hình đã huấn luyện vào sản phẩm
- Tôi không chắc, nhưng có lẽ khác biệt là thế này. Meta có thể thử đủ thứ rồi sau đó tìm ra ứng dụng sát thủ
  Trong khi đó Google dường như cảm thấy, ở mức sống còn, rằng tìm kiếm nhất định phải là ứng dụng sát thủ, và cố nhồi nhét mọi thứ vào đó. Rồi họ đặt tiêu chuẩn thành công quá cao và có vẻ phớt lờ trình độ thực tế của công nghệ đang ở đâu
- Tôi không hiểu Meta đang làm tốt cái gì đến vậy. Các phần tích hợp AI trong WhatsApp hay Instagram gần như vô dụng, và có vẻ được nhét vào để đánh lừa thị trường rằng Meta trông giống một công ty AI
  Tôi cho rằng Zuckerberg là một trong những CEO thiếu trí tưởng tượng nhất. Meta gần như không có sản phẩm độc đáo nào ngoài thiết bị Portal, phần lớn là các sản phẩm họ mua lại. Đây là một công ty cực kỳ yếu về đổi mới
  Zuckerberg có vẻ đã mở một chiến dịch PR để tẩy hình ảnh, nhưng Facebook vẫn là một công ty mờ ám do một người mờ ám điều hành, và phần lõi mục ruỗng thì không thay đổi. Ngay tuần này họ còn bị Texas phạt hàng tỷ đô la
  Meta rất xa với hình ảnh “công ty do nhà sáng lập dẫn dắt”. Những nhà sáng lập của các ứng dụng họ mua lại sớm rời đi, rồi các nhân vật kiểu tư vấn quản trị như Adam Mosseri điều hành
  Thật đáng buồn là đến giờ vẫn có người tin vào canh bạc metaverse mà Zuckerberg tung ra để khiến Meta trông như một công ty đổi mới trong bối cảnh tăng trưởng người dùng chậm lại. Tôi vẫn không hiểu vì sao vụ lừa metaverse đó không phải là vi phạm SEC
- Nói là “sự khác biệt giữa công ty do nhà sáng lập dẫn dắt và công ty do thị trường dẫn dắt”, nhưng tôi tự hỏi liệu có thật sự khác đến vậy không
  Facebook cứ ném ra những thứ đắt đỏ với con đường kiếm tiền không rõ ràng như Llama. Google cũng từng ném ra những thứ đắt đỏ với con đường kiếm tiền không rõ ràng như Waymo, Google Glass, Google Fiber, Stadia, và những thứ trên https://killedbygoogle.com
  Facebook đã xoay mạnh hướng đi của cả công ty vì tầm nhìn metaverse rồi thất bại, còn Google đã xoay mạnh hướng đi của cả công ty vì tầm nhìn Google Plus rồi thất bại
  Facebook đổi tên thành Meta, còn Google đổi tên thành Alphabet
  Facebook có một tổ chức nghiên cứu AI do một giáo sư khoa học máy tính người Pháp-Mỹ, từng đoạt giải Turing, thành lập; Google có một tổ chức nghiên cứu AI do một giáo sư khoa học máy tính người Anh-Canada, từng đoạt giải Turing, thành lập
  Facebook phát hành một thư viện học máy Python mã nguồn mở phổ biến với tên camelCase là PyTorch, còn Google phát hành một thư viện học máy Python mã nguồn mở phổ biến với tên camelCase là TensorFlow
  Có lẽ cả hai đều đang theo cùng một playbook, và gần đây canh bạc của Facebook chỉ tình cờ gặp may
- Không phải nhà sáng lập nào cũng giống nhau. Có những nhà sáng lập rất ghét việc giá cổ phiếu giảm, dù họ không cần tiền ngay
  Và kết quả thì lẫn lộn. Cá nhân tôi cho rằng Zuckerberg đã sai về VR nhưng đúng về AI
Thảo luận trước đó: https://news.ycombinator.com/item?id=41104523
- Thật ngạc nhiên khi một tin lớn như vậy biến mất khỏi trang nhất nhanh đến thế. Hacker News có vẻ được tối ưu cho những người kiểm tra trang này nhiều lần mỗi ngày
Nếu chỉ 10 năm trước có ai nói rằng Facebook sẽ trở thành một trong những công ty đổi mới cởi mở nhất và Mark Zuckerberg sẽ là một trong những tỷ phú còn tương đối tỉnh táo, chắc tôi đã cười nhạo thật sự
Nhưng giờ thì tình hình đã khác. Dù các nỗ lực VR và AI thực sự thành công đến đâu, có vẻ chúng đã để lại một vị trí nhất định trong lịch sử
- Công bằng mà nói, Meta có lịch sử khá dài trong việc phát hành mã nguồn mở cho phần mềm nội bộ và để chúng trở thành tiêu chuẩn ngành. Đây hoàn toàn không phải chuyện mới
  Đặc biệt là trong công nghệ cơ sở dữ liệu: rocksdb, zstd compression, presto, Cassandra, Hive, Velox đều là những thứ do Meta tạo ra
  Đó chỉ là các dự án phổ biến; còn có nhiều dự án liên quan đến cơ sở dữ liệu hơn nữa đã được công bố nhưng không trở nên nổi tiếng lắm
  Với tư cách một công ty thì có nhiều điều để phàn nàn, nhưng họ luôn là một bên đóng góp lớn cho hệ sinh thái mã nguồn mở
- Tôi thích Oculus, nhưng VR vẫn chưa đạt tới tính phổ quát văn hóa
Mỗi khi thấy những thứ như thế này, tôi luôn nghĩ đến UI bản đồ quỹ đạo hologram trong The Expanse
Nó giống như một loại giấy của tương lai, kết nối với mọi thứ chúng ta nghĩ tới, và có thể trở thành một công cụ thật sự mạnh mẽ để khám phá thế giới
Nếu thứ này đã tồn tại hồi tôi còn làm biên tập và motion graphics thì chắc tôi đã khao khát nó lắm
Roto Brush của After Effects cũng tương tự, nhưng chất lượng luôn thiếu và thời gian xử lý quá lâu
- Roto Brush của After Effects là một công cụ cứu mạng, nhưng vẫn có giới hạn. SAM chắc chắn là một công cụ thay đổi cuộc chơi
Bài nói đã công bố mã nguồn, nhưng ngoài mã ví dụ thì tôi không tìm thấy gì. Họ có công bố cả mã huấn luyện không?
- Kho lưu trữ được nhắc tới trong câu “công bố các mô hình Segment Anything 2 đã được tiền huấn luyện và mã nguồn” có vẻ là cái này: https://github.com/facebookresearch/segment-anything-2
Kết quả rất ấn tượng. Đây là video thử nghiệm quay bên trong Mercer Labs: https://youtu.be/W7kM0ISXkpQ?feature=shared
- Tôi không biết mình đang xem cái gì, và nó liên quan thế nào đến SAM2
Firefox có vẻ không được hỗ trợ
Cũng nên cảm ơn hàng nghìn lao động châu Phi đã làm công việc xử lý dataset nhàm chán và lặp đi lặp lại

Meta công bố Segment Anything Model 2

Phân đoạn xử lý đồng thời ảnh và video

Hiệu năng và trải nghiệm sử dụng tương tác

Kiến trúc mô hình cho theo dõi video

Bộ dữ liệu SA-V

Tài nguyên công khai và khả năng ứng dụng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News