- Công bố SAM 3, mô hình có thể tìm, phân đoạn và theo dõi đối tượng mong muốn trong ảnh và video bằng văn bản, ảnh ví dụ và prompt trực quan
- Cung cấp môi trường để bất kỳ ai cũng có thể dễ dàng thử nghiệm thông qua Segment Anything Playground, cùng với checkpoint mô hình, bộ dữ liệu đánh giá và mã fine-tuning
- Mở rộng hệ sinh thái phân đoạn khái niệm bao trùm cả 2D và 3D với benchmark phân đoạn khái niệm quy mô lớn mới mang tên SA-Co và SAM 3D
- Các tính năng tạo và chỉnh sửa media mới dựa trên phân đoạn đối tượng đang được áp dụng trên nhiều dịch vụ của Meta như Marketplace, Instagram Edits và Meta AI
- Với vai trò là mô hình tích hợp phân đoạn khái niệm dựa trên văn bản và ví dụ, tiềm năng ứng dụng như một công cụ nhận thức đa dụng trong nhiều lĩnh vực như nghiên cứu, công nghiệp, bảo tồn và robot ngày càng lớn
Tổng quan về SAM 3
- Đây là mô hình hợp nhất nhận nhiều loại prompt như văn bản, ảnh ví dụ, mask, box, point để phát hiện, phân đoạn và theo dõi khái niệm trong ảnh và video
- Mặc định hỗ trợ phân đoạn open-vocabulary dựa trên các cụm danh từ ngắn
- Các prompt phức hợp như “people sitting down but not holding a gift box” có thể được xử lý khi kết hợp với MLLM
- Vượt qua giới hạn của SAM trước đây vốn bị ràng buộc vào tập nhãn cố định, nay được mở rộng sang phân đoạn khái niệm tùy ý (promptable concept)
- Đo hiệu năng nhận diện khái niệm quy mô lớn trên ảnh và video bằng benchmark mới SA-Co (Segment Anything with Concepts)
Tính năng chính
- Hỗ trợ phát hiện khái niệm bằng prompt văn bản và phân đoạn mọi instance
- Có thể xử lý cả mô tả chi tiết như “striped red umbrella”
- Có thể định nghĩa khái niệm dựa trên vật thể thực thông qua ảnh ví dụ (exemplar)
- Giữ lại các prompt box/point/mask từng được cung cấp trong SAM 1 và 2
- Sử dụng MLLM như một công cụ để thực hiện khám phá lặp cho truy vấn phức tạp (SAM 3 Agent)
Data engine
- Xây dựng pipeline tạo dữ liệu lai kết hợp SAM 3 + con người + AI annotator (dựa trên Llama 3.2v)
- Tự động captioning → tạo nhãn văn bản → tạo mask ban đầu → AI/con người xác minh
- Xử lý nhanh hơn 5 lần với prompt phủ định (khái niệm không tồn tại), và tăng tốc 36% cả với prompt khẳng định
- Xây dựng tập huấn luyện quy mô lớn gồm hơn 4 triệu khái niệm duy nhất
- Mở rộng độ bao phủ các khái niệm hiếm bằng ontology khái niệm dựa trên wiki
Kiến trúc mô hình
- Bộ mã hóa văn bản/hình ảnh dựa trên Meta Perception Encoder
- Phát hiện đối tượng dùng DETR, theo dõi tận dụng cấu hình memory bank + tracker của SAM 2
- Trọng tâm là thiết kế recipe huấn luyện tránh xung đột để thực hiện nhiều tác vụ (phát hiện, theo dõi, phân đoạn) trong một mô hình duy nhất
Hiệu năng
- cgF1 tăng gấp 2 lần so với các mô hình trước trên ảnh và video
- Cho kết quả vượt trội so với các mô hình chuyên biệt như Gemini 2.5 Pro, GLEE, OWLv2, LLMDet
- Trong đánh giá mức độ ưa thích của người dùng, kết quả từ SAM 3 chiếm ưu thế với tỷ lệ 3:1
- 30ms cho một ảnh đơn, và gần như xử lý thời gian thực trên video với 5 đối tượng
- Cũng cho thấy hiệu năng cải thiện trên zero-shot LVIS, CountBench và các bài kiểm tra khác
Các trường hợp khoa học và ứng dụng thực tế
- SA-FARI: bộ dữ liệu công khai gồm video bẫy ảnh động vật hoang dã với hơn 100 loài và hơn 10.000 video
- FathomNet: cung cấp benchmark mới cho phân đoạn instance sinh vật biển
- Marketplace “View in Room”: hiện thực hóa trực quan bố trí nội thất như ánh sáng và đồ đạc bằng SAM 3 và SAM 3D
- Trên Instagram Edits, ứng dụng Meta AI và meta.ai, dự kiến có tính năng áp dụng hiệu ứng video theo đối tượng
SAM 3D
- Công bố mô hình, mã và dữ liệu cho tái dựng người và vật thể 3D từ một ảnh đơn
- Cung cấp grounded reconstruction có xét đến ngữ cảnh không gian thực
Giới hạn và thách thức sắp tới
- Khả năng tổng quát hóa zero-shot với các khái niệm chuyên ngành rất chi tiết (như platelet) vẫn còn hạn chế
- Có thể thích nghi nhanh nếu fine-tuning với lượng dữ liệu nhỏ
- Cung cấp recipe fine-tuning mã nguồn mở
- Câu ngắn được hỗ trợ mặc định, nhưng các mô tả phức tạp như “top shelf second to last book” cần kết hợp với MLLM
- Trong video, chi phí xử lý tăng tuyến tính theo số lượng đối tượng
- Việc chia sẻ thông tin quan hệ giữa các đối tượng là điểm cần cải thiện trong tương lai
Segment Anything Playground
- Nền tảng web cho phép thử nghiệm SAM 3 mà không cần kiến thức kỹ thuật
- Cung cấp các template như làm mờ pixel khuôn mặt/biển số/màn hình, spotlight, motion trail, phóng to đối tượng cụ thể
- Cũng có thể dùng cho gán nhãn dữ liệu và stress test
- Cũng cung cấp phân đoạn và theo dõi ổn định trên video góc nhìn thứ nhất từ thiết bị đeo Aria Gen 2
- Có thể được ứng dụng vào nghiên cứu robot và perception theo góc nhìn của con người
1 bình luận
Ý kiến Hacker News
Cảm thấy biết ơn vì Meta vẫn đóng góp cho mã nguồn mở và công bố những mô hình như thế này
Dù biết có nhiều góc nhìn chỉ trích công ty, nhưng những hành động như vậy mang lại lợi ích cho tất cả mọi người
Giờ có vẻ họ đã chuyển nhiều sang định hướng lấy cộng đồng làm trung tâm
Những phòng nghiên cứu lớn khác không công bố mô hình theo cách này
Ấn tượng khi dùng lần đầu là mô hình này cực kỳ xuất sắc
Khả năng phát hiện dựa trên văn bản “zero-shot” vượt xa thế hệ trước cũng như các VLM mới như Gemini hay Qwen
Nếu có con người giám sát thì có vẻ hoàn toàn có thể dùng làm mô hình giáo viên
Trước đây tôi từng tinh chỉnh YOLO để phát hiện điểm bám leo núi, nhưng SAM3 đạt khoảng 90% kết quả đó mà không cần huấn luyện
Tuy vậy, nó vẫn bỏ sót các điểm bám gỗ có độ tương phản thấp hoặc các foothold nhỏ
Bây giờ đang chuyển từ cấu trúc con người giúp mô hình sang mô hình giúp con người
Có thể xem bài liên quan trên blog Roboflow
Trình tạo mesh 3D cũng thật sự rất ấn tượng
Xem demo SAM3D, nó xử lý tốt cả tách đối tượng bị che khuất như người ngồi trên ghế và tốc độ cũng nhanh
Tôi chỉ nhận được video, nên không rõ có phải mua token hay không
Trường hợp sử dụng của tôi là theo dõi pattern trên bảng mạch, và mô hình này vẫn còn yếu ở phần đó
Nó xử lý tốt các hình như ngựa trên bãi biển, nhưng kém phù hợp hơn với dữ liệu công nghiệp
Có lẽ fine-tune sẽ cải thiện được, nhưng tôi vẫn chưa thử
Tôi đã thử dùng SAM3 cho việc xóa nền các bức vẽ của trẻ em
(giới thiệu dự án liên quan)
Nhưng BiRefNet v2 vẫn hoạt động chính xác hơn một chút
SAM3 hơi thiếu chính xác khi cắt theo nét vẽ, và vẫn còn sót lại một phần màu trắng của tờ giấy
Dù vậy, SAM3 không chỉ xóa nền đơn thuần mà còn có khả năng nhận biết ý nghĩa của bức vẽ
Có vẻ cũng có thể nhận diện tranh do trẻ vẽ rồi liên kết chúng với hành động trong game
Bạn có cho rằng đó là mô hình có hiệu năng tốt nhất ở thời điểm này không? Tôi cũng tò mò về các lựa chọn khác
Tôi thích việc danh sách tác giả bài báo có các ghi chú như “Core contributor (Alphabetical, Equal Contribution)”
Cách ghi nhận bình đẳng giữa các cộng tác viên rất ấn tượng
Trong 5 năm qua, tốc độ tiến bộ của thị giác máy tính là chậm
Nhờ LLM, khả năng hiểu ngôn ngữ đã tiến gần đến mức con người, nhưng thị giác vẫn còn thiếu sót
Việc phân đoạn đối tượng hay khái quát hóa trên ảnh khoa học đều khó, và dù có đủ dữ liệu vẫn có cảm giác đang thiếu điều gì đó
Có lẽ cần tính chủ thể trong môi trường 3D hoặc các tín hiệu học phong phú hơn
Con người không chỉ phán đoán bằng thông tin thị giác mà còn bù đắp bằng ngữ cảnh và kinh nghiệm
Ví dụ khi nhìn một hình tối trên đường vào ban đêm, ta sẽ suy luận đó là ngựa hay hàng rào dựa trên kinh nghiệm trước đó hoặc thông tin xung quanh
Kiểu suy luận theo ngữ cảnh này hiện vẫn thiếu trong các mô hình ngày nay
Lĩnh vực của tôi là phân đoạn thể tích 3D trong ảnh y khoa
Tôi đã thử dùng SAM2 theo kiểu lát cắt 2D, nhưng nó kém cạnh tranh hơn tiêu chuẩn hiện tại là nnUNet
Nhưng tôi nghĩ kết hợp LLM + VLM có thể là một hướng đi mới
Thực tế tôi đã thử demo này và nó hoạt động khá tốt
SAM3 là một mô hình tuyệt vời
Hiện đã có thể dùng theo cách tương tác hơn trên chat.vlm.run,
và kết hợp với SAM cùng các mô hình thị giác khác trên mô hình Orion mới của nhóm chúng tôi
Sắp tới cũng sẽ bổ sung tính năng phân đoạn và theo dõi video
Ví dụ kết quả
Tôi nghĩ độ trễ trung bình 4 giây (latency) có lẽ vẫn khiến nó khó dùng cho video thời gian thực
(Nguồn được xác nhận trong bài liên quan trên roboflow.com)
Theo blog, trên GPU H200 chỉ mất 30ms để xử lý một ảnh đơn có hơn 100 đối tượng