7 điểm bởi GN⁺ 2025-11-20 | 1 bình luận | Chia sẻ qua WhatsApp
  • Công bố SAM 3, mô hình có thể tìm, phân đoạn và theo dõi đối tượng mong muốn trong ảnh và video bằng văn bản, ảnh ví dụ và prompt trực quan
  • Cung cấp môi trường để bất kỳ ai cũng có thể dễ dàng thử nghiệm thông qua Segment Anything Playground, cùng với checkpoint mô hình, bộ dữ liệu đánh giá và mã fine-tuning
  • Mở rộng hệ sinh thái phân đoạn khái niệm bao trùm cả 2D và 3D với benchmark phân đoạn khái niệm quy mô lớn mới mang tên SA-CoSAM 3D
  • Các tính năng tạo và chỉnh sửa media mới dựa trên phân đoạn đối tượng đang được áp dụng trên nhiều dịch vụ của Meta như Marketplace, Instagram Edits và Meta AI
  • Với vai trò là mô hình tích hợp phân đoạn khái niệm dựa trên văn bản và ví dụ, tiềm năng ứng dụng như một công cụ nhận thức đa dụng trong nhiều lĩnh vực như nghiên cứu, công nghiệp, bảo tồn và robot ngày càng lớn

Tổng quan về SAM 3

  • Đây là mô hình hợp nhất nhận nhiều loại prompt như văn bản, ảnh ví dụ, mask, box, point để phát hiện, phân đoạn và theo dõi khái niệm trong ảnh và video
    • Mặc định hỗ trợ phân đoạn open-vocabulary dựa trên các cụm danh từ ngắn
    • Các prompt phức hợp như “people sitting down but not holding a gift box” có thể được xử lý khi kết hợp với MLLM
  • Vượt qua giới hạn của SAM trước đây vốn bị ràng buộc vào tập nhãn cố định, nay được mở rộng sang phân đoạn khái niệm tùy ý (promptable concept)
  • Đo hiệu năng nhận diện khái niệm quy mô lớn trên ảnh và video bằng benchmark mới SA-Co (Segment Anything with Concepts)

Tính năng chính

  • Hỗ trợ phát hiện khái niệm bằng prompt văn bản và phân đoạn mọi instance
    • Có thể xử lý cả mô tả chi tiết như “striped red umbrella”
  • Có thể định nghĩa khái niệm dựa trên vật thể thực thông qua ảnh ví dụ (exemplar)
  • Giữ lại các prompt box/point/mask từng được cung cấp trong SAM 1 và 2
  • Sử dụng MLLM như một công cụ để thực hiện khám phá lặp cho truy vấn phức tạp (SAM 3 Agent)

Data engine

  • Xây dựng pipeline tạo dữ liệu lai kết hợp SAM 3 + con người + AI annotator (dựa trên Llama 3.2v)
    • Tự động captioning → tạo nhãn văn bản → tạo mask ban đầu → AI/con người xác minh
    • Xử lý nhanh hơn 5 lần với prompt phủ định (khái niệm không tồn tại), và tăng tốc 36% cả với prompt khẳng định
  • Xây dựng tập huấn luyện quy mô lớn gồm hơn 4 triệu khái niệm duy nhất
  • Mở rộng độ bao phủ các khái niệm hiếm bằng ontology khái niệm dựa trên wiki

Kiến trúc mô hình

  • Bộ mã hóa văn bản/hình ảnh dựa trên Meta Perception Encoder
  • Phát hiện đối tượng dùng DETR, theo dõi tận dụng cấu hình memory bank + tracker của SAM 2
  • Trọng tâm là thiết kế recipe huấn luyện tránh xung đột để thực hiện nhiều tác vụ (phát hiện, theo dõi, phân đoạn) trong một mô hình duy nhất

Hiệu năng

  • cgF1 tăng gấp 2 lần so với các mô hình trước trên ảnh và video
  • Cho kết quả vượt trội so với các mô hình chuyên biệt như Gemini 2.5 Pro, GLEE, OWLv2, LLMDet
  • Trong đánh giá mức độ ưa thích của người dùng, kết quả từ SAM 3 chiếm ưu thế với tỷ lệ 3:1
  • 30ms cho một ảnh đơn, và gần như xử lý thời gian thực trên video với 5 đối tượng
  • Cũng cho thấy hiệu năng cải thiện trên zero-shot LVIS, CountBench và các bài kiểm tra khác

Các trường hợp khoa học và ứng dụng thực tế

  • SA-FARI: bộ dữ liệu công khai gồm video bẫy ảnh động vật hoang dã với hơn 100 loài và hơn 10.000 video
  • FathomNet: cung cấp benchmark mới cho phân đoạn instance sinh vật biển
  • Marketplace “View in Room”: hiện thực hóa trực quan bố trí nội thất như ánh sáng và đồ đạc bằng SAM 3 và SAM 3D
  • Trên Instagram Edits, ứng dụng Meta AI và meta.ai, dự kiến có tính năng áp dụng hiệu ứng video theo đối tượng

SAM 3D

  • Công bố mô hình, mã và dữ liệu cho tái dựng người và vật thể 3D từ một ảnh đơn
  • Cung cấp grounded reconstruction có xét đến ngữ cảnh không gian thực

Giới hạn và thách thức sắp tới

  • Khả năng tổng quát hóa zero-shot với các khái niệm chuyên ngành rất chi tiết (như platelet) vẫn còn hạn chế
    • Có thể thích nghi nhanh nếu fine-tuning với lượng dữ liệu nhỏ
    • Cung cấp recipe fine-tuning mã nguồn mở
  • Câu ngắn được hỗ trợ mặc định, nhưng các mô tả phức tạp như “top shelf second to last book” cần kết hợp với MLLM
  • Trong video, chi phí xử lý tăng tuyến tính theo số lượng đối tượng
    • Việc chia sẻ thông tin quan hệ giữa các đối tượng là điểm cần cải thiện trong tương lai

Segment Anything Playground

  • Nền tảng web cho phép thử nghiệm SAM 3 mà không cần kiến thức kỹ thuật
    • Cung cấp các template như làm mờ pixel khuôn mặt/biển số/màn hình, spotlight, motion trail, phóng to đối tượng cụ thể
    • Cũng có thể dùng cho gán nhãn dữ liệu và stress test
  • Cũng cung cấp phân đoạn và theo dõi ổn định trên video góc nhìn thứ nhất từ thiết bị đeo Aria Gen 2
    • Có thể được ứng dụng vào nghiên cứu robot và perception theo góc nhìn của con người

1 bình luận

 
GN⁺ 2025-11-20
Ý kiến Hacker News
  • Cảm thấy biết ơn vì Meta vẫn đóng góp cho mã nguồn mở và công bố những mô hình như thế này
    Dù biết có nhiều góc nhìn chỉ trích công ty, nhưng những hành động như vậy mang lại lợi ích cho tất cả mọi người

    • Tôi cũng đồng ý. Trước đây vào khoảng năm 2005 tôi từng báo cáo một lỗ hổng bảo mật, khi đó văn hóa công ty rất khác
      Giờ có vẻ họ đã chuyển nhiều sang định hướng lấy cộng đồng làm trung tâm
    • Tôi không thích mảng mạng xã hội cho lắm, nhưng vẫn phải công nhận việc công bố mô hình của Meta
      Những phòng nghiên cứu lớn khác không công bố mô hình theo cách này
  • Ấn tượng khi dùng lần đầu là mô hình này cực kỳ xuất sắc
    Khả năng phát hiện dựa trên văn bản “zero-shot” vượt xa thế hệ trước cũng như các VLM mới như Gemini hay Qwen
    Nếu có con người giám sát thì có vẻ hoàn toàn có thể dùng làm mô hình giáo viên
    Trước đây tôi từng tinh chỉnh YOLO để phát hiện điểm bám leo núi, nhưng SAM3 đạt khoảng 90% kết quả đó mà không cần huấn luyện
    Tuy vậy, nó vẫn bỏ sót các điểm bám gỗ có độ tương phản thấp hoặc các foothold nhỏ

    • Bạn từng làm gì đó như ứng dụng Stokt chưa? Ứng dụng đó hiện khá nổi tiếng trong giới leo núi
    • Tôi đang làm ở một nền tảng gắn nhãn 1 tỷ ảnh, và tôi nghĩ SAM3 có thể tự động hóa hơn 90% trong số đó
      Bây giờ đang chuyển từ cấu trúc con người giúp mô hình sang mô hình giúp con người
      Có thể xem bài liên quan trên blog Roboflow
  • Trình tạo mesh 3D cũng thật sự rất ấn tượng
    Xem demo SAM3D, nó xử lý tốt cả tách đối tượng bị che khuất như người ngồi trên ghế và tốc độ cũng nhanh

    • Thật sự rất ấn tượng. Nhưng có thể xuất trực tiếp mesh 3D (export) không?
      Tôi chỉ nhận được video, nên không rõ có phải mua token hay không
  • Trường hợp sử dụng của tôi là theo dõi pattern trên bảng mạch, và mô hình này vẫn còn yếu ở phần đó
    Nó xử lý tốt các hình như ngựa trên bãi biển, nhưng kém phù hợp hơn với dữ liệu công nghiệp
    Có lẽ fine-tune sẽ cải thiện được, nhưng tôi vẫn chưa thử

    • Trường hợp này khá thú vị. Bạn có thể chia sẻ một liên kết ví dụ để tham khảo không?
  • Tôi đã thử dùng SAM3 cho việc xóa nền các bức vẽ của trẻ em
    (giới thiệu dự án liên quan)
    Nhưng BiRefNet v2 vẫn hoạt động chính xác hơn một chút
    SAM3 hơi thiếu chính xác khi cắt theo nét vẽ, và vẫn còn sót lại một phần màu trắng của tờ giấy
    Dù vậy, SAM3 không chỉ xóa nền đơn thuần mà còn có khả năng nhận biết ý nghĩa của bức vẽ
    Có vẻ cũng có thể nhận diện tranh do trẻ vẽ rồi liên kết chúng với hành động trong game

    • Thật thú vị khi bạn đã dùng BiRefNet để xóa nền
      Bạn có cho rằng đó là mô hình có hiệu năng tốt nhất ở thời điểm này không? Tôi cũng tò mò về các lựa chọn khác
  • Tôi thích việc danh sách tác giả bài báo có các ghi chú như “Core contributor (Alphabetical, Equal Contribution)
    Cách ghi nhận bình đẳng giữa các cộng tác viên rất ấn tượng

  • Trong 5 năm qua, tốc độ tiến bộ của thị giác máy tính là chậm
    Nhờ LLM, khả năng hiểu ngôn ngữ đã tiến gần đến mức con người, nhưng thị giác vẫn còn thiếu sót
    Việc phân đoạn đối tượng hay khái quát hóa trên ảnh khoa học đều khó, và dù có đủ dữ liệu vẫn có cảm giác đang thiếu điều gì đó
    Có lẽ cần tính chủ thể trong môi trường 3D hoặc các tín hiệu học phong phú hơn

    • Tôi không phải chuyên gia, nhưng cảm thấy đang thiếu world model
      Con người không chỉ phán đoán bằng thông tin thị giác mà còn bù đắp bằng ngữ cảnh và kinh nghiệm
      Ví dụ khi nhìn một hình tối trên đường vào ban đêm, ta sẽ suy luận đó là ngựa hay hàng rào dựa trên kinh nghiệm trước đó hoặc thông tin xung quanh
      Kiểu suy luận theo ngữ cảnh này hiện vẫn thiếu trong các mô hình ngày nay
    • Tôi vẫn nghĩ tuyên bố “LLM hiểu văn bản ở mức con người” còn có giới hạn
  • Lĩnh vực của tôi là phân đoạn thể tích 3D trong ảnh y khoa
    Tôi đã thử dùng SAM2 theo kiểu lát cắt 2D, nhưng nó kém cạnh tranh hơn tiêu chuẩn hiện tại là nnUNet

    • Unet là mô hình được dùng rộng rãi nhất trong ảnh y khoa suốt 10 năm qua
      Nhưng tôi nghĩ kết hợp LLM + VLM có thể là một hướng đi mới
      Thực tế tôi đã thử demo này và nó hoạt động khá tốt
  • SAM3 là một mô hình tuyệt vời
    Hiện đã có thể dùng theo cách tương tác hơn trên chat.vlm.run,
    và kết hợp với SAM cùng các mô hình thị giác khác trên mô hình Orion mới của nhóm chúng tôi
    Sắp tới cũng sẽ bổ sung tính năng phân đoạn và theo dõi video

    • Tôi đã thử thực tế, và có thể phân đoạn người với chó trong cùng một phiên chat
      Ví dụ kết quả
  • Tôi nghĩ độ trễ trung bình 4 giây (latency) có lẽ vẫn khiến nó khó dùng cho video thời gian thực
    (Nguồn được xác nhận trong bài liên quan trên roboflow.com)

    • Con số đó có lẽ là vấn đề về tài nguyên tính toán
      Theo blog, trên GPU H200 chỉ mất 30ms để xử lý một ảnh đơn có hơn 100 đối tượng