Bản xem trước Moondream 3: hiện thực hóa suy luận tối tân với tốc độ đột phá

(moondream.ai)

14 điểm bởi GN⁺ 2025-09-28 | 1 bình luận | Chia sẻ qua WhatsApp

Moondream 3 áp dụng kiến trúc 9B MoE với 2B tham số hoạt động, đồng thời đạt được hiệu năng suy luận thị giác ở mức tối tân cùng tốc độ suy luận nhanh và hiệu quả
Mô hình này được thiết kế với trọng tâm là kiến trúc chuyên biệt cho các tác vụ thị giác trong thế giới thực, khả năng dễ huấn luyện, tốc độ cao và chi phí thấp
Thể hiện hiệu năng mạnh mẽ trên nhiều lĩnh vực ứng dụng thực tế như phát hiện đối tượng, chỉ điểm, đầu ra có cấu trúc, OCR
Hỗ trợ độ dài ngữ cảnh 32k token, qua đó tăng cường đáng kể khả năng xử lý truy vấn và trả lời phức tạp
Trong các benchmark ban đầu, mô hình cho thấy lợi thế về tốc độ phản hồi và hiệu quả so với các mô hình lớn hiện có

Giới thiệu và mục tiêu chính

Moondream 3 là một mô hình ngôn ngữ-thị giác mới dựa trên kiến trúc 9B Mixture-of-Experts(MoE) và 2B tham số hoạt động
So với các mô hình trước đây, mô hình hướng tới đồng thời năng lực suy luận thị giác tối tân và hiệu năng suy luận rất nhanh, tối ưu chi phí
Để giải quyết các vấn đề thực tế, mô hình tập trung vào 4 lĩnh vực cốt lõi sau
- Suy luận thị giác: nhằm cung cấp năng lực vượt trội cho các tác vụ thực tế mà không phải đánh đổi đáng kể khả năng thực dụng dù quy mô mô hình nhỏ
- Dễ huấn luyện: chú trọng fine-tuning đơn giản cho các tác vụ thị giác chuyên biệt như đọc ảnh y khoa hay phát hiện hành vi bất thường trong đám đông
- Tốc độ: hỗ trợ tốc độ cao trong các ứng dụng AI thị giác cần xử lý thời gian thực như phân loại sản phẩm hoặc giám sát bằng drone
- Chi phí thấp: theo đuổi mục tiêu giảm thiểu chi phí vận hành ngay cả khi triển khai ở quy mô lớn trong môi trường xử lý khối lượng hình ảnh lớn
Dù là mô hình 9B MoE, chỉ có 2B tham số hoạt động, qua đó mở ra khả năng suy luận thời gian thực nhanh và chi phí thấp
Tăng cường hiệu quả huấn luyện bằng Reinforcement Learning, giúp mô hình thích ứng cao ngay cả trong môi trường phức tạp
Mở rộng mạnh độ dài ngữ cảnh từ 2k lên 32k, cải thiện vấn đề xử lý ngữ cảnh phức tạp

Các trường hợp sử dụng thực tế của Moondream 3

Phát hiện đối tượng (Object Detection)
- Moondream 3 không chỉ phân loại nhãn đơn giản mà còn có thể hiểu truy vấn phức tạp và phát hiện đối tượng phù hợp với ngữ cảnh
- So với các mô hình frontier, mô hình mang lại hiệu năng khác biệt ở các năng lực cốt lõi như phát hiện đối tượng và chỉ điểm
  - Ví dụ 1: phát hiện "người chạy mang tất màu tím"
  - Ví dụ 2: phát hiện thành phần giao diện người dùng "nhập số lượng"
Chỉ điểm (Pointing)
- Moondream 3 tích hợp sẵn khả năng chỉ định (pointing) chính xác một vật thể cụ thể trong ảnh
  - Ví dụ 3: chỉ điểm đối tượng "chai"
  - Ví dụ 4: chọn "dụng cụ nấu phù hợp nhất cho pasta"
Đầu ra có cấu trúc (Structured Output)
- Với độ dài ngữ cảnh 32k, khả năng tạo đầu ra có cấu trúc phức tạp được cải thiện, đồng thời có thể trả về kết quả dữ liệu hóa như JSON chỉ với prompt tối thiểu
  - Ví dụ 5: tạo một mảng JSON cho thông tin chó kéo xe với các trường dog_id, fur_color, harness_color
OCR (nhận dạng ký tự quang học)
- Hiệu năng OCR được cải thiện mạnh so với trước, có thể áp dụng vào nhiều tình huống thực tế
- Dù vẫn có một số giới hạn với chữ rất nhỏ, mô hình cho thấy độ chính xác cao trong việc trích xuất thông tin có cấu trúc như bảng biểu
  - Ví dụ 6: chuyển bảng phản ứng hóa học sang bảng Markdown

Benchmark

Moondream 3 cho thấy hiệu năng đủ sức sánh ngang các VLM hàng đầu trên nhiều benchmark khác nhau
Tuy nhiên, Moondream 3 đang liên tục chứng minh lợi thế thực tế rõ rệt về tốc độ phản hồi so với các mô hình lớn
Trong tương lai, sẽ công bố thêm các kết quả benchmark đầy đủ hơn và so sánh thời gian suy luận

Ghi chú kỹ thuật về Moondream 3

Mô hình Mixture-of-Experts thưa mịn với 64 expert, trong đó 8 expert được kích hoạt ở mỗi token
Áp dụng kỹ thuật khởi tạo drop upcycling từ Moondream 2(2B Dense)
Hỗ trợ toàn bộ độ dài ngữ cảnh 32k token trong quá trình huấn luyện thực tế
Trộn các mẫu ngữ cảnh dài vào giai đoạn pretraining để áp dụng hiệu quả mà không cần thêm bước mở rộng ngữ cảnh riêng biệt
Tăng cường khả năng hiểu ngữ cảnh dài bằng temperature scaling trong huấn luyện và điều chỉnh attention có cấu trúc
Hỗ trợ hai chế độ: suy luận logic và giải thích phi logic, đặc biệt tối ưu cho suy luận dựa trên hình ảnh (grounding)
Thông qua huấn luyện dựa trên reinforcement learning (RL), mô hình dần cải thiện khả năng thích ứng và mức độ phụ thuộc vào ví dụ suy luận thị giác
Thúc đẩy chuyên môn hóa theo token bằng các kỹ thuật như load balancing, router orthogonal loss, sau đó bổ sung tính ổn định ở giai đoạn post-training
Cải thiện các thành phần attention như ức chế LSE, tinh chỉnh nhiệt độ để tăng độ chính xác và độ rõ ràng

Kết luận và kế hoạch sắp tới

Bản xem trước này có thể chậm do mã suy luận chưa được tối ưu, và hiện mô hình vẫn đang được huấn luyện bổ sung
Trong bản chính thức sắp tới, hiệu năng, benchmark và tốc độ suy luận dự kiến sẽ được cải thiện đáng kể
Kế hoạch còn bao gồm việc xây dựng nhiều biến thể mô hình như bản lượng tử hóa và bản distilled cỡ nhỏ
Có thể sử dụng trên Moondream Playground và HuggingFace; phản hồi và câu hỏi có thể trao đổi qua Discord

Lưu ý: các mô hình frontier không hỗ trợ phát hiện đối tượng theo bản chất, nên đã dùng prompt mẫu để so sánh

1 bình luận

GN⁺ 2025-09-28

Ý kiến trên Hacker News

Tôi đang dùng Moondream 2 rất hữu ích, chủ yếu để tự động gán nhãn bộ dữ liệu phát hiện đối tượng cho các lớp mới và distill sang một CNN nhỏ hơn nhiều với độ chính xác tương tự
Từ sau thẻ phiên bản 2025-01-09, tôi không thực sự cảm nhận được nhiều cải thiện hiệu năng như đã công bố; các bản phát hành sau đó có recall tốt hơn nhưng precision lại giảm đáng kể, điều này khá đáng tiếc
Để xử lý tốt hơn những vấn đề như vậy, sẽ rất tuyệt nếu các mô hình vision-language như Moondream có thể báo cả class confidence
Tôi cũng rất thích việc có API phát hiện đối tượng chuyên dụng, chưa thấy ở các mô hình hay wrapper khác
Rất mong chờ kết quả tối ưu hóa suy luận của Moondream 3, xin chúc mừng đội ngũ
Nhà sáng lập Vik là người rất đáng để theo dõi trên X
- Phản hồi là nếu có ví dụ về vấn đề precision/recall thì cứ gửi email cho vik@m87.ai bất cứ lúc nào
Tôi cũng đã dùng nó để tự động gán nhãn bộ dữ liệu và nó thực sự làm rất tốt
Hiệu năng của mô hình Moondream thực sự rất ấn tượng
Nhưng khi nhìn kết quả từ ba phòng thí nghiệm lớn, tôi ngạc nhiên vì Claude và OpenAI làm quá kém
Gemini tuy vẫn kém hơn Moondream nhưng ít nhất là mô hình duy nhất có thể gọi là dùng được
Trước giờ tôi không ngờ chênh lệch hiệu năng lại lớn đến vậy
- Thú vị là chỉ có Gemini đọc đúng số trên xúc xắc D20
  ChatGPT cứ trả lời sai, còn Claude thì chỉ nói mặt trên của xúc xắc bị che nên không đọc được (thực ra không hề bị che)
- Thật lạ khi Moondream làm tốt đến mức này mà vẫn chưa được big tech thâu tóm
  Có vẻ như Anthropic, OpenAI và các bên khác hẳn sẽ rất muốn đưa công nghệ này vào nền tảng của họ
  Những người tạo ra nó xứng đáng trở nên giàu có, và nếu kết hợp với độ phủ của các tổ chức lớn thì khả năng ứng dụng thị giác của LLM sẽ hữu ích hơn rất nhiều
- Gemini thực sự rất mạnh với các tác vụ gần với OCR, nhưng ở hầu hết các tác vụ hình ảnh khác thì hiệu năng thường giảm mạnh
Kết quả thật sự rất ấn tượng
Tôi cũng từng thích dùng Gemini cho tự động hóa bounding box, nên nếu mô hình 9B này vượt được nó thì thật sự rất đáng mong đợi
Moondream 2 dùng giấy phép Apache 2, nhưng bản preview của 3 lại là BSL, nên tôi tò mò không biết giấy phép này đã thay đổi vĩnh viễn chưa
- Theo giấy phép của Moondream3, sau 2 năm nó sẽ chuyển sang Apache 2
Tại paper.design, chúng tôi đang dùng moondream2 để tự động gắn nhãn cho ảnh do người dùng tải lên (cho cây layer)
Nó thực sự nhanh và chính xác, cũng đang rất mong chờ bản 3
Tôi đã mất 5 phút tìm thông tin giá Moondream cloud mà có vẻ như nó không hề tồn tại (ít nhất là trước khi đăng ký thì không có)
Có 5.000 request miễn phí, nhưng trước khi tích hợp vào dịch vụ thực tế thì ưu tiên số một của tôi là phải xác nhận mức giá có hợp lý hay không
- Cloud sẽ sớm ra mắt
  Chúng tôi đang tối ưu để giảm thêm chi phí suy luận và chuẩn bị đưa ra mức giá tốt nhất có thể
  Nếu muốn biết tin phát hành sớm, bạn cũng có thể theo dõi @moondreamai trên X
Tôi thấy lựa chọn kiến trúc MoE đặc biệt thú vị
Việc chỉ kích hoạt 2B tham số mà vẫn giữ được hiệu năng cấp độ mô hình 8B có thể tạo ra thay đổi lớn cho triển khai trên thiết bị edge
Tôi có nhiều kinh nghiệm triển khai mô hình thị giác trong production, nơi độ trễ rất quan trọng, và sparse activation kiểu này có thể giảm đáng kể rào cản áp dụng do chi phí suy luận của các mô hình vision-language lớn
Khả năng hiểu biểu đồ cũng là điểm rất đáng kỳ vọng cho các workflow tự động hóa tài liệu
Tôi tò mò không biết đã có ai thử kiểm tra độ ổn định của mô hình với chất lượng ảnh hoặc điều kiện ánh sáng khác nhau chưa
Trong những điều kiện như vậy, các mô hình nhỏ thường gặp khó khăn hơn nhiều so với các mô hình flagship
Mô hình rất ấn tượng
Tôi tò mò không biết đã có ai dùng nó cho mục đích điều khiển máy tính/trình duyệt chưa, và nó xử lý đồ thị với biểu đồ tốt đến mức nào
- Kỹ năng point được huấn luyện trên rất nhiều dữ liệu UI, và cũng có nhiều người dùng kết hợp nó với mô hình driver lớn hơn để làm tự động hóa UI
  Trước khi phát hành chính thức, chúng tôi đang thử huấn luyện thêm để nó hoạt động end-to-end trong môi trường agent
  Vì thế chúng tôi cũng đã tăng độ dài context
  Khả năng hiểu biểu đồ có nhiều loại khác nhau nhưng nhìn chung là khá ổn
  Trên blog, chúng tôi đã công bố benchmark ChartQA; nó tương đương GPT5* và nhỉnh hơn một chút so với Gemini 2.5 Flash
  - Tuy vậy, GPT5 có lẽ sẽ hoạt động tốt trên nhiều loại biểu đồ/đồ thị hơn rất nhiều, còn Moondream thì phù hợp với vision AI ở những trường hợp GPT5 khó dùng vì giá và độ trễ
- Tôi đang dùng nó để gán nhãn bộ dữ liệu, và rất mong chờ xem kết quả sẽ ra sao
Tôi tò mò khái niệm 2B tham số hoạt động có phải được tính theo suy luận trên mỗi token hay không, và nó scale thế nào khi độ dài context thay đổi
Cụ thể, tôi muốn nghe giải thích thêm về tác động của MoE lên kích hoạt trong lúc suy luận và ý nghĩa thực tế của nó về mặt độ trễ
Có ai gợi ý phần cứng rẻ nhất có thể để chạy mô hình này cục bộ ở mức chấp nhận được không
- Hiện chưa có bản lượng tử hóa, nên chỉ riêng trọng số đã cần khoảng 20GB bộ nhớ
  Nếu tính cả KV cache thì cấu hình CPU với 32GB RAM có lẽ là lựa chọn rẻ nhất mà vẫn cho tốc độ tạm ổn
  Vì số tham số hoạt động ít nên hiệu năng trên CPU cũng khá ổn
Tôi tò mò về kết quả so sánh hiệu năng giữa mô hình Qwen3-VL và Moondream

Bản xem trước Moondream 3: hiện thực hóa suy luận tối tân với tốc độ đột phá

Giới thiệu và mục tiêu chính

Các trường hợp sử dụng thực tế của Moondream 3

Phát hiện đối tượng (Object Detection)

Chỉ điểm (Pointing)

Đầu ra có cấu trúc (Structured Output)

OCR (nhận dạng ký tự quang học)

Benchmark

Ghi chú kỹ thuật về Moondream 3

Kết luận và kế hoạch sắp tới

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News