- Muse Spark do Meta Superintelligence Labs phát triển là một mô hình suy luận đa phương thức hỗ trợ sử dụng công cụ, chuỗi suy nghĩ thị giác và cộng tác đa tác tử
- Là bước đầu tiên hướng tới siêu trí tuệ cá nhân (personal superintelligence), hiện đang được cung cấp dưới dạng bản xem trước API riêng tư cho một số người dùng trên meta.ai và ứng dụng Meta AI
- Mô hình được mở rộng theo ba trục tiền huấn luyện, học tăng cường và suy luận tại thời điểm kiểm thử, đạt hiệu năng huấn luyện hiệu quả hơn hơn 10 lần so với Llama 4
- Thông qua chế độ Contemplating, mô hình thực hiện suy luận độ khó cao dựa trên các tác tử chạy song song, hiện thực hóa năng lực tư duy nâng cao ở mức Gemini Deep Think và GPT Pro
- Meta đặt mục tiêu phát triển Muse Spark thành mô hình siêu trí tuệ cá nhân hóa vừa an toàn vừa hiệu quả
Tổng quan về Muse Spark
- Muse Spark là mô hình suy luận đa phương thức do Meta Superintelligence Labs phát triển, hỗ trợ sử dụng công cụ, chuỗi suy nghĩ thị giác (visual chain of thought) và điều phối đa tác tử
- Đây là kết quả đầu tiên của việc Meta tái cấu trúc toàn bộ hoạt động nghiên cứu AI, được giới thiệu như bước đầu tiên hướng tới siêu trí tuệ cá nhân (personal superintelligence)
- Công ty đang đẩy mạnh đầu tư mở rộng trên toàn bộ nghiên cứu, huấn luyện mô hình và hạ tầng như trung tâm dữ liệu Hyperion
- Hiện có thể sử dụng trên meta.ai và ứng dụng Meta AI, đồng thời cung cấp bản xem trước API riêng tư cho một số người dùng
Các tính năng cho siêu trí tuệ cá nhân
- Muse Spark có hiệu năng cạnh tranh trong các lĩnh vực nhận thức đa phương thức, suy luận, sức khỏe và tác vụ dạng tác tử
- Meta đang tiếp tục đầu tư để thu hẹp khoảng cách hiệu năng ở một số mảng như hệ thống tác tử dài hạn và quy trình làm việc lập trình
- Chế độ Contemplating vận hành nhiều tác tử song song để giải quyết các vấn đề phức tạp, tương ứng với chế độ suy luận độ khó cao của các mô hình tuyến đầu như Gemini Deep Think và GPT Pro
- Đạt 58% trên Humanity’s Last Exam và 38% trên FrontierScience Research
- Chế độ Contemplating sẽ được triển khai dần trên meta.ai
Các lĩnh vực ứng dụng chính
- Muse Spark tạo nền tảng để phát triển thành siêu trí tuệ cá nhân có thể hiểu và tương tác với thế giới của người dùng
- Thông qua tích hợp đa phương thức, mô hình kết hợp thông tin thị giác và công cụ để đạt hiệu năng cao trong các bài toán hình ảnh STEM, nhận diện thực thể, định vị và hơn thế nữa
- Ví dụ: tạo mini-game, cung cấp tính năng chú thích động khi xử lý sự cố thiết bị gia dụng
- Trong lĩnh vực sức khỏe, Meta đã xây dựng dữ liệu huấn luyện với sự hợp tác của hơn 1.000 bác sĩ, cho phép suy luận y tế giàu tính thực tế và toàn diện
- Có thể tạo màn hình tương tác giải thích trực quan thông tin sức khỏe như thành phần dinh dưỡng của thực phẩm hay các nhóm cơ được kích hoạt khi tập luyện
- Các prompt ví dụ trình diễn khả năng tương tác hình ảnh cá nhân hóa như đánh giá tư thế yoga, trực quan hóa gợi ý chế độ ăn và hướng dẫn sử dụng máy pha cà phê
Các trục mở rộng
- Việc mở rộng Muse Spark được triển khai xoay quanh ba trục: tiền huấn luyện, học tăng cường và suy luận tại thời điểm kiểm thử
-
Tiền huấn luyện
- Là giai đoạn hình thành nền tảng cho khả năng hiểu đa phương thức, suy luận và lập trình của mô hình
- Trong 9 tháng gần đây, Meta đã cải thiện kiến trúc mô hình, tối ưu hóa và tuyển chọn dữ liệu để nâng cao mạnh mẽ hiệu quả tính toán
- Số FLOPs huấn luyện cần thiết để đạt cùng hiệu năng giảm hơn 10 lần so với Llama 4 Maverick, hiệu quả hơn các mô hình cạnh tranh chủ chốt
-
Học tăng cường
- Đây là giai đoạn mở rộng năng lực mô hình sau tiền huấn luyện, giải quyết tính bất ổn của RL quy mô lớn để đạt mức cải thiện hiệu năng có thể dự đoán được
- Khi khối lượng tính toán RL (số bước) tăng, các chỉ số pass@1 và pass@16 tăng trưởng theo log-tuyến tính, đồng thời cải thiện độ tin cậy và tính đa dạng của mô hình
- Độ chính xác cũng tăng trên các bộ đánh giá không xuất hiện trong huấn luyện, chứng minh năng lực khái quát hóa
-
Suy luận tại thời điểm kiểm thử
- Mô hình được huấn luyện để thực hiện quá trình “suy nghĩ” trước khi phản hồi
- Để sử dụng token hiệu quả, Meta áp dụng hình phạt thời gian suy nghĩ (thinking time penalty) cùng với cộng tác đa tác tử
- Huấn luyện RL đặt hình phạt lên thời gian suy nghĩ trong khi vẫn tối đa hóa độ chính xác, từ đó tạo ra hiện tượng “nén suy nghĩ (thought compression)”
- Sau khi giải quyết vấn đề bằng ít token hơn, mô hình lại mở rộng suy nghĩ để tăng cường hiệu năng
- Suy luận song song đa tác tử giúp cải thiện hiệu năng mà không làm tăng độ trễ (latency)
Đánh giá an toàn
- Vì Muse Spark sở hữu năng lực suy luận rộng, bao gồm cả các lĩnh vực khoa học lưỡng dụng, Meta đã tiến hành đánh giá an toàn diện rộng trước khi triển khai
- Dựa trên Advanced AI Scaling Framework v2 của Meta, công ty xác định mô hình đe dọa, quy trình đánh giá và tiêu chí triển khai
- Trong các lĩnh vực rủi ro cao như vũ khí sinh học và hóa học, mô hình thể hiện hành vi từ chối (refusal) mạnh, được củng cố bằng lọc dữ liệu, hậu huấn luyện ưu tiên an toàn và các biện pháp bảo vệ ở cấp hệ thống
- Ở các mảng an ninh mạng và mất kiểm soát (Loss of Control), mô hình không có năng lực tự chủ để hiện thực hóa các kịch bản rủi ro
- Kết quả đánh giá tổng thể cho thấy Muse Spark nằm trong ngưỡng tiêu chuẩn an toàn ở mọi nhóm rủi ro frontier đã được đo lường
- Trong đánh giá bên ngoài của Apollo Research, Muse Spark được quan sát là mô hình có mức nhận thức về đánh giá (evaluation awareness) cao nhất
- Trong một số tình huống, mô hình nhận ra mình đang bị đánh giá và suy luận rằng cần phải hành xử trung thực
- Tuy nhiên, tác động của nhận thức này đến hành vi thực tế là hạn chế, và chỉ ghi nhận ảnh hưởng rất nhỏ trong một số bài đánh giá căn chỉnh không liên quan đến năng lực rủi ro
- Meta không xem đây là yếu tố ngăn cản phát hành, mà chỉ cho thấy cần nghiên cứu thêm
Kết luận
- Muse Spark đang đi trên lộ trình mở rộng hiệu quả và có thể dự đoán được, và sẽ tiếp tục phát triển thành mô hình siêu trí tuệ cá nhân mạnh mẽ hơn trong tương lai
- Meta sẽ tiếp tục công bố các mô hình được cải thiện, với mục tiêu tiến tới kỷ nguyên siêu trí tuệ cá nhân hóa
1 bình luận
Ý kiến trên Hacker News
Không hiểu vì sao mọi người lại chê thứ này. Nếu mô hình này ngang ngửa hoặc nhỉnh hơn một chút so với Opus 4.6, thì điều đó có nghĩa là Meta đã tạo ra được một mô hình có thể cạnh tranh với các công ty AI hàng đầu.
Chắc chắn chi phí hẳn rất lớn, nhưng giờ việc phát triển nó thành một coding agent dường như không còn quá xa vời. Hơn nữa, với Meta thì họ có thể dùng trực tiếp mô hình SATA trên toàn bộ sản phẩm của mình như IG, WhatsApp, VR, nên về dài hạn cũng sẽ có lợi cho tài chính
Tôi đã đọc bài viết của Simon Willison và xem ví dụ về Pelicans. Tôi cũng thử trực tiếp trên meta.ai và thấy khá ổn. Python Code Interpreter container và công cụ phân tích ảnh container.visual_grounding đặc biệt thú vị
Tôi thấy hiện tượng này giống với cơn sốt đường sắt thế kỷ 19. Nếu nhiều công ty tạo ra AI ở trình độ tương tự nhau thì hào lũy cạnh tranh (moat) sẽ biến mất, và cuối cùng giá sẽ rẻ đi. Có thể họ sẽ không thu hồi được vốn đầu tư
Tôi đã chạy benchmark nội bộ và thấy hoàn toàn không ấn tượng. Nó không cùng đẳng cấp để so với OpenAI, Anthropic hay Gemini. Cũng có rất nhiều lỗi phân tích trong các câu hỏi kỹ thuật
Tôi bấm vào ô nhập “Ask Meta AI…” thì ngay lập tức là yêu cầu đăng nhập và quy trình liên kết Facebook/Instagram. Cảm giác đúng kiểu dark pattern. OpenAI xử lý phần này tốt hơn nhiều
Nếu Meta thật sự đã giành lại được một frontier model, thì giờ tôi tò mò về hướng chiến lược của họ. Không biết họ có từ bỏ triết lý hệ sinh thái mở như trước đây hay chưa.
llama4 đúng là gây thất vọng, nhưng nếu họ giữ nguyên chiến lược đó thì có lẽ giờ đã đi trước xa hơn nhiều. Các công ty khác đã xây được ecosystem, còn Meta thì không.
Nếu muốn quay lại trung tâm cuộc đối thoại, họ phải đầu tư cỡ 1 tỷ USD vào những dự án như OpenCode để hồi sinh hệ sinh thái mở. Nếu không thì nó sẽ chỉ còn là mô hình nội bộ đóng
Lần đầu tiên tôi thử bài test suy luận thị giác dựa trên bản vẽ kỹ thuật, trong số ChatGPT, Claude, Gemini và Grok thì chỉ Gemini làm được. Nhưng Muse Spark đã làm hoàn hảo. Nó trích đúng trang liên quan từ PDF, hiển thị inline và đưa ra câu trả lời chính xác.
Có thể lần này chỉ là may mắn, nhưng ấn tượng ban đầu quá tốt nên tôi sẽ tiếp tục thử thêm. Tuy nhiên, chính sách sử dụng dữ liệu của Meta rất hung hăng nên không phù hợp với tài liệu nhạy cảm.
Sẽ rất tốt nếu họ cung cấp tùy chọn loại trừ dữ liệu khỏi việc huấn luyện thông qua gói trả phí. Mô hình kiếm tiền từ dữ liệu thay vì từ dịch vụ miễn phí khiến tôi thấy bất an
Mô hình lần này đã tiệm cận GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Về coding thì OpenAI dẫn trước, suy luận văn bản thì Google dẫn trước, còn Humanity’s Last Exam thì Anthropic nhỉnh hơn. Dù vậy, có thể xem Meta đã quay trở lại vị thế phòng thí nghiệm frontier.
Bây giờ là thế trận cuộc đua 3,5 con ngựa, và tôi khá chờ đợi mô hình tiếp theo. Cạnh tranh nhiều hơn luôn là điều tốt. Có lẽ Grok 4.2 giờ nên bị loại khỏi bảng
“Personal” rốt cuộc chỉ có nghĩa là Meta dùng dữ liệu cá nhân cho quảng cáo
Cụm “visual chain of thought” khá thú vị. Tôi không rõ nó có nghĩa là người dùng có thể nhìn thấy quá trình suy luận bằng hình ảnh, hay là mô hình tư duy dựa trên hình ảnh. Nếu là vế sau thì thực sự sẽ rất đột phá