1 điểm bởi GN⁺ 13 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Muse Spark do Meta Superintelligence Labs phát triển là một mô hình suy luận đa phương thức hỗ trợ sử dụng công cụ, chuỗi suy nghĩ thị giác và cộng tác đa tác tử
  • Là bước đầu tiên hướng tới siêu trí tuệ cá nhân (personal superintelligence), hiện đang được cung cấp dưới dạng bản xem trước API riêng tư cho một số người dùng trên meta.ai và ứng dụng Meta AI
  • Mô hình được mở rộng theo ba trục tiền huấn luyện, học tăng cường và suy luận tại thời điểm kiểm thử, đạt hiệu năng huấn luyện hiệu quả hơn hơn 10 lần so với Llama 4
  • Thông qua chế độ Contemplating, mô hình thực hiện suy luận độ khó cao dựa trên các tác tử chạy song song, hiện thực hóa năng lực tư duy nâng cao ở mức Gemini Deep Think và GPT Pro
  • Meta đặt mục tiêu phát triển Muse Spark thành mô hình siêu trí tuệ cá nhân hóa vừa an toàn vừa hiệu quả

Tổng quan về Muse Spark

  • Muse Sparkmô hình suy luận đa phương thức do Meta Superintelligence Labs phát triển, hỗ trợ sử dụng công cụ, chuỗi suy nghĩ thị giác (visual chain of thought) và điều phối đa tác tử
  • Đây là kết quả đầu tiên của việc Meta tái cấu trúc toàn bộ hoạt động nghiên cứu AI, được giới thiệu như bước đầu tiên hướng tới siêu trí tuệ cá nhân (personal superintelligence)
  • Công ty đang đẩy mạnh đầu tư mở rộng trên toàn bộ nghiên cứu, huấn luyện mô hình và hạ tầng như trung tâm dữ liệu Hyperion
  • Hiện có thể sử dụng trên meta.ai và ứng dụng Meta AI, đồng thời cung cấp bản xem trước API riêng tư cho một số người dùng

Các tính năng cho siêu trí tuệ cá nhân

  • Muse Spark có hiệu năng cạnh tranh trong các lĩnh vực nhận thức đa phương thức, suy luận, sức khỏe và tác vụ dạng tác tử
  • Meta đang tiếp tục đầu tư để thu hẹp khoảng cách hiệu năng ở một số mảng như hệ thống tác tử dài hạn và quy trình làm việc lập trình
  • Chế độ Contemplating vận hành nhiều tác tử song song để giải quyết các vấn đề phức tạp, tương ứng với chế độ suy luận độ khó cao của các mô hình tuyến đầu như Gemini Deep Think và GPT Pro
    • Đạt 58% trên Humanity’s Last Exam và 38% trên FrontierScience Research
  • Chế độ Contemplating sẽ được triển khai dần trên meta.ai

Các lĩnh vực ứng dụng chính

  • Muse Spark tạo nền tảng để phát triển thành siêu trí tuệ cá nhân có thể hiểu và tương tác với thế giới của người dùng
  • Thông qua tích hợp đa phương thức, mô hình kết hợp thông tin thị giác và công cụ để đạt hiệu năng cao trong các bài toán hình ảnh STEM, nhận diện thực thể, định vị và hơn thế nữa
    • Ví dụ: tạo mini-game, cung cấp tính năng chú thích động khi xử lý sự cố thiết bị gia dụng
  • Trong lĩnh vực sức khỏe, Meta đã xây dựng dữ liệu huấn luyện với sự hợp tác của hơn 1.000 bác sĩ, cho phép suy luận y tế giàu tính thực tế và toàn diện
    • Có thể tạo màn hình tương tác giải thích trực quan thông tin sức khỏe như thành phần dinh dưỡng của thực phẩm hay các nhóm cơ được kích hoạt khi tập luyện
  • Các prompt ví dụ trình diễn khả năng tương tác hình ảnh cá nhân hóa như đánh giá tư thế yoga, trực quan hóa gợi ý chế độ ăn và hướng dẫn sử dụng máy pha cà phê

Các trục mở rộng

  • Việc mở rộng Muse Spark được triển khai xoay quanh ba trục: tiền huấn luyện, học tăng cường và suy luận tại thời điểm kiểm thử
  • Tiền huấn luyện

    • Là giai đoạn hình thành nền tảng cho khả năng hiểu đa phương thức, suy luận và lập trình của mô hình
    • Trong 9 tháng gần đây, Meta đã cải thiện kiến trúc mô hình, tối ưu hóa và tuyển chọn dữ liệu để nâng cao mạnh mẽ hiệu quả tính toán
    • Số FLOPs huấn luyện cần thiết để đạt cùng hiệu năng giảm hơn 10 lần so với Llama 4 Maverick, hiệu quả hơn các mô hình cạnh tranh chủ chốt
  • Học tăng cường

    • Đây là giai đoạn mở rộng năng lực mô hình sau tiền huấn luyện, giải quyết tính bất ổn của RL quy mô lớn để đạt mức cải thiện hiệu năng có thể dự đoán được
    • Khi khối lượng tính toán RL (số bước) tăng, các chỉ số pass@1 và pass@16 tăng trưởng theo log-tuyến tính, đồng thời cải thiện độ tin cậy và tính đa dạng của mô hình
    • Độ chính xác cũng tăng trên các bộ đánh giá không xuất hiện trong huấn luyện, chứng minh năng lực khái quát hóa
  • Suy luận tại thời điểm kiểm thử

    • Mô hình được huấn luyện để thực hiện quá trình “suy nghĩ” trước khi phản hồi
    • Để sử dụng token hiệu quả, Meta áp dụng hình phạt thời gian suy nghĩ (thinking time penalty) cùng với cộng tác đa tác tử
    • Huấn luyện RL đặt hình phạt lên thời gian suy nghĩ trong khi vẫn tối đa hóa độ chính xác, từ đó tạo ra hiện tượng “nén suy nghĩ (thought compression)”
      • Sau khi giải quyết vấn đề bằng ít token hơn, mô hình lại mở rộng suy nghĩ để tăng cường hiệu năng
    • Suy luận song song đa tác tử giúp cải thiện hiệu năng mà không làm tăng độ trễ (latency)

Đánh giá an toàn

  • Vì Muse Spark sở hữu năng lực suy luận rộng, bao gồm cả các lĩnh vực khoa học lưỡng dụng, Meta đã tiến hành đánh giá an toàn diện rộng trước khi triển khai
  • Dựa trên Advanced AI Scaling Framework v2 của Meta, công ty xác định mô hình đe dọa, quy trình đánh giá và tiêu chí triển khai
  • Trong các lĩnh vực rủi ro cao như vũ khí sinh học và hóa học, mô hình thể hiện hành vi từ chối (refusal) mạnh, được củng cố bằng lọc dữ liệu, hậu huấn luyện ưu tiên an toàn và các biện pháp bảo vệ ở cấp hệ thống
  • Ở các mảng an ninh mạng và mất kiểm soát (Loss of Control), mô hình không có năng lực tự chủ để hiện thực hóa các kịch bản rủi ro
  • Kết quả đánh giá tổng thể cho thấy Muse Spark nằm trong ngưỡng tiêu chuẩn an toàn ở mọi nhóm rủi ro frontier đã được đo lường
  • Trong đánh giá bên ngoài của Apollo Research, Muse Spark được quan sát là mô hình có mức nhận thức về đánh giá (evaluation awareness) cao nhất
    • Trong một số tình huống, mô hình nhận ra mình đang bị đánh giá và suy luận rằng cần phải hành xử trung thực
    • Tuy nhiên, tác động của nhận thức này đến hành vi thực tế là hạn chế, và chỉ ghi nhận ảnh hưởng rất nhỏ trong một số bài đánh giá căn chỉnh không liên quan đến năng lực rủi ro
    • Meta không xem đây là yếu tố ngăn cản phát hành, mà chỉ cho thấy cần nghiên cứu thêm

Kết luận

  • Muse Spark đang đi trên lộ trình mở rộng hiệu quả và có thể dự đoán được, và sẽ tiếp tục phát triển thành mô hình siêu trí tuệ cá nhân mạnh mẽ hơn trong tương lai
  • Meta sẽ tiếp tục công bố các mô hình được cải thiện, với mục tiêu tiến tới kỷ nguyên siêu trí tuệ cá nhân hóa

1 bình luận

 
Ý kiến trên Hacker News
  • Không hiểu vì sao mọi người lại chê thứ này. Nếu mô hình này ngang ngửa hoặc nhỉnh hơn một chút so với Opus 4.6, thì điều đó có nghĩa là Meta đã tạo ra được một mô hình có thể cạnh tranh với các công ty AI hàng đầu.
    Chắc chắn chi phí hẳn rất lớn, nhưng giờ việc phát triển nó thành một coding agent dường như không còn quá xa vời. Hơn nữa, với Meta thì họ có thể dùng trực tiếp mô hình SATA trên toàn bộ sản phẩm của mình như IG, WhatsApp, VR, nên về dài hạn cũng sẽ có lợi cho tài chính

    • Cũng có thể hiểu được phản ứng hoài nghi. Trước đây từng có vụ llama 4 benchmark bị thổi phồng. Mô hình lần này cũng đã tồn tại từ vài tháng trước, nhưng có vẻ khi đó nó chỉ ở mức Gemini 2.5 Pro nên đã bị hoãn công bố
    • Thị trường coding agent hiện đã là nơi AnthropicOpenAI tập trung mạnh. Cơ hội Meta nên nhắm tới có lẽ lại là mảng AI cho người tiêu dùng. OpenAI sắp phải quyết định nên dồn tài nguyên cho người dùng miễn phí hay cho doanh nghiệp
    • Chỉ nhìn benchmark thì đây là một mô hình ổn, nhưng về tính thực dụng trong lập trình thì vẫn chưa bằng Opus. Độ hữu ích trong các tác vụ code thường ngày không thể đo hết bằng benchmark. Dù vậy, cạnh tranh nhiều hơn vẫn là điều tốt
    • Câu nói “vượt Opus 4.6” thực ra không đúng
    • Cũng có nhiều người có ác cảm mặc định với Meta. Dù chính đáng hay không, nhiều trường hợp đơn giản là ghét vì đó là Meta
  • Tôi đã đọc bài viết của Simon Willison và xem ví dụ về Pelicans. Tôi cũng thử trực tiếp trên meta.ai và thấy khá ổn. Python Code Interpreter container và công cụ phân tích ảnh container.visual_grounding đặc biệt thú vị

    • Alexandr Wang có nhắc rằng sau này thứ này có thể sẽ được phát hành dưới dạng mã nguồn mở, nên tôi đang khá mong chờ
    • Có vẻ các công cụ được cung cấp khác nhau tùy khu vực. Tôi không có tính năng visual_grounding, chỉ truy cập được các tính năng trong liên kết này
    • Muốn hỏi Simon — trong số các mô hình anh đã thấy đến nay, mô hình nào tạo ‘bồ nông đi xe đạp’ tốt nhất?
    • Hơi tiếc là trên meta.ai phải đăng nhập mới dùng được. Mong là Openrouter cũng sẽ sớm hỗ trợ. Dù vậy, tôi vẫn rất muốn thử ngay
  • Tôi thấy hiện tượng này giống với cơn sốt đường sắt thế kỷ 19. Nếu nhiều công ty tạo ra AI ở trình độ tương tự nhau thì hào lũy cạnh tranh (moat) sẽ biến mất, và cuối cùng giá sẽ rẻ đi. Có thể họ sẽ không thu hồi được vốn đầu tư

    • Vì vậy tôi nghĩ đó là lý do Anthropic giữ giá API cao và hạn chế đăng ký sản phẩm riêng của họ. Đó là chiến lược nhắm vào việc người dùng không chuyên kỹ thuật sẽ ở lại lâu hơn
    • Dù sao thì tất cả những công ty này đều gắn kết chặt với chính phủ, nên họ sẽ nhận được nhiều hỗ trợ hơn logic thị trường thuần túy. Kể cả có thất bại thì kết quả vẫn có thể là các mô hình open-weight xuất hiện. Chỉ là những mô hình đó có lẽ cũng sẽ lỗi thời trong vài tháng
    • Ngược lại, hiện tại AI vừa đại chúng như smartphone, vừa mang tính phá hủy như động cơ hơi nước. Các công ty AI đang lớn lên thành những công ty phần mềm lớn nhất thế giới, và thị trường có cơ hội trị giá hàng nghìn tỷ USD
    • Moat thực sự nằm ở năng lực tính toán và khả năng tiếp cận năng lượng. Đó là lý do Elon Musk đang trực tiếp xây nhà máy bán dẫn. Dù HuggingFace có rất nhiều mô hình, gần như chẳng có mấy ai thực sự chạy được chúng
  • Tôi đã chạy benchmark nội bộ và thấy hoàn toàn không ấn tượng. Nó không cùng đẳng cấp để so với OpenAI, Anthropic hay Gemini. Cũng có rất nhiều lỗi phân tích trong các câu hỏi kỹ thuật

    • Thử thêm thì thấy có quá nhiều lỗi toán cơ bản. Tôi đối chiếu chéo bằng Gemini thì phát hiện lỗi ở gần như mọi bài đơn giản
    • Dù vậy, ở mảng đa phương thức thì nó khá ổn. Đủ tốt để 3 tỷ người dùng dùng được, nhưng trong lĩnh vực khoa học thì vẫn còn tụt lại
    • Thật ra tôi còn nghĩ ngay cả Gemini cũng chưa đủ tầm để bước vào cuộc trò chuyện đó
  • Tôi bấm vào ô nhập “Ask Meta AI…” thì ngay lập tức là yêu cầu đăng nhập và quy trình liên kết Facebook/Instagram. Cảm giác đúng kiểu dark pattern. OpenAI xử lý phần này tốt hơn nhiều

  • Nếu Meta thật sự đã giành lại được một frontier model, thì giờ tôi tò mò về hướng chiến lược của họ. Không biết họ có từ bỏ triết lý hệ sinh thái mở như trước đây hay chưa.
    llama4 đúng là gây thất vọng, nhưng nếu họ giữ nguyên chiến lược đó thì có lẽ giờ đã đi trước xa hơn nhiều. Các công ty khác đã xây được ecosystem, còn Meta thì không.
    Nếu muốn quay lại trung tâm cuộc đối thoại, họ phải đầu tư cỡ 1 tỷ USD vào những dự án như OpenCode để hồi sinh hệ sinh thái mở. Nếu không thì nó sẽ chỉ còn là mô hình nội bộ đóng

    • Có khi cũng không cần một open harness mới. Anthropic đã cung cấp miễn phí thứ đó cho cộng đồng rồi
  • Lần đầu tiên tôi thử bài test suy luận thị giác dựa trên bản vẽ kỹ thuật, trong số ChatGPT, Claude, Gemini và Grok thì chỉ Gemini làm được. Nhưng Muse Spark đã làm hoàn hảo. Nó trích đúng trang liên quan từ PDF, hiển thị inline và đưa ra câu trả lời chính xác.
    Có thể lần này chỉ là may mắn, nhưng ấn tượng ban đầu quá tốt nên tôi sẽ tiếp tục thử thêm. Tuy nhiên, chính sách sử dụng dữ liệu của Meta rất hung hăng nên không phù hợp với tài liệu nhạy cảm.
    Sẽ rất tốt nếu họ cung cấp tùy chọn loại trừ dữ liệu khỏi việc huấn luyện thông qua gói trả phí. Mô hình kiếm tiền từ dữ liệu thay vì từ dịch vụ miễn phí khiến tôi thấy bất an

  • Mô hình lần này đã tiệm cận GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Về coding thì OpenAI dẫn trước, suy luận văn bản thì Google dẫn trước, còn Humanity’s Last Exam thì Anthropic nhỉnh hơn. Dù vậy, có thể xem Meta đã quay trở lại vị thế phòng thí nghiệm frontier.
    Bây giờ là thế trận cuộc đua 3,5 con ngựa, và tôi khá chờ đợi mô hình tiếp theo. Cạnh tranh nhiều hơn luôn là điều tốt. Có lẽ Grok 4.2 giờ nên bị loại khỏi bảng

    • Tôi đã dùng Grok Code làm công cụ chính một thời gian và thấy nó khá xuất sắc. Cuối cùng thì LLM vẫn phụ thuộc vào bối cảnh sử dụng và lĩnh vực. Đặc biệt với các câu hỏi liên quan sức khỏe, các mô hình khác thường né trả lời nên tôi vẫn dùng Grok
    • Tuy nhiên, cách tiếp cận lần này của Meta có vẻ thiếu năng lực suy luận và giải quyết vấn đề dài hạn. Điểm HLE thấp hơn Mythos của Anthropic. Dù vậy, tổng thể vẫn là một bước tiến tích cực
  • “Personal” rốt cuộc chỉ có nghĩa là Meta dùng dữ liệu cá nhân cho quảng cáo

    • Và trong quá trình đó, cảm giác như họ còn hấp thụ cả bản chất tinh thần của người dùng vào mô hình
    • Nếu tôi chỉ là mục tiêu quảng cáo thôi thì, họ cứ gửi quảng cáo thoải mái cũng được
  • Cụm “visual chain of thought” khá thú vị. Tôi không rõ nó có nghĩa là người dùng có thể nhìn thấy quá trình suy luận bằng hình ảnh, hay là mô hình tư duy dựa trên hình ảnh. Nếu là vế sau thì thực sự sẽ rất đột phá

    • Nhưng phần lớn chain of thought mà tôi từng thấy cho đến giờ đều chỉ giống suy luận giả được làm cho trông hợp lý. Thực tế bên trong nó đang được xử lý theo cách khác
    • Thực ra các bước trung gian trực quan như vậy đã xuất hiện ở Gemini. Trong các tác vụ thị giác, nó thậm chí còn tạo ra sơ đồ trung gian, và trong nghiên cứu năm 2024 cũng từng có đề xuất các cách tiếp cận như turtle diagram