Mercury 2: LLM suy luận siêu tốc dựa trên khuếch tán

(inceptionlabs.ai)

7 điểm bởi GN⁺ 2026-02-26 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ sử dụng phương thức sinh song song dựa trên mô hình khuếch tán (diffusion) để vượt qua giới hạn tốc độ của các LLM giải mã tuần tự hiện có
Với kiến trúc tinh chỉnh song song (parallel refinement) tạo và sửa nhiều token cùng lúc, đạt tốc độ phản hồi nhanh hơn hơn 5 lần
Được tối ưu cho các ứng dụng thời gian thực với 1.009 token/giây, ngữ cảnh 128K, đầu ra JSON, và khả năng dùng công cụ
Chứng minh hiệu quả trong các môi trường nhạy với độ trễ như hỗ trợ lập trình, vòng lặp tác tử, giao diện giọng nói, pipeline tìm kiếm·RAG
Tương thích hoàn toàn với OpenAI API, có thể tích hợp ngay mà không cần sửa đổi hạ tầng hiện có

Tổng quan về Mercury 2

Mercury 2 là mô hình ngôn ngữ suy luận nhanh nhất thế giới
- Mục tiêu là cung cấp khả năng phản hồi tức thì trong môi trường AI production
Điểm nghẽn của LLM hiện tại là kiến trúc tự hồi quy giải mã tuần tự (one token at a time)
- Điều này khiến độ trễ bị cộng dồn trong các quy trình AI kiểu vòng lặp lặp lại

Kiến trúc suy luận thời gian thực dựa trên khuếch tán

Mercury 2 áp dụng phương thức tinh chỉnh song song (parallel refinement) thay vì giải mã tuần tự
- Tạo nhiều token đồng thời và hội tụ chỉ trong một số ít bước
- Thay vì như một “máy đánh chữ”, nó hoạt động như một “biên tập viên” liên tục chỉnh sửa toàn bộ bản nháp
Nhờ đó, mô hình đạt tốc độ sinh nhanh hơn hơn 5 lần và thiết lập một đường cong tốc độ mới
Suy luận dựa trên khuếch tán cho phép suy luận chất lượng cao đồng thời giảm thiểu độ trễ và chi phí

Hiệu năng và thông số

Tốc độ: 1.009 token/giây trên GPU NVIDIA Blackwell
Giá: $0.25 cho mỗi 1 triệu token đầu vào, $0.75 cho mỗi 1 triệu token đầu ra
Chất lượng: Mức cạnh tranh với các mô hình tối ưu tốc độ hàng đầu
Tính năng: suy luận có thể điều chỉnh (tunable reasoning), ngữ cảnh 128K, dùng công cụ, đầu ra căn chỉnh theo JSON schema
Tối ưu độ trễ: độ trễ p95, khả năng phản hồi nhất quán trong môi trường đồng thời cao, duy trì thông lượng ổn định
Đại diện NVIDIA cho biết Mercury 2 khi kết hợp với hạ tầng AI của NVIDIA đã vượt mốc 1.000 token/giây

Các trường hợp sử dụng trong production

1. Lập trình và chỉnh sửa

Cung cấp phản hồi tức thì trong vòng lặp làm việc của lập trình viên như tự động hoàn thành, refactoring, tác tử code
Đồng sáng lập Zed, Max Brunsfeld, nhấn mạnh “tốc độ gợi ý nhanh như một phần của suy nghĩ”

2. Vòng lặp tác tử

Giảm độ trễ lời gọi trong workflow tác tử cần các lượt gọi suy luận nhiều bước
Viant sử dụng Mercury 2 để tối ưu chiến dịch theo thời gian thực và tăng cường hệ thống quảng cáo tự động
Wispr Flow đang đánh giá tốc độ của Mercury 2 trong đối thoại thời gian thực và tinh chỉnh bản chép lời
Skyvern cho biết “nhanh ít nhất gấp đôi GPT-5.2”

3. Giọng nói thời gian thực và tương tác

Giao diện giọng nói có yêu cầu nghiêm ngặt nhất về giới hạn độ trễ
Happyverse AI triển khai avatar hội thoại thời gian thực tự nhiên với Mercury 2
OpenCall cho biết với độ trễ thấp và chất lượng cao, có thể xây dựng các voice agent phản hồi tốt hơn

4. Tìm kiếm và pipeline RAG

Giảm độ trễ cộng dồn của các bước tìm kiếm nhiều lần, xếp hạng lại và tóm tắt để cho phép suy luận thời gian thực
SearchBlox hợp tác với Mercury 2 để triển khai AI tìm kiếm thời gian thực,
cung cấp intelligence theo từng giây trong nhiều lĩnh vực như hỗ trợ khách hàng, rủi ro và thương mại điện tử

Triển khai và tích hợp

Mercury 2 có thể dùng ngay, tương thích hoàn toàn với OpenAI API
Có thể tích hợp vào hệ thống hiện có mà không cần sửa mã
Khi đánh giá ở cấp doanh nghiệp, có hỗ trợ về mức độ phù hợp của workload, kiểm chứng hiệu năng và thiết kế đánh giá
Câu giới thiệu chính thức: “Mercury 2 is live. Welcome to diffusion.”

1 bình luận

GN⁺ 2026-02-26

Ý kiến trên Hacker News

Khái niệm đo trí thông minh(metric) theo giây khá thú vị
Ví dụ như xem xét trí thông minh trên mỗi token, đồng thời tính cả số token mỗi giây
Cá nhân tôi có lẽ sẽ chủ yếu dùng Sonnet nếu Sonnet 4.6 nhanh hơn Opus 4.6 gấp 5 lần
Ở thế hệ trước, dòng Sonnet chưa đủ tốt, nhưng giờ tình hình đã khác vì lợi thế lặp(iteration) mà tốc độ mang lại rất lớn
Trước đây tôi dùng OpenAI Deep Research, nhưng o3-thinking + tìm kiếm web nhanh hơn nhiều mà vẫn đủ thông minh
- Tôi nghĩ rằng “bản thân tốc độ cũng là một trục của chất lượng”
  Nếu phát triển API trên phần cứng như Cereberas hay Groq thì tốc độ lặp và chi phí ở một đẳng cấp hoàn toàn khác
  Ngay trong ghi chú nghiên cứu tôi viết gần đây cũng cho thấy rằng nếu tách lập kế hoạch là mô hình AR, còn sinh nội dung là mô hình diffusion, thì hiệu năng được cải thiện đáng kể
- Có lẽ sẽ thực tế hơn nếu thêm hiệu suất trên mỗi đơn vị phần cứng vào chỉ số này
  Ví dụ, nếu chỉ cần 5 tấn than là đủ mà lại dùng 30 tấn để cải thiện 0.0000000001% thì đó không phải tiến bộ thực sự
- Một nhóm mô hình mới đang xuất hiện với mục tiêu lặp tác vụ agent thật nhanh
  Các mô hình Composer hay bản Flash là ví dụ, và Mercury 2 cũng đang được định vị là một mô hình mạnh trong nhóm này
- Có vẻ sắp có thể tự làm benchmark thực tế
  Mô hình nhanh thì lặp nhanh, còn mô hình lớn thì chính xác hơn ngay từ lần thử đầu
  Hiện tại tôi thích Opus 4.6, nhưng muốn xem dữ liệu về chênh lệch hiệu suất so với Sonnet
- Tôi thực sự thích khái niệm “Intelligence per second”
  Đó cũng chính là lý do tôi thích Gemini 3 Flash — đủ thông minh mà lại nhanh đến khó tin
Tôi thử một bài test đơn giản, hỏi về “thành tựu của Maradona” thì Mercury 2 lại gõ nhầm thành “Dieadona”
Đây là câu hỏi mà cả mô hình local 3B cũng có thể trả lời hoàn hảo, nhưng Mercury 2 thì chậm và nhiều lỗi
Mercury 2 tạo phản hồi theo cách tinh chỉnh song song(parallel refinement)
Nó sinh nhiều token cùng lúc rồi hội tụ sau vài bước, nên không giống máy đánh chữ mà giống trình soạn thảo đang gọt lại toàn bộ bản nháp hơn
Hiện đang có nghiên cứu hợp nhất DDPM và SGM bằng SDE, và tôi tò mò liệu có thể xem mỗi layer của transformer như một bước diffusion hay không
Nếu L layer của transformer tương ứng với L bước tinh chỉnh của diffusion, thì có lẽ fit lẫn nhau(mutual fitting) giữa hai mô hình sẽ khả thi
Với tư cách là đồng sáng lập và Chief Scientist của Inception, tôi hoan nghênh các câu hỏi kỹ thuật về Mercury 2 hoặc diffusion LM
- Tôi tò mò KV cache hoạt động thế nào trong mô hình diffusion
  Liệu nó có thể giảm latency hay chi phí không, có đường cong tương tự autoregressive caching không, hay hoàn toàn không áp dụng được
- Có vẻ mô hình diffusion thực hiện reasoning theo từng khối văn bản, vậy khi có phụ thuộc thông tin giữa các khối thì xử lý thế nào
  Tôi cũng thấy hứng thú với khả năng áp dụng độ dài khối động(dynamic block length)
- Tôi tò mò về cách Voice AI được nhắc đến trong phần công bố thực sự vận hành ra sao
  Trong đa số hệ thống giọng nói, TTFT(time-to-first-token) quan trọng hơn độ trễ của toàn bộ phản hồi
  Tôi muốn biết TTFT của Mercury 2 đã cải thiện bao nhiêu so với các mô hình reasoning khác
- Tôi từng gặp hiện tượng kẹt trong vòng lặp giống các mô hình transformer yếu hơn
  Xem liên kết ví dụ
  Tôi muốn biết nguyên nhân của hiện tượng này là gì
- Tôi cũng muốn biết liệu có kế hoạch phát triển sang drifting model để đạt tốc độ cao hơn nữa hay không
Điều thú vị nhất là giờ đã xuất hiện mô hình sinh hàng nghìn token mỗi giây
Khi đó, kể cả dùng multi-shot prompting hay nudging thì người dùng cũng khó cảm nhận được, nên có thể giảm vấn đề ảo giác và phản hồi phi quyết định
- Chúng tôi cũng nghĩ như vậy
  Mercury 2 cho phép lặp nhanh các tác vụ agent
  Một lần thử có thể kém chính xác hơn, nhưng nhờ thời gian chạy ngắn nên có thể cải thiện nhanh hơn rất nhiều
- Mô hình thông thường cũng khá nhanh nếu làm batch inference
  Ví dụ GPT-OSS 20B trên một chiếc 3090 đơn lẻ có thể đạt khoảng 2k tok/s với bs=64
Tôi vẫn chưa thực sự tin vào mô hình diffusion
Google và các bên khác cũng đã thử, nhưng trong đa số trường hợp chúng bị tụt lại trên Pareto frontier
Xem liên kết so sánh giá/hiệu năng
- Có ý kiến phản biện theo góc nhìn Pareto
  Với cùng mức chất lượng, Mercury nhanh hơn hơn 5 lần so với các mô hình AR tương tự
  Trí thông minh tuyệt đối hiện vẫn thấp hơn Opus hay Gemini Pro, nhưng về tốc độ suy luận thì có lợi thế lớn
- Text diffusion vẫn còn nhiều dư địa phát triển
  Đây là lĩnh vực ít được khai phá hơn nhiều so với autoregressive transformer nên còn headroom kỹ thuật lớn
- Mô hình này có vẻ sẽ hoàn hảo cho các tác vụ chỉnh sửa(edit) nhanh
  Nếu có phiên bản “Mercury Edit” như Fast Apply của Morph thì tôi rất muốn thử
Cách tiếp cận dựa trên diffusion rất đáng chú ý
Transformer truyền thống sinh token theo tuần tự, còn diffusion có thể tinh chỉnh(refine) toàn bộ đầu ra một cách lặp lại
Nếu họ đã giải quyết được vấn đề độ trễ(latency), nó có thể mở ra những khả năng mới cho các tác vụ reasoning phức tạp
Tôi tò mò liệu có diffusion LLM mã nguồn mở với open weights nào chạy được trên phần cứng local hay không
Tôi muốn tự mình xem sự khác biệt về hiệu năng trong môi trường GPU tiêu dùng
Mercury 2 đã thất bại ở Car Wash Test
Có lẽ sẽ tốt hơn nếu tập trung vào trường hợp sử dụng cụ thể(ví dụ: coding agent) thay vì mô hình reasoning đa dụng, rồi so sánh với các mô hình SOTA trong lĩnh vực đó như Qwen3-Coder-Next
- Cá nhân tôi thích mô hình chậm nhưng chính xác hơn là mô hình nhanh mà nhiều lỗi
  Dù phải chạy phiên dài hơn thì độ chính xác vẫn quan trọng hơn
Tôi tò mò nếu mô hình này được đưa lên chip Talaas thì liệu có thể sinh hơn 50.000 token mỗi giây hay không
- Nếu được nhúng bằng mạch kiểu ASIC không có độ trễ bộ nhớ, có lẽ bất kỳ mô hình nào cũng có thể tăng tốc khổng lồ

Mercury 2: LLM suy luận siêu tốc dựa trên khuếch tán

Tổng quan về Mercury 2

Kiến trúc suy luận thời gian thực dựa trên khuếch tán

Hiệu năng và thông số

Các trường hợp sử dụng trong production

1. Lập trình và chỉnh sửa

2. Vòng lặp tác tử

3. Giọng nói thời gian thực và tương tác

4. Tìm kiếm và pipeline RAG

Triển khai và tích hợp

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News