- Mô hình ngôn ngữ sử dụng phương thức sinh song song dựa trên mô hình khuếch tán (diffusion) để vượt qua giới hạn tốc độ của các LLM giải mã tuần tự hiện có
- Với kiến trúc tinh chỉnh song song (parallel refinement) tạo và sửa nhiều token cùng lúc, đạt tốc độ phản hồi nhanh hơn hơn 5 lần
- Được tối ưu cho các ứng dụng thời gian thực với 1.009 token/giây, ngữ cảnh 128K, đầu ra JSON, và khả năng dùng công cụ
- Chứng minh hiệu quả trong các môi trường nhạy với độ trễ như hỗ trợ lập trình, vòng lặp tác tử, giao diện giọng nói, pipeline tìm kiếm·RAG
- Tương thích hoàn toàn với OpenAI API, có thể tích hợp ngay mà không cần sửa đổi hạ tầng hiện có
Tổng quan về Mercury 2
- Mercury 2 là mô hình ngôn ngữ suy luận nhanh nhất thế giới
- Mục tiêu là cung cấp khả năng phản hồi tức thì trong môi trường AI production
- Điểm nghẽn của LLM hiện tại là kiến trúc tự hồi quy giải mã tuần tự (one token at a time)
- Điều này khiến độ trễ bị cộng dồn trong các quy trình AI kiểu vòng lặp lặp lại
Kiến trúc suy luận thời gian thực dựa trên khuếch tán
- Mercury 2 áp dụng phương thức tinh chỉnh song song (parallel refinement) thay vì giải mã tuần tự
- Tạo nhiều token đồng thời và hội tụ chỉ trong một số ít bước
- Thay vì như một “máy đánh chữ”, nó hoạt động như một “biên tập viên” liên tục chỉnh sửa toàn bộ bản nháp
- Nhờ đó, mô hình đạt tốc độ sinh nhanh hơn hơn 5 lần và thiết lập một đường cong tốc độ mới
- Suy luận dựa trên khuếch tán cho phép suy luận chất lượng cao đồng thời giảm thiểu độ trễ và chi phí
Hiệu năng và thông số
- Tốc độ: 1.009 token/giây trên GPU NVIDIA Blackwell
- Giá: $0.25 cho mỗi 1 triệu token đầu vào, $0.75 cho mỗi 1 triệu token đầu ra
- Chất lượng: Mức cạnh tranh với các mô hình tối ưu tốc độ hàng đầu
- Tính năng: suy luận có thể điều chỉnh (tunable reasoning), ngữ cảnh 128K, dùng công cụ, đầu ra căn chỉnh theo JSON schema
- Tối ưu độ trễ: độ trễ p95, khả năng phản hồi nhất quán trong môi trường đồng thời cao, duy trì thông lượng ổn định
- Đại diện NVIDIA cho biết Mercury 2 khi kết hợp với hạ tầng AI của NVIDIA đã vượt mốc 1.000 token/giây
Các trường hợp sử dụng trong production
1. Lập trình và chỉnh sửa
- Cung cấp phản hồi tức thì trong vòng lặp làm việc của lập trình viên như tự động hoàn thành, refactoring, tác tử code
- Đồng sáng lập Zed, Max Brunsfeld, nhấn mạnh “tốc độ gợi ý nhanh như một phần của suy nghĩ”
2. Vòng lặp tác tử
- Giảm độ trễ lời gọi trong workflow tác tử cần các lượt gọi suy luận nhiều bước
- Viant sử dụng Mercury 2 để tối ưu chiến dịch theo thời gian thực và tăng cường hệ thống quảng cáo tự động
- Wispr Flow đang đánh giá tốc độ của Mercury 2 trong đối thoại thời gian thực và tinh chỉnh bản chép lời
- Skyvern cho biết “nhanh ít nhất gấp đôi GPT-5.2”
3. Giọng nói thời gian thực và tương tác
- Giao diện giọng nói có yêu cầu nghiêm ngặt nhất về giới hạn độ trễ
- Happyverse AI triển khai avatar hội thoại thời gian thực tự nhiên với Mercury 2
- OpenCall cho biết với độ trễ thấp và chất lượng cao, có thể xây dựng các voice agent phản hồi tốt hơn
4. Tìm kiếm và pipeline RAG
- Giảm độ trễ cộng dồn của các bước tìm kiếm nhiều lần, xếp hạng lại và tóm tắt để cho phép suy luận thời gian thực
- SearchBlox hợp tác với Mercury 2 để triển khai AI tìm kiếm thời gian thực,
cung cấp intelligence theo từng giây trong nhiều lĩnh vực như hỗ trợ khách hàng, rủi ro và thương mại điện tử
Triển khai và tích hợp
- Mercury 2 có thể dùng ngay, tương thích hoàn toàn với OpenAI API
- Có thể tích hợp vào hệ thống hiện có mà không cần sửa mã
- Khi đánh giá ở cấp doanh nghiệp, có hỗ trợ về mức độ phù hợp của workload, kiểm chứng hiệu năng và thiết kế đánh giá
- Câu giới thiệu chính thức: “Mercury 2 is live. Welcome to diffusion.”
1 bình luận
Ý kiến trên Hacker News
Khái niệm đo trí thông minh(metric) theo giây khá thú vị
Ví dụ như xem xét trí thông minh trên mỗi token, đồng thời tính cả số token mỗi giây
Cá nhân tôi có lẽ sẽ chủ yếu dùng Sonnet nếu Sonnet 4.6 nhanh hơn Opus 4.6 gấp 5 lần
Ở thế hệ trước, dòng Sonnet chưa đủ tốt, nhưng giờ tình hình đã khác vì lợi thế lặp(iteration) mà tốc độ mang lại rất lớn
Trước đây tôi dùng OpenAI Deep Research, nhưng o3-thinking + tìm kiếm web nhanh hơn nhiều mà vẫn đủ thông minh
Nếu phát triển API trên phần cứng như Cereberas hay Groq thì tốc độ lặp và chi phí ở một đẳng cấp hoàn toàn khác
Ngay trong ghi chú nghiên cứu tôi viết gần đây cũng cho thấy rằng nếu tách lập kế hoạch là mô hình AR, còn sinh nội dung là mô hình diffusion, thì hiệu năng được cải thiện đáng kể
Ví dụ, nếu chỉ cần 5 tấn than là đủ mà lại dùng 30 tấn để cải thiện 0.0000000001% thì đó không phải tiến bộ thực sự
Các mô hình Composer hay bản Flash là ví dụ, và Mercury 2 cũng đang được định vị là một mô hình mạnh trong nhóm này
Mô hình nhanh thì lặp nhanh, còn mô hình lớn thì chính xác hơn ngay từ lần thử đầu
Hiện tại tôi thích Opus 4.6, nhưng muốn xem dữ liệu về chênh lệch hiệu suất so với Sonnet
Đó cũng chính là lý do tôi thích Gemini 3 Flash — đủ thông minh mà lại nhanh đến khó tin
Tôi thử một bài test đơn giản, hỏi về “thành tựu của Maradona” thì Mercury 2 lại gõ nhầm thành “Dieadona”
Đây là câu hỏi mà cả mô hình local 3B cũng có thể trả lời hoàn hảo, nhưng Mercury 2 thì chậm và nhiều lỗi
Mercury 2 tạo phản hồi theo cách tinh chỉnh song song(parallel refinement)
Nó sinh nhiều token cùng lúc rồi hội tụ sau vài bước, nên không giống máy đánh chữ mà giống trình soạn thảo đang gọt lại toàn bộ bản nháp hơn
Hiện đang có nghiên cứu hợp nhất DDPM và SGM bằng SDE, và tôi tò mò liệu có thể xem mỗi layer của transformer như một bước diffusion hay không
Nếu L layer của transformer tương ứng với L bước tinh chỉnh của diffusion, thì có lẽ fit lẫn nhau(mutual fitting) giữa hai mô hình sẽ khả thi
Với tư cách là đồng sáng lập và Chief Scientist của Inception, tôi hoan nghênh các câu hỏi kỹ thuật về Mercury 2 hoặc diffusion LM
Liệu nó có thể giảm latency hay chi phí không, có đường cong tương tự autoregressive caching không, hay hoàn toàn không áp dụng được
Tôi cũng thấy hứng thú với khả năng áp dụng độ dài khối động(dynamic block length)
Trong đa số hệ thống giọng nói, TTFT(time-to-first-token) quan trọng hơn độ trễ của toàn bộ phản hồi
Tôi muốn biết TTFT của Mercury 2 đã cải thiện bao nhiêu so với các mô hình reasoning khác
Xem liên kết ví dụ
Tôi muốn biết nguyên nhân của hiện tượng này là gì
Điều thú vị nhất là giờ đã xuất hiện mô hình sinh hàng nghìn token mỗi giây
Khi đó, kể cả dùng multi-shot prompting hay nudging thì người dùng cũng khó cảm nhận được, nên có thể giảm vấn đề ảo giác và phản hồi phi quyết định
Mercury 2 cho phép lặp nhanh các tác vụ agent
Một lần thử có thể kém chính xác hơn, nhưng nhờ thời gian chạy ngắn nên có thể cải thiện nhanh hơn rất nhiều
Ví dụ GPT-OSS 20B trên một chiếc 3090 đơn lẻ có thể đạt khoảng 2k tok/s với bs=64
Tôi vẫn chưa thực sự tin vào mô hình diffusion
Google và các bên khác cũng đã thử, nhưng trong đa số trường hợp chúng bị tụt lại trên Pareto frontier
Xem liên kết so sánh giá/hiệu năng
Với cùng mức chất lượng, Mercury nhanh hơn hơn 5 lần so với các mô hình AR tương tự
Trí thông minh tuyệt đối hiện vẫn thấp hơn Opus hay Gemini Pro, nhưng về tốc độ suy luận thì có lợi thế lớn
Đây là lĩnh vực ít được khai phá hơn nhiều so với autoregressive transformer nên còn headroom kỹ thuật lớn
Nếu có phiên bản “Mercury Edit” như Fast Apply của Morph thì tôi rất muốn thử
Cách tiếp cận dựa trên diffusion rất đáng chú ý
Transformer truyền thống sinh token theo tuần tự, còn diffusion có thể tinh chỉnh(refine) toàn bộ đầu ra một cách lặp lại
Nếu họ đã giải quyết được vấn đề độ trễ(latency), nó có thể mở ra những khả năng mới cho các tác vụ reasoning phức tạp
Tôi tò mò liệu có diffusion LLM mã nguồn mở với open weights nào chạy được trên phần cứng local hay không
Tôi muốn tự mình xem sự khác biệt về hiệu năng trong môi trường GPU tiêu dùng
Mercury 2 đã thất bại ở Car Wash Test
Có lẽ sẽ tốt hơn nếu tập trung vào trường hợp sử dụng cụ thể(ví dụ: coding agent) thay vì mô hình reasoning đa dụng, rồi so sánh với các mô hình SOTA trong lĩnh vực đó như Qwen3-Coder-Next
Dù phải chạy phiên dài hơn thì độ chính xác vẫn quan trọng hơn
Tôi tò mò nếu mô hình này được đưa lên chip Talaas thì liệu có thể sinh hơn 50.000 token mỗi giây hay không