7 điểm bởi GN⁺ 2026-02-26 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình ngôn ngữ sử dụng phương thức sinh song song dựa trên mô hình khuếch tán (diffusion) để vượt qua giới hạn tốc độ của các LLM giải mã tuần tự hiện có
  • Với kiến trúc tinh chỉnh song song (parallel refinement) tạo và sửa nhiều token cùng lúc, đạt tốc độ phản hồi nhanh hơn hơn 5 lần
  • Được tối ưu cho các ứng dụng thời gian thực với 1.009 token/giây, ngữ cảnh 128K, đầu ra JSON, và khả năng dùng công cụ
  • Chứng minh hiệu quả trong các môi trường nhạy với độ trễ như hỗ trợ lập trình, vòng lặp tác tử, giao diện giọng nói, pipeline tìm kiếm·RAG
  • Tương thích hoàn toàn với OpenAI API, có thể tích hợp ngay mà không cần sửa đổi hạ tầng hiện có

Tổng quan về Mercury 2

  • Mercury 2 là mô hình ngôn ngữ suy luận nhanh nhất thế giới
    • Mục tiêu là cung cấp khả năng phản hồi tức thì trong môi trường AI production
  • Điểm nghẽn của LLM hiện tại là kiến trúc tự hồi quy giải mã tuần tự (one token at a time)
    • Điều này khiến độ trễ bị cộng dồn trong các quy trình AI kiểu vòng lặp lặp lại

Kiến trúc suy luận thời gian thực dựa trên khuếch tán

  • Mercury 2 áp dụng phương thức tinh chỉnh song song (parallel refinement) thay vì giải mã tuần tự
    • Tạo nhiều token đồng thời và hội tụ chỉ trong một số ít bước
    • Thay vì như một “máy đánh chữ”, nó hoạt động như một “biên tập viên” liên tục chỉnh sửa toàn bộ bản nháp
  • Nhờ đó, mô hình đạt tốc độ sinh nhanh hơn hơn 5 lần và thiết lập một đường cong tốc độ mới
  • Suy luận dựa trên khuếch tán cho phép suy luận chất lượng cao đồng thời giảm thiểu độ trễ và chi phí

Hiệu năng và thông số

  • Tốc độ: 1.009 token/giây trên GPU NVIDIA Blackwell
  • Giá: $0.25 cho mỗi 1 triệu token đầu vào, $0.75 cho mỗi 1 triệu token đầu ra
  • Chất lượng: Mức cạnh tranh với các mô hình tối ưu tốc độ hàng đầu
  • Tính năng: suy luận có thể điều chỉnh (tunable reasoning), ngữ cảnh 128K, dùng công cụ, đầu ra căn chỉnh theo JSON schema
  • Tối ưu độ trễ: độ trễ p95, khả năng phản hồi nhất quán trong môi trường đồng thời cao, duy trì thông lượng ổn định
  • Đại diện NVIDIA cho biết Mercury 2 khi kết hợp với hạ tầng AI của NVIDIA đã vượt mốc 1.000 token/giây

Các trường hợp sử dụng trong production

1. Lập trình và chỉnh sửa

  • Cung cấp phản hồi tức thì trong vòng lặp làm việc của lập trình viên như tự động hoàn thành, refactoring, tác tử code
  • Đồng sáng lập Zed, Max Brunsfeld, nhấn mạnh “tốc độ gợi ý nhanh như một phần của suy nghĩ”

2. Vòng lặp tác tử

  • Giảm độ trễ lời gọi trong workflow tác tử cần các lượt gọi suy luận nhiều bước
  • Viant sử dụng Mercury 2 để tối ưu chiến dịch theo thời gian thực và tăng cường hệ thống quảng cáo tự động
  • Wispr Flow đang đánh giá tốc độ của Mercury 2 trong đối thoại thời gian thực và tinh chỉnh bản chép lời
  • Skyvern cho biết “nhanh ít nhất gấp đôi GPT-5.2”

3. Giọng nói thời gian thực và tương tác

  • Giao diện giọng nói có yêu cầu nghiêm ngặt nhất về giới hạn độ trễ
  • Happyverse AI triển khai avatar hội thoại thời gian thực tự nhiên với Mercury 2
  • OpenCall cho biết với độ trễ thấp và chất lượng cao, có thể xây dựng các voice agent phản hồi tốt hơn

4. Tìm kiếm và pipeline RAG

  • Giảm độ trễ cộng dồn của các bước tìm kiếm nhiều lần, xếp hạng lại và tóm tắt để cho phép suy luận thời gian thực
  • SearchBlox hợp tác với Mercury 2 để triển khai AI tìm kiếm thời gian thực,
    cung cấp intelligence theo từng giây trong nhiều lĩnh vực như hỗ trợ khách hàng, rủi ro và thương mại điện tử

Triển khai và tích hợp

  • Mercury 2 có thể dùng ngay, tương thích hoàn toàn với OpenAI API
  • Có thể tích hợp vào hệ thống hiện có mà không cần sửa mã
  • Khi đánh giá ở cấp doanh nghiệp, có hỗ trợ về mức độ phù hợp của workload, kiểm chứng hiệu năng và thiết kế đánh giá
  • Câu giới thiệu chính thức: “Mercury 2 is live. Welcome to diffusion.

1 bình luận

 
GN⁺ 2026-02-26
Ý kiến trên Hacker News
  • Khái niệm đo trí thông minh(metric) theo giây khá thú vị
    Ví dụ như xem xét trí thông minh trên mỗi token, đồng thời tính cả số token mỗi giây
    Cá nhân tôi có lẽ sẽ chủ yếu dùng Sonnet nếu Sonnet 4.6 nhanh hơn Opus 4.6 gấp 5 lần
    Ở thế hệ trước, dòng Sonnet chưa đủ tốt, nhưng giờ tình hình đã khác vì lợi thế lặp(iteration) mà tốc độ mang lại rất lớn
    Trước đây tôi dùng OpenAI Deep Research, nhưng o3-thinking + tìm kiếm web nhanh hơn nhiều mà vẫn đủ thông minh

    • Tôi nghĩ rằng “bản thân tốc độ cũng là một trục của chất lượng
      Nếu phát triển API trên phần cứng như Cereberas hay Groq thì tốc độ lặp và chi phí ở một đẳng cấp hoàn toàn khác
      Ngay trong ghi chú nghiên cứu tôi viết gần đây cũng cho thấy rằng nếu tách lập kế hoạch là mô hình AR, còn sinh nội dung là mô hình diffusion, thì hiệu năng được cải thiện đáng kể
    • Có lẽ sẽ thực tế hơn nếu thêm hiệu suất trên mỗi đơn vị phần cứng vào chỉ số này
      Ví dụ, nếu chỉ cần 5 tấn than là đủ mà lại dùng 30 tấn để cải thiện 0.0000000001% thì đó không phải tiến bộ thực sự
    • Một nhóm mô hình mới đang xuất hiện với mục tiêu lặp tác vụ agent thật nhanh
      Các mô hình Composer hay bản Flash là ví dụ, và Mercury 2 cũng đang được định vị là một mô hình mạnh trong nhóm này
    • Có vẻ sắp có thể tự làm benchmark thực tế
      Mô hình nhanh thì lặp nhanh, còn mô hình lớn thì chính xác hơn ngay từ lần thử đầu
      Hiện tại tôi thích Opus 4.6, nhưng muốn xem dữ liệu về chênh lệch hiệu suất so với Sonnet
    • Tôi thực sự thích khái niệm “Intelligence per second”
      Đó cũng chính là lý do tôi thích Gemini 3 Flash — đủ thông minh mà lại nhanh đến khó tin
  • Tôi thử một bài test đơn giản, hỏi về “thành tựu của Maradona” thì Mercury 2 lại gõ nhầm thành “Dieadona”
    Đây là câu hỏi mà cả mô hình local 3B cũng có thể trả lời hoàn hảo, nhưng Mercury 2 thì chậm và nhiều lỗi

  • Mercury 2 tạo phản hồi theo cách tinh chỉnh song song(parallel refinement)
    Nó sinh nhiều token cùng lúc rồi hội tụ sau vài bước, nên không giống máy đánh chữ mà giống trình soạn thảo đang gọt lại toàn bộ bản nháp hơn
    Hiện đang có nghiên cứu hợp nhất DDPM và SGM bằng SDE, và tôi tò mò liệu có thể xem mỗi layer của transformer như một bước diffusion hay không
    Nếu L layer của transformer tương ứng với L bước tinh chỉnh của diffusion, thì có lẽ fit lẫn nhau(mutual fitting) giữa hai mô hình sẽ khả thi

  • Với tư cách là đồng sáng lập và Chief Scientist của Inception, tôi hoan nghênh các câu hỏi kỹ thuật về Mercury 2 hoặc diffusion LM

    • Tôi tò mò KV cache hoạt động thế nào trong mô hình diffusion
      Liệu nó có thể giảm latency hay chi phí không, có đường cong tương tự autoregressive caching không, hay hoàn toàn không áp dụng được
    • Có vẻ mô hình diffusion thực hiện reasoning theo từng khối văn bản, vậy khi có phụ thuộc thông tin giữa các khối thì xử lý thế nào
      Tôi cũng thấy hứng thú với khả năng áp dụng độ dài khối động(dynamic block length)
    • Tôi tò mò về cách Voice AI được nhắc đến trong phần công bố thực sự vận hành ra sao
      Trong đa số hệ thống giọng nói, TTFT(time-to-first-token) quan trọng hơn độ trễ của toàn bộ phản hồi
      Tôi muốn biết TTFT của Mercury 2 đã cải thiện bao nhiêu so với các mô hình reasoning khác
    • Tôi từng gặp hiện tượng kẹt trong vòng lặp giống các mô hình transformer yếu hơn
      Xem liên kết ví dụ
      Tôi muốn biết nguyên nhân của hiện tượng này là gì
    • Tôi cũng muốn biết liệu có kế hoạch phát triển sang drifting model để đạt tốc độ cao hơn nữa hay không
  • Điều thú vị nhất là giờ đã xuất hiện mô hình sinh hàng nghìn token mỗi giây
    Khi đó, kể cả dùng multi-shot prompting hay nudging thì người dùng cũng khó cảm nhận được, nên có thể giảm vấn đề ảo giác và phản hồi phi quyết định

    • Chúng tôi cũng nghĩ như vậy
      Mercury 2 cho phép lặp nhanh các tác vụ agent
      Một lần thử có thể kém chính xác hơn, nhưng nhờ thời gian chạy ngắn nên có thể cải thiện nhanh hơn rất nhiều
    • Mô hình thông thường cũng khá nhanh nếu làm batch inference
      Ví dụ GPT-OSS 20B trên một chiếc 3090 đơn lẻ có thể đạt khoảng 2k tok/s với bs=64
  • Tôi vẫn chưa thực sự tin vào mô hình diffusion
    Google và các bên khác cũng đã thử, nhưng trong đa số trường hợp chúng bị tụt lại trên Pareto frontier
    Xem liên kết so sánh giá/hiệu năng

    • Có ý kiến phản biện theo góc nhìn Pareto
      Với cùng mức chất lượng, Mercury nhanh hơn hơn 5 lần so với các mô hình AR tương tự
      Trí thông minh tuyệt đối hiện vẫn thấp hơn Opus hay Gemini Pro, nhưng về tốc độ suy luận thì có lợi thế lớn
    • Text diffusion vẫn còn nhiều dư địa phát triển
      Đây là lĩnh vực ít được khai phá hơn nhiều so với autoregressive transformer nên còn headroom kỹ thuật lớn
    • Mô hình này có vẻ sẽ hoàn hảo cho các tác vụ chỉnh sửa(edit) nhanh
      Nếu có phiên bản “Mercury Edit” như Fast Apply của Morph thì tôi rất muốn thử
  • Cách tiếp cận dựa trên diffusion rất đáng chú ý
    Transformer truyền thống sinh token theo tuần tự, còn diffusion có thể tinh chỉnh(refine) toàn bộ đầu ra một cách lặp lại
    Nếu họ đã giải quyết được vấn đề độ trễ(latency), nó có thể mở ra những khả năng mới cho các tác vụ reasoning phức tạp

  • Tôi tò mò liệu có diffusion LLM mã nguồn mở với open weights nào chạy được trên phần cứng local hay không
    Tôi muốn tự mình xem sự khác biệt về hiệu năng trong môi trường GPU tiêu dùng

  • Mercury 2 đã thất bại ở Car Wash Test
    Có lẽ sẽ tốt hơn nếu tập trung vào trường hợp sử dụng cụ thể(ví dụ: coding agent) thay vì mô hình reasoning đa dụng, rồi so sánh với các mô hình SOTA trong lĩnh vực đó như Qwen3-Coder-Next

    • Cá nhân tôi thích mô hình chậm nhưng chính xác hơn là mô hình nhanh mà nhiều lỗi
      Dù phải chạy phiên dài hơn thì độ chính xác vẫn quan trọng hơn
  • Tôi tò mò nếu mô hình này được đưa lên chip Talaas thì liệu có thể sinh hơn 50.000 token mỗi giây hay không

    • Nếu được nhúng bằng mạch kiểu ASIC không có độ trễ bộ nhớ, có lẽ bất kỳ mô hình nào cũng có thể tăng tốc khổng lồ