Hai cách khác nhau để tăng tốc suy luận LLM

(seangoedecke.com)

6 điểm bởi GN⁺ 2026-02-16 | 1 bình luận | Chia sẻ qua WhatsApp

Anthropic và OpenAI lần lượt công bố “fast mode” cho các mô hình lập trình tốt nhất của mình, giúp tăng mạnh tốc độ suy luận
Anthropic vẫn dùng nguyên mẫu Opus 4.6 nhưng giảm kích thước batch để đạt tốc độ xử lý token nhanh hơn tối đa 2,5 lần
OpenAI giới thiệu mô hình mới GPT-5.3-Codex-Spark dựa trên chip Cerebras, tạo ra hơn 1000 token mỗi giây, nhưng độ chính xác thấp hơn
Hai cách tiếp cận này sử dụng các nguyên lý kỹ thuật hoàn toàn khác nhau: suy luận batch nhỏ và suy luận in-memory trên chip siêu lớn
Suy luận nhanh là một thành tựu kỹ thuật ấn tượng, nhưng vẫn có ý kiến cho rằng độ chính xác quan trọng hơn tốc độ, đồng thời hiệu quả kinh tế và tính ứng dụng vẫn chưa rõ ràng

Cấu trúc Fast Mode của Anthropic

Cách làm của Anthropic là giảm kích thước batch để tối thiểu hóa độ trễ
- Điểm nghẽn chính của GPU là truyền dữ liệu bộ nhớ; batching nhiều yêu cầu của người dùng lại với nhau giúp tăng thông lượng nhưng làm tăng thời gian chờ
- Fast mode giống như một “chuyến xe buýt khởi hành ngay” được xử lý tức thì ngay khi người dùng gửi yêu cầu
Cách này mang lại tốc độ nhanh hơn 2,5 lần với chi phí cao hơn 6 lần
- Thời gian chờ theo batch biến mất nên giảm độ trễ đến token đầu tiên
- Tuy nhiên, tổng thông lượng của GPU lại giảm
Một số người dùng chỉ ra rằng sau token đầu tiên, độ trễ không còn lớn; hiệu ứng của batch nhỏ thực chất gần với việc tăng tốc thực thi nhờ giảm lượng tính toán hơn

Cấu trúc Fast Mode của OpenAI

OpenAI chọn một hướng đi hoàn toàn khác bằng cách dùng chip Cerebras
- Thay vì mô hình hiện có, họ dùng mô hình tinh gọn (distilled) GPT-5.3-Codex-Spark
- Spark kém tinh vi hơn bản gốc nhưng đạt tốc độ suy luận nhanh hơn hơn 15 lần
Chip Cerebras là chip wafer-scale siêu lớn kích thước 70 inch vuông, tích hợp 44GB SRAM
- Toàn bộ mô hình được nạp vào SRAM để thực hiện suy luận in-memory không cần truy cập bộ nhớ ngoài
- Đây là khác biệt rất lớn so với mức SRAM chỉ vài chục MB của GPU
Nhiều khả năng mô hình Spark được sharding và lưu trú trên nhiều chip Cerebras; cấu hình này được cho là yếu tố cốt lõi tạo ra mức tăng tốc

So sánh kỹ thuật và đánh giá

Anthropic giữ nguyên mô hình hiện có và chỉ điều chỉnh chính sách batch
OpenAI kết hợp kiến trúc phần cứng mới và thiết kế mô hình mới để đạt cải thiện hiệu năng mang tính nền tảng hơn
Việc chạy mô hình trên chip Cerebras là một thách thức kỹ thuật phức tạp, và việc huấn luyện mô hình Spark cũng không hề dễ
Hai công ty đều hướng tới cùng mục tiêu là tăng tốc độ, nhưng đi theo những con đường kỹ thuật khác nhau; cách làm của OpenAI được xem là ấn tượng hơn về mặt kỹ thuật

Ý nghĩa và giới hạn của suy luận nhanh

Khi hai công ty liên tiếp công bố sản phẩm, có cảm giác “suy luận AI nhanh” là trục cạnh tranh tiếp theo, nhưng thực tế màu sắc đối phó chiến lược vẫn khá rõ
- Anthropic có vẻ đã phản ứng nhanh để đáp lại công bố của OpenAI
- OpenAI mới đang ở giai đoạn công bố kết quả thử nghiệm từ hợp tác với Cerebras
Các mô hình nhanh nhưng kém tinh vi hơn vẫn có giới hạn trong ứng dụng thực tế
- Người dùng sẽ phải tốn thêm thời gian xử lý lỗi của mô hình, vì vậy độ chính xác quan trọng hơn tốc độ
Dù vậy, các mô hình “độ chính xác thấp, tốc độ cao” này vẫn có thể được dùng như thành phần cấp thấp trong hệ thống AI
- Ví dụ: trường hợp dùng Haiku trong Claude Code, hay khả năng OpenAI tích hợp Spark vào bên trong hệ thống

Thảo luận cộng đồng và các quan sát bổ sung

Trên Hacker News, nhiều ý kiến được đưa ra về đặc tính hiệu năng của batching và điểm nghẽn giao tiếp giữa các chip
- Một số người cho rằng continuous batching gần như loại bỏ thời gian chờ
- Những người khác phản bác rằng kết nối giữa các chip có ảnh hưởng đến tốc độ suy luận
Mối quan hệ đánh đổi giữa kích thước batch và độ trễ vẫn còn tồn tại
Anthropic thừa nhận độ trễ đến token đầu tiên vẫn có thể chậm, còn OpenAI cố gắng giảm điều đó bằng kết nối duy trì qua WebSocket
Nhìn chung, cấu trúc của suy luận LLM tốc độ cao rất phức tạp và khó có thể giải thích bằng một mô hình đơn giản

1 bình luận

GN⁺ 2026-02-16

Ý kiến trên Hacker News

Mọi người đang hiểu nhầm fast mode của Anthropic, có lẽ vì cái tên.
Thực ra đây là cách làm tốn chi phí hơn và hoạt động thông minh hơn với các bài toán khó.
Cách tiếp cận parallel distill and refine trong bài báo này khớp chính xác với điều đó.
Cấu trúc của nó là tạo nhiều nhánh song song, sau đó nhanh chóng chưng cất (distill) và tinh chỉnh (refine) để cho ra kết quả.
Cách này tiêu tốn nhiều token hơn, nhưng cho phép đầu ra nhanh hơn và thông minh hơn.
speculative decoding không liên quan đến việc cải thiện chất lượng, còn batching đơn thuần giúp tăng tốc nhưng làm giảm chi phí.
Gemini Deepthink và GPT-5.2-pro cũng dùng suy luận song song tương tự, nhưng tính toàn bộ các nhánh đến cuối rồi mới tinh chỉnh kết quả.
- Theo tài liệu chính thức của Anthropic, fast mode vẫn là mô hình Opus 4.6 nguyên bản, chỉ khác ở thiết lập API để ưu tiên tốc độ. Chất lượng là như nhau.
Ý tưởng dùng chip Cerebras với 44GB SRAM để đưa toàn bộ mô hình vào bộ nhớ và chạy suy luận khá thú vị.
Kích thước của GPT-5.3-Codex-Spark bị giới hạn không phải bởi bộ nhớ của một chip đơn lẻ, mà bởi số lượng chip có thể liên kết.
Cerebras hỗ trợ nhanh hơn cả với các mô hình lớn hơn 40B, nên Spark nhiều khả năng gần với GLM 4.7 (355B tham số, 32B active).
Tham khảo trang giá của Cerebras.
- Nếu sharding mô hình thì tốc độ sẽ chậm đi rất nhiều. Ưu điểm của chip wafer-scale là băng thông bộ nhớ on-chip; từ bỏ điều này thì gần như mất ý nghĩa.
  Các giải pháp của Groq, TPU và Nvidia tốt hơn về mặt hiệu quả điện năng.
- Việc Cerebras có thể chạy nhanh hơn với mô hình lớn hơn 40B khiến cho lập luận trong bài gốc khó đáng tin.
- Nối các chip theo chuỗi chỉ làm tăng độ trễ (latency), chứ không làm giảm thông lượng (throughput).
- Như chip Groq, dù SRAM nhỏ vẫn có thể chạy mô hình quy mô lớn. Vì vậy việc nối chip không đồng nghĩa với tốc độ sẽ giảm.
Anthropic nhiều khả năng sẽ định tuyến các yêu cầu fast sang phần cứng đời mới nhất.
Họ vận hành nhiều thế hệ thiết bị như TPU, GPU, nên có thể fast mode chỉ được xử lý trên các máy nhanh nhất.
- Băng thông bộ nhớ của GB200 nhanh hơn H100 2,4 lần. Vì vậy fast mode rất có thể chỉ đơn giản là khác biệt về phần cứng.
  Các kỹ thuật như speculative decoding có lẽ đã được dùng rồi, nên tôi không nghĩ là do cải thiện batching.
Như nhận định ở cuối bài viết, việc độ chính xác quan trọng hơn tốc độ có thể đúng ở hiện tại.
Nhưng nếu nhờ hợp tác OpenAI–Cerebras mà các mô hình lớn như Codex-5.3 có thể chạy trực tiếp trên chip,
thì mô hình vừa nhanh vừa chính xác sẽ trở nên khả thi, đủ mức thay thế công việc chăm sóc khách hàng.
- Tuy vậy, để chạy mô hình cỡ 5–7TB với 40GB SRAM sẽ cần mức điện năng nhiều megawatt. Cerebras tiêu thụ điện rất lớn.
  Nếu trong tương lai xuất hiện silicon chuyên dụng cho LLM, một kỷ nguyên hiệu quả hơn rất nhiều sẽ đến.
- Nếu vấn đề suy giảm chất lượng khi huấn luyện bằng dữ liệu do AI tạo ra vẫn chưa được giải quyết, việc cập nhật mô hình sẽ ngày càng khó khăn hơn.
Vấn đề phải chờ để gom batch thực ra đã được giải quyết bằng continuous batching.
Nhờ công nghệ này mà Claude Code có thể được cung cấp với chi phí thấp.
Bài viết liên quan
Phép so sánh với xe buýt có hơi kỳ. Thực tế, fast mode là cách chiếm tỷ trọng lớn hơn trong batch để tăng thông lượng.
Với quy mô lưu lượng của Anthropic, có thể dự đoán batch gần như sẽ được lấp đầy ngay lập tức.
Tôi tò mò vì sao ChatGPT phản hồi gần như ngay khi vừa gửi tin nhắn.
Việc không cần chờ batch có thể là vì lưu lượng quá lớn, hoặc vì đầu vào được streaming sẵn qua WebSocket tới GPU.
Nhiều người hay nhầm lẫn SRAM và HBM.
HBM dựa trên DRAM, dung lượng lớn hơn nhưng chậm hơn; còn SRAM nhanh hơn nhiều nhưng đắt đỏ.
Cerebras tích hợp 44GB SRAM khổng lồ trên một chip để đạt tốc độ cực cao.
Tuy nhiên thiết kế không hề đơn giản, nên hiệu năng thực tế còn phụ thuộc vào nhiều yếu tố.
- 80GB HBM của Nvidia là bộ nhớ ngoài, còn 44GB của Cerebras là SRAM nội bộ.
  OpenAI có thể đã thiết kế mô hình để vừa trong 44GB, hoặc có thể đã kết nối nhiều chip theo dạng chain.
Trong AI giọng nói thời gian thực, độ trễ là yếu tố cốt lõi.
Con người cảm thấy khó chịu nếu phải chờ quá 800ms, nên thời gian có thể dành cho suy luận LLM chỉ khoảng 400–500ms.
Với tốc độ Sonnet (80 tok/s) thì ngay cả một câu cũng khó, nhưng với tốc độ của Cerebras hay Groq (trên 1000 tok/s) thì có thể xử lý hơn 400 token.
Vì thế, tinh chỉnh các mô hình nhỏ theo hướng chuyên biệt theo miền có thể hiệu quả hơn mô hình lớn.
Cách tiếp cận council kết hợp nhiều agent nhỏ là phương pháp vừa giữ được tốc độ vừa giữ được chất lượng.
Ngoài ra, dùng speculative decoding để dự đoán trước các phản hồi thường gặp và chuẩn bị TTS, có thể giúp 60% cuộc hội thoại đạt phản hồi dưới 200ms.
- OpenAI là viện nghiên cứu lớn duy nhất hiện tập trung vào mô hình giọng nói, nên có lẽ sẽ còn tiến xa hơn theo hướng này.

Hai cách khác nhau để tăng tốc suy luận LLM

Cấu trúc Fast Mode của Anthropic

Cấu trúc Fast Mode của OpenAI

So sánh kỹ thuật và đánh giá

Ý nghĩa và giới hạn của suy luận nhanh

Thảo luận cộng đồng và các quan sát bổ sung

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News