- Anthropic và OpenAI lần lượt công bố “fast mode” cho các mô hình lập trình tốt nhất của mình, giúp tăng mạnh tốc độ suy luận
- Anthropic vẫn dùng nguyên mẫu Opus 4.6 nhưng giảm kích thước batch để đạt tốc độ xử lý token nhanh hơn tối đa 2,5 lần
- OpenAI giới thiệu mô hình mới GPT-5.3-Codex-Spark dựa trên chip Cerebras, tạo ra hơn 1000 token mỗi giây, nhưng độ chính xác thấp hơn
- Hai cách tiếp cận này sử dụng các nguyên lý kỹ thuật hoàn toàn khác nhau: suy luận batch nhỏ và suy luận in-memory trên chip siêu lớn
- Suy luận nhanh là một thành tựu kỹ thuật ấn tượng, nhưng vẫn có ý kiến cho rằng độ chính xác quan trọng hơn tốc độ, đồng thời hiệu quả kinh tế và tính ứng dụng vẫn chưa rõ ràng
Cấu trúc Fast Mode của Anthropic
- Cách làm của Anthropic là giảm kích thước batch để tối thiểu hóa độ trễ
- Điểm nghẽn chính của GPU là truyền dữ liệu bộ nhớ; batching nhiều yêu cầu của người dùng lại với nhau giúp tăng thông lượng nhưng làm tăng thời gian chờ
- Fast mode giống như một “chuyến xe buýt khởi hành ngay” được xử lý tức thì ngay khi người dùng gửi yêu cầu
- Cách này mang lại tốc độ nhanh hơn 2,5 lần với chi phí cao hơn 6 lần
- Thời gian chờ theo batch biến mất nên giảm độ trễ đến token đầu tiên
- Tuy nhiên, tổng thông lượng của GPU lại giảm
- Một số người dùng chỉ ra rằng sau token đầu tiên, độ trễ không còn lớn; hiệu ứng của batch nhỏ thực chất gần với việc tăng tốc thực thi nhờ giảm lượng tính toán hơn
Cấu trúc Fast Mode của OpenAI
- OpenAI chọn một hướng đi hoàn toàn khác bằng cách dùng chip Cerebras
- Thay vì mô hình hiện có, họ dùng mô hình tinh gọn (distilled) GPT-5.3-Codex-Spark
- Spark kém tinh vi hơn bản gốc nhưng đạt tốc độ suy luận nhanh hơn hơn 15 lần
- Chip Cerebras là chip wafer-scale siêu lớn kích thước 70 inch vuông, tích hợp 44GB SRAM
- Toàn bộ mô hình được nạp vào SRAM để thực hiện suy luận in-memory không cần truy cập bộ nhớ ngoài
- Đây là khác biệt rất lớn so với mức SRAM chỉ vài chục MB của GPU
- Nhiều khả năng mô hình Spark được sharding và lưu trú trên nhiều chip Cerebras; cấu hình này được cho là yếu tố cốt lõi tạo ra mức tăng tốc
So sánh kỹ thuật và đánh giá
- Anthropic giữ nguyên mô hình hiện có và chỉ điều chỉnh chính sách batch
- OpenAI kết hợp kiến trúc phần cứng mới và thiết kế mô hình mới để đạt cải thiện hiệu năng mang tính nền tảng hơn
- Việc chạy mô hình trên chip Cerebras là một thách thức kỹ thuật phức tạp, và việc huấn luyện mô hình Spark cũng không hề dễ
- Hai công ty đều hướng tới cùng mục tiêu là tăng tốc độ, nhưng đi theo những con đường kỹ thuật khác nhau; cách làm của OpenAI được xem là ấn tượng hơn về mặt kỹ thuật
Ý nghĩa và giới hạn của suy luận nhanh
- Khi hai công ty liên tiếp công bố sản phẩm, có cảm giác “suy luận AI nhanh” là trục cạnh tranh tiếp theo, nhưng thực tế màu sắc đối phó chiến lược vẫn khá rõ
- Anthropic có vẻ đã phản ứng nhanh để đáp lại công bố của OpenAI
- OpenAI mới đang ở giai đoạn công bố kết quả thử nghiệm từ hợp tác với Cerebras
- Các mô hình nhanh nhưng kém tinh vi hơn vẫn có giới hạn trong ứng dụng thực tế
- Người dùng sẽ phải tốn thêm thời gian xử lý lỗi của mô hình, vì vậy độ chính xác quan trọng hơn tốc độ
- Dù vậy, các mô hình “độ chính xác thấp, tốc độ cao” này vẫn có thể được dùng như thành phần cấp thấp trong hệ thống AI
- Ví dụ: trường hợp dùng Haiku trong Claude Code, hay khả năng OpenAI tích hợp Spark vào bên trong hệ thống
Thảo luận cộng đồng và các quan sát bổ sung
- Trên Hacker News, nhiều ý kiến được đưa ra về đặc tính hiệu năng của batching và điểm nghẽn giao tiếp giữa các chip
- Một số người cho rằng continuous batching gần như loại bỏ thời gian chờ
- Những người khác phản bác rằng kết nối giữa các chip có ảnh hưởng đến tốc độ suy luận
- Mối quan hệ đánh đổi giữa kích thước batch và độ trễ vẫn còn tồn tại
- Anthropic thừa nhận độ trễ đến token đầu tiên vẫn có thể chậm, còn OpenAI cố gắng giảm điều đó bằng kết nối duy trì qua WebSocket
- Nhìn chung, cấu trúc của suy luận LLM tốc độ cao rất phức tạp và khó có thể giải thích bằng một mô hình đơn giản
1 bình luận
Ý kiến trên Hacker News
Mọi người đang hiểu nhầm fast mode của Anthropic, có lẽ vì cái tên.
Thực ra đây là cách làm tốn chi phí hơn và hoạt động thông minh hơn với các bài toán khó.
Cách tiếp cận parallel distill and refine trong bài báo này khớp chính xác với điều đó.
Cấu trúc của nó là tạo nhiều nhánh song song, sau đó nhanh chóng chưng cất (distill) và tinh chỉnh (refine) để cho ra kết quả.
Cách này tiêu tốn nhiều token hơn, nhưng cho phép đầu ra nhanh hơn và thông minh hơn.
speculative decoding không liên quan đến việc cải thiện chất lượng, còn batching đơn thuần giúp tăng tốc nhưng làm giảm chi phí.
Gemini Deepthink và GPT-5.2-pro cũng dùng suy luận song song tương tự, nhưng tính toàn bộ các nhánh đến cuối rồi mới tinh chỉnh kết quả.
Ý tưởng dùng chip Cerebras với 44GB SRAM để đưa toàn bộ mô hình vào bộ nhớ và chạy suy luận khá thú vị.
Kích thước của GPT-5.3-Codex-Spark bị giới hạn không phải bởi bộ nhớ của một chip đơn lẻ, mà bởi số lượng chip có thể liên kết.
Cerebras hỗ trợ nhanh hơn cả với các mô hình lớn hơn 40B, nên Spark nhiều khả năng gần với GLM 4.7 (355B tham số, 32B active).
Tham khảo trang giá của Cerebras.
Các giải pháp của Groq, TPU và Nvidia tốt hơn về mặt hiệu quả điện năng.
Anthropic nhiều khả năng sẽ định tuyến các yêu cầu fast sang phần cứng đời mới nhất.
Họ vận hành nhiều thế hệ thiết bị như TPU, GPU, nên có thể fast mode chỉ được xử lý trên các máy nhanh nhất.
Các kỹ thuật như speculative decoding có lẽ đã được dùng rồi, nên tôi không nghĩ là do cải thiện batching.
Như nhận định ở cuối bài viết, việc độ chính xác quan trọng hơn tốc độ có thể đúng ở hiện tại.
Nhưng nếu nhờ hợp tác OpenAI–Cerebras mà các mô hình lớn như Codex-5.3 có thể chạy trực tiếp trên chip,
thì mô hình vừa nhanh vừa chính xác sẽ trở nên khả thi, đủ mức thay thế công việc chăm sóc khách hàng.
Nếu trong tương lai xuất hiện silicon chuyên dụng cho LLM, một kỷ nguyên hiệu quả hơn rất nhiều sẽ đến.
Vấn đề phải chờ để gom batch thực ra đã được giải quyết bằng continuous batching.
Nhờ công nghệ này mà Claude Code có thể được cung cấp với chi phí thấp.
Bài viết liên quan
Phép so sánh với xe buýt có hơi kỳ. Thực tế, fast mode là cách chiếm tỷ trọng lớn hơn trong batch để tăng thông lượng.
Với quy mô lưu lượng của Anthropic, có thể dự đoán batch gần như sẽ được lấp đầy ngay lập tức.
Tôi tò mò vì sao ChatGPT phản hồi gần như ngay khi vừa gửi tin nhắn.
Việc không cần chờ batch có thể là vì lưu lượng quá lớn, hoặc vì đầu vào được streaming sẵn qua WebSocket tới GPU.
Nhiều người hay nhầm lẫn SRAM và HBM.
HBM dựa trên DRAM, dung lượng lớn hơn nhưng chậm hơn; còn SRAM nhanh hơn nhiều nhưng đắt đỏ.
Cerebras tích hợp 44GB SRAM khổng lồ trên một chip để đạt tốc độ cực cao.
Tuy nhiên thiết kế không hề đơn giản, nên hiệu năng thực tế còn phụ thuộc vào nhiều yếu tố.
OpenAI có thể đã thiết kế mô hình để vừa trong 44GB, hoặc có thể đã kết nối nhiều chip theo dạng chain.
Trong AI giọng nói thời gian thực, độ trễ là yếu tố cốt lõi.
Con người cảm thấy khó chịu nếu phải chờ quá 800ms, nên thời gian có thể dành cho suy luận LLM chỉ khoảng 400–500ms.
Với tốc độ Sonnet (80 tok/s) thì ngay cả một câu cũng khó, nhưng với tốc độ của Cerebras hay Groq (trên 1000 tok/s) thì có thể xử lý hơn 400 token.
Vì thế, tinh chỉnh các mô hình nhỏ theo hướng chuyên biệt theo miền có thể hiệu quả hơn mô hình lớn.
Cách tiếp cận council kết hợp nhiều agent nhỏ là phương pháp vừa giữ được tốc độ vừa giữ được chất lượng.
Ngoài ra, dùng speculative decoding để dự đoán trước các phản hồi thường gặp và chuẩn bị TTS, có thể giúp 60% cuộc hội thoại đạt phản hồi dưới 200ms.