- Vẫn sử dụng cùng mô hình Opus 4.6 nhưng thay đổi cấu hình API để giảm độ trễ xuống mức tối thiểu
- Tối ưu cho các tác vụ tương tác nhạy cảm về thời gian như lặp nhanh, debug trực tiếp
- Trong CLI hoặc tiện ích mở rộng VS Code, nhập
/fast để bật/tắt hoặc đặt "fastMode": true trong tệp cấu hình người dùng để luôn bật
- Khi được kích hoạt, hệ thống sẽ tự động chuyển sang Opus 4.6 và hiển thị thông báo trạng thái cùng biểu tượng
↯
- Fast Mode có đơn giá token cao hơn so với Opus 4.6 tiêu chuẩn
- Với ngữ cảnh dưới 200K, áp dụng đầu vào $30/MTok, đầu ra $150/MTok (bản tiêu chuẩn là đầu vào $5, đầu ra $25)
- Với ngữ cảnh trên 200K, áp dụng đầu vào $60/MTok, đầu ra $225/MTok (bản tiêu chuẩn là đầu vào $10, đầu ra $37.5)
- Giảm giá 50% đến ngày 16/2
- Áp dụng rate limit riêng dành cho Fast Mode; khi vượt hạn mức hoặc hết credit sẽ tự động fallback về chế độ tiêu chuẩn
- Fast Mode được cung cấp dưới dạng bản xem trước nghiên cứu, tính năng và giá có thể thay đổi
3 bình luận
Ý kiến trên Hacker News
Tốc độ nhanh hơn 2,5 lần nhưng giá lại đắt hơn 6 lần
Đây là một mức premium khá đắt. Đặc biệt, Gemini 3 Pro có tốc độ token/giây cao hơn 1,8 lần so với Opus 4.6 nhưng giá chỉ ở mức 0,45 lần
Tuy vậy, hiệu năng lập trình kém hơn và Gemini CLI vẫn chưa có năng lực agent như Claude Code
Cuối cùng đây là một cấu trúc khá thú vị để khiến khách hàng lớn (whale) tiêu tiền thật nhanh
Sẽ hay hơn nếu có slow-mode, tức là tính năng cho phép xếp lịch chạy tác vụ bằng spot GPU giá rẻ
Tôi thường chạy quy trình vào giờ ăn trưa hoặc trước khi tan làm, nên không cần phải chạy ngay lập tức. Chỉ cần chạy rẻ trên GPU đang nhàn rỗi là đủ
Chế độ này không thể tận dụng phần hạn mức còn lại của gói thuê bao
Mức sử dụng của fast mode luôn bị tính phí riêng, và phụ thu được áp ngay từ token đầu tiên, bất kể token trong gói
Hiện đang có sự kiện miễn phí thêm $50 mức sử dụng
Xem bằng công cụ ccusage thì theo giá API có thể lên tới $200/ngày. Nếu phí gấp 6 lần thì $50 sẽ biến mất chỉ trong 20 phút
Với tôi thì tính năng này có lẽ không hữu ích nhiều
Nút thắt cổ chai không phải là model mà là tốc độ tôi hiểu được đoạn code do LLM tạo ra
Nhìn vào tài liệu “khi nào nên dùng Fast mode”,
Có vẻ họ chủ định phân chia như vậy. Tuy nhiên cấu trúc giá có hợp lý hay không thì vẫn đáng nghi
Những người coi trọng hiệu quả chi phí sẽ giải quyết bằng chạy song song
Workflow thông thường của tôi được chia thành giai đoạn lập kế hoạch và giai đoạn triển khai
Fast mode có lẽ hữu ích nhất ở giai đoạn lập kế hoạch
Không chỉ cần “khởi tạo lại context rồi chạy fast mode”,
tôi cũng muốn có tùy chọn “khởi tạo lại context rồi chạy ở tốc độ thường”
Agent mang tính thăm dò có chậm cũng không sao, nhưng nếu có thể lặp lại việc lên kế hoạch thật nhanh thì sẽ hiệu quả hơn nhiều
Tài khoản Pro thông thường thực ra gần như là slow mode
Hiện tôi đang thử Kimi2.5 CLI, tốc độ nhanh và còn có giao diện web nên có thể dùng từ xa ngay cả trong môi trường VPN
Giờ có lẽ cứ CNAME Hacker News thành blog marketing của Claude là được
Tôi tò mò nguyên nhân của việc tăng tốc này. Chỉ điều chỉnh mức ưu tiên thôi có vẻ không đủ
Cũng có thể là phần cứng mới như Groq, Cerebras... Việc chỉ được cung cấp ở một số cloud khiến khả năng này khá cao
Tôi cũng tò mò liệu sau này các nhà cung cấp LLM có tách “tốc độ vs trí tuệ” ra để định giá không
Khi batch lớn hơn thì tính song song tăng, nhưng tốc độ của từng request riêng lẻ lại chậm đi.
Nhìn vào đồ thị SemiAnalysis InferenceMAX™ sẽ thấy có một đường cong Pareto giữa thông lượng trên mỗi GPU và tốc độ token
Sau khi đọc bài “Claude đã tạo ra một trình biên dịch C”, tôi bắt đầu tò mò về tốc độ suy luận nội bộ tại các lab như Anthropic và OpenAI
Tốc độ suy luận càng nhanh thì càng có lợi trong việc chiếm lĩnh thị trường phần mềm
Nếu Anthropic đã công bố tốc độ nhanh hơn 2,5 lần, thì biết đâu nội bộ họ đang dùng chế độ nhanh hơn 5~10 lần
Trong tương lai nơi các agent đàm phán với nhau, năng lực tính toán nhanh nhất sẽ là bên chiến thắng
Một số server có thể đã hy sinh tổng thông lượng để tăng tốc độ cho từng request riêng lẻ.
Cũng có thể đang chạy trên thế hệ phần cứng mới
Thực tế nhiều khả năng chỉ là tăng tốc 2,5 lần nhờ song song hóa
"Nên chọn tác vụ tiếp theo là gì nhỉ?"
Có vẻ mỗi lần sẽ bị tính thêm 3,46$ và không được gói thuê bao chi trả.
Cũng có cảm giác là đợt trước họ cho 50$ là để mình thử cái này haha
Giờ thì AI đang dần trở thành thứ chỉ người giàu mới dùng được thôi ...