13 điểm bởi xguru 2026-02-08 | 3 bình luận | Chia sẻ qua WhatsApp
  • Vẫn sử dụng cùng mô hình Opus 4.6 nhưng thay đổi cấu hình API để giảm độ trễ xuống mức tối thiểu
  • Tối ưu cho các tác vụ tương tác nhạy cảm về thời gian như lặp nhanh, debug trực tiếp
  • Trong CLI hoặc tiện ích mở rộng VS Code, nhập /fast để bật/tắt hoặc đặt "fastMode": true trong tệp cấu hình người dùng để luôn bật
  • Khi được kích hoạt, hệ thống sẽ tự động chuyển sang Opus 4.6 và hiển thị thông báo trạng thái cùng biểu tượng
  • Fast Mode có đơn giá token cao hơn so với Opus 4.6 tiêu chuẩn
    • Với ngữ cảnh dưới 200K, áp dụng đầu vào $30/MTok, đầu ra $150/MTok (bản tiêu chuẩn là đầu vào $5, đầu ra $25)
    • Với ngữ cảnh trên 200K, áp dụng đầu vào $60/MTok, đầu ra $225/MTok (bản tiêu chuẩn là đầu vào $10, đầu ra $37.5)
    • Giảm giá 50% đến ngày 16/2
  • Áp dụng rate limit riêng dành cho Fast Mode; khi vượt hạn mức hoặc hết credit sẽ tự động fallback về chế độ tiêu chuẩn
  • Fast Mode được cung cấp dưới dạng bản xem trước nghiên cứu, tính năng và giá có thể thay đổi

3 bình luận

 
GN⁺ 2026-02-09
Ý kiến trên Hacker News
  • Tốc độ nhanh hơn 2,5 lần nhưng giá lại đắt hơn 6 lần
    Đây là một mức premium khá đắt. Đặc biệt, Gemini 3 Pro có tốc độ token/giây cao hơn 1,8 lần so với Opus 4.6 nhưng giá chỉ ở mức 0,45 lần
    Tuy vậy, hiệu năng lập trình kém hơn và Gemini CLI vẫn chưa có năng lực agent như Claude Code

    • Nếu tính giá theo token thì đắt hơn 6 lần, còn tính theo giây thì đắt hơn 15 lần. Hơn nữa đây là theo API, còn gói thuê bao thì rẻ hơn nhiều
      Cuối cùng đây là một cấu trúc khá thú vị để khiến khách hàng lớn (whale) tiêu tiền thật nhanh
    • Gemini khá ổn cho các tác vụ frontend
    • Cũng có thể dùng OpenCode thay cho Gemini CLI
  • Sẽ hay hơn nếu có slow-mode, tức là tính năng cho phép xếp lịch chạy tác vụ bằng spot GPU giá rẻ
    Tôi thường chạy quy trình vào giờ ăn trưa hoặc trước khi tan làm, nên không cần phải chạy ngay lập tức. Chỉ cần chạy rẻ trên GPU đang nhàn rỗi là đủ

    • Batches API chạy với mức phí bằng 50% API tiêu chuẩn
    • OpenAI trước đây cũng từng cung cấp tính năng xử lý batch tương tự
    • Tôi cũng nghĩ vậy. Sẽ rất tốt nếu có thể chạy ban đêm với mức phí 50%. Tuy nhiên Claude Code vẫn chưa được tích hợp
    • Gói MAX đã được giảm giá thực chất hoạt động gần như slow-mode
    • Nếu không nhạy cảm về thời gian thì chạy bằng CPU/RAM thay vì GPU cũng là một cách
  • Chế độ này không thể tận dụng phần hạn mức còn lại của gói thuê bao
    Mức sử dụng của fast mode luôn bị tính phí riêng, và phụ thu được áp ngay từ token đầu tiên, bất kể token trong gói
    Hiện đang có sự kiện miễn phí thêm $50 mức sử dụng

    • Rốt cuộc gần như chẳng hữu ích. Ngay cả khi dùng Claude Max thì lúc làm TDD vẫn phải quản lý mức sử dụng
      Xem bằng công cụ ccusage thì theo giá API có thể lên tới $200/ngày. Nếu phí gấp 6 lần thì $50 sẽ biến mất chỉ trong 20 phút
  • Với tôi thì tính năng này có lẽ không hữu ích nhiều
    Nút thắt cổ chai không phải là model mà là tốc độ tôi hiểu được đoạn code do LLM tạo ra

    • Thực ra có rất nhiều người không đọc kỹ code. Đúng là thời thế thú vị
    • Nếu tốc độ đủ nhanh thì tôi sẽ dùng theo kiểu đặt câu hỏi thay vì đọc code, nhưng hiện vẫn chưa tới mức đó
    • Những người viết code theo “cảm giác” thì tập trung vào kết quả hơn là hiểu rõ
    • Nếu xây dựng tốt test harness và quy trình xác minh thì vẫn có thể tin tưởng mà không cần xem trực tiếp code
  • Nhìn vào tài liệu “khi nào nên dùng Fast mode”,

    • agent chạy dài hạn hoặc tác vụ nền thì dùng chế độ thường
    • kịch bản có con người can thiệp thì dùng fast mode
      Có vẻ họ chủ định phân chia như vậy. Tuy nhiên cấu trúc giá có hợp lý hay không thì vẫn đáng nghi
    • Giá API của Opus vốn đã đắt, nên rốt cuộc có lẽ vẫn sẽ là dịch vụ phân khúc cao cấp
      Những người coi trọng hiệu quả chi phí sẽ giải quyết bằng chạy song song
  • Workflow thông thường của tôi được chia thành giai đoạn lập kế hoạch và giai đoạn triển khai
    Fast mode có lẽ hữu ích nhất ở giai đoạn lập kế hoạch
    Không chỉ cần “khởi tạo lại context rồi chạy fast mode”,
    tôi cũng muốn có tùy chọn “khởi tạo lại context rồi chạy ở tốc độ thường”
    Agent mang tính thăm dò có chậm cũng không sao, nhưng nếu có thể lặp lại việc lên kế hoạch thật nhanh thì sẽ hiệu quả hơn nhiều

  • Tài khoản Pro thông thường thực ra gần như là slow mode
    Hiện tôi đang thử Kimi2.5 CLI, tốc độ nhanh và còn có giao diện web nên có thể dùng từ xa ngay cả trong môi trường VPN

  • Giờ có lẽ cứ CNAME Hacker News thành blog marketing của Claude là được

    • Thế thì sẽ bỏ lỡ các bài tự quảng bá của simonw
    • Thực ra bài về OpenAI còn nhiều hơn nhiều. Có khi đổi tên thành AINews còn hợp lý hơn
  • Tôi tò mò nguyên nhân của việc tăng tốc này. Chỉ điều chỉnh mức ưu tiên thôi có vẻ không đủ
    Cũng có thể là phần cứng mới như Groq, Cerebras... Việc chỉ được cung cấp ở một số cloud khiến khả năng này khá cao
    Tôi cũng tò mò liệu sau này các nhà cung cấp LLM có tách “tốc độ vs trí tuệ” ra để định giá không

    • Đây là cách tăng thông lượng token bằng cách tăng xử lý batch và multi-stream trên GPU
      Khi batch lớn hơn thì tính song song tăng, nhưng tốc độ của từng request riêng lẻ lại chậm đi.
      Nhìn vào đồ thị SemiAnalysis InferenceMAX™ sẽ thấy có một đường cong Pareto giữa thông lượng trên mỗi GPU và tốc độ token
    • Ngoài nâng cấp phần cứng hay điều chỉnh ưu tiên lưu lượng, còn có thể tinh chỉnh nhiều thứ như giảm batch window hoặc giữ KV cache trên GPU
    • Cũng có thể chỉ là mô hình ưu tiên theo thứ tự, tức là cho phép bỏ qua hàng đợi. Vì đó là cách dễ kiếm thêm tiền hơn
    • Cũng có thể họ đã triển khai trước cho nội bộ. Thực tế chỉ là điều chỉnh ưu tiên đơn giản, nhưng có lẽ họ dự đoán sẽ không có nhiều khách hàng bên ngoài dùng đến
    • Hoặc cũng có thể đang dùng GPU thế hệ mới như Nvidia GB300 (Blackwell)
  • Sau khi đọc bài “Claude đã tạo ra một trình biên dịch C”, tôi bắt đầu tò mò về tốc độ suy luận nội bộ tại các lab như Anthropic và OpenAI
    Tốc độ suy luận càng nhanh thì càng có lợi trong việc chiếm lĩnh thị trường phần mềm
    Nếu Anthropic đã công bố tốc độ nhanh hơn 2,5 lần, thì biết đâu nội bộ họ đang dùng chế độ nhanh hơn 5~10 lần
    Trong tương lai nơi các agent đàm phán với nhau, năng lực tính toán nhanh nhất sẽ là bên chiến thắng

    • Anthropic nói rằng chế độ nhanh hơn 2,5 lần mà họ vốn đã dùng nội bộ nay đã được công bố qua API chính thức
      Một số server có thể đã hy sinh tổng thông lượng để tăng tốc độ cho từng request riêng lẻ.
      Cũng có thể đang chạy trên thế hệ phần cứng mới
    • Ý tưởng “họ đang giấu hiệu năng gấp 10 lần” là không hợp lý. Một công ty SaaS đang cạnh tranh trên thị trường không có dư địa như vậy
      Thực tế nhiều khả năng chỉ là tăng tốc 2,5 lần nhờ song song hóa
    • Cũng có cảm giác như họ cố tình làm chậm tốc độ mặc định để ép người dùng trả tiền cho fast mode, kiểu mô hình bắt làm con tin bằng tốc độ
 
kimjoin2 2026-02-09

"Nên chọn tác vụ tiếp theo là gì nhỉ?"
Có vẻ mỗi lần sẽ bị tính thêm 3,46$ và không được gói thuê bao chi trả.
Cũng có cảm giác là đợt trước họ cho 50$ là để mình thử cái này haha

 
elbum 2026-02-08

Giờ thì AI đang dần trở thành thứ chỉ người giàu mới dùng được thôi ...