1 điểm bởi GN⁺ 2025-07-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cerebras công bố mô hình AI Qwen3-235B, mang lại hiệu năng suy luận tức thời với tốc độ tạo 1.500 token mỗi giây
  • Có thể tăng năng suất và sinh mã nhanh hơn 30 lần với chi phí chỉ bằng 1/10 so với các mô hình đóng hiện có
  • Hỗ trợ ngữ cảnh 131K, hiện thực hóa khả năng xử lý codebase lớn và tài liệu phức tạp
  • Hợp tác với Cline để mở rộng trải nghiệm sinh mã thời gian thực trong Microsoft VS Code
  • Với lần ra mắt này, mang đến một phương án thay thế cho OpenAI và Anthropic dựa trên mã nguồn mở với hiệu năng cao và chi phí hợp lý

Qwen3-235B: Cerebras ra mắt mô hình suy luận AI siêu tốc và các thành tựu chính

Mô hình suy luận AI nhanh nhất thế giới được công bố trên Cerebras Inference Cloud

  • Ngày 8 tháng 7 năm 2025, Cerebras Systems chính thức ra mắt Qwen3-235B, giới thiệu một mô hình suy luận AI mới hỗ trợ đầy đủ ngữ cảnh lên tới 131K
  • Mô hình này kết hợp năng lực AI cấp frontier và hiệu năng suy luận siêu tốc với chi phí chỉ bằng 1/10 so với các lựa chọn đóng, mở ra thay đổi lớn cho việc triển khai AI trong doanh nghiệp

Trí tuệ ở cấp độ mô hình frontier

  • Qwen3-235B của Alibaba đã được đánh giá độc lập bởi Artificial Analysis, chứng minh hiệu năng benchmark về khoa học, code và tri thức tổng quát ngang tầm với các mô hình cạnh tranh tiên tiến như Claude 4 Sonnet, Gemini 2.5 Flash và DeepSeek R1
  • Nhờ kiến trúc Mixture-of-Experts tối đa hóa hiệu quả tính toán, mô hình được cung cấp với mức giá 0,60 USD cho mỗi một triệu token đầu vào1,20 USD cho mỗi một triệu token đầu ra, rẻ hơn đáng kể so với các mô hình đóng hiện tại

Tốc độ suy luận: đổi mới từ phút xuống giây

  • AI suy luận truyền thống thường mất vài phút ngay cả với các truy vấn thông thường
  • Sử dụng Wafer Scale Engine, Qwen3-235B đạt tốc độ xuất 1.500 token mỗi giây, rút ngắn thời gian phản hồi truy vấn từ 1–2 phút xuống còn 0,6 giây
  • Nhờ đó, sinh mã, suy luận và các workflow RAG quy mô lớn có thể phản hồi tức thời, thiết lập chuẩn mới cho hiệu năng AI thời gian thực
  • Theo đo lường của Artificial Analysis, đây được đánh giá là mô hình AI frontier duy nhất trên toàn cầu tạo hơn 1.000 token mỗi giây

Ngữ cảnh 131K: hỗ trợ sinh mã trong môi trường thực tế

  • Cùng với việc ra mắt Qwen3-235B, Cerebras mở rộng hỗ trợ từ ngữ cảnh 32K hiện có lên 131K, tăng gấp 4 lần
  • Điều này cho phép suy luận toàn bộ codebase lớn và tài liệu phức tạp trong một lần, đồng thời tăng mạnh khả năng phát triển cho môi trường production thông qua sinh mã đồng thời trên hàng chục tệp và hàng chục nghìn dòng
  • Nếu ngữ cảnh 32K trước đây chỉ phù hợp cho sinh mã đơn giản, thì ngữ cảnh 131K hỗ trợ trực tiếp cả việc phát triển các ứng dụng lớn
  • Qua đó, Cerebras có thể trực tiếp đáp ứng thị trường sinh mã cho doanh nghiệp, lĩnh vực lớn nhất và tăng trưởng nhanh nhất của AI tạo sinh

Tăng cường trải nghiệm tích hợp VS Code nhờ hợp tác chiến lược với Cline

  • Cerebras đã ký kết hợp tác với Cline, coding agent VS Code lớn nhất, với hơn 1,8 triệu lượt cài đặt
  • Tất cả người dùng Cline có thể sử dụng trực tiếp Qwen3-32B (ngữ cảnh 64K, miễn phí) ngay trong trình soạn thảo, và Qwen3-235B (ngữ cảnh 131K) cũng sẽ sớm được hỗ trợ
  • Dự kiến mang lại tốc độ sinh mã nhanh hơn 10–20 lần so với các đối thủ như DeepSeek R1
  • Saoud Rizwan, CEO của Cline, nhấn mạnh rằng “nhờ suy luận thời gian thực, các nhà phát triển có thể khám phá code và vấn đề trong khi vẫn duy trì luồng làm việc ở đúng tốc độ tư duy”

Cung cấp lựa chọn thay thế AI frontier nhanh hơn 30 lần, chi phí bằng 1/10

  • Lần ra mắt này của Cerebras mang đến một lựa chọn mới cho các nhà phát triển muốn có trí tuệ và khả năng sinh mã của mô hình nền tảng mở ở mức tương đương với các mô hình thương mại như OpenAI và Anthropic
  • Đặc biệt, Cerebras là đơn vị duy nhất trên thế giới hiện thực hóa tốc độ suy luận tức thời vượt 1.500 token mỗi giây, giúp năng suất cao hơn 10 lần so với nền tảng GPU
  • Chi phí token cũng thấp hơn 1/10 so với đối thủ, cung cấp AI siêu tốc với mức giá hợp lý

Giới thiệu về Cerebras Systems

  • Cerebras Systems là đội ngũ chuyên gia về kiến trúc máy tính, deep learning, nghiên cứu và kỹ thuật, tập trung vào đổi mới hạ tầng tính toán AI quy mô lớn
  • Sản phẩm chủ lực hệ thống CS-3 được trang bị bộ xử lý AI thương mại lớn nhất thế giới (Wafer-Scale Engine-3), cho phép xây dựng siêu máy tính AI cỡ lớn thông qua khả năng clustering đơn giản và nhanh chóng
  • Cerebras Inference cung cấp tốc độ suy luận đột phá, đang được các tổ chức nghiên cứu, doanh nghiệp và cơ quan chính phủ sử dụng để phát triển mô hình chuyên biệt hiệu năng cao và huấn luyện mã nguồn mở
  • Cung cấp giải pháp trên cả Cerebras Cloud và môi trường on-premises

1 bình luận

 
GN⁺ 2025-07-24
Ý kiến Hacker News
  • Tin này có thể là “tin cũ”, có vẻ xuất hiện từ ngày 8 tháng 7 và dường như đã được giới thiệu do nhầm lẫn với đợt ra mắt Qwen 3 coder 405B công bố hôm qua. Thông số của hai model này khác nhau

    • Ban đầu tôi tưởng đây là Qwen3-235B-A22B-Instruct-2507 được công bố cách đây hai ngày (liên kết). Model đó không có reasoning, còn thông báo của Cerebras lại nhắc đến reasoning, nên tôi nhận ra tin này là về Qwen3-235B-A22B phát hành từ tháng 4. Tên model khá dễ gây nhầm lẫn
  • Nếu đây là quant fp16 hoàn toàn thì để dùng toàn bộ context 131k sẽ cần 2TB bộ nhớ. Mỗi chip Cerebras có 44GB SRAM, nên phải nối tiếp 45 chip, với giá $3M mỗi chip thì tổng cộng là $135M. Để so sánh, chỉ cần hai DGX B200 là có 2.8TB với giá khoảng $1M. Tức là $1M so với $135M. Trừ khi là các tác vụ giá trị rất cao đòi hỏi tốc độ suy luận cực nhanh như quỹ phòng hộ, thị trường tài chính..., nếu không thì không hiệu quả. Tôi thậm chí không dám tưởng tượng chuyện gì sẽ xảy ra nếu sau này có thể chạy model cỡ Claude Opus 4 hoặc hơn với hàng chục triệu token context và tốc độ 1500 token/giây với chi phí rất rẻ. Có lẽ phần cứng còn phải tiến thêm vài thế hệ nữa

    • Phép tính “44GB SRAM mỗi chip Cerebras, cần 45 chip nối tiếp, tổng $135M” là sai. 44GB là SRAM, tức bộ nhớ on-chip, còn phần lớn tham số model được lưu trong HBM. Ví dụ GB200 chỉ có 126MB SRAM; nếu chỉ nhìn dung lượng cache để tính số chip cần cho model 2TB thì kết quả sẽ vô lý. Cerebras có thể mở rộng HBM tách rời chip, và với các hệ thống như MemoryX thì có thể kết nối gần 2PB (bài liên quan). Tôi không phải chuyên gia, nhưng theo kiến trúc của Cerebras thì giới hạn bộ nhớ rộng hơn rất nhiều
    • SRAM trong chip hoàn toàn chỉ là bộ nhớ làm việc tạm thời, không cần chứa toàn bộ trọng số model. Cerebras dùng cách tiếp cận trọng số sparse để chỉ stream dữ liệu cần thiết từ bộ nhớ ngoài, còn các core hoạt động theo kiểu kích hoạt bằng truyền dữ liệu
    • Góc nhìn “chạy được/không chạy được” là quá đơn giản. Trên thực tế, điểm quan trọng là thông lượng để chia toàn bộ hệ thống cho nhiều người dùng. Xe golf và tàu hỏa đều có thể đi từ bờ Đông sang bờ Tây, nhưng tính kinh tế thì khác. Quy mô triển khai tối thiểu cũng quan trọng, nhưng nếu bạn bán token qua API cloud quy mô lớn thì khách hàng không quan tâm điều đó
    • Không cần chạy suy luận bằng fp16 cố định. Các định dạng lượng tử hóa hiện nay có thể gán độ chính xác khác nhau theo từng lớp cần thiết, nên trung bình 6 bit/tham số cũng gần như khó nhận ra khác biệt. Ngay cả khi siết mạnh thì 8 bit/tham số là đủ. Đây là mức tiết kiệm bộ nhớ rất lớn
    • Chip của chúng tôi không có giá $3M mỗi chiếc. Tôi không biết con số đó từ đâu ra, nhưng hoàn toàn là thông tin sai
  • Tôi đã cấu hình litellm proxy, kết nối sang API Cerebras mới có Qwen-235B rồi gắn Aider vào để thử. Chất lượng chưa bằng Claude code, nhưng tốc độ thì cực nhanh. Tôi cũng chạy Aider với prompt Claude code bị rò rỉ, nhưng nó không hoạt động như mong muốn. Có vẻ prompt Claude code được tối ưu riêng cho Claude. Dù vậy vẫn rất đáng thử và tôi cảm thấy tiềm năng rất lớn. Aider phun văn bản ra cực nhanh, tự cài thứ gì đó, gọi web rồi kết thúc. Thật sự là trong chớp mắt. Nếu muốn tái tạo môi trường của tôi, có thể dùng cấu hình sau:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    Cách chạy:

    litellm --config config.yaml --port 4000 --debug
    

    Và sau đó:

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    Các gói cần thiết thì cài bằng pip hoặc tương tự. Trong prompt.txt, hãy tự tìm và lưu prompt Claude code bị rò rỉ

  • Tôi đang cực kỳ mong Qwen 3 coder được Cerebras hỗ trợ. Tôi chạy agent loop rất nhiều, nên tốc độ thực thi tạo ra hiệu ứng nén thời gian khổng lồ. Nếu một model cỡ Claude 4 Sonnet chạy ở 1000~1500 token/giây thì đúng là đột phá. Nếu muốn cảm nhận tốc độ đó, có thể tự trải nghiệm trên trang Cerebras Inference, API của họ, hoặc “Flash Answers” của Mistral / Le Chat (chạy trên Cerebras). Chạy vòng lặp code ở 1000 tok/s đúng là như phép màu

    • Chính xác là vậy. Với tốc độ thế này, hiệu suất làm việc của tôi tăng vọt. Mỗi lần phải chờ agent là tôi lại mất tập trung và đứt mạch ngữ cảnh. Chạy song song thì nhanh hơn nhưng phải đánh đổi sự tập trung. Nếu trong một IDE như Cursor mà vòng lặp lặp lại diễn ra gần như tức thì thì còn thấy như ma thuật hơn nữa. Và ở tốc độ này, cách làm việc cũng sẽ thay đổi. Một IDE tương tác như Cursor sẽ cảm thấy tự nhiên hơn nhiều so với Claude code chạy trên dòng lệnh
    • Tôi cũng vậy. Nhưng API của Cerebras cần tương thích OpenAI tốt hơn nữa. Tôi đã thử model của họ với nhiều code agent khác nhau, kể cả Cline, nhưng đều không chạy được vì lỗi 400 hoặc vấn đề định dạng tool calling. Khá thất vọng
    • Vài ngày trước tôi thử Kimi K2 trên Groq và bị sốc vì tốc độ. Giờ đang cân nhắc có nên chuyển sang Qwen 3 và Cerebras không. (Nói ngoài lề, cái tên này làm tôi nhớ đến cấp bậc cerebrate của zerg trong Starcraft, hồi nhỏ tôi từng thấy rất thú vị)
    • Khi tốc độ agent LLM tăng lên như vậy, cuối cùng có thể sẽ đến lúc thời gian biên dịch trở thành nút thắt cổ chai trong quy trình phát triển. Khi đó sẽ có động lực kinh tế để cải thiện hiệu năng compiler
  • Tốc độ quả thật rất ấn tượng, nhưng theo trải nghiệm của tôi thì rất khó nhận được rate limit hoặc hạn mức token đủ dùng cho production thực sự từ Cerebras. Vì lý do này, chúng tôi không thể thiết kế hệ thống dựa trên họ nên phải dùng vendor khác. Tôi cũng đã nói chuyện khá nhiều với đội sales của họ nhưng được trả lời là không được

  • Có ai đã dùng nhiều Claude Code với sonnet-4 rồi thử so sánh thực tế giữa Claude Code và Qwen3-Coder chưa? Tôi bị hấp dẫn bởi tốc độ mà Cerebras mang lại, nhưng nếu chất lượng model kém hơn thì dù nhanh đến đâu tôi cũng không định chuyển

    • Tôi chưa dùng Qwen, nhưng đã thử các dịch vụ suy luận “token tức thì” và model diffusion của Groq với các trình sinh code dựa trên LLaMA, và kết quả không được như mong đợi. Nếu một model cỡ Gemini 2.5 pro hay Sonnet 4 có thể xuất hàng chục nghìn dòng code chỉ trong vài giây trên Cerebras thì cuộc chơi thực sự sẽ thay đổi
  • Họ nói là context “Full 131k”, nhưng thực tế là 262144, tức gấp đôi, và nếu dùng YaRN hệ số 8x thì còn lên tới 2 triệu. Thực ra Cerebras cũng có giới hạn lý thuyết về độ dài context, vì đây là giới hạn của cấu trúc Transformer: nhu cầu bộ nhớ tăng gần tuyến tính còn nhu cầu tính toán tăng theo bậc bốn. Tức là có vẻ Cerebras cũng không thể dùng 100% vì vấn đề độ dài context. Ngoài ra tôi cũng thắc mắc khách hàng có biết chính xác đang dùng kiểu lượng tử hóa nào không

    • Trang model ghi là 32768 là native và hiệu năng đã được kiểm chứng với YaRN 4x (liên kết). Có vẻ khá khớp với con số 131k
  • Tốc độ thật sự rất ấn tượng. Hơi lạc đề một chút, nhưng tôi tò mò các model như Qwen, Kimi thể hiện thế nào với vấn đề kiểm duyệt/thành kiến trong nước họ

    • Các model Qwen được đánh giá là có chất lượng rất cao trong nhóm model mở, đặc biệt là kiến trúc MoE. Đồng thời, chúng cũng bị kiểm duyệt cực nặng. Từ câu hỏi “đã xảy ra chuyện gì ở Quảng trường Thiên An Môn” cho đến “các cuộc biểu tình lớn”, hay “có liên quan đến xe tăng không?”, nó đều chỉ vòng vo kiểu quảng trường này đẹp và giàu tính lịch sử
  • Cerebras là một trong những thành tựu kỹ thuật điên rồ nhất, theo nghĩa tích cực, xuất hiện từ Thung lũng Silicon trong 10 năm qua. Khi gặp Andy cách đây 7~8 năm, với con chip cỡ như đĩa ăn tối và lực kẹp 6 tấn..., tôi đã nghĩ là không thể nào. Nhưng họ đã thực sự làm được, và nhìn lại thì đúng là đã nhìn rất xa về tương lai

    • Ý tưởng thì rất ngầu, nhưng có ai thực sự dùng Cerebras thay cho Nvidia không?
    • Thực ra nó được thiết kế cho HPC và FLOPS, nên với suy luận LLM thì băng thông bộ nhớ cuối cùng vẫn quan trọng hơn
    • Đây là một cách diễn giải hiện đại của một ý tưởng cũ. Tôi từng thấy các bài báo nghiên cứu ở châu Âu về wafer-scale, analog và mạng nơ-ron. Tôi cũng tìm được một dự án khác. (bài báo 1, bài báo 2). Bài thứ hai xuất bản năm 1989 nên mọi bằng sáng chế cũng đã hết hạn
    • wafer-scale integration cũng đã được thử từ nhiều thập kỷ trước
  • Tôi đang tìm một môi trường phát triển qwen local trên Macbook. Đã thử kết hợp localforge + mlx_lm.server, trên trang thì nói là proof-of-concept đã thành công nhưng thực tế lại gặp lỗi “empty response”. Nếu ai có trải nghiệm tương tự thì mong được chỉ giáo

    • Có thể tôi hiểu sai câu hỏi của bạn, nhưng với ollama thì tôi đang chạy suy luận qwen local rất ổn trên Macbook Pro (32GB)