- Cerebras công bố mô hình AI Qwen3-235B, mang lại hiệu năng suy luận tức thời với tốc độ tạo 1.500 token mỗi giây
- Có thể tăng năng suất và sinh mã nhanh hơn 30 lần với chi phí chỉ bằng 1/10 so với các mô hình đóng hiện có
- Hỗ trợ ngữ cảnh 131K, hiện thực hóa khả năng xử lý codebase lớn và tài liệu phức tạp
- Hợp tác với Cline để mở rộng trải nghiệm sinh mã thời gian thực trong Microsoft VS Code
- Với lần ra mắt này, mang đến một phương án thay thế cho OpenAI và Anthropic dựa trên mã nguồn mở với hiệu năng cao và chi phí hợp lý
Qwen3-235B: Cerebras ra mắt mô hình suy luận AI siêu tốc và các thành tựu chính
Mô hình suy luận AI nhanh nhất thế giới được công bố trên Cerebras Inference Cloud
- Ngày 8 tháng 7 năm 2025, Cerebras Systems chính thức ra mắt Qwen3-235B, giới thiệu một mô hình suy luận AI mới hỗ trợ đầy đủ ngữ cảnh lên tới 131K
- Mô hình này kết hợp năng lực AI cấp frontier và hiệu năng suy luận siêu tốc với chi phí chỉ bằng 1/10 so với các lựa chọn đóng, mở ra thay đổi lớn cho việc triển khai AI trong doanh nghiệp
Trí tuệ ở cấp độ mô hình frontier
- Qwen3-235B của Alibaba đã được đánh giá độc lập bởi Artificial Analysis, chứng minh hiệu năng benchmark về khoa học, code và tri thức tổng quát ngang tầm với các mô hình cạnh tranh tiên tiến như Claude 4 Sonnet, Gemini 2.5 Flash và DeepSeek R1
- Nhờ kiến trúc Mixture-of-Experts tối đa hóa hiệu quả tính toán, mô hình được cung cấp với mức giá 0,60 USD cho mỗi một triệu token đầu vào và 1,20 USD cho mỗi một triệu token đầu ra, rẻ hơn đáng kể so với các mô hình đóng hiện tại
Tốc độ suy luận: đổi mới từ phút xuống giây
- AI suy luận truyền thống thường mất vài phút ngay cả với các truy vấn thông thường
- Sử dụng Wafer Scale Engine, Qwen3-235B đạt tốc độ xuất 1.500 token mỗi giây, rút ngắn thời gian phản hồi truy vấn từ 1–2 phút xuống còn 0,6 giây
- Nhờ đó, sinh mã, suy luận và các workflow RAG quy mô lớn có thể phản hồi tức thời, thiết lập chuẩn mới cho hiệu năng AI thời gian thực
- Theo đo lường của Artificial Analysis, đây được đánh giá là mô hình AI frontier duy nhất trên toàn cầu tạo hơn 1.000 token mỗi giây
Ngữ cảnh 131K: hỗ trợ sinh mã trong môi trường thực tế
- Cùng với việc ra mắt Qwen3-235B, Cerebras mở rộng hỗ trợ từ ngữ cảnh 32K hiện có lên 131K, tăng gấp 4 lần
- Điều này cho phép suy luận toàn bộ codebase lớn và tài liệu phức tạp trong một lần, đồng thời tăng mạnh khả năng phát triển cho môi trường production thông qua sinh mã đồng thời trên hàng chục tệp và hàng chục nghìn dòng
- Nếu ngữ cảnh 32K trước đây chỉ phù hợp cho sinh mã đơn giản, thì ngữ cảnh 131K hỗ trợ trực tiếp cả việc phát triển các ứng dụng lớn
- Qua đó, Cerebras có thể trực tiếp đáp ứng thị trường sinh mã cho doanh nghiệp, lĩnh vực lớn nhất và tăng trưởng nhanh nhất của AI tạo sinh
Tăng cường trải nghiệm tích hợp VS Code nhờ hợp tác chiến lược với Cline
- Cerebras đã ký kết hợp tác với Cline, coding agent VS Code lớn nhất, với hơn 1,8 triệu lượt cài đặt
- Tất cả người dùng Cline có thể sử dụng trực tiếp Qwen3-32B (ngữ cảnh 64K, miễn phí) ngay trong trình soạn thảo, và Qwen3-235B (ngữ cảnh 131K) cũng sẽ sớm được hỗ trợ
- Dự kiến mang lại tốc độ sinh mã nhanh hơn 10–20 lần so với các đối thủ như DeepSeek R1
- Saoud Rizwan, CEO của Cline, nhấn mạnh rằng “nhờ suy luận thời gian thực, các nhà phát triển có thể khám phá code và vấn đề trong khi vẫn duy trì luồng làm việc ở đúng tốc độ tư duy”
Cung cấp lựa chọn thay thế AI frontier nhanh hơn 30 lần, chi phí bằng 1/10
- Lần ra mắt này của Cerebras mang đến một lựa chọn mới cho các nhà phát triển muốn có trí tuệ và khả năng sinh mã của mô hình nền tảng mở ở mức tương đương với các mô hình thương mại như OpenAI và Anthropic
- Đặc biệt, Cerebras là đơn vị duy nhất trên thế giới hiện thực hóa tốc độ suy luận tức thời vượt 1.500 token mỗi giây, giúp năng suất cao hơn 10 lần so với nền tảng GPU
- Chi phí token cũng thấp hơn 1/10 so với đối thủ, cung cấp AI siêu tốc với mức giá hợp lý
Giới thiệu về Cerebras Systems
- Cerebras Systems là đội ngũ chuyên gia về kiến trúc máy tính, deep learning, nghiên cứu và kỹ thuật, tập trung vào đổi mới hạ tầng tính toán AI quy mô lớn
- Sản phẩm chủ lực hệ thống CS-3 được trang bị bộ xử lý AI thương mại lớn nhất thế giới (Wafer-Scale Engine-3), cho phép xây dựng siêu máy tính AI cỡ lớn thông qua khả năng clustering đơn giản và nhanh chóng
- Cerebras Inference cung cấp tốc độ suy luận đột phá, đang được các tổ chức nghiên cứu, doanh nghiệp và cơ quan chính phủ sử dụng để phát triển mô hình chuyên biệt hiệu năng cao và huấn luyện mã nguồn mở
- Cung cấp giải pháp trên cả Cerebras Cloud và môi trường on-premises
1 bình luận
Ý kiến Hacker News
Tin này có thể là “tin cũ”, có vẻ xuất hiện từ ngày 8 tháng 7 và dường như đã được giới thiệu do nhầm lẫn với đợt ra mắt Qwen 3 coder 405B công bố hôm qua. Thông số của hai model này khác nhau
Nếu đây là quant fp16 hoàn toàn thì để dùng toàn bộ context 131k sẽ cần 2TB bộ nhớ. Mỗi chip Cerebras có 44GB SRAM, nên phải nối tiếp 45 chip, với giá $3M mỗi chip thì tổng cộng là $135M. Để so sánh, chỉ cần hai DGX B200 là có 2.8TB với giá khoảng $1M. Tức là $1M so với $135M. Trừ khi là các tác vụ giá trị rất cao đòi hỏi tốc độ suy luận cực nhanh như quỹ phòng hộ, thị trường tài chính..., nếu không thì không hiệu quả. Tôi thậm chí không dám tưởng tượng chuyện gì sẽ xảy ra nếu sau này có thể chạy model cỡ Claude Opus 4 hoặc hơn với hàng chục triệu token context và tốc độ 1500 token/giây với chi phí rất rẻ. Có lẽ phần cứng còn phải tiến thêm vài thế hệ nữa
Tôi đã cấu hình
litellm proxy, kết nối sang API Cerebras mới có Qwen-235B rồi gắn Aider vào để thử. Chất lượng chưa bằng Claude code, nhưng tốc độ thì cực nhanh. Tôi cũng chạy Aider với prompt Claude code bị rò rỉ, nhưng nó không hoạt động như mong muốn. Có vẻ prompt Claude code được tối ưu riêng cho Claude. Dù vậy vẫn rất đáng thử và tôi cảm thấy tiềm năng rất lớn. Aider phun văn bản ra cực nhanh, tự cài thứ gì đó, gọi web rồi kết thúc. Thật sự là trong chớp mắt. Nếu muốn tái tạo môi trường của tôi, có thể dùng cấu hình sau:Cách chạy:
Và sau đó:
Các gói cần thiết thì cài bằng
piphoặc tương tự. Trongprompt.txt, hãy tự tìm và lưu prompt Claude code bị rò rỉTôi đang cực kỳ mong Qwen 3 coder được Cerebras hỗ trợ. Tôi chạy agent loop rất nhiều, nên tốc độ thực thi tạo ra hiệu ứng nén thời gian khổng lồ. Nếu một model cỡ Claude 4 Sonnet chạy ở 1000~1500 token/giây thì đúng là đột phá. Nếu muốn cảm nhận tốc độ đó, có thể tự trải nghiệm trên trang Cerebras Inference, API của họ, hoặc “Flash Answers” của Mistral / Le Chat (chạy trên Cerebras). Chạy vòng lặp code ở 1000 tok/s đúng là như phép màu
Tốc độ quả thật rất ấn tượng, nhưng theo trải nghiệm của tôi thì rất khó nhận được rate limit hoặc hạn mức token đủ dùng cho production thực sự từ Cerebras. Vì lý do này, chúng tôi không thể thiết kế hệ thống dựa trên họ nên phải dùng vendor khác. Tôi cũng đã nói chuyện khá nhiều với đội sales của họ nhưng được trả lời là không được
Có ai đã dùng nhiều Claude Code với sonnet-4 rồi thử so sánh thực tế giữa Claude Code và Qwen3-Coder chưa? Tôi bị hấp dẫn bởi tốc độ mà Cerebras mang lại, nhưng nếu chất lượng model kém hơn thì dù nhanh đến đâu tôi cũng không định chuyển
Họ nói là context “Full 131k”, nhưng thực tế là 262144, tức gấp đôi, và nếu dùng YaRN hệ số 8x thì còn lên tới 2 triệu. Thực ra Cerebras cũng có giới hạn lý thuyết về độ dài context, vì đây là giới hạn của cấu trúc Transformer: nhu cầu bộ nhớ tăng gần tuyến tính còn nhu cầu tính toán tăng theo bậc bốn. Tức là có vẻ Cerebras cũng không thể dùng 100% vì vấn đề độ dài context. Ngoài ra tôi cũng thắc mắc khách hàng có biết chính xác đang dùng kiểu lượng tử hóa nào không
Tốc độ thật sự rất ấn tượng. Hơi lạc đề một chút, nhưng tôi tò mò các model như Qwen, Kimi thể hiện thế nào với vấn đề kiểm duyệt/thành kiến trong nước họ
Cerebras là một trong những thành tựu kỹ thuật điên rồ nhất, theo nghĩa tích cực, xuất hiện từ Thung lũng Silicon trong 10 năm qua. Khi gặp Andy cách đây 7~8 năm, với con chip cỡ như đĩa ăn tối và lực kẹp 6 tấn..., tôi đã nghĩ là không thể nào. Nhưng họ đã thực sự làm được, và nhìn lại thì đúng là đã nhìn rất xa về tương lai
Tôi đang tìm một môi trường phát triển qwen local trên Macbook. Đã thử kết hợp
localforge + mlx_lm.server, trên trang thì nói là proof-of-concept đã thành công nhưng thực tế lại gặp lỗi “empty response”. Nếu ai có trải nghiệm tương tự thì mong được chỉ giáoollamathì tôi đang chạy suy luận qwen local rất ổn trên Macbook Pro (32GB)