Con đường hướng tới AI phổ cập (17K token/giây)

(taalas.com)

5 điểm bởi GN⁺ 2026-02-21 | 2 bình luận | Chia sẻ qua WhatsApp

Taalas đã phát triển nền tảng chuyển đổi mô hình AI thành chip silicon tùy biến, chỉ mất hai tháng để hiện thực hóa mô hình trên phần cứng
Sản phẩm đầu tiên, mô hình hardwired Llama 3.1 8B, xử lý 17K token mỗi giây, nhanh hơn 10 lần, rẻ hơn 20 lần và tiêu thụ điện chỉ bằng 1/10 so với trước đây
Giúp hiện thực hóa suy luận tốc độ cao, chi phí thấp, điện năng thấp, đồng thời loại bỏ độ phức tạp của các hệ thống dựa trên GPU hiện có bằng kiến trúc chip mới tích hợp bộ nhớ và tính toán
Thông qua cách tiếp cận này, Taalas thúc đẩy nhanh hơn AI thời gian thực và phổ cập hóa AI, cho phép các nhà phát triển thử nghiệm ứng dụng mới trong môi trường siêu độ trễ thấp và siêu chi phí thấp

Giới hạn hiện tại của AI và nhu cầu thay đổi

AI hiện đã vượt con người trong một số lĩnh vực cụ thể, nhưng độ trễ (latency) và chi phí (cost) được xem là hai rào cản lớn nhất đối với việc ứng dụng đại chúng
- Tương tác với mô hình ngôn ngữ chậm hơn tốc độ suy nghĩ của con người, còn các công cụ hỗ trợ lập trình khiến người dùng phải chờ phản hồi trong nhiều phút
- AI dạng tác tử tự động cần phản hồi ở mức mili giây, nhưng các hệ thống hiện nay chưa đáp ứng được điều đó
Việc triển khai các mô hình mới nhất đòi hỏi hạ tầng cấp siêu máy tính lớn với hàng trăm kW điện năng cùng cấu trúc làm mát, đóng gói và bộ nhớ phức tạp
- Cấu trúc này mở rộng thành các trung tâm dữ liệu quy mô đô thị và mạng lưới vệ tinh, gây ra chi phí vận hành tăng vọt
Taalas nhấn mạnh rằng cũng như quá trình chuyển đổi từ ENIAC sang transistor trước đây, AI cũng cần tiến hóa sang cấu trúc hiệu quả và chi phí thấp hơn

Triết lý công nghệ của Taalas

Sau 2 năm rưỡi kể từ khi thành lập, Taalas đã hoàn thiện nền tảng chuyển đổi mô hình AI thành silicon tùy biến
- Có thể phần cứng hóa trong vòng 2 tháng sau khi nhận một mô hình mới
- Thành quả là Hardcore Models mang lại cải thiện khoảng 10 lần về tốc độ, chi phí và hiệu quả điện năng so với cách tiếp cận dựa trên phần mềm hiện có
Đưa ra ba nguyên tắc cốt lõi
1. Chuyên biệt hóa hoàn toàn (Total specialization)
  - Tạo silicon được tối ưu cho từng mô hình AI để đạt hiệu suất cực đại
2. Hợp nhất lưu trữ và tính toán (Merging storage and computation)
  - Loại bỏ nút thắt do tách rời DRAM và chip tính toán, đồng thời triển khai cấu trúc tích hợp trên một chip duy nhất với mật độ ở mức DRAM
3. Đơn giản hóa triệt để (Radical simplification)
  - Loại bỏ các công nghệ phức tạp như HBM, xếp chồng 3D, làm mát bằng chất lỏng để giảm chi phí hệ thống xuống còn mức một chữ số

Sản phẩm đầu tiên: mô hình hardwired Llama 3.1 8B

Được giới thiệu là nền tảng suy luận nhanh nhất, chi phí thấp nhất và điện năng thấp nhất thế giới
- Bằng cách hiện thực trực tiếp mô hình Llama 3.1 8B trên silicon, hệ thống đạt 17K token/giây, nhanh hơn 10 lần, chi phí sản xuất rẻ hơn 20 lần và tiêu thụ điện năng thấp hơn 10 lần so với trước đây
Bảo đảm tính thực dụng và sự dễ dàng trong phát triển dựa trên mô hình mã nguồn mở
- Hỗ trợ điều chỉnh kích thước context window và fine-tuning dựa trên LoRA
Chip thế hệ đầu tiên sử dụng lượng tử hóa hỗn hợp 3-bit và 6-bit, nên có một phần suy giảm chất lượng so với GPU
- Silicon thế hệ thứ hai (HC2) áp dụng định dạng số chấm động 4-bit tiêu chuẩn để cải thiện chất lượng và hiệu quả

Lộ trình mô hình trong tương lai

Mô hình thứ hai là một LLM suy luận quy mô trung bình, dự kiến hoàn thiện trong phòng nghiên cứu vào mùa xuân và sau đó tích hợp vào dịch vụ suy luận
Mô hình thứ ba là LLM cấp frontier dựa trên nền tảng HC2, mang lại mật độ và tốc độ cao hơn, dự kiến triển khai vào mùa đông

Khả năng tiếp cận cho nhà phát triển và cấu trúc đội ngũ

Mô hình Llama hiện được công bố dưới dạng dịch vụ beta, cho phép trải nghiệm môi trường siêu độ trễ thấp và siêu chi phí thấp
- Có thể sử dụng qua bản demo chatjimmy.ai và dịch vụ API
Taalas đã hoàn thành sản phẩm đầu tiên với đội ngũ 24 người và chi phí 30 triệu USD, được xem là kết quả của việc đặt mục tiêu chính xác và năng lực thực thi tập trung
Đội ngũ gồm một nhóm nhỏ các chuyên gia đã hợp tác hơn 20 năm, đề cao chất lượng, độ chính xác và tinh thần thủ công

Kết luận: AI thời gian thực và phổ cập hóa AI

Công nghệ của Taalas mang lại bước nhảy vọt theo giai đoạn về hiệu năng, hiệu quả điện năng và chi phí
Đề xuất triết lý kiến trúc hệ thống AI mới khác với cấu trúc lấy GPU làm trung tâm hiện nay
Bằng cách loại bỏ rào cản về độ trễ và chi phí, công ty mang đến cho nhà phát triển môi trường có thể khai thác AI theo thời gian thực
Trong tương lai, công nghệ này sẽ mở rộng với các mô hình mạnh hơn, hướng tới hiện thực hóa khả năng tiếp cận AI một cách phổ quát

2 bình luận

colus001 2026-02-21

Không biết điều này có ý nghĩa đến đâu nữa. Vì thị trường thích hype nên chắc việc gọi vốn sẽ vẫn thuận lợi, nhưng khi các bên đua nhau tung ra mô hình mới thì chỉ 2 tháng thôi cũng đã thấy như xa lắc rồi.

GN⁺ 2026-02-21

Ý kiến Hacker News

Con chip này không phải là đa dụng mà là thiết kế chuyên cho suy luận tốc độ cao, độ trễ thấp
Với mốc 8B dense 3bit quant (Llama 3.1), nó xử lý 15k token/giây, die 880mm² trên tiến trình 6nm, 53B transistor, tiêu thụ khoảng 200W, chi phí sản xuất rẻ hơn 20 lần và năng lượng trên mỗi token giảm 10 lần
Đội ngũ sáng lập xuất thân từ AMD và Nvidia với 25 năm kinh nghiệm, đã huy động được 200 triệu USD vốn VC
Nếu tính khoảng 0,2 USD trên mỗi mm² thì vào khoảng 20 USD cho mỗi 1 tỷ tham số, dù die lớn sẽ có yield thấp hơn
Xem thêm trong phỏng vấn nhà sáng lập
Phù hợp với các ứng dụng siêu độ trễ thấp dưới 10k token, và khi ra mắt vào mùa xuân có khả năng sẽ thu hút mạnh dòng vốn VC
- Phần tính toán này khá hữu ích. 16k token/giây là tốc độ đáng kinh ngạc, có thể xem là một danh mục sản phẩm mới
  Nvidia H200 đạt khoảng 12k tok/s nhưng là xử lý theo batch nên độ trễ token đầu tiên lớn hơn nhiều
  Taalas phản hồi ở mức mili giây nên phù hợp với tạo giọng nói và video thời gian thực
  Tuy vậy, sản xuất chip trong vòng 2 tháng là quá lạc quan. Dù vậy vẫn kỳ vọng bản v3 sẽ đủ khả năng xử lý các yêu cầu API thực tế
- Đùa rằng nếu die chỉ có giá 20 USD thì có lẽ còn có thể bán theo từng model như băng cartridge Game Boy
- Tò mò liệu Recursive Language Model (liên kết bài báo) có thể bù đắp giới hạn context hay không
  Nó tốn nhiều token, nhưng nếu token rẻ thì có thể lại có lợi cho việc tăng độ chính xác
- 880mm² thì còn lớn hơn M1 Ultra và cả H100
  Khi kích thước die tăng thì yield giảm, nên cũng đặt câu hỏi liệu vài lỗi bit có thực sự là vấn đề lớn hay không
- Thấy thú vị khi nghĩ xem robot thông minh sẽ phát triển ra sao với loại chip này
Nhiều bình luận đang bàn về độ chính xác của model, nhưng có vẻ không hiểu đây là model Llama 3.1 8B
Trọng tâm không phải model mà là hiệu năng phần cứng tùy biến
Nếu chạy các model mới hơn như GLM-5 thì có lẽ sẽ thực sự ấn tượng
Mức độ phản hồi gần như là ra kết quả ngay khi vừa “nhấn Enter”
Tuy nhiên, cấu trúc phải thay toàn bộ phần cứng khi đổi model có thể ảnh hưởng đến tính thương mại
- Thông tin giá nằm trong hình này
  Có vẻ đây vẫn là chính sách giá mang tính thăm dò để đo phản ứng thị trường
  Họ chọn tối đa hóa tốc độ thay vì tính linh hoạt, nhưng có nói là vẫn hỗ trợ fine-tuning dựa trên LoRA
  Nó sẽ rất hữu ích cho những việc như gắn nhãn dữ liệu đơn giản hoặc xử lý song song quy mô lớn
- Cá nhân thấy Cerebras đang đi trước khá xa. So sánh bằng tok/s là không phù hợp
Đã thử demo ChatJimmy và rất ngạc nhiên vì câu trả lời xuất hiện gần như ngay tức thì
chatjimmy.ai
- Bảo nó thiết kế một chiếc tàu ngầm cho mèo thì nó trả lời ngay lập tức
  Nội dung cũng bất ngờ là khá cụ thể và hữu ích
- Với tốc độ này, có thể tự động lặp sinh mã cho đến khi qua được bài test
  Có cảm giác một kiểu phát triển hoàn toàn mới sắp mở ra
- Nếu là nhà đầu tư thì có lẽ nên đầu tư vào ChatJimmy thay vì OpenAI
- Tuy vậy, tính năng đính kèm file không hoạt động, và khả năng hiểu ngữ cảnh có phần hơi lệch
- Có người trầm trồ nói rằng họ đã tự xác nhận mức 16.000 token/giây
Nhiều người tỏ ra hoài nghi, nhưng ngay cả model không thuộc frontier cũng có nhu cầu rất lớn
Chỉ cần nhìn biểu đồ hoạt động của Llama 3.1 cũng thấy đang tăng trưởng 22% theo tuần
Nếu độ trễ giảm, LLM có thể được dùng ở mức tải trang web thông thường
- Ngay cả model frontier cũng có thể có thị trường. Ví dụ nếu Anthropic khắc Opus 4.6 lên chip thì có thể giảm chi phí suy luận
- Model cũ vẫn rất mạnh ở các tác vụ sáng tạo. Model mới thì được tune nhiều hơn cho code và suy luận nên bớt tính sáng tạo
- Nó lý tưởng cho các việc như trích xuất nội dung có cấu trúc hay chuyển đổi sang Markdown
  Con chip này biến LLM thành một giao diện thời gian thực
- Cũng phù hợp với những lĩnh vực như robot, nơi cần độ trễ thấp và luồng tác vụ hẹp
Có người đùa rằng chưa từng thấy câu trả lời sai nào nhanh đến vậy, nhưng công nghệ này vẫn rất hứa hẹn
Model 8B tuy nhỏ nhưng về dài hạn có thể tạo ra một thị trường lớn
- Có câu kiểu như nó không trả lời được câu hỏi, nhưng lại không trả lời được với tốc độ nhanh đến khó tin
  Hiện tại chưa hữu dụng lắm, nhưng là một công nghệ mang lại cảm giác hoàn toàn mới
- Nếu có bản cho Qwen 2.5 thì có lẽ sẽ mua ngay
  Trong công việc thực tế không phải lúc nào cũng cần model frontier
- Các model 7~9B cũng đã đủ tốt. Điều quan trọng là truy vấn nhiều model song song để tăng độ chính xác dựa trên đồng thuận
  Từ mức 80B trở lên thì khác biệt trở nên không đáng kể
- Có người phản ứng hài hước khi chỉ ra lỗi chính tả
Có người hình dung việc cắm loại card này vào PC cá nhân để thay thế Claude Code
Với 17k token/giây, có thể chạy đồng thời nhiều pipeline agent
Mỗi agent đảm nhiệm sửa code và kiểm chứng, từ đó lặp cải thiện rất nhanh
Họ cũng tò mò liệu không cần model tốt nhất, mà dùng model tầm trung chạy nhiều vòng, có thể cho kết quả tốt hơn hay không
- Chất lượng kết quả phụ thuộc vào công cụ và harness nhiều hơn là bản thân model
  Nếu kết hợp tốc độ xuất token cao với tooling tốt, khoảng cách với model frontier có thể được thu hẹp
- Tuy nhiên, model không thể tự cải thiện chỉ bằng cách dựa trên đầu ra của chính nó. Cần có học từ thực tế
Theo thông tin đã được đính chính, thực ra đây là cấu trúc chip đơn với model được khắc thẳng vào silicon
Có vẻ là model Llama 8B q3 được khắc với context 1k, và cần 10 chip (tổng 2,4kW)
Do không thể thay model nên nó chỉ phù hợp với các tác vụ cố định dài hạn
- Lý tưởng cho các bài toán ngắn dưới 100 token như gắn nhãn dữ liệu
- Có vẻ cũng có thể thiết kế model theo hướng thực hiện nhiều RAG hay tìm kiếm kiểu agent hơn
- Trong bối cảnh chu kỳ thay model đang rất nhanh, thời gian sản xuất chip kéo dài hơn 6 tháng là điều khó khả thi trong thực tế
- Có thể ứng dụng rộng trên các tác vụ NLP
- Cũng có thể phù hợp làm chip cho NPC trong game video
17k token/giây không chỉ là hiệu quả triển khai, mà còn là tốc độ đủ để thay đổi chính cách đánh giá
Các benchmark tĩnh như MMLU hiện nay dựa trên tốc độ con người, nhưng với mức thông lượng này thì có thể chạy hàng chục nghìn lượt kiểm thử tương tác
Điều đó cho thấy tốc độ càng cao thì các cách đánh giá cũ càng trở nên không phù hợp
Có người thử chatbot và bị sốc vì câu trả lời dài xuất hiện ngay lập tức ở mức 15k tok/s
Họ muốn có một phiên bản model frontier cho việc code cục bộ
- Một đoạn văn phải mất 2 phút để đọc mà lại được tạo xong trong chưa tới 1 giây là một cảnh tượng phi lý
- Nó gợi ra trò đùa rằng lý do ta không tìm thấy nền văn minh ngoài hành tinh là vì họ hoạt động ở một thang thời gian khác
- Nếu áp dụng tốc độ này vào vòng lặp suy luận hoặc harness sinh code thì sẽ có đột phá AI
Dù cũng có phản ứng tiêu cực, nhưng có rất nhiều ứng dụng thực sự cần model độ trễ thấp
Ví dụ, việc chuyển tìm kiếm nhập tự do thành truy vấn có cấu trúc trước đây không khả thi vì độ trễ của model hiện có
Loại chip này có thể mang lại mức phản hồi AI gần như tức thì mà người dùng cảm nhận được