- Taalas đã phát triển nền tảng chuyển đổi mô hình AI thành chip silicon tùy biến, chỉ mất hai tháng để hiện thực hóa mô hình trên phần cứng
- Sản phẩm đầu tiên, mô hình hardwired Llama 3.1 8B, xử lý 17K token mỗi giây, nhanh hơn 10 lần, rẻ hơn 20 lần và tiêu thụ điện chỉ bằng 1/10 so với trước đây
- Giúp hiện thực hóa suy luận tốc độ cao, chi phí thấp, điện năng thấp, đồng thời loại bỏ độ phức tạp của các hệ thống dựa trên GPU hiện có bằng kiến trúc chip mới tích hợp bộ nhớ và tính toán
- Thông qua cách tiếp cận này, Taalas thúc đẩy nhanh hơn AI thời gian thực và phổ cập hóa AI, cho phép các nhà phát triển thử nghiệm ứng dụng mới trong môi trường siêu độ trễ thấp và siêu chi phí thấp
Giới hạn hiện tại của AI và nhu cầu thay đổi
- AI hiện đã vượt con người trong một số lĩnh vực cụ thể, nhưng độ trễ (latency) và chi phí (cost) được xem là hai rào cản lớn nhất đối với việc ứng dụng đại chúng
- Tương tác với mô hình ngôn ngữ chậm hơn tốc độ suy nghĩ của con người, còn các công cụ hỗ trợ lập trình khiến người dùng phải chờ phản hồi trong nhiều phút
- AI dạng tác tử tự động cần phản hồi ở mức mili giây, nhưng các hệ thống hiện nay chưa đáp ứng được điều đó
- Việc triển khai các mô hình mới nhất đòi hỏi hạ tầng cấp siêu máy tính lớn với hàng trăm kW điện năng cùng cấu trúc làm mát, đóng gói và bộ nhớ phức tạp
- Cấu trúc này mở rộng thành các trung tâm dữ liệu quy mô đô thị và mạng lưới vệ tinh, gây ra chi phí vận hành tăng vọt
- Taalas nhấn mạnh rằng cũng như quá trình chuyển đổi từ ENIAC sang transistor trước đây, AI cũng cần tiến hóa sang cấu trúc hiệu quả và chi phí thấp hơn
Triết lý công nghệ của Taalas
- Sau 2 năm rưỡi kể từ khi thành lập, Taalas đã hoàn thiện nền tảng chuyển đổi mô hình AI thành silicon tùy biến
- Có thể phần cứng hóa trong vòng 2 tháng sau khi nhận một mô hình mới
- Thành quả là Hardcore Models mang lại cải thiện khoảng 10 lần về tốc độ, chi phí và hiệu quả điện năng so với cách tiếp cận dựa trên phần mềm hiện có
- Đưa ra ba nguyên tắc cốt lõi
- Chuyên biệt hóa hoàn toàn (Total specialization)
- Tạo silicon được tối ưu cho từng mô hình AI để đạt hiệu suất cực đại
- Hợp nhất lưu trữ và tính toán (Merging storage and computation)
- Loại bỏ nút thắt do tách rời DRAM và chip tính toán, đồng thời triển khai cấu trúc tích hợp trên một chip duy nhất với mật độ ở mức DRAM
- Đơn giản hóa triệt để (Radical simplification)
- Loại bỏ các công nghệ phức tạp như HBM, xếp chồng 3D, làm mát bằng chất lỏng để giảm chi phí hệ thống xuống còn mức một chữ số
Sản phẩm đầu tiên: mô hình hardwired Llama 3.1 8B
- Được giới thiệu là nền tảng suy luận nhanh nhất, chi phí thấp nhất và điện năng thấp nhất thế giới
- Bằng cách hiện thực trực tiếp mô hình Llama 3.1 8B trên silicon, hệ thống đạt 17K token/giây, nhanh hơn 10 lần, chi phí sản xuất rẻ hơn 20 lần và tiêu thụ điện năng thấp hơn 10 lần so với trước đây
- Bảo đảm tính thực dụng và sự dễ dàng trong phát triển dựa trên mô hình mã nguồn mở
- Hỗ trợ điều chỉnh kích thước context window và fine-tuning dựa trên LoRA
- Chip thế hệ đầu tiên sử dụng lượng tử hóa hỗn hợp 3-bit và 6-bit, nên có một phần suy giảm chất lượng so với GPU
- Silicon thế hệ thứ hai (HC2) áp dụng định dạng số chấm động 4-bit tiêu chuẩn để cải thiện chất lượng và hiệu quả
Lộ trình mô hình trong tương lai
- Mô hình thứ hai là một LLM suy luận quy mô trung bình, dự kiến hoàn thiện trong phòng nghiên cứu vào mùa xuân và sau đó tích hợp vào dịch vụ suy luận
- Mô hình thứ ba là LLM cấp frontier dựa trên nền tảng HC2, mang lại mật độ và tốc độ cao hơn, dự kiến triển khai vào mùa đông
Khả năng tiếp cận cho nhà phát triển và cấu trúc đội ngũ
- Mô hình Llama hiện được công bố dưới dạng dịch vụ beta, cho phép trải nghiệm môi trường siêu độ trễ thấp và siêu chi phí thấp
- Taalas đã hoàn thành sản phẩm đầu tiên với đội ngũ 24 người và chi phí 30 triệu USD, được xem là kết quả của việc đặt mục tiêu chính xác và năng lực thực thi tập trung
- Đội ngũ gồm một nhóm nhỏ các chuyên gia đã hợp tác hơn 20 năm, đề cao chất lượng, độ chính xác và tinh thần thủ công
Kết luận: AI thời gian thực và phổ cập hóa AI
- Công nghệ của Taalas mang lại bước nhảy vọt theo giai đoạn về hiệu năng, hiệu quả điện năng và chi phí
- Đề xuất triết lý kiến trúc hệ thống AI mới khác với cấu trúc lấy GPU làm trung tâm hiện nay
- Bằng cách loại bỏ rào cản về độ trễ và chi phí, công ty mang đến cho nhà phát triển môi trường có thể khai thác AI theo thời gian thực
- Trong tương lai, công nghệ này sẽ mở rộng với các mô hình mạnh hơn, hướng tới hiện thực hóa khả năng tiếp cận AI một cách phổ quát
2 bình luận
Không biết điều này có ý nghĩa đến đâu nữa. Vì thị trường thích hype nên chắc việc gọi vốn sẽ vẫn thuận lợi, nhưng khi các bên đua nhau tung ra mô hình mới thì chỉ 2 tháng thôi cũng đã thấy như xa lắc rồi.
Ý kiến Hacker News
Con chip này không phải là đa dụng mà là thiết kế chuyên cho suy luận tốc độ cao, độ trễ thấp
Với mốc 8B dense 3bit quant (Llama 3.1), nó xử lý 15k token/giây, die 880mm² trên tiến trình 6nm, 53B transistor, tiêu thụ khoảng 200W, chi phí sản xuất rẻ hơn 20 lần và năng lượng trên mỗi token giảm 10 lần
Đội ngũ sáng lập xuất thân từ AMD và Nvidia với 25 năm kinh nghiệm, đã huy động được 200 triệu USD vốn VC
Nếu tính khoảng 0,2 USD trên mỗi mm² thì vào khoảng 20 USD cho mỗi 1 tỷ tham số, dù die lớn sẽ có yield thấp hơn
Xem thêm trong phỏng vấn nhà sáng lập
Phù hợp với các ứng dụng siêu độ trễ thấp dưới 10k token, và khi ra mắt vào mùa xuân có khả năng sẽ thu hút mạnh dòng vốn VC
Nvidia H200 đạt khoảng 12k tok/s nhưng là xử lý theo batch nên độ trễ token đầu tiên lớn hơn nhiều
Taalas phản hồi ở mức mili giây nên phù hợp với tạo giọng nói và video thời gian thực
Tuy vậy, sản xuất chip trong vòng 2 tháng là quá lạc quan. Dù vậy vẫn kỳ vọng bản v3 sẽ đủ khả năng xử lý các yêu cầu API thực tế
Nó tốn nhiều token, nhưng nếu token rẻ thì có thể lại có lợi cho việc tăng độ chính xác
Khi kích thước die tăng thì yield giảm, nên cũng đặt câu hỏi liệu vài lỗi bit có thực sự là vấn đề lớn hay không
Nhiều bình luận đang bàn về độ chính xác của model, nhưng có vẻ không hiểu đây là model Llama 3.1 8B
Trọng tâm không phải model mà là hiệu năng phần cứng tùy biến
Nếu chạy các model mới hơn như GLM-5 thì có lẽ sẽ thực sự ấn tượng
Mức độ phản hồi gần như là ra kết quả ngay khi vừa “nhấn Enter”
Tuy nhiên, cấu trúc phải thay toàn bộ phần cứng khi đổi model có thể ảnh hưởng đến tính thương mại
Có vẻ đây vẫn là chính sách giá mang tính thăm dò để đo phản ứng thị trường
Họ chọn tối đa hóa tốc độ thay vì tính linh hoạt, nhưng có nói là vẫn hỗ trợ fine-tuning dựa trên LoRA
Nó sẽ rất hữu ích cho những việc như gắn nhãn dữ liệu đơn giản hoặc xử lý song song quy mô lớn
Đã thử demo ChatJimmy và rất ngạc nhiên vì câu trả lời xuất hiện gần như ngay tức thì
chatjimmy.ai
Nội dung cũng bất ngờ là khá cụ thể và hữu ích
Có cảm giác một kiểu phát triển hoàn toàn mới sắp mở ra
Nhiều người tỏ ra hoài nghi, nhưng ngay cả model không thuộc frontier cũng có nhu cầu rất lớn
Chỉ cần nhìn biểu đồ hoạt động của Llama 3.1 cũng thấy đang tăng trưởng 22% theo tuần
Nếu độ trễ giảm, LLM có thể được dùng ở mức tải trang web thông thường
Con chip này biến LLM thành một giao diện thời gian thực
Có người đùa rằng chưa từng thấy câu trả lời sai nào nhanh đến vậy, nhưng công nghệ này vẫn rất hứa hẹn
Model 8B tuy nhỏ nhưng về dài hạn có thể tạo ra một thị trường lớn
Hiện tại chưa hữu dụng lắm, nhưng là một công nghệ mang lại cảm giác hoàn toàn mới
Trong công việc thực tế không phải lúc nào cũng cần model frontier
Từ mức 80B trở lên thì khác biệt trở nên không đáng kể
Có người hình dung việc cắm loại card này vào PC cá nhân để thay thế Claude Code
Với 17k token/giây, có thể chạy đồng thời nhiều pipeline agent
Mỗi agent đảm nhiệm sửa code và kiểm chứng, từ đó lặp cải thiện rất nhanh
Họ cũng tò mò liệu không cần model tốt nhất, mà dùng model tầm trung chạy nhiều vòng, có thể cho kết quả tốt hơn hay không
Nếu kết hợp tốc độ xuất token cao với tooling tốt, khoảng cách với model frontier có thể được thu hẹp
Theo thông tin đã được đính chính, thực ra đây là cấu trúc chip đơn với model được khắc thẳng vào silicon
Có vẻ là model Llama 8B q3 được khắc với context 1k, và cần 10 chip (tổng 2,4kW)
Do không thể thay model nên nó chỉ phù hợp với các tác vụ cố định dài hạn
17k token/giây không chỉ là hiệu quả triển khai, mà còn là tốc độ đủ để thay đổi chính cách đánh giá
Các benchmark tĩnh như MMLU hiện nay dựa trên tốc độ con người, nhưng với mức thông lượng này thì có thể chạy hàng chục nghìn lượt kiểm thử tương tác
Điều đó cho thấy tốc độ càng cao thì các cách đánh giá cũ càng trở nên không phù hợp
Có người thử chatbot và bị sốc vì câu trả lời dài xuất hiện ngay lập tức ở mức 15k tok/s
Họ muốn có một phiên bản model frontier cho việc code cục bộ
Dù cũng có phản ứng tiêu cực, nhưng có rất nhiều ứng dụng thực sự cần model độ trễ thấp
Ví dụ, việc chuyển tìm kiếm nhập tự do thành truy vấn có cấu trúc trước đây không khả thi vì độ trễ của model hiện có
Loại chip này có thể mang lại mức phản hồi AI gần như tức thì mà người dùng cảm nhận được