- Taalas là một startup khắc trực tiếp mô hình Llama 3.1 8B lên chip ASIC, đạt tốc độ suy luận 17.000 token/giây
- Công ty tuyên bố rẻ hơn 10 lần, tiêu thụ điện ít hơn 10 lần và suy luận nhanh hơn 10 lần so với các hệ thống dựa trên GPU
- Bằng kiến trúc khắc trực tiếp trọng số của mô hình vào các transistor silicon, họ loại bỏ nút thắt bộ nhớ của GPU
- Không cần DRAM/HBM bên ngoài, chỉ dùng SRAM trong chip để xử lý KV cache và bộ điều hợp LoRA
- Với cách chế tạo chip theo từng mô hình chỉ tùy biến hai lớp trên cùng, công ty đã hoàn thành chip cho Llama 3.1 chỉ trong 2 tháng
Tổng quan về chip của Taalas
- Taalas là công ty được thành lập cách đây 2,5 năm, và đây là sản phẩm đầu tiên của họ
- Con chip là một ASIC chức năng cố định, chỉ có thể lưu một mô hình và không thể ghi lại
- Nó có cấu trúc chuyên dụng cho một mô hình duy nhất như CD-ROM hoặc băng game
Sự kém hiệu quả của suy luận LLM dựa trên GPU
- LLM được cấu thành từ nhiều tầng (layer); ví dụ, Llama 3.1 8B có 32 tầng
- GPU lặp đi lặp lại quá trình nạp ma trận trọng số của từng tầng từ VRAM, tính toán rồi lại lưu trở lại
- Mỗi lần tạo một token, quá trình này phải lặp lại 32 lần
- Quá trình đi-về với bộ nhớ này gây ra độ trễ và tiêu tốn năng lượng; đây được gọi là nút thắt băng thông bộ nhớ hoặc nút thắt Von Neumann
Cách tiếp cận ‘hardwired’ của Taalas
- Taalas khắc tuần tự 32 tầng của Llama 3.1 lên silicon
- Trọng số của mô hình được hiện thực bằng các transistor vật lý
- Khi vector đầu vào đi vào, nó đi qua transistor của từng tầng và được xử lý liên tục dưới dạng tín hiệu điện
- Kết quả trung gian không được lưu vào VRAM mà được chuyển thẳng sang tầng tiếp theo theo các dây nối (pipeline registers)
- Công ty cho biết họ đã phát triển cấu trúc ‘magic multiplier’ có thể thực hiện lưu trữ dữ liệu 4-bit và phép nhân chỉ với một transistor
Cấu trúc bộ nhớ
- Không sử dụng DRAM/HBM bên ngoài, thay vào đó là một lượng nhỏ SRAM bên trong chip
- Vì việc sản xuất kết hợp DRAM và cổng logic là khó khăn
- SRAM trên chip này được dùng để lưu KV cache (bộ nhớ tạm trong hội thoại) và bộ điều hợp LoRA
Cách chế tạo chip theo từng mô hình
- Thông thường, việc chế tạo lại chip cho mỗi mô hình đều tốn kém
- Taalas thiết kế chung cấu trúc chip cơ bản, rồi chỉ sửa hai lớp trên cùng (mask) để phù hợp với mô hình cụ thể
- Cách này nhanh hơn nhiều so với chế tạo một con chip hoàn toàn mới
- Việc phát triển chip cho Llama 3.1 8B mất khoảng 2 tháng
- Theo tiêu chuẩn của ngành AI thì chậm, nhưng theo tốc độ chế tạo chip tùy biến thì là rất nhanh
Kỳ vọng trong tương lai
- Từ góc nhìn của người dùng muốn chạy mô hình cục bộ mà không cần GPU, có thể kỳ vọng vào việc sản xuất hàng loạt loại phần cứng này
5 bình luận
Ý kiến Hacker News
8B hệ số (coefficients) được đóng gói vào 53B transistor. Tức là khoảng 6,5 transistor cho mỗi hệ số
Có vẻ họ dùng block quantization. Ví dụ, với khối gồm 4 hệ số 3-bit thì chỉ cần 330 khối khác nhau
Ma trận của Llama 3.1 là 4096x4096, tức gồm 16 triệu hệ số, và có thể nén thành 330 khối
Nếu giả sử ngân sách khoảng 250 nghìn transistor mỗi khối, thì ra khoảng 5 transistor cho mỗi hệ số. Có vẻ hoàn toàn khả thi ngay cả ở mức FP4
model.toVHDL()Điều đáng ngạc nhiên là mọi người lại ngạc nhiên vì chuyện này có thể làm được
GPU ra đời xét cho cùng cũng là kết quả của việc chuyển phép toán phần mềm sang phần cứng. LLM cũng có cùng cấu trúc toán học, nên đây là hướng tiến hóa khá hiển nhiên
Đột phá thực sự không nằm ở form factor mà là ở độ trễ (latency)
Suy luận trên cloud chỉ riêng overhead mạng đã là 50~200ms, trong khi ASIC chuyên dụng cắm qua PCIe có thể xuất token đầu tiên ở mức micro giây
Với tạo video thời gian thực hoặc các agent cần phản hồi dưới 100ms, điều này mang tính quyết định. Chi phí có thể cao hơn GPU, nhưng nó mở ra những ứng dụng thời gian thực hoàn toàn mới
Tương lai nơi các mô hình như Gemma 5 Mini chạy trực tiếp trên phần cứng cục bộ thật thú vị
Có thể sẽ xuất hiện những “AI core” dành cho từng mô hình cụ thể giống như encoder H.264 hay AV1
Nhờ Structured ASIC platform, chi phí cũng có thể giảm xuống, mở lại thời kỳ ASIC có cấu trúc
Điều này gợi hình ảnh như CD-ROM hay băng game, tức là một con chip chỉ chứa một mô hình. Chỉ cần cắm vào máy tính để thay mô hình
Nếu có thể in ASIC với chi phí rẻ, cách sử dụng mô hình sẽ thay đổi hoàn toàn
Mô hình sẽ được bán dưới dạng thiết bị USB, và với các mô hình dense dưới 20B thì đã đủ làm trợ lý cá nhân
Cảm giác như sự tái hiện của card đồ họa. Giờ đây khi mô hình open-weight đã nhiều hơn, một thị trường lớn có thể mở ra ngay cả với chi phí mua và vận hành thấp
Tôi tò mò nó sẽ hoạt động thế nào với kiến trúc MoE
LLM dense có lợi khi để mọi trọng số gần nhau, nhưng MoE lại thiên về truy cập bộ nhớ, nên sẽ xuất hiện mất cân bằng giữa MAC và bộ nhớ. Cuối cùng rất có thể lại quay về cách tiếp cận chiplet
Có lẽ một ngày nào đó card mở rộng PCIe chuyên cho AI sẽ trở thành phổ biến
Giống như card đồ họa hay card âm thanh trước đây, khi có mô hình mới thì chỉ cần thay card để nâng cấp “trí thông minh” cho PC
Điện toán luôn lặp lại chu kỳ cục bộ vs máy chủ, nhưng nhu cầu on-premise sẽ không bao giờ biến mất
Cuối cùng có lẽ sẽ xuất hiện bo mạch chủ có khe cắm chip AI, hoặc thiết bị ngoại vi AI cắm vào qua cổng tốc độ cao
Tôi tự hỏi liệu các hãng như Apple có thể tích hợp trực tiếp loại chip này trong vòng 3 năm tới hay không. Tôi kỳ vọng hiệu năng cục bộ siêu nhanh ở mức mô hình ngày nay
Điều này khiến tôi nhớ đến sự khác biệt giữa việc làm vi tích phân theo cách số và theo cách tương tự.
Sẽ hay hơn nếu dùng cái này để tạo mô hình nhúng văn bản thay vì mô hình LLM.
Đúng vậy, làm một lần rồi cứ thế dùng tiếp thôi
Nếu AI có thể giúp tăng tốc độ thiết kế và phát triển chip mới, thì đây có thể thật sự là tương lai. Cũng khiến tôi nhớ lại thời điểm khoảng 25 năm trước, khi hiệu năng phần cứng tăng lên đầy cạnh tranh.