23 điểm bởi GN⁺ 2026-02-23 | 5 bình luận | Chia sẻ qua WhatsApp
  • Taalas là một startup khắc trực tiếp mô hình Llama 3.1 8B lên chip ASIC, đạt tốc độ suy luận 17.000 token/giây
  • Công ty tuyên bố rẻ hơn 10 lần, tiêu thụ điện ít hơn 10 lầnsuy luận nhanh hơn 10 lần so với các hệ thống dựa trên GPU
  • Bằng kiến trúc khắc trực tiếp trọng số của mô hình vào các transistor silicon, họ loại bỏ nút thắt bộ nhớ của GPU
  • Không cần DRAM/HBM bên ngoài, chỉ dùng SRAM trong chip để xử lý KV cache và bộ điều hợp LoRA
  • Với cách chế tạo chip theo từng mô hình chỉ tùy biến hai lớp trên cùng, công ty đã hoàn thành chip cho Llama 3.1 chỉ trong 2 tháng

Tổng quan về chip của Taalas

  • Taalas là công ty được thành lập cách đây 2,5 năm, và đây là sản phẩm đầu tiên của họ
  • Con chip là một ASIC chức năng cố định, chỉ có thể lưu một mô hình và không thể ghi lại
    • Nó có cấu trúc chuyên dụng cho một mô hình duy nhất như CD-ROM hoặc băng game

Sự kém hiệu quả của suy luận LLM dựa trên GPU

  • LLM được cấu thành từ nhiều tầng (layer); ví dụ, Llama 3.1 8B có 32 tầng
  • GPU lặp đi lặp lại quá trình nạp ma trận trọng số của từng tầng từ VRAM, tính toán rồi lại lưu trở lại
    • Mỗi lần tạo một token, quá trình này phải lặp lại 32 lần
  • Quá trình đi-về với bộ nhớ này gây ra độ trễ và tiêu tốn năng lượng; đây được gọi là nút thắt băng thông bộ nhớ hoặc nút thắt Von Neumann

Cách tiếp cận ‘hardwired’ của Taalas

  • Taalas khắc tuần tự 32 tầng của Llama 3.1 lên silicon
    • Trọng số của mô hình được hiện thực bằng các transistor vật lý
  • Khi vector đầu vào đi vào, nó đi qua transistor của từng tầng và được xử lý liên tục dưới dạng tín hiệu điện
    • Kết quả trung gian không được lưu vào VRAM mà được chuyển thẳng sang tầng tiếp theo theo các dây nối (pipeline registers)
  • Công ty cho biết họ đã phát triển cấu trúc ‘magic multiplier’ có thể thực hiện lưu trữ dữ liệu 4-bit và phép nhân chỉ với một transistor

Cấu trúc bộ nhớ

  • Không sử dụng DRAM/HBM bên ngoài, thay vào đó là một lượng nhỏ SRAM bên trong chip
    • Vì việc sản xuất kết hợp DRAM và cổng logic là khó khăn
  • SRAM trên chip này được dùng để lưu KV cache (bộ nhớ tạm trong hội thoại) và bộ điều hợp LoRA

Cách chế tạo chip theo từng mô hình

  • Thông thường, việc chế tạo lại chip cho mỗi mô hình đều tốn kém
  • Taalas thiết kế chung cấu trúc chip cơ bản, rồi chỉ sửa hai lớp trên cùng (mask) để phù hợp với mô hình cụ thể
    • Cách này nhanh hơn nhiều so với chế tạo một con chip hoàn toàn mới
  • Việc phát triển chip cho Llama 3.1 8B mất khoảng 2 tháng
    • Theo tiêu chuẩn của ngành AI thì chậm, nhưng theo tốc độ chế tạo chip tùy biến thì là rất nhanh

Kỳ vọng trong tương lai

  • Từ góc nhìn của người dùng muốn chạy mô hình cục bộ mà không cần GPU, có thể kỳ vọng vào việc sản xuất hàng loạt loại phần cứng này

5 bình luận

 
GN⁺ 2026-02-23
Ý kiến Hacker News
  • 8B hệ số (coefficients) được đóng gói vào 53B transistor. Tức là khoảng 6,5 transistor cho mỗi hệ số
    Có vẻ họ dùng block quantization. Ví dụ, với khối gồm 4 hệ số 3-bit thì chỉ cần 330 khối khác nhau
    Ma trận của Llama 3.1 là 4096x4096, tức gồm 16 triệu hệ số, và có thể nén thành 330 khối
    Nếu giả sử ngân sách khoảng 250 nghìn transistor mỗi khối, thì ra khoảng 5 transistor cho mỗi hệ số. Có vẻ hoàn toàn khả thi ngay cả ở mức FP4

    • Mong PyTorch sẽ có tính năng kiểu như model.toVHDL()
  • Điều đáng ngạc nhiên là mọi người lại ngạc nhiên vì chuyện này có thể làm được
    GPU ra đời xét cho cùng cũng là kết quả của việc chuyển phép toán phần mềm sang phần cứng. LLM cũng có cùng cấu trúc toán học, nên đây là hướng tiến hóa khá hiển nhiên

    • Có lẽ mọi người ngạc nhiên vì thời điểm ROI. Khi nào tape-out chip chuyên dụng cho mô hình mới bắt đầu có lãi mới là vấn đề then chốt. Kiến trúc MoE có lẽ sẽ đặt ra thêm thách thức mới trong quá trình này
    • Đây không phải so sánh CPU với GPU mà là CPU/GPU với ASIC. ASIC có lợi thế về tốc độ, điện năng và chi phí, nhưng khó thiết kế và không thể lập trình lại. Với các chức năng nhạy cảm về hiệu năng như LLM, ASIC là lựa chọn phù hợp
    • Cách ghi trực tiếp trọng số vào các cổng thực sự là một hướng tiếp cận mới. Cụm từ “Weights to gates” khá hợp
    • Nhưng vấn đề là tính linh hoạt kém. Khi nhu cầu datacenter thay đổi hoặc có mô hình mới xuất hiện thì sẽ khó ứng phó. Tuy vậy, trong các lĩnh vực như drone và quốc phòng, nơi hiệu suất năng lượng và tốc độ rất quan trọng, đây là hướng thực tế
    • Tôi nghĩ Nvidia chắc chắn cũng đang thử nghiệm kiểu này. Có thể vẫn còn sớm để thương mại hóa, nhưng xu hướng đi tới phần cứng AI lấy hiệu suất làm trung tâm là rất rõ ràng
  • Đột phá thực sự không nằm ở form factor mà là ở độ trễ (latency)
    Suy luận trên cloud chỉ riêng overhead mạng đã là 50~200ms, trong khi ASIC chuyên dụng cắm qua PCIe có thể xuất token đầu tiên ở mức micro giây
    Với tạo video thời gian thực hoặc các agent cần phản hồi dưới 100ms, điều này mang tính quyết định. Chi phí có thể cao hơn GPU, nhưng nó mở ra những ứng dụng thời gian thực hoàn toàn mới

    • Không chỉ độ trễ mà độ tin cậy băng thông và quyền kiểm soát cũng quan trọng. Điện toán tập trung và điện toán cục bộ từ trước đến nay luôn giằng co. Doanh nghiệp muốn kiểm soát, còn người dùng muốn quyền tự chủ. Cuối cùng, thị trường sẽ luôn duy trì nhu cầu “tôi muốn toàn quyền kiểm soát máy tính của mình”
    • Tôi tò mò dịch vụ AI thực sự được phục vụ từ đâu. Ví dụ, khi dùng Claude ở London thì rất khó biết yêu cầu được gửi tới đâu. Nếu có mạng edge cho LLM thì sẽ rất lý tưởng, và ASIC có thể là thứ khiến điều đó khả thi
  • Tương lai nơi các mô hình như Gemma 5 Mini chạy trực tiếp trên phần cứng cục bộ thật thú vị
    Có thể sẽ xuất hiện những “AI core” dành cho từng mô hình cụ thể giống như encoder H.264 hay AV1
    Nhờ Structured ASIC platform, chi phí cũng có thể giảm xuống, mở lại thời kỳ ASIC có cấu trúc

    • Có vẻ các tập đoàn lớn chưa mấy hứng thú vì hai lý do. Thứ nhất, tốc độ phát triển AI quá nhanh nên đến lúc chip được sản xuất hàng loạt thì có thể đã lỗi thời. Thứ hai, mô hình thuê bao cloud và cấu trúc kinh doanh xoay quanh thu thập dữ liệu không phù hợp với chip chạy offline
    • Tôi nghĩ Apple đáng ra phải bắt đầu từ hôm qua. Tương lai tôi thực sự muốn là AI hoàn toàn cục bộ chạy trên điện thoại hay MacBook của mình. AI dựa vào cloud giống như tàn dư từ thời AOL
    • Ngay cả ASIC có thể lập trình như Cerebras hay Groq đã nhanh hơn GPU vài lần mà phản ứng của thị trường vẫn khá hờ hững
  • Điều này gợi hình ảnh như CD-ROM hay băng game, tức là một con chip chỉ chứa một mô hình. Chỉ cần cắm vào máy tính để thay mô hình

    • Khe cắm đó trên thực tế có lẽ sẽ là USB-C. Tôi có thể hình dung một ASIC suy luận dạng pin dự phòng cắm vào để dùng
    • Tôi muốn một thiết bị mô hình cục bộ đặt dưới gầm bàn như eGPU ngày xưa. Hoàn toàn offline, hoàn toàn đảm bảo riêng tư cá nhân
    • Kiểu phần cứng này sẽ khuyến khích mô hình open-weight và cũng tăng cường quyền riêng tư. Thậm chí có thể có MoE phần cứng, nơi robot thay băng mô hình theo từng tác vụ
    • Các cartridge chuyên cho từng mô hình có lẽ sẽ vượt trội hơn nhiều về hiệu năng/điện năng. Chỉ là chưa rõ có hợp lý về mặt kinh tế cho người tiêu dùng hay không
    • Mức tiêu thụ điện là biến số quan trọng. Nếu dùng trong gia đình mà đạt 170 token/giây ở 2,5W thì quá tuyệt. Biết đâu những tiến bộ như vậy một ngày nào đó sẽ dẫn tới bộ não positronic
  • Nếu có thể in ASIC với chi phí rẻ, cách sử dụng mô hình sẽ thay đổi hoàn toàn
    Mô hình sẽ được bán dưới dạng thiết bị USB, và với các mô hình dense dưới 20B thì đã đủ làm trợ lý cá nhân
    Cảm giác như sự tái hiện của card đồ họa. Giờ đây khi mô hình open-weight đã nhiều hơn, một thị trường lớn có thể mở ra ngay cả với chi phí mua và vận hành thấp

  • Tôi tò mò nó sẽ hoạt động thế nào với kiến trúc MoE
    LLM dense có lợi khi để mọi trọng số gần nhau, nhưng MoE lại thiên về truy cập bộ nhớ, nên sẽ xuất hiện mất cân bằng giữa MAC và bộ nhớ. Cuối cùng rất có thể lại quay về cách tiếp cận chiplet

    • TPUv4 của Google dùng Optical Circuit Switch để tạo cấu trúc torus 3D và tái đi dây động theo mẫu giao tiếp của MoE. Nó nối 4.096 chip thành một pod, đồng thời dùng SparseCore để xử lý truy cập bộ nhớ không liên tục. Đây là câu chuyện ở quy mô datacenter, nhưng rất thú vị như một ví dụ về khả năng mở rộng
    • Nếu khắc từng mô hình Expert lên silicon thì tốc độ sẽ cực kỳ cao. Rốt cuộc, chi phí in ASIC mới là ràng buộc lớn nhất
  • Có lẽ một ngày nào đó card mở rộng PCIe chuyên cho AI sẽ trở thành phổ biến
    Giống như card đồ họa hay card âm thanh trước đây, khi có mô hình mới thì chỉ cần thay card để nâng cấp “trí thông minh” cho PC

    • Tôi nghĩ hướng này gần như là một bước tiến hóa không thể tránh khỏi. Chính phủ hoặc các tập đoàn lớn sẽ cần trước, rồi cuối cùng nó sẽ lan sang thị trường tiêu dùng.
      Điện toán luôn lặp lại chu kỳ cục bộ vs máy chủ, nhưng nhu cầu on-premise sẽ không bao giờ biến mất
  • Cuối cùng có lẽ sẽ xuất hiện bo mạch chủ có khe cắm chip AI, hoặc thiết bị ngoại vi AI cắm vào qua cổng tốc độ cao

  • Tôi tự hỏi liệu các hãng như Apple có thể tích hợp trực tiếp loại chip này trong vòng 3 năm tới hay không. Tôi kỳ vọng hiệu năng cục bộ siêu nhanh ở mức mô hình ngày nay

    • Liệu có thể cập nhật mô hình bằng bộ nhớ mô-đun kiểu diff không? Tôi tò mò không biết mức suy giảm hiệu năng sẽ lớn tới đâu
    • Nhưng cũng có thể việc chạy một mô hình đã lỗi thời suốt 3 năm sẽ không còn nhiều ý nghĩa. Tốc độ phát triển đang quá nhanh
 
dolsangodkimchi 2026-03-04

Điều này khiến tôi nhớ đến sự khác biệt giữa việc làm vi tích phân theo cách số và theo cách tương tự.

 
chcv0313 2026-03-04

Sẽ hay hơn nếu dùng cái này để tạo mô hình nhúng văn bản thay vì mô hình LLM.

 
bungker 2026-03-04

Đúng vậy, làm một lần rồi cứ thế dùng tiếp thôi

 
parkindani 2026-02-23

Nếu AI có thể giúp tăng tốc độ thiết kế và phát triển chip mới, thì đây có thể thật sự là tương lai. Cũng khiến tôi nhớ lại thời điểm khoảng 25 năm trước, khi hiệu năng phần cứng tăng lên đầy cạnh tranh.