Hai con chip cho kỷ nguyên agent: TPU thế hệ thứ 8 của Google

(blog.google)

6 điểm bởi GN⁺ 2026-04-23 | 1 bình luận | Chia sẻ qua WhatsApp

Google đã công bố hai dòng TPU thế hệ thứ 8, tổng hợp hơn 10 năm lịch sử phát triển TPU, với kiến trúc chuyên biệt tương ứng cho TPU 8t dành riêng cho huấn luyện mô hình quy mô lớn và TPU 8i dành riêng cho suy luận tốc độ cao
TPU 8t có thể mở rộng một superpod đơn lên tới 9.600 chip, 121 ExaFlops, với hiệu năng tính toán trên mỗi pod tăng khoảng 3 lần so với thế hệ trước
TPU 8i được thiết kế lại cho suy luận kiểu agent với trọng tâm tối ưu băng thông bộ nhớ và độ trễ; mở rộng SRAM on-chip, host CPU Axion và cải tiến mạng hỗ trợ MoE để đạt cải thiện 80% hiệu năng trên chi phí
Cả hai chip đều chạy trên host CPU Axion dựa trên ARM do Google tự thiết kế, với hiệu năng trên mỗi watt tăng tối đa 2 lần so với thế hệ trước
Đây là chiến lược hạ tầng tách biệt và tối ưu riêng cho huấn luyện và suy luận phù hợp với thời đại AI agent liên tục suy luận, lập kế hoạch và thực thi; dự kiến sẽ được cung cấp rộng rãi vào nửa cuối năm nay và có thể dùng như một phần của Google AI Hypercomputer

Tổng quan về TPU thế hệ thứ 8

Google công bố Tensor Processor Unit (TPU) thế hệ thứ 8 tại Google Cloud Next, gồm hai kiến trúc: TPU 8t cho huấn luyện và TPU 8i cho suy luận
Được thiết kế để vận hành các siêu máy tính tùy biến, bao phủ toàn bộ các workload huấn luyện mô hình tiên tiến, phát triển agent và suy luận quy mô lớn
Google đã vận hành các mô hình nền tảng chủ lực, bao gồm Gemini, trên TPU suốt nhiều năm; thế hệ thứ 8 mang lại đồng thời quy mô, hiệu quả và hiệu năng trên toàn bộ các workload huấn luyện, phục vụ và agentic
Trong kỷ nguyên AI agent, mô hình phải thực hiện vòng lặp liên tục gồm suy luận vấn đề, chạy workflow nhiều bước và học từ chính hành động của mình, tạo ra các yêu cầu mới cho hạ tầng
Được thiết kế cùng với Google DeepMind để xử lý những workload AI khắt khe nhất và thích ứng với các kiến trúc mô hình đang tiến hóa

Triết lý thiết kế hơn 10 năm

TPU đã định hình tiêu chuẩn cho các thành phần siêu máy tính ML như tính toán số tùy biến, làm mát bằng chất lỏng và interconnect tùy biến; thế hệ thứ 8 là kết tinh của hơn 10 năm phát triển
Nguyên tắc thiết kế cốt lõi: đồng thiết kế (co-design) silicon cùng với phần cứng, mạng và phần mềm (bao gồm kiến trúc mô hình và yêu cầu ứng dụng) để đạt cải thiện mạnh mẽ cả về hiệu quả điện năng lẫn hiệu năng tuyệt đối
Google nêu ví dụ Citadel Securities chọn TPU cho workload AI của mình như một trường hợp từ tổ chức tiên phong

Vì sao tách biệt huấn luyện và suy luận

Chu kỳ phát triển phần cứng dài hơn rất nhiều so với phần mềm, nên khi thiết kế mỗi thế hệ TPU cần dự đoán trước công nghệ và nhu cầu tại thời điểm ra mắt
Google đã dự đoán từ nhiều năm trước rằng nhu cầu suy luận sẽ tăng theo việc triển khai production các mô hình AI frontier
Khi AI agent nổi lên, yêu cầu của huấn luyện và phục vụ ngày càng khác nhau, nên Google cho rằng các chip chuyên biệt riêng sẽ có lợi hơn cho cộng đồng
TPU 8t được tối ưu cho huấn luyện quy mô lớn với thông lượng tính toán cao hơn và băng thông scale-up lớn hơn
TPU 8i được tối ưu cho workload suy luận nhạy cảm với độ trễ với băng thông bộ nhớ lớn hơn, vì các tương tác giữa agent sẽ khuếch đại ngay cả những kém hiệu quả nhỏ ở quy mô lớn
Cả hai chip đều có thể chạy nhiều loại workload, nhưng việc chuyên biệt hóa mang lại cải thiện hiệu quả đáng kể

TPU 8t: cỗ máy chuyên huấn luyện

Mục tiêu là rút ngắn chu kỳ phát triển mô hình frontier từ vài tháng xuống vài tuần
Kết hợp cân bằng giữa thông lượng tính toán hàng đầu, bộ nhớ chia sẻ và băng thông liên chip với hiệu quả điện năng tối ưu và thời gian tính toán hữu ích cao
Hiệu năng tính toán trên mỗi pod tăng khoảng 3 lần so với thế hệ trước
Mở rộng quy mô lớn (Massive Scale)
- Một TPU 8t superpod đơn có thể mở rộng tới 9.600 chip, 2 petabyte HBM chia sẻ
- Băng thông liên chip tăng 2 lần so với thế hệ trước
- Cung cấp 121 ExaFlops năng lực tính toán, cho phép những mô hình phức tạp nhất tận dụng một pool bộ nhớ lớn duy nhất
Tối đa hóa mức sử dụng (Maximum Utilization)
- Tích hợp truy cập lưu trữ nhanh hơn 10 lần
- TPUDirect lấy dữ liệu trực tiếp vào TPU để đảm bảo mức sử dụng tối đa cho toàn bộ hệ thống end-to-end
Quảng cáo
Mở rộng gần tuyến tính (Near-Linear Scaling)
- Kết hợp Virgo Network mới với phần mềm JAX và Pathways để mở rộng gần tuyến tính tới 1 triệu chip trong một cụm logic duy nhất
Độ tin cậy và tính sẵn sàng
- Mục tiêu goodput (thời gian tính toán hữu ích thực sự) trên 97%
- Bao gồm các tính năng RAS (Reliability, Availability, Serviceability) toàn diện
  - Telemetry thời gian thực trên hàng chục nghìn chip
  - Tự động phát hiện liên kết ICI lỗi và định tuyến vòng tránh mà không làm gián đoạn công việc
  - OCS (Optical Circuit Switching) tái cấu hình phần cứng quanh vùng sự cố mà không cần can thiệp của con người
- Ở quy mô huấn luyện frontier, lỗi phần cứng, độ trễ mạng và khởi động lại checkpoint đều là thời gian không huấn luyện; chênh lệch 1 điểm phần trăm có thể tương đương nhiều ngày huấn luyện

TPU 8i: động cơ suy luận

Trong kỷ nguyên agentic, người dùng kỳ vọng có thể đặt câu hỏi, giao việc và nhận kết quả; TPU 8i được tối ưu cho các tác vụ nơi nhiều agent chuyên biệt swarming và phối hợp trong các luồng phức tạp
Google đã thiết kế lại stack để loại bỏ "hiệu ứng phòng chờ", với bốn đổi mới cốt lõi
Phá vỡ bức tường bộ nhớ (Breaking the Memory Wall)
- Trang bị 288GB HBM và 384MB SRAM on-chip (gấp 3 lần thế hệ trước)
- Giữ toàn bộ working set đang hoạt động của mô hình trên chip để tránh bộ xử lý bị nhàn rỗi
Quảng cáo
Hiệu quả dựa trên Axion
- Tăng gấp đôi số host CPU vật lý trên mỗi server và sử dụng CPU Axion dựa trên ARM do Google tự thiết kế
- Tối ưu hiệu năng toàn hệ thống thông qua cô lập NUMA (Non-Uniform Memory Architecture)
Mở rộng mô hình MoE
- Với các mô hình Mixture of Expert (MoE) mới nhất, băng thông ICI được tăng gấp đôi lên 19,2 Tb/s
- Kiến trúc Boardfly mới giúp giảm đường kính mạng tối đa hơn 50%, để hoạt động như một đơn vị gắn kết với độ trễ thấp
Loại bỏ độ trễ (Eliminating Lag)
- CAE (Collectives Acceleration Engine) on-chip mới offload các phép toán toàn cục, giảm độ trễ on-chip tới 5 lần
Hiệu năng trên chi phí
- Hiệu năng trên mỗi đô la tăng 80% so với thế hệ trước, cho phép phục vụ gần gấp đôi lưu lượng khách hàng với cùng chi phí

Đồng thiết kế với Gemini, mở cho mọi người

TPU thế hệ thứ 8 là biểu hiện mới nhất của triết lý đồng thiết kế trong đó mọi thông số đều được xây dựng để giải quyết những thách thức lớn nhất của AI
Topology Boardfly: được thiết kế theo nhu cầu truyền thông của các mô hình suy luận hàng đầu hiện nay
Dung lượng SRAM của TPU 8i: được xác định để phù hợp với footprint KV cache của các mô hình suy luận quy mô production
Mục tiêu băng thông của Virgo Network: được rút ra từ yêu cầu song song hóa khi huấn luyện mô hình nghìn tỷ tham số
Cả hai chip đều lần đầu tiên chạy trên host CPU Axion dựa trên ARM do Google tự thiết kế, giúp tối ưu không chỉ chip mà cả toàn hệ thống
Framework và khả năng tiếp cận
- Hỗ trợ native JAX, MaxText, PyTorch, SGLang, vLLM
- Cung cấp truy cập bare metal, cho phép truy cập trực tiếp phần cứng mà không có overhead ảo hóa
- Đóng góp mã nguồn mở: triển khai tham chiếu MaxText, Tunix cho reinforcement learning và các tuyến đường cốt lõi từ phát triển đến triển khai production
Quảng cáo

Thiết kế hiệu quả điện năng ở quy mô lớn

Trong các trung tâm dữ liệu hiện nay, không chỉ nguồn cung chip mà cả điện năng cũng là ràng buộc giới hạn
Google tối ưu hiệu quả trên toàn bộ stack, đồng thời áp dụng quản lý điện năng tích hợp để điều chỉnh động mức tiêu thụ điện theo nhu cầu thời gian thực
Cả TPU 8t và TPU 8i đều đạt hiệu năng trên mỗi watt tăng tối đa 2 lần so với thế hệ trước (Ironwood)
Hiệu quả không chỉ là chỉ số ở cấp chip mà là cam kết ở cấp hệ thống từ silicon đến trung tâm dữ liệu
- Tích hợp kết nối mạng lên cùng chip với tính toán để giảm mạnh chi phí điện cho việc di chuyển dữ liệu trong TPU pod
- Trung tâm dữ liệu cũng được đồng thiết kế với TPU, giúp năng lực tính toán trên mỗi đơn vị điện năng tăng 6 lần so với 5 năm trước
Cả hai chip đều được hỗ trợ bởi công nghệ làm mát bằng chất lỏng thế hệ thứ 4, duy trì mật độ hiệu năng mà làm mát bằng không khí không thể đạt được
Việc sở hữu toàn bộ stack từ host Axion đến accelerator cho phép Google thực hiện tối ưu hiệu quả năng lượng ở cấp hệ thống mà không thể đạt được nếu thiết kế host và chip độc lập

Hạ tầng cho kỷ nguyên agentic

Mọi bước chuyển lớn của điện toán đều cần đổi mới hạ tầng, và kỷ nguyên agentic cũng vậy
Hạ tầng phải tiến hóa để đáp ứng yêu cầu của các agent tự trị vận hành vòng lặp liên tục gồm suy luận, lập kế hoạch, thực thi và học hỏi
TPU 8t và TPU 8i là câu trả lời cho thách thức này: hai kiến trúc chuyên biệt nhằm tái định nghĩa việc xây dựng các mô hình AI tốt nhất, các bầy agent được điều phối hoàn hảo và việc quản lý những tác vụ suy luận phức tạp nhất
Cả hai chip đều dự kiến cung cấp rộng rãi vào nửa cuối năm nay
Có thể sử dụng như một phần của AI Hypercomputer của Google
- Kết hợp thành một stack tích hợp gồm phần cứng theo mục đích (tính toán, lưu trữ, mạng), phần mềm mở (framework, engine suy luận) và mô hình tiêu thụ linh hoạt (orchestration, quản lý cụm, mô hình cung cấp)

1 bình luận

GN⁺ 2026-04-23

Ý kiến trên Hacker News

Tôi cảm thấy Gemini 3 đã cho thấy huấn luyện tập trung vào hiệu quả có thể đi xa đến đâu. Tôi đoán Pro và Flash có lẽ nhỏ hơn các model cỡ Opus hay GPT-5 khoảng 5 đến 10 lần Gọi công cụ thường hay lỗi, và trong các tác vụ agentic thì nhìn chung khá yếu nên có vẻ phần tinh chỉnh suy luận và thực thi vẫn còn thiếu. Dù vậy, nếu chỉ nhìn vào khả năng giải quyết vấn đề thuần túy không cần công cụ hay tìm kiếm thì cảm giác là ngang ngửa Opus và GPT, trong khi kích thước có vẻ nhỏ hơn rất nhiều Có vẻ đến một lúc nào đó khi Google kết thúc giai đoạn tạo mẫu preview và tung ra một model chính thức tử tế, họ sẽ làm mọi người bất ngờ với một model vượt SOTA hiện tại khoảng một thế hệ. Các model từ trước đến nay cho tôi cảm giác như những nguyên mẫu bị đẩy vội ra GA để trình diễn với nhà đầu tư và đưa vào dòng sản phẩm như một bản chứng minh khái niệm
- Tôi hoài nghi về ước tính 5 đến 10 lần đó. Đặc biệt là với Pro, tôi còn nghĩ có thể là nhờ phần cứng của Google mà họ đang chạy model lớn hơn với chi phí rẻ hơn và tốc độ nhanh hơn Gemini 3 Pro cho cảm giác là model gần với trí thông minh kiểu con người nhất trên tổng thể. Đặc biệt nó mạnh ở các lĩnh vực nhân văn, và khả năng tạo văn bản tự nhiên trong nhiều ngôn ngữ của con người thì tôi xem như đứng số 1. Sự khác biệt này càng lớn ở các ngôn ngữ ngách, và điều đó khiến tôi cảm thấy đây là dấu hiệu của model lớn hơn chứ không phải nhỏ hơn Toán và các tác vụ agentic thì rõ ràng yếu, còn chính ứng dụng Gemini cũng trông tụt hậu đến mức không khác mấy ChatGPT thời kỳ đầu cách đây 3 năm, nên theo tôi điều đó làm giảm cảm nhận hiệu năng thực tế
- Tôi cũng đồng ý ở điểm này. Gemini-cli thật sự rất tệ nếu so với CC hay Codex Dù vậy, tôi nghĩ điều Google ưu tiên là tạo ra AI tốt nhất để bổ sung hoặc thay thế tìm kiếm truyền thống. Đó là mảng kinh doanh cốt lõi của họ, và vị thế kiếm tiền của họ cũng thuận lợi hơn hẳn bất kỳ ai. Xét về tệp người dùng và lưu lượng truy vấn, tôi cho rằng họ đã có một lợi thế phân phối khổng lồ Tôi vẫn mong họ nâng ưu tiên cho Gemini-cli và đẩy mạnh cạnh tranh trong mảng này hơn nữa
- Theo tôi nhớ thì khi Gemini 3 Pro mới ra mắt, nó từng được xem là gần như ngang cơ với phiên bản Claude lúc đó. Nhưng Gemini 3 hiện nay lại có cảm giác đã khá cũ Trong thời gian đó đã có rất nhiều model từ Trung Quốc xuất hiện và Claude cũng được cập nhật vài lần, nên bây giờ trông như Google đã hơi đình trệ trong lĩnh vực này. Tất nhiên tôi vẫn nghĩ họ có thể sớm gây bất ngờ bằng một bước cải thiện rất lớn
- Tôi thấy cách Google dùng nhãn preview khá tùy tiện. Nó là một cách để né cam kết về tính sẵn sàng hay tính liên tục, và giống một chiến thuật PR để có thể đổ cho chất lượng beta nếu có sự cố xảy ra
- Tôi luôn tự hỏi mình đang bỏ lỡ điều gì ở Gemini. Với tôi, cùng lắm nó chỉ như một model hạng hai Thu thập thông tin thì tạm ổn nhưng các tác vụ agentic gần như vô dụng, và lúc nào cũng có vẻ như đang say xỉn. Ở Antigravity, nếu hết credit Claude thì coi như hôm đó xong phim Việc nói nó dùng ít token hơn thì nghe buồn cười, vì theo trải nghiệm của tôi nó lại hay rơi vào vòng lặp chết mà vẫn không giải được vấn đề
Giờ muốn làm AI quy mô lớn thì về cơ bản либо mua của NVidia, либо thuê từ Google. Và Google có thể thiết kế chip, engine và hệ thống theo góc nhìn toàn bộ datacenter, nên họ tối ưu được cả những phần mà nhà cung cấp chip không thể tập trung hóa Vì vậy tôi đoán khi quy mô thực sự đủ lớn thì hệ thống của Google sẽ luôn hiệu quả chi phí hơn. Nói thêm là vì những lý do này mà tôi đang giữ vị thế long với GOOG
- Tôi cũng muốn đặt cược vào Google, nhưng có lẽ chỉ khi trải nghiệm Gemini CLI ít nhất tương đương Codex hay Claude Phần cứng có tốt đến đâu mà coding agent chủ lực lại mắc kẹt trong vòng lặp đi tìm token kết thúc lượt thì giá trị đó giảm đi rất nhiều
- Tôi từng tự hỏi liệu Amazon có đang làm các chip kiểu TPU của riêng mình theo hướng tương tự không
- Tôi lại nhớ đến câu đừng xây lâu đài trên đất của người khác Cuối cùng có vẻ mua từ NVidia vẫn là lựa chọn thực tế duy nhất, và ngay cả thế tôi cũng không nghĩ đó là phương án tối ưu
- Tôi lại khá gần với giả thuyết ngược lại. Có hai lý do: thứ nhất là Google có vẻ đã giới hạn sản lượng một cách nhân tạo Thứ hai là TSMC sẽ ưu tiên bên nào trả được nhiều tiền cho năng lực sản xuất nhất, nên tôi cho rằng các suất đầu tiên của tiến trình mới sẽ vào tay Nvidia Thêm nữa, GCP có biên lợi nhuận vận hành cao hơn Hetzner hay lambdalabs, và thực tế cũng có những nơi thuê GPU rẻ hơn, nên sinh viên hay nhóm nghiên cứu nhỏ cuối cùng vẫn sẽ ở lại phía GPU
- Nếu là tôi thì tôi đã đặt cược vào Google rồi, chỉ cần ban lãnh đạo truyền cảm hứng hơn một chút Apple dưới thời Cook cũng hiền hơn thời Jobs, nhưng Google thì như thể rơi khỏi vách đá. Nếu OpenAI không tung ra ChatGPT thì có khi họ vẫn còn để công nghệ này nằm trong phòng thí nghiệm nội bộ. Giờ thì chính chuyện đó dường như lại trở thành động lực thúc đẩy toàn bộ R&D chip
Trong khi các công ty khác giành sự chú ý của chu kỳ tin tức, Google dường như đang âm thầm đi theo một quỹ đạo mạnh dần lên và tích lũy thị phần người dùng Có lẽ nhờ đã tích hợp theo chiều dọc AI ngay từ đầu nên họ cũng gần như không có vấn đề hạ tầng, và từng có lúc trông như một công ty đã hết thời nhưng giờ lại cho cảm giác đang phình to ra khắp nơi như thủy triều lên
- Tuy vậy, subreddit Google Antigravity trông như một mớ hỗn loạn hoàn toàn https://www.reddit.com/r/GoogleAntigravityIDE/
- Tôi nghĩ trong vòng 1-2 năm nữa sẽ đến lúc Google và Apple cuối cùng đều hưởng lợi Họ không chơi trò chạy đua tốc độ kiểu tung sản phẩm chưa hoàn thiện mỗi tháng để nhân đôi vốn hóa doanh nghiệp, mà tôi kỳ vọng họ có thời gian để quan sát, suy nghĩ rồi tung ra những sản phẩm thực sự chỉn chu
- Các model mở mới nhất của Google theo tôi là khá cạnh tranh so với các model mở khác Đặc biệt có đổi mới ở kích cỡ nhỏ như 2-4GB, và tôi cảm thấy điều đó đang giúp thu hẹp khoảng cách để tiến gần hơn tới suy luận có chất lượng thực tế trên điện thoại hay các thiết bị nhỏ hơn
- Bỏ lớp cường điệu đi thì OpenAI và Anthropic trông như đang lấy tiền phủ lên chính mình và châm lửa cho nhau để tạo ra một đống lửa lớn hơn
- Tôi không nghĩ việc triển khai AI là vấn đề sống còn với Google như với OpenAI hay Anthropic Hơn nữa, dù Google có nói gì thì cũng khó tạo hype như hai bên kia, và rốt cuộc rất dễ nghe thành lời quảng bá doanh nghiệp
Từ góc nhìn của người dùng cả Gemini, ChatGPT và Claude, thì Gemini liên tục dùng ít token hơn hẳn hai model còn lại Cuối cùng có vẻ việc Gemini dừng ở mức hiện tại là vì ngân sách thinking nhỏ hơn Google có lẽ là bên có nhiều compute nhất và cấu trúc chi phí thấp nhất, nên tôi thấy lạ là tại sao họ không đẩy mạnh compute suy luận như hai bên kia. Không rõ là do gánh nặng từ các dịch vụ khác hay là chiến lược tập trung vào huấn luyện, nhưng đây là điểm khá thú vị
- Tôi đã dùng Gemini Pro vài tháng với gói Google One tầm 20 đô, và cảm thấy số lần nó tự chạy tìm kiếm web để kiểm chứng thông tin cũng ít hơn ChatGPT 5.4 Pro một cách nhất quán Tôi cũng định so sánh về coding nhưng add-in Gemini cho VSCode không hoạt động nên không làm được Ứng dụng Android và web có khá nhiều bug, thậm chí còn có lỗi mất lịch sử chat khi chuyển qua lại giữa các thread, nên tháng này tôi định hủy gói Google One
- Tôi không rõ lợi thế cạnh tranh nào khiến phải dùng Gemini thay cho Claude hay ChatGPT Chất lượng đầu ra theo cảm nhận của tôi gần như không bằng hai bên đó
- Nền tảng agentic cho doanh nghiệp vừa công bố hôm nay có thể sẽ trở thành hố hấp dẫn khiến các công ty Fortune 500 đổ workload suy luận vào
- Tôi gần như chắc một nửa rằng một trong những lý do chính khiến GLM-5 tốt hơn GLM-4.7 là vì nó mạnh tay dùng token hơn Bản 4.7 rất khó ép nó đọc đủ mã nguồn, nhưng một khi đã đọc rồi thì lại khá có năng lực Tiết kiệm là một ưu điểm, nhưng mặt khác nó cũng có thể đồng nghĩa với việc không tự phản tỉnh đủ, không cân nhắc đủ các yếu tố, và không đọc mã nguồn đủ kỹ. Rốt cuộc giữa việc tiết kiệm token và dùng nhiều token hơn thì vẫn là vùng mà chưa ai thực sự biết chắc
Mô tả rằng một TPU 8t superpod có thể mở rộng tới 9.600 chip và 2PB bộ nhớ chia sẻ băng thông cao nghe khá ấn tượng Tôi không rành lĩnh vực này lắm, nhưng ít nhất trong mắt tôi nó trông như một lợi thế cạnh tranh khá lớn của Google
- Tôi cũng nghĩ vậy. Nhưng dù sao nếu không có đột phá ở hướng tách instruction và data thì tôi không nghĩ nó sẽ tạo ra AGI được
Việc TPU 8t và TPU 8i đạt hiệu năng trên mỗi watt cao hơn tối đa 2 lần so với thế hệ trước nghe khá ấn tượng Đặc biệt càng thú vị hơn khi thế hệ trước còn mới đến mức là sản phẩm năm 2025. Việc phần cứng cho huấn luyện và suy luận được tách riêng cũng rất đáng chú ý, và tôi tự hỏi các công ty dùng phần cứng NV có chia như vậy không hay là thiên về đa dụng hơn
- Việc huấn luyện là compute-bound, còn suy luận là memory-bound là điều ai cũng biết, nhưng theo tôi biết thì triển khai Nvidia thường không chuyên biệt hẳn cho một trong hai phía Nhiều cloud và neocloud không sở hữu chính workload đó nên tính đa dụng rất quan trọng, vì một khi đã đầu tư vào H200 đắt đỏ cùng networking thì họ phải bán được cho nhiều khách hàng khác nhau Dù vậy, cũng đã có những bộ tăng tốc chuyên tối ưu cho suy luận như Grok LPU của Vera Rubin hay Cerebras, nên xu hướng chuyên biệt hóa thật ra đã bắt đầu rồi
- Tôi không dám khẳng định phía NVIDIA, nhưng AWS thì có riêng chip huấn luyện và chip suy luận Tuy nhiên tôi nghe đồn là chip suy luận quá yếu nên một số công ty còn chạy cả suy luận trên chip huấn luyện
- Phần cứng chuyên dụng thường cho hiệu năng nhanh hơn, nên tôi nghĩ khi một lĩnh vực trưởng thành hơn thì hệ thống phức tạp và đắt đỏ sẽ có xu hướng hạ xuống những con chip 1 đô rẻ và phổ biến Vì vậy tôi cảm thấy Google hiểu stack của mình tốt hơn rất nhiều so với các công ty xây trên NVidia. Google sở hữu mọi thứ từ bàn phím đến silicon, nên có vẻ họ đã lặp đi lặp lại việc học cách tách các tính năng đang tranh chấp tài nguyên với nhau
- Chip huấn luyện rốt cuộc có lẽ cũng khá dùng được cho suy luận quy mô lớn nếu chấp nhận độ trễ cao nhưng throughput lớn Với những trường hợp không quá nhạy về thời gian, tôi dự đoán cách này sẽ trở nên khá phổ biến
- Chỉ riêng việc Vera Rubin sẽ có chip Groq cho suy luận nhanh cũng đã cho thấy một xu hướng Trong bối cảnh nhu cầu năng lượng cao như hiện nay, cảm giác việc theo đuổi mọi tối ưu có thể là điều rất tự nhiên
Tôi đang dùng Gemini cùng Junie của JetBrains, và dù bản thân Junie không tốt bằng Claude Code thì nó vẫn vượt xa các công cụ hiện tại của Google theo cảm nhận của tôi Với tổ hợp này tôi vẫn đang có được kết quả ổn định khá tốt với chi phí tương đối rẻ
- Tôi tò mò không biết nếu xét trong bối cảnh IDE và hệ sinh thái công cụ của JetBrains thì bạn có xem Junie là ngang ngửa đối thủ hay không
Trong số các nhà cung cấp suy luận lớn, tôi cảm thấy Google là một trong những bên có chính sách khai tử model khó chịu nhất Họ xóa model đúng 1 năm sau khi phát hành và ép chuyển sang thế hệ tiếp theo, trong khi cứ tưởng dùng silicon tự phát triển thì sẽ ổn định hơn, hóa ra lại ngược lại. Rate limiting cũng gắt hơn OpenAI rất nhiều, nên tôi không rõ là do TPU hay chỉ là một quyết định chính sách kỳ quặc
- Thái độ của Google trong việc đóng vòng đời các bản Gemini cũ quá dễ dãi thực sự khá bực mình Cách tôi hiểu là vì phần lớn công cụ chỉ dùng model mới nhất nên model mới nhanh chóng chiếm hơn 90% tổng lưu lượng, rồi từ đó kiểu phân tích chi phí-lợi ích của Google được áp vào và các bản cũ bị tắt đi một cách lạnh lùng Việc họ gần đây gia hạn ngày EOL của Gemini 2.5 còn làm tôi ngạc nhiên, và tôi nghĩ Google vốn chưa bao giờ là công ty quá ám ảnh khách hàng
- Flash 2 còn chưa đến EOL tháng 6 mà suốt cuối tuần đã dính 429 với tỷ lệ lỗi 90% Thế là cuối cùng tôi chuyển sang GPT 5.4 nano
Nếu AI có người thắng cuộc cuối cùng, thì tôi chỉ hình dung hoặc là Google với toàn bộ stack trong tay, hoặc là Apple bên triển khai được nhiều edge site có khả năng AI nhất, sẽ là kẻ thắng
- Theo tôi, người thắng cũng có thể là một wrapper cho model cục bộ làm tốt một nhiệm vụ cụ thể Một bên được thiết kế để thực hiện tốt những việc như tìm kiếm, thay vì làm một kẻ nịnh nọt được nhân cách hóa để chiều lòng con người, có vẻ thuyết phục hơn
- Tôi cũng nghĩ khả năng Google tiếp tục ra sản phẩm hụt hơi là khá lớn Nhờ sức mạnh phân phối khổng lồ nên họ vẫn có thể trụ được, nhưng nếu có sản phẩm tốt hơn xuất hiện thì họ vẫn hoàn toàn có thể bị lật đổ mang tính phá vỡ như IE trước Chrome
Ở link này có phần giải thích kiến trúc chi tiết hơn. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

Hai con chip cho kỷ nguyên agent: TPU thế hệ thứ 8 của Google

Tổng quan về TPU thế hệ thứ 8

Triết lý thiết kế hơn 10 năm

Vì sao tách biệt huấn luyện và suy luận

TPU 8t: cỗ máy chuyên huấn luyện

Mở rộng quy mô lớn (Massive Scale)

Tối đa hóa mức sử dụng (Maximum Utilization)

Mở rộng gần tuyến tính (Near-Linear Scaling)

Độ tin cậy và tính sẵn sàng

TPU 8i: động cơ suy luận

Phá vỡ bức tường bộ nhớ (Breaking the Memory Wall)

Hiệu quả dựa trên Axion

Mở rộng mô hình MoE

Loại bỏ độ trễ (Eliminating Lag)

Hiệu năng trên chi phí

Đồng thiết kế với Gemini, mở cho mọi người

Framework và khả năng tiếp cận

Thiết kế hiệu quả điện năng ở quy mô lớn

Hạ tầng cho kỷ nguyên agentic

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News