- AWS đã giới thiệu Trainium3 UltraServer trang bị chip Trainium3 tiến trình 3 nanomet, cải thiện mạnh mẽ hiệu năng huấn luyện và suy luận AI
- Hệ thống mới cung cấp tốc độ nhanh hơn gấp 4 lần và bộ nhớ nhiều hơn gấp 4 lần so với thế hệ trước, cùng hiệu quả năng lượng cao hơn 40%
- Có thể kết nối tối đa 1 triệu chip Trainium3, phù hợp để xử lý các ứng dụng AI quy mô lớn
- Các khách hàng như Anthropic, Karakuri, SplashMusic, Decart đã sử dụng và xác nhận hiệu quả giảm chi phí suy luận
- AWS cho biết chip Trainium4 thế hệ tiếp theo sẽ hỗ trợ Nvidia NVLink Fusion, cho phép khả năng tương tác với GPU Nvidia, được đánh giá là một bước ngoặt quan trọng trong cuộc cạnh tranh hạ tầng AI
Công bố Trainium3
- AWS đã chính thức công bố Trainium3 UltraServer tại sự kiện re:Invent 2025
- Hệ thống này vận hành bằng chip Trainium3 3 nanomet và công nghệ mạng tự phát triển của AWS
- AWS cho biết hiệu năng đã cải thiện đáng kể so với thế hệ thứ hai ở cả huấn luyện lẫn suy luận AI
- AWS cho biết hệ thống Trainium3 mang lại tốc độ xử lý nhanh hơn 4 lần và dung lượng bộ nhớ nhiều hơn 4 lần
- Mỗi UltraServer được trang bị 144 chip
- Có thể kết nối hàng nghìn máy chủ để tận dụng tối đa 1 triệu chip cho một ứng dụng duy nhất
- Chip mới có hiệu quả năng lượng tăng 40%, góp phần giảm mức tiêu thụ điện của các trung tâm dữ liệu quy mô lớn
- AWS cũng nhấn mạnh rằng nhờ đó có thể giảm chi phí cho khách hàng đám mây AI
Khách hàng chính và các trường hợp sử dụng
- Anthropic, Karakuri của Nhật Bản, SplashMusic, Decart đã sử dụng Trainium3
- AWS cho biết các khách hàng này đã giảm đáng kể chi phí suy luận
- AWS nhận định những cải thiện về hiệu năng và hiệu quả chi phí này là nền tảng để nâng cao khả năng mở rộng của các ứng dụng AI
Lộ trình chip thế hệ tiếp theo Trainium4
- AWS công bố Trainium4 đang được phát triển và sẽ hỗ trợ công nghệ kết nối tốc độ cao NVLink Fusion của Nvidia
- Nhờ đó sẽ có khả năng tương tác với GPU Nvidia và có thể kết hợp với công nghệ rack máy chủ chi phí thấp của AWS
- Trong bối cảnh Nvidia CUDA đã trở thành tiêu chuẩn cho các ứng dụng AI chủ chốt, hệ thống Trainium4 có tiềm năng giúp việc chuyển các ứng dụng dựa trên GPU Nvidia lên đám mây AWS trở nên dễ dàng hơn
- Lịch phát hành của Trainium4 chưa được công bố, nhưng có khả năng sẽ có thêm thông tin tại sự kiện re:Invent năm sau
Ý nghĩa chiến lược của hiệu quả năng lượng và cắt giảm chi phí
- AWS đang xây dựng "các hệ thống tiêu thụ ít hơn" trong bối cảnh mức sử dụng điện của trung tâm dữ liệu tăng vọt
- Cách tiếp cận này được đánh giá là nỗ lực nhằm đồng thời đạt hai mục tiêu: giảm chi phí vận hành và đảm bảo tính bền vững
- Chiến lược tập trung vào cắt giảm chi phí của AWS có thể giúp tăng sức hút đối với khách hàng đám mây trong cuộc cạnh tranh hạ tầng AI
Tóm tắt
- Trainium3 là chip AI thế hệ thứ ba được cải thiện mạnh mẽ về hiệu năng, bộ nhớ và hiệu quả
- Trainium4 nhắm tới mở rộng hệ sinh thái AWS thông qua khả năng tương thích với Nvidia
- AWS theo đuổi đồng thời hạ tầng AI hiệu năng cao, chi phí thấp và thân thiện môi trường, nhằm tăng sức cạnh tranh trên thị trường đám mây AI
1 bình luận
Ý kiến Hacker News
vì không có bằng chứng chắc chắn nào cho thấy chúng tương thích ổn định với các thư viện tiêu chuẩn như Transformers hay PyTorch
AWS nói là chúng hoạt động tốt, nhưng đó chỉ là “con đường hạnh phúc” chỉ có thể đạt được với AMI riêng của họ và neuron SDK
khi thực sự dùng các dependency của chúng tôi để làm việc thì mọi thứ sụp đổ ngay
TPU của GCP cũng chỉ trở nên dùng được sau khi Google đầu tư khổng lồ vào hỗ trợ phần mềm
Tôi không có thời gian để làm beta tester cho việc dùng chip của AWS
Số ổn định thì ít, còn lại đều khá thô ráp
khó mà tưởng tượng Amazon sẽ đầu tư đến mức đó
phiên bản vLLM đã 6 tháng không được cập nhật, còn endpoint thông thường thì không dùng được vì timeout 60 giây được quyết định từ 8 năm trước
Chỉ nghĩ đến việc một lập trình viên muốn dùng custom silicon trong tình cảnh này sẽ phải chịu đựng thế nào thôi cũng đã thấy kinh khủng
những người thực sự đã dùng thì nói rằng họ bỏ cuộc vì nỗi đau triển khai và vận hành
có vẻ nội bộ dùng khá nhiều, nhưng mức độ chấp nhận bên ngoài thì hầu như không có
Dù vậy tôi vẫn xem việc Amazon đầu tư vào chip riêng là tín hiệu tích cực
Trn1 thì chưa đến mức đó nên có vẻ vẫn có ai đó đang dùng
có lẽ họ đang nhận được sự hỗ trợ toàn diện từ AWS
nếu không đầu tư thêm vào SDK và tooling thì sẽ chẳng ai dùng kiểu cloud này đâu
AI đang thúc đẩy các kiểu dữ liệu cơ bản vốn không thay đổi suốt hàng chục năm
Bài wiki về Block floating point
Xem chi tiết trong bản tin Semianalysis
có vẻ Amazon cũng đang nhắm đến cắt giảm chi phí trong AI giống như cách họ làm với logistics
nhưng mức độ tự tin có vẻ thấp, và trông giống một chiến lược giữ thể diện để duy trì quan hệ với Nvidia
Intel cũng tham gia, và đây giống như một khoảnh khắc kiểu chuyển đổi PCI → AGP
AMD từng suýt nắm được cơ hội vào thời HyperTransport, nhưng Infinity Fabric hiện nay chỉ dừng ở nội bộ
UALink hay CXL cũng đang được chú ý, nhưng vẫn còn giới hạn tốc độ của PCIe
Lý tưởng nhất là tích hợp mạng phải trở thành tính năng mặc định ngay trên chip
giống như khi Intel Xeon từng gần như cung cấp miễn phí 100Gb Omni-Path
Intel thì đang tuyệt vọng nên còn hiểu được, nhưng AWS mà đi theo con đường đó thì không có vẻ hay ho gì
Nếu là AMD, tôi nghĩ tốt hơn nên đưa SolarFlare NIC vào I/O die
giống như có thể chuyển đổi PCIe/SATA thì có lẽ cũng có thể chuyển đổi PCIe/Ethernet, còn UEC có thể là thị trường quá ngách