Amazon công bố chip AI mới Trainium3 và hé lộ lộ trình hợp tác với Nvidia

(techcrunch.com)

2 điểm bởi GN⁺ 2025-12-03 | 1 bình luận | Chia sẻ qua WhatsApp

AWS đã giới thiệu Trainium3 UltraServer trang bị chip Trainium3 tiến trình 3 nanomet, cải thiện mạnh mẽ hiệu năng huấn luyện và suy luận AI
Hệ thống mới cung cấp tốc độ nhanh hơn gấp 4 lần và bộ nhớ nhiều hơn gấp 4 lần so với thế hệ trước, cùng hiệu quả năng lượng cao hơn 40%
Có thể kết nối tối đa 1 triệu chip Trainium3, phù hợp để xử lý các ứng dụng AI quy mô lớn
Các khách hàng như Anthropic, Karakuri, SplashMusic, Decart đã sử dụng và xác nhận hiệu quả giảm chi phí suy luận
AWS cho biết chip Trainium4 thế hệ tiếp theo sẽ hỗ trợ Nvidia NVLink Fusion, cho phép khả năng tương tác với GPU Nvidia, được đánh giá là một bước ngoặt quan trọng trong cuộc cạnh tranh hạ tầng AI

Công bố Trainium3

AWS đã chính thức công bố Trainium3 UltraServer tại sự kiện re:Invent 2025
- Hệ thống này vận hành bằng chip Trainium3 3 nanomet và công nghệ mạng tự phát triển của AWS
- AWS cho biết hiệu năng đã cải thiện đáng kể so với thế hệ thứ hai ở cả huấn luyện lẫn suy luận AI
AWS cho biết hệ thống Trainium3 mang lại tốc độ xử lý nhanh hơn 4 lần và dung lượng bộ nhớ nhiều hơn 4 lần
- Mỗi UltraServer được trang bị 144 chip
- Có thể kết nối hàng nghìn máy chủ để tận dụng tối đa 1 triệu chip cho một ứng dụng duy nhất
Chip mới có hiệu quả năng lượng tăng 40%, góp phần giảm mức tiêu thụ điện của các trung tâm dữ liệu quy mô lớn
- AWS cũng nhấn mạnh rằng nhờ đó có thể giảm chi phí cho khách hàng đám mây AI

Khách hàng chính và các trường hợp sử dụng

Anthropic, Karakuri của Nhật Bản, SplashMusic, Decart đã sử dụng Trainium3
- AWS cho biết các khách hàng này đã giảm đáng kể chi phí suy luận
AWS nhận định những cải thiện về hiệu năng và hiệu quả chi phí này là nền tảng để nâng cao khả năng mở rộng của các ứng dụng AI

Lộ trình chip thế hệ tiếp theo Trainium4

AWS công bố Trainium4 đang được phát triển và sẽ hỗ trợ công nghệ kết nối tốc độ cao NVLink Fusion của Nvidia
- Nhờ đó sẽ có khả năng tương tác với GPU Nvidia và có thể kết hợp với công nghệ rack máy chủ chi phí thấp của AWS
Trong bối cảnh Nvidia CUDA đã trở thành tiêu chuẩn cho các ứng dụng AI chủ chốt, hệ thống Trainium4 có tiềm năng giúp việc chuyển các ứng dụng dựa trên GPU Nvidia lên đám mây AWS trở nên dễ dàng hơn
Lịch phát hành của Trainium4 chưa được công bố, nhưng có khả năng sẽ có thêm thông tin tại sự kiện re:Invent năm sau

Ý nghĩa chiến lược của hiệu quả năng lượng và cắt giảm chi phí

AWS đang xây dựng "các hệ thống tiêu thụ ít hơn" trong bối cảnh mức sử dụng điện của trung tâm dữ liệu tăng vọt
Cách tiếp cận này được đánh giá là nỗ lực nhằm đồng thời đạt hai mục tiêu: giảm chi phí vận hành và đảm bảo tính bền vững
Chiến lược tập trung vào cắt giảm chi phí của AWS có thể giúp tăng sức hút đối với khách hàng đám mây trong cuộc cạnh tranh hạ tầng AI

Tóm tắt

Trainium3 là chip AI thế hệ thứ ba được cải thiện mạnh mẽ về hiệu năng, bộ nhớ và hiệu quả
Trainium4 nhắm tới mở rộng hệ sinh thái AWS thông qua khả năng tương thích với Nvidia
AWS theo đuổi đồng thời hạ tầng AI hiệu năng cao, chi phí thấp và thân thiện môi trường, nhằm tăng sức cạnh tranh trên thị trường đám mây AI

1 bình luận

GN⁺ 2025-12-03

Ý kiến Hacker News

Nhóm chúng tôi đã nhiều lần nói với đại diện AWS rằng chúng tôi không quan tâm đến các instance Trainium hay Inferentia
vì không có bằng chứng chắc chắn nào cho thấy chúng tương thích ổn định với các thư viện tiêu chuẩn như Transformers hay PyTorch
AWS nói là chúng hoạt động tốt, nhưng đó chỉ là “con đường hạnh phúc” chỉ có thể đạt được với AMI riêng của họ và neuron SDK
khi thực sự dùng các dependency của chúng tôi để làm việc thì mọi thứ sụp đổ ngay
TPU của GCP cũng chỉ trở nên dùng được sau khi Google đầu tư khổng lồ vào hỗ trợ phần mềm
Tôi không có thời gian để làm beta tester cho việc dùng chip của AWS
- AWS ngoài các dịch vụ cốt lõi (S3, Dynamo, Lambda, ECS, v.v.) thì đầy rẫy dịch vụ beta
  Số ổn định thì ít, còn lại đều khá thô ráp
- Google đã bỏ ra nỗ lực khổng lồ để hòa TPU vào hệ sinh thái
  khó mà tưởng tượng Amazon sẽ đầu tư đến mức đó
- Spoiler là nếu không viết rất nhiều mã tùy chỉnh thì nó không hoạt động
Tôi đã trải qua địa ngục khi cố tự build container LMI trên SageMaker
phiên bản vLLM đã 6 tháng không được cập nhật, còn endpoint thông thường thì không dùng được vì timeout 60 giây được quyết định từ 8 năm trước
Chỉ nghĩ đến việc một lập trình viên muốn dùng custom silicon trong tình cảnh này sẽ phải chịu đựng thế nào thôi cũng đã thấy kinh khủng
AWS nói rất hoành tráng về Trainium, nhưng không có lấy một khách hàng nào bước lên sân khấu để ca ngợi nó
những người thực sự đã dùng thì nói rằng họ bỏ cuộc vì nỗi đau triển khai và vận hành
có vẻ nội bộ dùng khá nhiều, nhưng mức độ chấp nhận bên ngoài thì hầu như không có
Dù vậy tôi vẫn xem việc Amazon đầu tư vào chip riêng là tín hiệu tích cực
- Spot instance Inf1/Inf2 quá kém phổ biến nên rẻ hơn cả instance CPU từ 10~20%
  Trn1 thì chưa đến mức đó nên có vẻ vẫn có ai đó đang dùng
- Tôi nghe nói Anthropic cũng dùng Trainium khá nhiều
  có lẽ họ đang nhận được sự hỗ trợ toàn diện từ AWS
  nếu không đầu tư thêm vào SDK và tooling thì sẽ chẳng ai dùng kiểu cloud này đâu
Khái niệm Block floating point (MXFP8/4) khá thú vị
AI đang thúc đẩy các kiểu dữ liệu cơ bản vốn không thay đổi suốt hàng chục năm
Bài wiki về Block floating point
Điều thú vị là trong bài báo lại không hề giải thích con chip này làm gì
- Cốt lõi là kiến trúc gồm nhiều 128x128 systolic array
  Xem chi tiết trong bản tin Semianalysis
- Đúng như tên gọi, đây là chip dùng cho Training
- Cuối cùng thì nó là con chip thực hiện phép toán vector
- Có lẽ họ nghĩ nhiệm vụ thật sự của con chip này là làm hài lòng cổ đông, nên không cần giải thích cho lập trình viên
Hoàn toàn không có nhắc đến hiệu năng hay benchmark
- Họ nói “nhiều hơn 4 lần”, nhưng không có nghĩa là nhanh hơn 4 lần, còn nói bộ nhớ nhiều hơn 4 lần thì cũng không có mốc tham chiếu nào
Tin tức thực sự nằm ở phần “lộ trình thân thiện với Nvidia”
có vẻ Amazon cũng đang nhắm đến cắt giảm chi phí trong AI giống như cách họ làm với logistics
nhưng mức độ tự tin có vẻ thấp, và trông giống một chiến lược giữ thể diện để duy trì quan hệ với Nvidia
Việc NVLink đang lan rộng khá thú vị
Intel cũng tham gia, và đây giống như một khoảnh khắc kiểu chuyển đổi PCI → AGP
AMD từng suýt nắm được cơ hội vào thời HyperTransport, nhưng Infinity Fabric hiện nay chỉ dừng ở nội bộ
UALink hay CXL cũng đang được chú ý, nhưng vẫn còn giới hạn tốc độ của PCIe
Lý tưởng nhất là tích hợp mạng phải trở thành tính năng mặc định ngay trên chip
giống như khi Intel Xeon từng gần như cung cấp miễn phí 100Gb Omni-Path
- NVLink Fusion rốt cuộc trông như một cái bẫy phụ thuộc vào Nvidia
  Intel thì đang tuyệt vọng nên còn hiểu được, nhưng AWS mà đi theo con đường đó thì không có vẻ hay ho gì
  Nếu là AMD, tôi nghĩ tốt hơn nên đưa SolarFlare NIC vào I/O die
  giống như có thể chuyển đổi PCIe/SATA thì có lẽ cũng có thể chuyển đổi PCIe/Ethernet, còn UEC có thể là thị trường quá ngách
Bài đăng chính thức của Amazon: Giới thiệu Trainium 3 UltraServer

Amazon công bố chip AI mới Trainium3 và hé lộ lộ trình hợp tác với Nvidia

Công bố Trainium3

Khách hàng chính và các trường hợp sử dụng

Lộ trình chip thế hệ tiếp theo Trainium4

Ý nghĩa chiến lược của hiệu quả năng lượng và cắt giảm chi phí

Tóm tắt

Bài viết liên quan

1 bình luận

Ý kiến Hacker News