2 điểm bởi GN⁺ 2025-12-03 | 1 bình luận | Chia sẻ qua WhatsApp
  • AWS đã giới thiệu Trainium3 UltraServer trang bị chip Trainium3 tiến trình 3 nanomet, cải thiện mạnh mẽ hiệu năng huấn luyện và suy luận AI
  • Hệ thống mới cung cấp tốc độ nhanh hơn gấp 4 lần và bộ nhớ nhiều hơn gấp 4 lần so với thế hệ trước, cùng hiệu quả năng lượng cao hơn 40%
  • Có thể kết nối tối đa 1 triệu chip Trainium3, phù hợp để xử lý các ứng dụng AI quy mô lớn
  • Các khách hàng như Anthropic, Karakuri, SplashMusic, Decart đã sử dụng và xác nhận hiệu quả giảm chi phí suy luận
  • AWS cho biết chip Trainium4 thế hệ tiếp theo sẽ hỗ trợ Nvidia NVLink Fusion, cho phép khả năng tương tác với GPU Nvidia, được đánh giá là một bước ngoặt quan trọng trong cuộc cạnh tranh hạ tầng AI

Công bố Trainium3

  • AWS đã chính thức công bố Trainium3 UltraServer tại sự kiện re:Invent 2025
    • Hệ thống này vận hành bằng chip Trainium3 3 nanometcông nghệ mạng tự phát triển của AWS
    • AWS cho biết hiệu năng đã cải thiện đáng kể so với thế hệ thứ hai ở cả huấn luyện lẫn suy luận AI
  • AWS cho biết hệ thống Trainium3 mang lại tốc độ xử lý nhanh hơn 4 lầndung lượng bộ nhớ nhiều hơn 4 lần
    • Mỗi UltraServer được trang bị 144 chip
    • Có thể kết nối hàng nghìn máy chủ để tận dụng tối đa 1 triệu chip cho một ứng dụng duy nhất
  • Chip mới có hiệu quả năng lượng tăng 40%, góp phần giảm mức tiêu thụ điện của các trung tâm dữ liệu quy mô lớn
    • AWS cũng nhấn mạnh rằng nhờ đó có thể giảm chi phí cho khách hàng đám mây AI

Khách hàng chính và các trường hợp sử dụng

  • Anthropic, Karakuri của Nhật Bản, SplashMusic, Decart đã sử dụng Trainium3
    • AWS cho biết các khách hàng này đã giảm đáng kể chi phí suy luận
  • AWS nhận định những cải thiện về hiệu năng và hiệu quả chi phí này là nền tảng để nâng cao khả năng mở rộng của các ứng dụng AI

Lộ trình chip thế hệ tiếp theo Trainium4

  • AWS công bố Trainium4 đang được phát triển và sẽ hỗ trợ công nghệ kết nối tốc độ cao NVLink Fusion của Nvidia
    • Nhờ đó sẽ có khả năng tương tác với GPU Nvidia và có thể kết hợp với công nghệ rack máy chủ chi phí thấp của AWS
  • Trong bối cảnh Nvidia CUDA đã trở thành tiêu chuẩn cho các ứng dụng AI chủ chốt, hệ thống Trainium4 có tiềm năng giúp việc chuyển các ứng dụng dựa trên GPU Nvidia lên đám mây AWS trở nên dễ dàng hơn
  • Lịch phát hành của Trainium4 chưa được công bố, nhưng có khả năng sẽ có thêm thông tin tại sự kiện re:Invent năm sau

Ý nghĩa chiến lược của hiệu quả năng lượng và cắt giảm chi phí

  • AWS đang xây dựng "các hệ thống tiêu thụ ít hơn" trong bối cảnh mức sử dụng điện của trung tâm dữ liệu tăng vọt
  • Cách tiếp cận này được đánh giá là nỗ lực nhằm đồng thời đạt hai mục tiêu: giảm chi phí vận hànhđảm bảo tính bền vững
  • Chiến lược tập trung vào cắt giảm chi phí của AWS có thể giúp tăng sức hút đối với khách hàng đám mây trong cuộc cạnh tranh hạ tầng AI

Tóm tắt

  • Trainium3 là chip AI thế hệ thứ ba được cải thiện mạnh mẽ về hiệu năng, bộ nhớ và hiệu quả
  • Trainium4 nhắm tới mở rộng hệ sinh thái AWS thông qua khả năng tương thích với Nvidia
  • AWS theo đuổi đồng thời hạ tầng AI hiệu năng cao, chi phí thấp và thân thiện môi trường, nhằm tăng sức cạnh tranh trên thị trường đám mây AI

1 bình luận

 
GN⁺ 2025-12-03
Ý kiến Hacker News
  • Nhóm chúng tôi đã nhiều lần nói với đại diện AWS rằng chúng tôi không quan tâm đến các instance Trainium hay Inferentia
    vì không có bằng chứng chắc chắn nào cho thấy chúng tương thích ổn định với các thư viện tiêu chuẩn như Transformers hay PyTorch
    AWS nói là chúng hoạt động tốt, nhưng đó chỉ là “con đường hạnh phúc” chỉ có thể đạt được với AMI riêng của họ và neuron SDK
    khi thực sự dùng các dependency của chúng tôi để làm việc thì mọi thứ sụp đổ ngay
    TPU của GCP cũng chỉ trở nên dùng được sau khi Google đầu tư khổng lồ vào hỗ trợ phần mềm
    Tôi không có thời gian để làm beta tester cho việc dùng chip của AWS
    • AWS ngoài các dịch vụ cốt lõi (S3, Dynamo, Lambda, ECS, v.v.) thì đầy rẫy dịch vụ beta
      Số ổn định thì ít, còn lại đều khá thô ráp
    • Google đã bỏ ra nỗ lực khổng lồ để hòa TPU vào hệ sinh thái
      khó mà tưởng tượng Amazon sẽ đầu tư đến mức đó
    • Spoiler là nếu không viết rất nhiều mã tùy chỉnh thì nó không hoạt động
  • Tôi đã trải qua địa ngục khi cố tự build container LMI trên SageMaker
    phiên bản vLLM đã 6 tháng không được cập nhật, còn endpoint thông thường thì không dùng được vì timeout 60 giây được quyết định từ 8 năm trước
    Chỉ nghĩ đến việc một lập trình viên muốn dùng custom silicon trong tình cảnh này sẽ phải chịu đựng thế nào thôi cũng đã thấy kinh khủng
  • AWS nói rất hoành tráng về Trainium, nhưng không có lấy một khách hàng nào bước lên sân khấu để ca ngợi nó
    những người thực sự đã dùng thì nói rằng họ bỏ cuộc vì nỗi đau triển khai và vận hành
    có vẻ nội bộ dùng khá nhiều, nhưng mức độ chấp nhận bên ngoài thì hầu như không có
    Dù vậy tôi vẫn xem việc Amazon đầu tư vào chip riêng là tín hiệu tích cực
    • Spot instance Inf1/Inf2 quá kém phổ biến nên rẻ hơn cả instance CPU từ 10~20%
      Trn1 thì chưa đến mức đó nên có vẻ vẫn có ai đó đang dùng
    • Tôi nghe nói Anthropic cũng dùng Trainium khá nhiều
      có lẽ họ đang nhận được sự hỗ trợ toàn diện từ AWS
      nếu không đầu tư thêm vào SDK và tooling thì sẽ chẳng ai dùng kiểu cloud này đâu
  • Khái niệm Block floating point (MXFP8/4) khá thú vị
    AI đang thúc đẩy các kiểu dữ liệu cơ bản vốn không thay đổi suốt hàng chục năm
    Bài wiki về Block floating point
  • Điều thú vị là trong bài báo lại không hề giải thích con chip này làm gì
    • Cốt lõi là kiến trúc gồm nhiều 128x128 systolic array
      Xem chi tiết trong bản tin Semianalysis
    • Đúng như tên gọi, đây là chip dùng cho Training
    • Cuối cùng thì nó là con chip thực hiện phép toán vector
    • Có lẽ họ nghĩ nhiệm vụ thật sự của con chip này là làm hài lòng cổ đông, nên không cần giải thích cho lập trình viên
  • Hoàn toàn không có nhắc đến hiệu năng hay benchmark
    • Họ nói “nhiều hơn 4 lần”, nhưng không có nghĩa là nhanh hơn 4 lần, còn nói bộ nhớ nhiều hơn 4 lần thì cũng không có mốc tham chiếu nào
  • Tin tức thực sự nằm ở phần “lộ trình thân thiện với Nvidia
    có vẻ Amazon cũng đang nhắm đến cắt giảm chi phí trong AI giống như cách họ làm với logistics
    nhưng mức độ tự tin có vẻ thấp, và trông giống một chiến lược giữ thể diện để duy trì quan hệ với Nvidia
  • Việc NVLink đang lan rộng khá thú vị
    Intel cũng tham gia, và đây giống như một khoảnh khắc kiểu chuyển đổi PCI → AGP
    AMD từng suýt nắm được cơ hội vào thời HyperTransport, nhưng Infinity Fabric hiện nay chỉ dừng ở nội bộ
    UALink hay CXL cũng đang được chú ý, nhưng vẫn còn giới hạn tốc độ của PCIe
    Lý tưởng nhất là tích hợp mạng phải trở thành tính năng mặc định ngay trên chip
    giống như khi Intel Xeon từng gần như cung cấp miễn phí 100Gb Omni-Path
    • NVLink Fusion rốt cuộc trông như một cái bẫy phụ thuộc vào Nvidia
      Intel thì đang tuyệt vọng nên còn hiểu được, nhưng AWS mà đi theo con đường đó thì không có vẻ hay ho gì
      Nếu là AMD, tôi nghĩ tốt hơn nên đưa SolarFlare NIC vào I/O die
      giống như có thể chuyển đổi PCIe/SATA thì có lẽ cũng có thể chuyển đổi PCIe/Ethernet, còn UEC có thể là thị trường quá ngách
  • Bài đăng chính thức của Amazon: Giới thiệu Trainium 3 UltraServer