- GPU AMD Instinct MI355X mang lại hiệu năng tính toán AI gấp đôi, nhiều bộ nhớ HBM hơn và hiệu quả token/$ cao hơn 40% so với NVIDIA
- Phần mềm ROCm 7 nhấn mạnh hỗ trợ Day-0 cùng các cải thiện hiệu năng, đồng thời tập trung mở rộng hệ sinh thái AI
- Giải pháp tích hợp ở cấp độ rack cung cấp hạ tầng AI dạng turnkey kết hợp CPU+GPU+mạng của AMD
- Lộ trình: công bố trước kiến trúc thế hệ tiếp theo và rack Helios cho năm 2026 với hiệu năng gấp 4 lần, HBM4 và khả năng mở rộng
- Hiệu quả năng lượng: đặt mục tiêu cải thiện hiệu suất 20 lần ở cấp độ rack vào năm 2030, thúc đẩy đổi mới đồng thời ở cả phần cứng lẫn phần mềm
Tóm tắt tổng thể
Bước đi của AMD dựa trên đà tăng trưởng AI ở cấp độ rack
- Khi nhu cầu phần cứng AI tăng vọt, tất cả các công ty bán dẫn lớn trong ngành đều tập trung vào việc giành thị phần và tăng tốc tăng trưởng
- AMD đã nhanh chóng thâm nhập thị trường GPU cho máy chủ AI với Instinct MI300X, đồng thời ghi nhận doanh thu biên lợi nhuận cao thành công dựa trên kinh nghiệm tung ra kiến trúc đầu tiên tập trung toàn lực vào các tính năng và hiệu năng cốt lõi gần đây
- Từ đó, hãng công bố chiến lược tiếp tục mở rộng vị thế với phần cứng máy chủ AI thế hệ tiếp theo
Chi tiết đổi mới của bộ tăng tốc Instinct MI350
Bứt phá mạnh về hiệu năng tính toán AI
- Dòng Instinct MI350 dựa trên kiến trúc CDNA4 mới, với cấu trúc nâng thông lượng phép toán ma trận (tensor) trên mỗi xung nhịp lên hơn gấp đôi so với MI300X
- Dòng này hỗ trợ đầy đủ xử lý số thực độ chính xác thấp như FP6, FP4 để giảm gánh nặng suy luận, đồng thời tăng mạnh tổng lượng tính toán
- Với phép toán FP6, sản phẩm được thiết kế để xử lý nhanh gấp đôi so với NVIDIA Blackwell, theo đuổi lợi thế hiệu năng
- Cấu hình bộ nhớ cũng được nâng cấp lớn với 288GB HBM3E (8 stack) và băng thông 8TB/sec
- Chip siêu lớn 185 tỷ transistor được xây dựng trên tiến trình TSMC N3P, triển khai với cấu trúc xếp chồng die hiệu quả
Nhiều SKU, xu hướng hiệu năng cao và điện năng cao
- Sản phẩm được chia thành MI355X chỉ dùng làm mát bằng chất lỏng (2.4GHz, 5PFLOPS) và MI350X làm mát bằng không khí (2.2GHz, 4.6PFLOPS)
- Mức tiêu thụ điện tăng lên so với MI300X: bản làm mát không khí là 1000W, bản làm mát bằng chất lỏng là 1400W
- Khi lắp 128 MI355X trong một rack, riêng GPU có thể tiêu thụ điện ở mức 180kW
- Khả năng cạnh tranh về giá cũng được nhấn mạnh, với kỳ vọng vượt hơn 40% theo tiêu chí token/$ so với NVIDIA (rẻ hơn 30%)
- Bắt đầu cung cấp cho các đối tác từ quý 3/2024, nhưng tốc độ giao hàng thực tế vẫn có thể thay đổi
Chiến lược phần mềm ROCm 7
Hỗ trợ Day-0 và tối đa hóa hiệu năng
- ROCm 7 thúc đẩy cải tiến toàn diện về hỗ trợ CDNA4, bộ tăng tốc dòng MI350, hiệu năng và quản trị doanh nghiệp
- Mục tiêu là hỗ trợ Day-0 cho các framework chủ chốt như Pytorch
- Trong quý 3/2024, hãng cũng bắt đầu hỗ trợ Pytorch native trên Windows, ONNX runtime và GPU RDNA 4/3
- Chỉ riêng tối ưu hóa phần mềm đã giúp hiệu năng thế hệ MI300X trong ROCm 7 tăng tối đa 3,8 lần so với ROCm 6
- Thông qua ROCm Enterprise AI, AMD cung cấp các công cụ chuyên biệt cho doanh nghiệp như vận hành cụm AI quy mô lớn và fine-tuning mô hình
Hoàn thiện hệ sinh thái mạng: Pollara 400 AI NIC
- Sau thương vụ mua lại Pensando, AMD ra mắt Pollara 400 AI NIC (400G Ethernet, tiến trình TSMC N4), card mạng đầu tiên của hãng
- Với khả năng mở rộng và chức năng NIC P4 có thể lập trình, sản phẩm hỗ trợ xây dựng rack siêu máy tính dựa trên AMD
- Đây là AI NIC đầu tiên tương thích Ultra Ethernet Consortium, đặt nền tảng cho mạng mở rộng thế hệ tiếp theo
Lộ trình tương lai cấp độ rack dựa trên MI400
- MI400 (2026): hướng tới hiệu năng AI gấp đôi theo chuẩn FP8, băng thông HBM4 432GB/19.6TB/sec và áp dụng kiến trúc thế hệ mới (CDNA Next)
- Mở rộng scale-up từ 8 GPU lên 1024 GPU bằng Ultra Accelerator Link, hỗ trợ xử lý song song quy mô lớn
- Hệ thống rack Helios: kết hợp MI400, EPYC Venice (thế hệ 6) và Vulcano (800G NIC), đồng thời nhấn mạnh ưu thế về bộ nhớ và mạng so với phe thế hệ tiếp theo của NVIDIA (Vera Rubin)
- Thông qua lộ trình được công khai, AMD đưa ra kế hoạch đổi mới kiến trúc cốt lõi hằng năm cho CPU, GPU và hệ thống rack
- Hãng đặt mục tiêu tăng hiệu quả năng lượng ở cấp độ rack lên 20 lần và hiệu quả tổng thể lên 100 lần vào năm 2030, tập trung tối ưu cả phần cứng lẫn phần mềm
Kết luận
- AMD nhắm tới việc giành vị thế dẫn dắt khác biệt trong thị trường hạ tầng AI thông qua dòng Instinct MI350~Helios, CDNA 4~Next và các giải pháp turnkey ở cấp độ rack
- Trong thời gian gần, MI350 mới, kiến trúc CDNA4 và phần mềm ROCm 7 được dự báo sẽ là trụ cột chính
- Hãng đang triển khai chiến lược tăng cường đồng thời hiệu năng, chi phí, khả năng mở rộng và hiệu quả trong cuộc cạnh tranh thị trường máy chủ AI với NVIDIA
1 bình luận
Ý kiến trên Hacker News
Cảm giác việc dùng ROCm thật sự khác nhau rất nhiều tùy từng trường hợp, và mức độ hỗ trợ cho card đồ họa tiêu dùng cũng thành thật mà nói là khó tin cậy; từng hy vọng nó sẽ là một lựa chọn thay thế, nhưng sau khi chuyển sang CUDA thì đã giảm được rất nhiều rắc rối và lãng phí thời gian, đặc biệt là vấn đề mất quá nhiều thời gian để chạy benchmark MiOpen trong HIP.
Có cảm giác từ khoảng năm 2010, khi CUDA bắt đầu nổi lên cho tính toán khoa học, thì cùng một câu chuyện này đã lặp đi lặp lại; không hiểu vì sao sau 15 năm AMD vẫn chưa bắt kịp cách thành công đó, và giờ khi NVIDIA đã hoàn toàn thống trị hệ sinh thái phần mềm thì thực tế là đã quá muộn khá nhiều.
Mong có ai thật sự hiểu phần mềm AMD cung cấp giải thích một bức tranh tổng thể: rốt cuộc SDK nào mới thực sự dùng được cho suy luận hoặc huấn luyện neural network? Có quá nhiều lựa chọn, từng thử tìm hiểu một thời gian nhưng cảm giác định hướng bị phân tán ra quá nhiều nơi, nên rất khó biết họ đang đi về đâu.
Có cảm giác Jensen thực sự nắm rất chắc bí quyết về CUDA stack và mảng workstation; AMD phải nhận ra rằng không chỉ đơn giản là làm phần cứng to hơn, mà còn phải vượt qua chính cái stack này. Đa số thị trường sẽ không chịu bỏ nhiều thời gian học một stack phức tạp chỉ để phục vụ một cấu trúc có thị phần chưa tới 10%.
Thực tế là gần như không có mấy ai tự gọi trực tiếp CUDA API, vì thế điểm AMD nên tập trung là kết nối ROCm backend cho XLA và PyTorch cho thật tốt. Chỉ cần làm được điều đó cũng có thể mở được một thị trường đáng kể. Và giống Nvidia hơn 10 năm trước, AMD cũng nên phát GPU miễn phí cho các trường đại học để nuôi hệ sinh thái nghiên cứu. Dạo này do thiếu tài nguyên tính toán AI nên phần lớn đại học chỉ dùng phần cứng đã chậm 2~3 thế hệ; nếu AMD cung cấp GPU ổn định với giá bằng một nửa, nghiên cứu sinh tiến sĩ sẽ tự nhiên bước vào hệ sinh thái AMD, và kinh nghiệm đó có thể lan sang cả công nghiệp.
Khi mọi người nói về CUDA thì thường chỉ nghĩ đến C, nhưng thực tế từ CUDA 3.0 thì C++ mới là mặc định, và còn có hỗ trợ Fortran. NVIDIA cũng tích cực hỗ trợ để nhiều ngôn ngữ khác nhau có thể dùng môi trường PTX; đến năm 2025 còn có kế hoạch đưa vào Python CUDA JIT DSL. Ngay cả khi không dùng bản mới nhất, CUDA SDK vẫn chạy được trên laptop entry-level, nên ngay cả khi phần cứng yếu vẫn có thể học từ từ.
Đã nghe nhiều điều không hay về hỗ trợ phần mềm cho phần cứng entry-level, và nhận ra rằng một lối vào dễ tiếp cận như vậy là cực kỳ quan trọng. Ngược lại, nếu nhấn mạnh phần cứng cho datacenter thì có thể nén danh mục sản phẩm xuống nhỏ gọn hơn mà vẫn đạt được khả năng tiếp cận rộng hơn thông qua các nhà cung cấp cloud. Dù rất muốn có một thiết bị cho người mới như workstation MI350-A, nhưng thực tế là điều đó khó xảy ra.
Nhìn ở thời điểm hiện tại thì có cảm giác nội bộ AMD đang có vấn đề nghiêm trọng nên software stack mới yếu như vậy. Họ đã có đủ thời gian để lắng nghe tiếng nói khách hàng về nhiều vấn đề và mở rộng đội ngũ, vậy mà tiến triển thực tế lại không nhiều. Động lực về đãi ngộ cũng rất lớn nhưng thay đổi vẫn ít. Đồng ý rằng CEO Lisa Su là một nhà điều hành xuất sắc, nhưng cũng băn khoăn liệu vì xuất thân phần cứng nên bà ít quyết liệt hơn với đổi mới phần mềm hay không.
Có ý kiến rằng việc có hỗ trợ ROCm hay không vẫn chưa phải vấn đề lớn với người dùng AI phổ thông, vì nhờ Vulkan API đã được đưa vào driver AMD tiêu chuẩn từ khoảng 10 năm trước nên các ứng dụng LLM one-click lớn như llama.cpp hay LM Studio vẫn chạy được. Tốc độ thì chậm nhưng môi trường thực tế vẫn dùng được.
Một câu đùa hơi hài hước về cục diện cạnh tranh tương lai giữa NVIDIA và AMD: "Khi tương lai xa đó trở thành hiện thực, chúng tôi sẽ chủ động liên hệ trước."
Một nghi vấn ngắn: "Bob Page đang dẫn dắt chuyện này à?"
Có người nói câu thoại trong game "Atropos log, abandoning Helios" gợi lên phản ứng cảm xúc, và cứ mỗi lần có tin liên quan là lại nhớ đến.
Hy vọng AMD sẽ làm ra một con chip huấn luyện vượt qua H100.
Năm ngoái khi huấn luyện bằng MI300X thì có khá nhiều vấn đề, và kể cả lúc chạy được cũng chậm hơn H100 khoảng 20~30%. Gần đây thử huấn luyện DPO bằng OpenRLHF (dựa trên transformers/DeepSpeed) với ROCm và PyTorch mới nhất thì trong các tác vụ ngắn cỡ 12 tiếng, hiệu năng theo giờ GPU gần như ngang H200. Trước đây từng test trên node 8 GPU, còn bây giờ chỉ đang thử trên một GPU MI300X đơn lẻ, nên đây không phải so sánh hoàn toàn công bằng; huấn luyện multi-GPU hoặc multi-node vẫn còn là ẩn số, nên chỉ xem như một mẫu đơn lẻ.
Nghĩ đến việc H100 đã ra mắt được 3 năm rồi thì cảm giác khoảng cách còn lớn hơn, đúng là tốc độ đổi mới quá khủng.
Có vẻ đang nói đến con chip tương đối chậm hơn; thật ra dòng MI300 đã vượt H100 rồi và MI400 cũng có thể sắp ra mắt.
Điều thực sự quan trọng là: trong những nội dung chính của "software++: ROCm 7 Released", có bao nhiêu thứ tôi thực sự dùng được trên laptop tiêu dùng phổ thông như với CUDA?
Thành thật mà nói đọc bài đó khá vất vả, và cảm giác tác giả bài viết đã dốc công đến mức cho hẳn một chiếc mi355 cũng không phí. AMD hoàn toàn không có lý do gì để được tin tưởng nhiều như bài viết kỳ vọng; việc không hỗ trợ dòng RDNA4 trên ROCm suốt nhiều tháng là điểm gây thất vọng mang tính quyết định. Thái độ kiểu AMD có thể hỗ trợ vào ngày 120 theo lịch là quá vô trách nhiệm. Thêm nữa, họ không làm rõ hiệu năng benchmark thực sự đến từ phần nào; có nghi ngờ rất mạnh rằng họ đang đưa ra kết quả so sánh hiệu năng FP4 với FP8 hoặc 16 rồi bị trích dẫn sai.
Việc AMD vẫn không đầu tư tử tế cho ROCm phía người tiêu dùng và hỗ trợ chậm trễ vẫn gây sốc và bối rối, nhưng gần đây có tin họ đã chính thức tuyên bố sẽ hỗ trợ day 1 cả trên card client. Tất nhiên điều cốt lõi là có giữ lời hứa hay không, nhưng có vẻ AMD cuối cùng cũng nhận ra việc hỗ trợ ROCm vững chắc xuyên suốt toàn bộ stack quan trọng đến mức nào. Thật kỳ lạ khi đây là công ty vừa làm Ryzen vừa làm Radeon. Năm nay Radeon có vẻ đang làm khá tốt, nên việc hỗ trợ ROCm chính thức cho RDNA4 đến quá muộn thật đáng tiếc. Dù vậy, ấn tượng ban đầu ở mảng tiêu dùng với 9070 XT và FSR4 cũng không tệ, và khác với trước đây khi AMD dường như né tránh cơ hội, giờ đã thấy họ bắt đầu chuyển động, nên có chút lạc quan rất thận trọng. Chỉ mong những lời hứa này kéo dài được lâu, liên kết liên quan
Thực tế là AMD không mấy quan tâm đến hỗ trợ compute trên GPU tiêu dùng, còn ở GPU datacenter thì họ lại cung cấp software stack và hỗ trợ khá tốt.
Đáp lại bình luận gốc kiểu "bài này có vẻ dành cho AMD quá nhiều niềm tin", có người hỏi lại xem có phải đang nhắc đến Ryan Smith nổi tiếng từ AnandTech hay không, liên kết
Có ý kiến cho rằng giờ AMD là một công ty marketing, nghĩa là về bản chất họ cạnh tranh trên thị trường bằng marketing hơn là bằng năng lực kỹ thuật.