- Trong bối cảnh nhu cầu suy luận vượt nguồn cung, chi phí GPU NVIDIA và token tăng lên, AMD MI355X nổi lên như một lựa chọn suy luận chi phí thấp khi trung bình rẻ hơn khoảng 2,75 lần trên mỗi GPU so với B300
- Dòng AMD Instinct MI350 cạnh tranh với Blackwell ở cấp độ silicon, nhưng lợi thế phần mềm và hỗ trợ day-0 của NVIDIA quyết định tốc độ serving thực tế và độ khó khi triển khai
- Wafer đã tối ưu GLM-5.2 trên MI355X và đạt 2626 tok/s/node cùng 2,4 rps trong workload 20k input/1k output, tỷ lệ cache hit 60%; mức này bằng 80% hiệu năng đo được trên B200
- Với single stream, hệ thống ghi nhận 213 tok/s ở 10k token input/1,5k token output; dù không đứng đầu leaderboard, Wafer cho rằng nó có lợi thế về chi phí trên hiệu năng
- Kết quả này đạt được không cần custom kernel, mà nhờ sửa lỗi framework, quantization, speculative decode và tinh chỉnh lựa chọn kernel MoE, nên thách thức của AMD ngày càng gần với vấn đề hỗ trợ hơn là bản thân phần mềm
Chi phí suy luận của AMD và khoảng cách phần mềm với NVIDIA
- Nhu cầu suy luận đang tăng nhanh và vượt nguồn cung; khi các mô hình tuyến đầu như Claude Fable, GLM-5.2, Minimax M3 gần như ra mắt cách tuần, nhu cầu token cũng tăng theo
- Nguồn cung Blackwell chưa đủ, khiến giá GPU NVIDIA và chi phí token cùng có xu hướng đắt hơn
- AMD MI355X trung bình rẻ hơn khoảng 2,75 lần trên mỗi GPU so với B300, trong khi thông số phần cứng ở mức có thể so sánh
- Dòng AMD Instinct MI350 cạnh tranh với Blackwell ở cấp độ silicon, nhưng nhờ hỗ trợ day-0 và hệ sinh thái phần mềm, NVIDIA có thể serving suy luận cho các mô hình mới nhất nhanh hơn và ít ma sát hơn
- Trên MI355X và stack ROCm, hiệu năng SOTA của các mô hình tuyến đầu mới nhất thường không có sẵn mặc định, và đôi khi ngay cả việc tìm một image chạy được cũng có thể khó
- Nếu không có hỗ trợ day-0, việc build và tối ưu mô hình mới nhất cần nhiều tuần kỹ thuật và compute; trong thời gian đó, mô hình mới hơn lại xuất hiện, khiến AMD tiếp tục ở thế phải đuổi theo
Hiệu năng GLM-5.2 trên MI355X
- Wafer cho rằng khi các agent cải thiện trong tối ưu kernel và mô hình, khoảng cách thực tế giữa AMD và NVIDIA đang thu hẹp
- Trong workload 20k input/1k output, tỷ lệ cache hit 60%, hệ thống đạt 2626 tok/s/node
- RPS duy trì là 2,4 rps
- Knee được định nghĩa là TTFT từ 5 giây trở xuống
- Bằng 80% hiệu năng đo được trên B200
- MI355X rẻ hơn hơn 2 lần
| RPS duy trì | Tổng tok/s/node | TTFT p50 / p95 | Tỷ lệ thành công |
|---|---|---|---|
| 0.5 | 449 | 0.59s / 0.60s | 100% |
| 1.0 | 974 | 0.60s / 0.81s | 100% |
| 1.5 | 1913 | 0.62s / 1.03s | 100% |
| 2.0 | 1944 | 0.62s / 1.05s | 100% |
| 2.25 | 2089 | 0.63s / 1.23s | 100% |
| 2.4 bão hòa | 2626 | 0.81s / 2.22s | 100% |
- Theo chuẩn Artificial Analysis, GLM-5.2 single stream đạt 213 tok/s ở 10k token input/1,5k token output
- Con số này không đứng đầu leaderboard của Artificial Analysis, nhưng Wafer cho rằng nó có lợi thế về chi phí trên hiệu năng
- Bài test được serving trên năng lực AMD MI355X của TensorWave
Quantization và lựa chọn framework suy luận
- Bước đầu tiên là quantization và lựa chọn framework; Wafer quantize GLM-5.2 nền bf16 sang MXFP4 bằng AMD Quark
- So với quantization FP8 chính thức của z-ai, MXFP4 được đánh giá là gần như không suy giảm trên GPQA-Diamond, tau2 và GSM8K
| Đánh giá | Mốc FP8 | MXFP4 | Δ |
|---|---|---|---|
| GSM8K, 200 câu hỏi, 5-shot, greedy | 0.965 ± 0.013 | 0.955 ± 0.014 | −0.010 |
| GPQA-Diamond, 198 câu hỏi × 2 seeds, temp 1.0 | 0.9217 ± 0.027 | 0.9026 ± 0.029 | −0.019 |
| tau2 macro | 0.819 | 0.834 | +0.015 |
- Có 3 ứng viên framework suy luận: vLLM, ATOM, sglang
- vLLM không dùng được đường dẫn MXFP4 + GlmMoeDsa, nên không tận dụng được lợi ích của trọng số MXFP4
- ATOM làm giảm chất lượng output ở context dài
- sglang có ít ma sát nhất trước khi được hỗ trợ native, đồng thời tận dụng quantization và vẫn duy trì output nhất quán
Hai vấn đề cản speculative decode
- Để cải thiện throughput, Wafer định bật speculative decode trong sglang, nhưng image sglang ROCm không hỗ trợ mặc định
- Để MTP hoạt động đúng cần hai sửa đổi
- Vấn đề đầu tiên là shared expert của MTP head được lưu bằng bf16, nhưng cơ chế tra cứu quantization của sglang lại cố build nó thành MXFP4 do không khớp module prefix
- Quark đặt tên shared expert bf16 là
model.layers.78.mlp.shared_experts.* - Prefix thực tế của MTP layer là
model.decoder.* - Do sự không khớp này, khi load, hệ thống cố đọc trọng số bf16 full-width vào slot 4-bit half-width, khiến khởi tạo thất bại vì shape mismatch
- Wafer sao chép thêm một lần các mục layer 78 sang tên decoder mà sglang thực sự dùng, mở được speculative decode và throughput single stream tăng gần 3 lần
- Quark đặt tên shared expert bf16 là
- Vấn đề thứ hai là speculative decode sâu như cấu hình 5/1/6 do z-ai đề xuất bị chặn
- Kernel fused multi-step metadata cần cho draft depth từ 4 trở lên viết
#include <cuda_runtime.h>mà không có guard ROCm - Sửa bằng một guard
#ifdef USE_ROCM
- Kernel fused multi-step metadata cần cho draft depth từ 4 trở lên viết
- Sau khi speculative decode hoạt động bình thường, Wafer thêm tối ưu cấu hình như
--kv-cache-dtype fp8_e4m3,--enable-aiter-allreduce-fusionvà đạt decode single stream 213 tok/s
Nút thắt throughput tổng hợp và tinh chỉnh MoE
- Trong workload được định nghĩa, chỉ tối ưu decode là chưa đủ; với điều kiện 20k input và cache 60%, nút thắt chính là prefill
- Ở cấu hình TP8 tối ưu cho decode single stream, MI355X chạy GLM-5.2-MXFP4 ở mức 1461 tok/s/node
- Khi chuyển sang TP4×DP2, cùng workload đạt 1944 tok/s/node và 2,0 RPS
- Tuy nhiên, hiệu năng Blackwell mà Wafer đo được là 3192 tok/s/node ở 3,0 RPS, và hiệu năng prefill của MI355X tương đối chậm hơn
- Lý do lớn là fp4 MoE của GLM-5.2 trong image sglang âm thầm rơi về fallback heuristic FlyDSL chậm
- aiter chỉ cung cấp cấu hình đã tinh chỉnh cho đường dẫn a8w8/fp8
- Wafer tự tinh chỉnh lựa chọn kernel MoE cho shape fp4 của GLM
- Shape mục tiêu là
model_dim 6144,moe_inter 2048,E=256,topk=8
- Nhờ tinh chỉnh này, throughput tổng hợp đạt 2626 tok/s/node và 2,4 RPS
Những gì cần để đạt hiệu năng SOTA trên AMD
- Quá trình đạt chi phí trên hiệu năng tốt nhất trên MI355X có một mức ma sát nhất định, nhưng được đánh giá là không quá khó
- Khác với công việc Qwen3.5 397B, lần này Wafer không viết custom kernel
- Nghiên cứu này không xét hiệu năng multi-node, nhưng triển khai single-node vẫn được dùng rộng rãi trong môi trường thực tế
- Vấn đề đạt hiệu năng SOTA trên AMD ngày càng trở thành vấn đề hỗ trợ hơn là bản thân phần mềm
- Kết luận là CUDA moat đang suy yếu theo thời gian thực
1 bình luận
Các ý kiến trên Hacker News
Mong rằng trong những so sánh như thế này cũng đưa hiệu năng trên mỗi watt vào làm chỉ số. Tôi muốn biết AMD đang ở vị trí nào về chi phí so với hiệu năng thực tế.
Khi nói chuyện với các công ty muốn xây trung tâm dữ liệu bên ngoài Mỹ, họ nói rằng rất khó bảo đảm đủ lượng hàng Nvidia ở quy mô cần thiết.
Nếu AMD cạnh tranh được về hiệu năng trên mỗi watt và hỗ trợ phần mềm nhìn chung đáng tin cậy, thì điều đó khá quan trọng ở ngoài Mỹ, nơi giá điện thường tương đối đắt hơn.
Nếu họ giúp các trung tâm dữ liệu quy mô nhỏ trở nên khả thi với mức giá hợp lý, AMD có vẻ có thể trở thành một phần của stack ở những khu vực nguồn cung Nvidia bị hạn chế.
Tuy nhiên tôi không rõ việc mua GPU AMD trên thực tế ra sao, và ngoài Wafer ở Mỹ cùng vài công ty khác, tôi hầu như chưa thấy công ty nào dùng AMD, nên cũng có thể tôi đang bị kẹt trong bong bóng Nvidia.
Nếu giả định chạy liên tục 100% trong 8 năm thì vào khoảng 1 GWh; ngay cả ở nơi điện đắt như Đức cũng chỉ khoảng 100.000 euro, nên so với giá thiết bị ban đầu 500.000 USD thì chi phí trải trong 8 năm không quá lớn.
Vấn đề thật sự của mức tiêu thụ điện cao không phải là tiền điện, mà là giới hạn nguồn điện có thể kéo vào trung tâm dữ liệu. Một cấu hình hiệu quả hơn nghĩa là có thể đặt nhiều thiết bị hơn trong cùng giới hạn cấp điện.
Thị trường thật sự cần một đối thủ thực chất của Nvidia, đặc biệt là về hiệu năng/watt.
OpenAI cũng vậy: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
Nghe thì ấn tượng, nhưng trong sử dụng thực tế, lượng tử hóa FP4 gần như không mất mát là điều rất hiếm. Nhiều nhà cung cấp quảng cáo số token/giây cao với Kimi và GLM, nhưng mô hình trở nên bị tiết chế về mặt chức năng và không còn gần chất lượng tuyến đầu nữa.
Tôi mong điều này không đúng.
Điều này khác với GLM, vốn mặc định là độ chính xác 16-bit và 8-bit cũng được dùng phổ biến.
Vì vậy mọi người nên tạo ra lượng tử hóa MXFP6, gần như không mất mát và có hiệu năng gần FP4 hơn nhiều so với FP8.
Tôi chưa kiểm thử đủ các mô hình do Nvidia chuyển sang NVFP4 ngoài GLM 5.2, nhưng với tôi thì trông ổn.
Kết quả tôi tự dùng thì rất thất thường tùy mô hình.
Tôi tưởng bài viết sẽ bàn về con đường cải thiện để nhanh hơn và rẻ hơn, nhưng trong bài này có vẻ họ cung cấp phiên bản lượng tử hóa với cùng mức giá như bản đầy đủ, còn bản nhanh thì bán đắt hơn nhiều.
Chẳng phải điều này gần như hiển nhiên sao? Hiệu năng trên mỗi đô la phải cải thiện theo một chiều như bánh cóc. Thứ đắt hơn thì thay thế thứ rẻ hơn bằng cách nào được?
Tôi nghĩ những tiêu đề kiểu này nên bị coi là bất hợp pháp nếu không nêu rõ phương pháp lượng tử hóa.
.aihay không. Nếu thấy nó, khả năng rất cao đó là bài ít công sức, câu view, nông, vô dụng hoặc có tính lừa đảo.Tính toán trong bộ nhớ và mô hình neuromorphic có khả năng sẽ đẩy xu hướng này đi xa hơn nhiều trong 10 năm tới.
Khi những cải tiến cấp tiến hơn bước ra khỏi phòng thí nghiệm, cuối cùng sẽ có vật liệu mới và linh kiện nano tham gia, và hiệu suất có thể cải thiện theo nhiều bậc độ lớn.
Chỉ riêng việc mở rộng các công nghệ hiện có như MRAM cũng còn nhiều dư địa.
Khi chuyển từ fp8 sang mxfp4, độ chính xác giảm thấy rõ.
Vậy mà họ vẫn khoe rằng đã giảm chi phí thêm bằng lượng tử hóa, trong khi phần triển khai rõ ràng còn thiếu sót.
[1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
Đây không phải hiện tượng mới. Hiệu năng trên mỗi đô la đã cải thiện theo cấp số nhân khá đều đặn từ khoảng năm 1900.
1900~2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
1939~2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...
Việc cạnh tranh với Blackwell không có gì đáng ngạc nhiên. Rubin nhanh hơn Blackwell 5 lần trong suy luận, và Blackwell là thế hệ cuối cùng mà Nvidia chưa tối ưu chuyên biệt cho suy luận.
Nếu tôi bỏ sót điều gì thì mong được chỉ ra.
Tôi thấy có cấu hình tách rời giữa node prefill và node decoding, nhưng ngoài ra thì còn gì nữa không rõ.
Đặc biệt đúng trong bối cảnh nhiều đồng tiền đang suy yếu.