1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong bối cảnh nhu cầu suy luận vượt nguồn cung, chi phí GPU NVIDIA và token tăng lên, AMD MI355X nổi lên như một lựa chọn suy luận chi phí thấp khi trung bình rẻ hơn khoảng 2,75 lần trên mỗi GPU so với B300
  • Dòng AMD Instinct MI350 cạnh tranh với Blackwell ở cấp độ silicon, nhưng lợi thế phần mềm và hỗ trợ day-0 của NVIDIA quyết định tốc độ serving thực tế và độ khó khi triển khai
  • Wafer đã tối ưu GLM-5.2 trên MI355X và đạt 2626 tok/s/node cùng 2,4 rps trong workload 20k input/1k output, tỷ lệ cache hit 60%; mức này bằng 80% hiệu năng đo được trên B200
  • Với single stream, hệ thống ghi nhận 213 tok/s ở 10k token input/1,5k token output; dù không đứng đầu leaderboard, Wafer cho rằng nó có lợi thế về chi phí trên hiệu năng
  • Kết quả này đạt được không cần custom kernel, mà nhờ sửa lỗi framework, quantization, speculative decode và tinh chỉnh lựa chọn kernel MoE, nên thách thức của AMD ngày càng gần với vấn đề hỗ trợ hơn là bản thân phần mềm

Chi phí suy luận của AMD và khoảng cách phần mềm với NVIDIA

  • Nhu cầu suy luận đang tăng nhanh và vượt nguồn cung; khi các mô hình tuyến đầu như Claude Fable, GLM-5.2, Minimax M3 gần như ra mắt cách tuần, nhu cầu token cũng tăng theo
  • Nguồn cung Blackwell chưa đủ, khiến giá GPU NVIDIA và chi phí token cùng có xu hướng đắt hơn
  • AMD MI355X trung bình rẻ hơn khoảng 2,75 lần trên mỗi GPU so với B300, trong khi thông số phần cứng ở mức có thể so sánh
  • Dòng AMD Instinct MI350 cạnh tranh với Blackwell ở cấp độ silicon, nhưng nhờ hỗ trợ day-0 và hệ sinh thái phần mềm, NVIDIA có thể serving suy luận cho các mô hình mới nhất nhanh hơn và ít ma sát hơn
  • Trên MI355X và stack ROCm, hiệu năng SOTA của các mô hình tuyến đầu mới nhất thường không có sẵn mặc định, và đôi khi ngay cả việc tìm một image chạy được cũng có thể khó
  • Nếu không có hỗ trợ day-0, việc build và tối ưu mô hình mới nhất cần nhiều tuần kỹ thuật và compute; trong thời gian đó, mô hình mới hơn lại xuất hiện, khiến AMD tiếp tục ở thế phải đuổi theo

Hiệu năng GLM-5.2 trên MI355X

  • Wafer cho rằng khi các agent cải thiện trong tối ưu kernel và mô hình, khoảng cách thực tế giữa AMD và NVIDIA đang thu hẹp
  • Trong workload 20k input/1k output, tỷ lệ cache hit 60%, hệ thống đạt 2626 tok/s/node
    • RPS duy trì là 2,4 rps
    • Knee được định nghĩa là TTFT từ 5 giây trở xuống
    • Bằng 80% hiệu năng đo được trên B200
    • MI355X rẻ hơn hơn 2 lần
RPS duy trì Tổng tok/s/node TTFT p50 / p95 Tỷ lệ thành công
0.5 449 0.59s / 0.60s 100%
1.0 974 0.60s / 0.81s 100%
1.5 1913 0.62s / 1.03s 100%
2.0 1944 0.62s / 1.05s 100%
2.25 2089 0.63s / 1.23s 100%
2.4 bão hòa 2626 0.81s / 2.22s 100%
  • Theo chuẩn Artificial Analysis, GLM-5.2 single stream đạt 213 tok/s ở 10k token input/1,5k token output
  • Con số này không đứng đầu leaderboard của Artificial Analysis, nhưng Wafer cho rằng nó có lợi thế về chi phí trên hiệu năng
  • Bài test được serving trên năng lực AMD MI355X của TensorWave

Quantization và lựa chọn framework suy luận

  • Bước đầu tiên là quantization và lựa chọn framework; Wafer quantize GLM-5.2 nền bf16 sang MXFP4 bằng AMD Quark
  • So với quantization FP8 chính thức của z-ai, MXFP4 được đánh giá là gần như không suy giảm trên GPQA-Diamond, tau2 và GSM8K
Đánh giá Mốc FP8 MXFP4 Δ
GSM8K, 200 câu hỏi, 5-shot, greedy 0.965 ± 0.013 0.955 ± 0.014 −0.010
GPQA-Diamond, 198 câu hỏi × 2 seeds, temp 1.0 0.9217 ± 0.027 0.9026 ± 0.029 −0.019
tau2 macro 0.819 0.834 +0.015
  • Có 3 ứng viên framework suy luận: vLLM, ATOM, sglang
    • vLLM không dùng được đường dẫn MXFP4 + GlmMoeDsa, nên không tận dụng được lợi ích của trọng số MXFP4
    • ATOM làm giảm chất lượng output ở context dài
    • sglang có ít ma sát nhất trước khi được hỗ trợ native, đồng thời tận dụng quantization và vẫn duy trì output nhất quán

Hai vấn đề cản speculative decode

  • Để cải thiện throughput, Wafer định bật speculative decode trong sglang, nhưng image sglang ROCm không hỗ trợ mặc định
  • Để MTP hoạt động đúng cần hai sửa đổi
  • Vấn đề đầu tiên là shared expert của MTP head được lưu bằng bf16, nhưng cơ chế tra cứu quantization của sglang lại cố build nó thành MXFP4 do không khớp module prefix
    • Quark đặt tên shared expert bf16 là model.layers.78.mlp.shared_experts.*
    • Prefix thực tế của MTP layer là model.decoder.*
    • Do sự không khớp này, khi load, hệ thống cố đọc trọng số bf16 full-width vào slot 4-bit half-width, khiến khởi tạo thất bại vì shape mismatch
    • Wafer sao chép thêm một lần các mục layer 78 sang tên decoder mà sglang thực sự dùng, mở được speculative decode và throughput single stream tăng gần 3 lần
  • Vấn đề thứ hai là speculative decode sâu như cấu hình 5/1/6 do z-ai đề xuất bị chặn
    • Kernel fused multi-step metadata cần cho draft depth từ 4 trở lên viết #include <cuda_runtime.h> mà không có guard ROCm
    • Sửa bằng một guard #ifdef USE_ROCM
  • Sau khi speculative decode hoạt động bình thường, Wafer thêm tối ưu cấu hình như --kv-cache-dtype fp8_e4m3, --enable-aiter-allreduce-fusion và đạt decode single stream 213 tok/s

Nút thắt throughput tổng hợp và tinh chỉnh MoE

  • Trong workload được định nghĩa, chỉ tối ưu decode là chưa đủ; với điều kiện 20k input và cache 60%, nút thắt chính là prefill
  • Ở cấu hình TP8 tối ưu cho decode single stream, MI355X chạy GLM-5.2-MXFP4 ở mức 1461 tok/s/node
  • Khi chuyển sang TP4×DP2, cùng workload đạt 1944 tok/s/node và 2,0 RPS
  • Tuy nhiên, hiệu năng Blackwell mà Wafer đo được là 3192 tok/s/node ở 3,0 RPS, và hiệu năng prefill của MI355X tương đối chậm hơn
  • Lý do lớn là fp4 MoE của GLM-5.2 trong image sglang âm thầm rơi về fallback heuristic FlyDSL chậm
    • aiter chỉ cung cấp cấu hình đã tinh chỉnh cho đường dẫn a8w8/fp8
    • Wafer tự tinh chỉnh lựa chọn kernel MoE cho shape fp4 của GLM
    • Shape mục tiêu là model_dim 6144, moe_inter 2048, E=256, topk=8
  • Nhờ tinh chỉnh này, throughput tổng hợp đạt 2626 tok/s/node và 2,4 RPS

Những gì cần để đạt hiệu năng SOTA trên AMD

  • Quá trình đạt chi phí trên hiệu năng tốt nhất trên MI355X có một mức ma sát nhất định, nhưng được đánh giá là không quá khó
  • Khác với công việc Qwen3.5 397B, lần này Wafer không viết custom kernel
  • Nghiên cứu này không xét hiệu năng multi-node, nhưng triển khai single-node vẫn được dùng rộng rãi trong môi trường thực tế
  • Vấn đề đạt hiệu năng SOTA trên AMD ngày càng trở thành vấn đề hỗ trợ hơn là bản thân phần mềm
  • Kết luận là CUDA moat đang suy yếu theo thời gian thực

1 bình luận

 
Các ý kiến trên Hacker News
  • Mong rằng trong những so sánh như thế này cũng đưa hiệu năng trên mỗi watt vào làm chỉ số. Tôi muốn biết AMD đang ở vị trí nào về chi phí so với hiệu năng thực tế.
    Khi nói chuyện với các công ty muốn xây trung tâm dữ liệu bên ngoài Mỹ, họ nói rằng rất khó bảo đảm đủ lượng hàng Nvidia ở quy mô cần thiết.
    Nếu AMD cạnh tranh được về hiệu năng trên mỗi watt và hỗ trợ phần mềm nhìn chung đáng tin cậy, thì điều đó khá quan trọng ở ngoài Mỹ, nơi giá điện thường tương đối đắt hơn.
    Nếu họ giúp các trung tâm dữ liệu quy mô nhỏ trở nên khả thi với mức giá hợp lý, AMD có vẻ có thể trở thành một phần của stack ở những khu vực nguồn cung Nvidia bị hạn chế.
    Tuy nhiên tôi không rõ việc mua GPU AMD trên thực tế ra sao, và ngoài Wafer ở Mỹ cùng vài công ty khác, tôi hầu như chưa thấy công ty nào dùng AMD, nên cũng có thể tôi đang bị kẹt trong bong bóng Nvidia.

    • DGX B200 có giá khoảng 500.000 USD và tiêu thụ khoảng 14 kW điện.
      Nếu giả định chạy liên tục 100% trong 8 năm thì vào khoảng 1 GWh; ngay cả ở nơi điện đắt như Đức cũng chỉ khoảng 100.000 euro, nên so với giá thiết bị ban đầu 500.000 USD thì chi phí trải trong 8 năm không quá lớn.
      Vấn đề thật sự của mức tiêu thụ điện cao không phải là tiền điện, mà là giới hạn nguồn điện có thể kéo vào trung tâm dữ liệu. Một cấu hình hiệu quả hơn nghĩa là có thể đặt nhiều thiết bị hơn trong cùng giới hạn cấp điện.
    • Có vài nơi đang dùng AMD, và còn nhiều nơi hơn đã bắt đầu thử nghiệm. Tuy vậy AMD đã gây thất vọng trong lĩnh vực này suốt một thời gian dài, nên tôi thận trọng khi lạc quan rằng cuối cùng cũng có cạnh tranh.
      Thị trường thật sự cần một đối thủ thực chất của Nvidia, đặc biệt là về hiệu năng/watt.
    • Meta đang dùng AMD: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd...
      OpenAI cũng vậy: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
    • Cũng đáng nhớ rằng trong nhiều năm qua AMD về cơ bản đã thống trị phần cứng của máy chơi game console. Và hiện cũng chưa có dấu hiệu sẽ sớm kết thúc.
    • Thông thường, nếu một công ty không được Nvidia đáp ứng đủ đơn hàng thì ít nhất họ cũng có một số GPU AMD.
  • Nghe thì ấn tượng, nhưng trong sử dụng thực tế, lượng tử hóa FP4 gần như không mất mát là điều rất hiếm. Nhiều nhà cung cấp quảng cáo số token/giây cao với Kimi và GLM, nhưng mô hình trở nên bị tiết chế về mặt chức năng và không còn gần chất lượng tuyến đầu nữa.
    Tôi mong điều này không đúng.

    • Kimi dùng INT4 làm định dạng mặc định, nên với mô hình đó không có khái niệm “tốt hơn độ chính xác 4-bit”.
      Điều này khác với GLM, vốn mặc định là độ chính xác 16-bit và 8-bit cũng được dùng phổ biến.
    • MI355X có thể thực hiện phép toán FP6 ở cùng tốc độ với FP4. Đây là điểm riêng của AMD.
      Vì vậy mọi người nên tạo ra lượng tử hóa MXFP6, gần như không mất mát và có hiệu năng gần FP4 hơn nhiều so với FP8.
    • Chẳng phải Nvidia cũng tuyên bố NVFP4 là không mất mát sao?
      Tôi chưa kiểm thử đủ các mô hình do Nvidia chuyển sang NVFP4 ngoài GLM 5.2, nhưng với tôi thì trông ổn.
      Kết quả tôi tự dùng thì rất thất thường tùy mô hình.
    • Tôi cũng chú ý ngay đến điểm đó đầu tiên.
    • Theo trí nhớ thì hình như khoảng 96~98% độ chính xác.
  • Tôi tưởng bài viết sẽ bàn về con đường cải thiện để nhanh hơn và rẻ hơn, nhưng trong bài này có vẻ họ cung cấp phiên bản lượng tử hóa với cùng mức giá như bản đầy đủ, còn bản nhanh thì bán đắt hơn nhiều.

  • Chẳng phải điều này gần như hiển nhiên sao? Hiệu năng trên mỗi đô la phải cải thiện theo một chiều như bánh cóc. Thứ đắt hơn thì thay thế thứ rẻ hơn bằng cách nào được?

  • Tôi nghĩ những tiêu đề kiểu này nên bị coi là bất hợp pháp nếu không nêu rõ phương pháp lượng tử hóa.

    • Là MXFP4.
    • Tôi cũng muốn cấm dùng “Why this matters” trong tiêu đề.
    • Một bộ lọc tốt là kiểm tra xem đuôi có phải .ai hay không. Nếu thấy nó, khả năng rất cao đó là bài ít công sức, câu view, nông, vô dụng hoặc có tính lừa đảo.
  • Tính toán trong bộ nhớ và mô hình neuromorphic có khả năng sẽ đẩy xu hướng này đi xa hơn nhiều trong 10 năm tới.
    Khi những cải tiến cấp tiến hơn bước ra khỏi phòng thí nghiệm, cuối cùng sẽ có vật liệu mới và linh kiện nano tham gia, và hiệu suất có thể cải thiện theo nhiều bậc độ lớn.
    Chỉ riêng việc mở rộng các công nghệ hiện có như MRAM cũng còn nhiều dư địa.

  • Khi chuyển từ fp8 sang mxfp4, độ chính xác giảm thấy rõ.

    • Wafer đã dừng gói lập trình flagship của chính họ, Wafer Pass, chỉ vài tuần sau khi ra mắt, và thậm chí còn phải hoàn tiền theo tỷ lệ.
      Vậy mà họ vẫn khoe rằng đã giảm chi phí thêm bằng lượng tử hóa, trong khi phần triển khai rõ ràng còn thiếu sót.
      [1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
    • Thế mà bằng cách nào đó họ vẫn khẳng định là “không mất mát”.
  • Đây không phải hiện tượng mới. Hiệu năng trên mỗi đô la đã cải thiện theo cấp số nhân khá đều đặn từ khoảng năm 1900.
    1900~2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
    1939~2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...

  • Việc cạnh tranh với Blackwell không có gì đáng ngạc nhiên. Rubin nhanh hơn Blackwell 5 lần trong suy luận, và Blackwell là thế hệ cuối cùng mà Nvidia chưa tối ưu chuyên biệt cho suy luận.
    Nếu tôi bỏ sót điều gì thì mong được chỉ ra.

    • Rất không rõ điểm gì ở Rubin có thể nói là đã được tối ưu cho suy luận.
      Tôi thấy có cấu hình tách rời giữa node prefill và node decoding, nhưng ngoài ra thì còn gì nữa không rõ.
    • Suy luận bị giới hạn bởi băng thông bộ nhớ, vậy làm sao có thể làm suy luận nhanh hơn 5 lần? Để có băng thông bộ nhớ gấp 5 lần H100 có vẻ khó về mặt vật lý.
  • Đặc biệt đúng trong bối cảnh nhiều đồng tiền đang suy yếu.