AMD chiplet APU: Tổng quan về Strix Halo

(chipsandcheese.com)

1 điểm bởi GN⁺ 2025-10-20 | 1 bình luận | Chia sẻ qua WhatsApp

Strix Halo là APU chiplet cho khách hàng doanh nghiệp lớn nhất mà AMD đã ra mắt, được thiết kế để xử lý tích hợp các tác vụ CPU và GPU hiệu năng cao
Với 16 lõi Zen 5 và 40 compute unit iGPU RDNA 3.5, nó cung cấp hiệu năng gần bằng CPU desktop và GPU rời tầm trung
Sử dụng bus bộ nhớ LPDDR5X-8000 và Infinity Cache 32MB để tạo môi trường băng thông cao và độ trễ thấp
Hiệu năng iGPU vượt trội so với các APU di động trước đây và trong một số môi trường còn có thể cạnh tranh với GPU rời tầm trung
Hiệu năng ML (machine learning) đang chờ hỗ trợ ROCm, vì vậy có thể kỳ vọng khả năng mở rộng và tiềm năng phát triển trong tương lai

Giới thiệu và tổng quan sản phẩm

Strix Halo là APU chiplet cho khách hàng do AMD công bố đầu tiên tại CES 2025
Dù là bộ xử lý di động, nó vẫn hướng đến hiệu năng tương đương desktop với dải TDP 55W~120W, và có thể đạt hiệu năng cao mà không cần GPU rời riêng
Kiến trúc Zen 5 16 lõi (CCD đôi 8 lõi) cùng với FPU 512b giống hệt sản phẩm desktop
Hỗ trợ xung tăng tối đa 5.1GHz (thấp hơn Ryzen 9 9950X desktop 600MHz)
iGPU RDNA 3.5 làm nhiệm vụ GPU chính: 40 compute unit, 32MB Infinity Cache, xung boost 2.9GHz → hiệu năng tính toán ở mức RX 7600 XT~RX 7700
Bus bộ nhớ LPDDR5X-8000 256b (tối đa 256GB/s, chia sẻ cho tất cả các thành phần; thấp hơn RX 7600 XT 288GB/s ở mức nhẹ, nhưng vượt trội so với APU trước đây) được triển khai

Môi trường kiểm thử và thiết bị

Dùng Asus ROG Flow Z13 (2025) và HP ZBook Ultra G1a 14” để đo hiệu năng thực tế
ROG Flow Z13 dùng cho thử nghiệm tập trung game, còn ZBook Ultra G1a dùng cho microbenchmarking

Góc nhìn bộ nhớ từ góc độ CPU

Độ trễ bộ nhớ: So với Strix Point (~128ns), Strix Halo (~123ns) gần như không khác biệt
CPU không thể truy cập trực tiếp vào Infinity Cache 32MB trong die IO; điều này đã được xác nhận chính thức qua phỏng vấn
CPU desktop (9950X) có độ trễ khoảng 75~80ns, thấp hơn đáng kể so với mobile
Băng thông bộ nhớ: Với 16 lõi đạt hơn 175GB/s trong phép toán đọc-sửa-cộng thuần, đọc có thể đạt tới 124GB/s
- Băng thông của một CCD đơn lẻ là 64GB/s (đọc), 43GB/s (ghi), thực tế khoảng 103GB/s tổng cộng
- Liên kết CCD-IO die giống desktop là 2000MHz, truyền 32 byte mỗi chu kỳ

Hiệu năng CPU

CPU Strix Halo đạt hiệu năng tính toán số nguyên tương đương đầu bảng desktop thế hệ trước (7950X), dù tốc độ xung giảm 11.7%
Hiệu năng dấu phẩy động tiệm cận flagship hiện tại (9950X), thậm chí có hiện tượng vượt ở một số bài con
Trong các subtest SPEC CPU 2017 Integer/FP, Strix Halo tiệm cận hoặc vượt 9950X ở một số mục, tuy nhiên độ trễ bus LPDDR5X cao hơn tạo ra chênh lệch nhỏ

Kiến trúc bộ nhớ từ góc nhìn GPU

Băng thông bộ nhớ của GPU Strix Halo là cao nhất so với mọi mobile SoC
So với RTX 5070 Mobile, băng thông bộ nhớ của nó vẫn thấp hơn 50%
Hiệu năng Infinity Cache (MALL) cao hơn 40% so với L2 của 5070M, và dung lượng cũng lớn hơn 33%. Cache L2 4MB cung cấp băng thông 2.5TB/s
Độ trễ cache L2 của Strix Halo thấp hơn L2 của 5070M, trong khi trễ của 32MB MALL tương đương L2 của 5070M
Độ trễ bộ nhớ tổng thể thấp hơn 35% so với 5070M

Thông lượng xử lý GPU (Throughput)

Thông lượng xử lý dấu phẩy động: khoảng 2.5 lần Strix Point, tương đương hoặc vượt 5070M
- Kết quả FP16, Strix Halo chưa đạt kỳ vọng của 5070M (có lẽ do đặc điểm đặc biệt của benchmark)
Thông lượng xử lý số nguyên: 5070M cao hơn Radeon 8060S

Hiệu năng GPU và gaming

Với tư cách là iGPU, Strix Halo vượt trội rõ rệt so với các iGPU Intel/AMD trước đây và gần như có thể cạnh tranh với GPU rời
Trong thử nghiệm game có độ chênh lớn (Cyberpunk 2077):
- Ở chế độ pin: Radeon 8060S có hiệu năng 1080p tốt hơn 5070M 7.5% trong cùng điều kiện
- Ở chế độ nguồn AC: tại 1080p, Radeon 8060S dẫn trước 2.5%, tại 1440p thì 5070M dẫn 8.3%
- Tùy theo thiết lập chi tiết và điều kiện công suất, cả hai đều thể hiện năng lực cạnh tranh, và iGPU có thể đạt hiệu năng thực tế tương đương với GPU rời
Trong Fluid X3D và workload tính toán, Radeon 8060S vượt qua hoàn toàn các iGPU cũ của Intel/AMD

Kết luận

Strix Halo đặt mục tiêu là một SoC tích hợp CPU-GPU hiệu năng cao và thể hiện hiệu năng vượt trội trong nhiều môi trường sử dụng khác nhau
Nó cạnh tranh được với CPU Zen 5 desktop và GPU rời phân khúc trung cấp, đồng thời đáp ứng cả mobile/desktop
Duy trì độ hiệu quả và tính tích hợp (lợi thế của iGPU) đồng thời vẫn sở hữu hiệu năng cao
Không đứng đầu so với GPU rời cao cấp chuyên dụng, nhưng trong thiết bị nhỏ và môi trường tích hợp, nó mang lại sự linh hoạt và hiệu năng tốt nhất
Hiệu năng ML cần phân tích tiếp theo vì việc hỗ trợ ROCm chậm; bài viết nhắc tới tiềm năng mở rộng và thiết kế bus bộ nhớ dung lượng lớn (tương tự Apple Max/Ultra)
Thiết kế thành công của Strix Halo được kỳ vọng là nền tảng cho việc mở rộng tương lai của dòng APU hiệu năng cao của AMD

1 bình luận

GN⁺ 2025-10-20

Ý kiến trên Hacker News

Tôi rất muốn thử một mini PC dùng sản phẩm này, nhưng ở châu Âu thì либо cực kỳ đắt либо gần như không thể mua được, còn đặt hàng trực tiếp từ Trung Quốc thì cũng ngại vấn đề bảo hành, ROCm 7 đã chạy được trên hầu hết các bản phân phối Linux rồi, nên dùng nó làm workstation hoặc máy chủ suy luận tại nhà cho LLM hay Ollama cùng các dịch vụ khác thì có vẻ rất tuyệt
- Tôi đã tìm được một sản phẩm giao từ Đức với giá tương đối hợp lý, có thể tham khảo BOSGAME M5 AI Mini Desktop
- Không biết bạn đã xem qua Corsair AI Workstation 300 Desktop PC chưa, tùy mẫu chọn mà giá khoảng 2000~2700 euro, tính cả VAT thì cảm giác cũng gần với mức giá tính theo USD ở Mỹ (1700~2300USD) Corsair AI Workstations
- Tôi đã đặt bản framework desktop 395 128GB với giá chưa tới 1900 euro, tính cả cấu hình bổ sung và phí vận chuyển thì hơn 2000 euro một chút, nhưng tôi không thấy mức giá đó là quá đắt
- Tôi hiểu rằng nguyên nhân chính khiến giá cao là bộ nhớ băng thông cao (dù so với GPU hiệu năng cao thực thụ thì băng thông bộ nhớ cũng chưa phải là quá lớn)
- ROCm đã tiến bộ rất nhiều, nhưng vì tôi vẫn gặp một vài vấn đề trên desktop RX9070XT nên nếu làm việc AI thì hiện tại tôi vẫn khuyên dùng giải pháp của Nvidia hoặc Apple, dù tôi nghĩ AMD sẽ sớm bắt kịp; hệ thống AI có hiệu quả giá/hiệu năng tốt nhất vẫn là tự ráp một desktop với hai chiếc RTX 3090 (tất nhiên cần mainboard hỗ trợ dual card), rồi cứ để nó chạy trong tủ đồ là được
So với mobile dGPU và cả sản phẩm DGX Spark (cuối cùng cũng đã thành hiện thực), thị trường này vẫn cho cảm giác là một phân khúc chưa hoàn thiện và còn nhiều tiềm năng; tôi không rõ vì sao DGX Spark bị trì hoãn lâu như vậy, nhưng điều đó đã tạo cơ hội để AMD giành thị phần trước; ưu điểm của GPU rời (kể cả bản mobile) là băng thông bộ nhớ, còn nhược điểm là điện năng tiêu thụ cao và dung lượng bộ nhớ hạn chế (tạm bỏ qua CUDA, dù rõ ràng đó là yếu tố rất lớn); nếu bổ sung các desktop nhỏ DGX Spark thì có thể dùng RDMA giữa nhiều thiết bị qua cổng mạng 200Gb đơn hoặc 100Gb kép, nên trong một số trường hợp có thể tận dụng tốt hơn số lượng máy tương đương Strix Halo 395, nhưng trong công việc thực tế thì có lẽ tôi sẽ dùng máy chủ GPU hoặc workstation Threadripper + GPU thay vì 4 chiếc DGX Spark, và việc DGX Spark không thể nhét vào laptop cũng là lợi thế cho Strix Halo; nói chung tôi xem đây là một thị trường ngách mới và rất mong chờ xem nó sẽ định hình ra sao qua vài thế hệ tới
- Thế hệ tiếp theo AMD dự kiến sẽ có Medusa Halo với bus LPDDR6 384-bit; nếu vậy thì có thể đạt gấp đôi dung lượng bộ nhớ và gấp 1,7 lần băng thông so với Strix Halo; vì Strix Halo đang thành công như một nền tảng suy luận nên tôi nghĩ phân khúc này sẽ tiếp tục tăng trưởng
- Nhân tiện thì không phải 200Gb kép mà là 200Gb đơn hoặc 100Gb kép
- “dGPU” thường có nghĩa là GPU rời, nên tôi tự hỏi có phải ý bạn là “iGPU” (đồ họa tích hợp) không; các sản phẩm Strix Halo cũng đang được marketing cho chơi game, nhưng hiệu năng thực tế có vẻ hơi lệch pha, CPU thì mạnh quá mức còn iGPU lại tương đối thiếu lực; dù vậy hiệu năng nhân ma trận (matmul) chắc chắn sẽ rất mạnh
- Mục đích chính của DGX Spark có vẻ là phát triển và thử nghiệm mô hình AI cục bộ, còn Strix Halo là iGPU trên nền amd64 nên vẫn dùng tốt cho các tác vụ PC truyền thống đồng thời đủ sức làm thiết bị AI cục bộ; theo tôi, Strix Halo có thể là điểm khởi đầu báo hiệu sự kết thúc của thời đại GPU rời trong laptop, và có vẻ Nvidia cũng nhận ra điều đó nên đang hợp tác với Intel để tạo giải pháp iGPU
Điều đáng tiếc là đã nửa năm kể từ khi ra mắt mà vẫn chỉ có hai mẫu laptop thực sự dùng được, trong đó mẫu hiệu năng cao thì chỉ có Z13; có cả sản phẩm của Framework nhưng ở nhiều nước lại không mua được, nên tôi nghĩ tệp khách hàng vẫn khá hạn chế; tôi thật sự rất thích Z13, nhưng rõ ràng đây cũng là một sản phẩm ngách; tôi không biết có phải đang có vấn đề trong sản xuất chip hay không, hay là Apple đang hút hết sản lượng
- Giá HP ZBook Ultra tại Mỹ cực kỳ cao, nhưng ở châu Âu thì lại ngang các laptop thông thường nên có cảm giác hợp lý; điều tôi tiếc là đã đặt ngay ngày đầu nên không thể chờ bản 128GB, nhưng về pin và hiệu năng thì đến giờ vẫn chưa thấy đối thủ nào theo kịp trong các tác vụ nặng mà tôi từng làm; ngoài laptop ra, các hãng như Beelink cũng đang làm NUC có giá hợp lý; tôi đồng ý là tình trạng khan hàng khiến việc đánh giá cơ hội trở nên khó khăn hơn
- HP ZBook Ultra G1a là một lựa chọn tốt vì có thể cấu hình tối đa 128GB RAM
- Beelink, GMKtec, Minisforum, Corsair cũng đang ra mắt sản phẩm
- Ở phần lớn châu Âu, không thể mua Z13 với cấu hình RAM trên 32GB, và cũng thường không có bảo hành 2~3 năm, nên khá đáng tiếc; kết quả là tôi có thể phải mua Framework 13 với RAM/CPU/GPU yếu hơn, điều này khiến tôi không hài lòng
High Yield đã đăng một video phân tích rất sâu chip 395 ở cấp độ silicon, rất đáng tham khảo High Yield - 395 Chip Deep Dive
Tôi tò mò không biết trên framework desktop có thể đặt TDP (giới hạn điện năng) cao hơn không; chiếc desktop này trông có hệ thống tản nhiệt tốt hơn nhiều so với các laptop dùng cùng con chip, nên biết đâu hiệu năng thực tế cũng khác
- Có thể đặt 140W duy trì, 160W burst (khoảng 10 giây)
- Tôi chưa đo điện năng tiêu thụ, nhưng đang dùng mainboard Framework trong một case ITX lớn hơn để cải thiện làm mát; PC chính của tôi là 7950X3D, còn Strix unit cũng có cùng số nhân/số luồng và trong benchmark thì gần như không có khác biệt; vì thế việc đạt được hiệu năng tính toán cấp desktop trên một thiết bị vốn là laptop thật sự rất ấn tượng
Tôi từng đọc ở đâu đó rằng lý do chính khiến APU này không đạt hiệu quả năng lượng như sản phẩm Apple là do các quyết định thiết kế để dùng chung với kiến trúc Epyc; theo lập luận đó thì đã có một đánh đổi khiến hiệu quả ở mức điện năng thấp kém đi, không biết có ai xác minh được không
- Trong bài review của Hardware Canucks có bài test M4 Pro (3nm thế hệ 2) và 395+ (4nm) ở mức 50W, kết quả khá tương đương nhau, nên điều này có thể được giải thích bằng khác biệt tiến trình 3nm so với 4nm YouTube review
- APU cũng ổn, nhưng chắc chắn không thể theo kịp băng thông bộ nhớ của m3 ultra; bù lại thì rẻ hơn rất nhiều; tôi đang cân nhắc thay desktop cũ, và điều quan trọng là có thể mượn tạm GPU ngoài (như A6000) từ công ty và không mất quá nhiều thời gian để thiết lập
Tôi đã mua framework desktop để thử nghiệm, và dù kích thước nhỏ nhưng đây thực sự là một cỗ máy rất ấn tượng; hy vọng sau này sẽ có thêm nhiều sự quan tâm và đóng góp từ cộng đồng kỹ sư cho những sản phẩm như thế này; một hệ sinh thái hỗ trợ tốt cho vulkan hay rocm sẽ có lợi cho tất cả mọi người
Tôi có một câu hỏi liên quan: nếu tự ráp Zen 5 CPU desktop + RX 7600 XT + RAM thì có thể tạo ra một cấu hình giá rẻ kiểu Strix Halo hay Apple Silicon, nơi bộ nhớ hệ thống và GPU cùng chia sẻ băng thông bộ nhớ, hay không, và liệu có thể chạy LLM lớn cục bộ với mức giá hợp lý không; thêm nữa, tôi không chắc lắm nhưng hiểu rằng chỉ APU mới chia sẻ bộ nhớ kiểu đó còn GPU rời thì không, không biết có đúng không
- Với GPU có bộ nhớ tách biệt về mặt vật lý thì đó không phải là bộ nhớ “hợp nhất” (unified); trong trường hợp đó GPU truy cập qua bus PCIe, và đây là nút thắt băng thông khá lớn; PCIe 5.0 x16 tối đa là 64GB/s, mà cũng không phải GPU nào cũng hỗ trợ mức đó
Tôi tò mò không biết hiệu năng đồ họa có thể cạnh tranh với 5070M hay không; nếu giá và điện năng tiêu thụ hợp lý thì trông rất hấp dẫn
- Mức tiêu thụ điện khoảng 75W, có thể tăng thủ công nhưng trong mọi trường hợp vẫn dưới 100W (đây là thông tin tôi có được khi tìm hiểu về Z13); bản thân con chip này chịu được mức điện cao hơn, và ASUS vốn là hãng thường cấp hơn 130W cho laptop, nên con số 75W này hơi bất ngờ
Tôi tò mò hiệu năng GPU của nó so với GPU trên các máy Mac dòng M như thế nào

AMD chiplet APU: Tổng quan về Strix Halo

Giới thiệu và tổng quan sản phẩm

Môi trường kiểm thử và thiết bị

Góc nhìn bộ nhớ từ góc độ CPU

Hiệu năng CPU

Kiến trúc bộ nhớ từ góc nhìn GPU

Thông lượng xử lý GPU (Throughput)

Hiệu năng GPU và gaming

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News