Sự trở lại của CPU: Dự báo thị trường CPU trung tâm dữ liệu năm 2026

(newsletter.semianalysis.com)

5 điểm bởi GN⁺ 2026-02-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Với nhu cầu bùng nổ của học tăng cường và suy luận AI kiểu agentic, vai trò của CPU tại các trung tâm dữ liệu lại nổi lên, tạo nên chuyển dịch trong dòng đầu tư vốn vốn tập trung vào GPU
Intel đã trải qua sự gia tăng bất ngờ về nhu cầu CPU máy chủ cuối năm 2025, và vào năm 2026 đang mở rộng đầu tư thiết bị sản xuất, đồng thời chuyển wafer dành cho PC sang máy chủ
AMD Venice dự kiến áp dụng CCD Zen6c 256 nhân dựa trên quy trình N2 của TSMC và mạng mesh, dự báo khoảng cách về hiệu năng lẫn hiệu suất năng lượng so với Intel sẽ tiếp tục nới rộng
Các nhóm CPU ARM nội bộ của hyperscaler như NVIDIA, AWS, Microsoft, Google, ARM đang mở rộng nhanh chóng, khiến cấu trúc độc quyền x86 bị giải thể nhanh
Bao gồm cả Huawei Kunpeng 950, năm 2026 sẽ là năm cạnh tranh chưa từng có khi tất cả các nhà cung cấp đều ra mắt CPU thế hệ mới cùng lúc

Sự thay đổi và tiến hóa vai trò của CPU trung tâm dữ liệu

Từ thời đại PC đến thời đại Dot-com
- Trong thập niên 1990, hiệu năng của bộ vi xử lý PC tăng lên làm phát sinh nhu cầu thay thế mainframe và workstation, đưa Intel bước vào thị trường máy chủ với Pentium Pro (1995) và thương hiệu Xeon (1998)
- Vào thập niên 2000, trong thời đại internet, với Web 2.0, thương mại điện tử và sự bùng nổ của smartphone, CPU trung tâm dữ liệu phát triển thành một thị trường hàng tỷ USD
- Sau khi cuộc đua GHz chấm dứt, các đổi mới thiết kế như CPU đa lõi, tích hợp bộ điều khiển bộ nhớ (AMD), kết nối trực tiếp PCIe… đã diễn ra
- SMT (Simultaneous Multi-Threading) được hai hãng Intel và AMD triển khai để nâng cao hiệu năng xử lý song song
Thời đại hyperscaler điện toán ảo hóa và đám mây
- Cuối thập niên 2000, việc xuất hiện các dịch vụ công cộng như AWS đã chuyển mô hình đầu tư từ CapEx sang OpEx, tiến tới cả mô hình điện toán serverless (như AWS Lambda)
- Ảo hóa phần cứng CPU trở thành nền tảng cốt lõi của đám mây, với hypervisor (như VMware ESXi) vận hành nhiều VM độc lập trên một CPU duy nhất
- Năm 2018, lỗ hổng Spectre và Meltdown khiến nhu cầu vô hiệu hóa SMT nổi lên, gây thiệt hại hiệu năng tối đa 30%
  - Đe dọa an ninh đám mây trở nên hiện hữu khi tấn công lợi dụng cơ chế dự đoán nhánh
Thời đại tích hợp AI GPU và CPU
- Trong 5 năm trước khi ChatGPT ra mắt (tháng 11/2022), Intel đã xuất xưởng hơn 100 triệu CPU Xeon Scalable
- Việc huấn luyện và suy luận mô hình AI có hiệu quả hơn 100 đến 1000 lần trên các đơn vị vector quy mô lớn và Tensor Core của GPU
- CPU có hiệu năng nhân ma trận rất thấp hơn GPU, nên bị hạ xuống vai trò hỗ trợ và việc cấp phát công suất được ưu tiên cho GPU
- Việc sử dụng CPU phân hóa thành hai hướng:
  - Head node: cung cấp dữ liệu cho GPU và quản lý, yêu cầu hiệu năng lõi cao, cache dung lượng lớn, bộ nhớ băng thông cao (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3, v.v.)
  - Tích hợp socket cloud native: thay thế máy chủ cũ bằng CPU mới với tỷ lệ trên 10:1 để tối đa hóa hiệu suất năng lượng, các máy chủ Intel Cascade Lake tính bằng hàng triệu chiếc mua trong giai đoạn COVID đang ngừng sử dụng
Thời đại học tăng cường và AI agentic
- Tại trung tâm dữ liệu OpenAI của Microsoft, "Fairwater" với công suất 48 MW cho CPU và lưu trữ hỗ trợ một cụm GPU 295 MW, huy động hàng chục nghìn CPU cho xử lý dữ liệu quy mô petabyte
- Trong môi trường học tăng cường (RL), để thực thi hành động do mô hình tạo ra và tính toán phần thưởng, cần lượng lớn CPU cho biên dịch mã, xác thực, diễn giải, sử dụng công cụ
  - Vì hiệu năng GPU đang tiến nhanh hơn CPU một cách đáng kể, trong thế hệ Rubin có thể mở rộng tỷ lệ công suất CPU so với GPU lên trên 1:6
- Mô hình RAG và mô hình agentic**** thực hiện gọi API, tìm kiếm internet và truy vấn cơ sở dữ liệu ở quy mô lớn, đẩy nhu cầu CPU đa dụng tăng mạnh
- AWS và Azure đang xây dựng hàng loạt CPU Graviton/Cobalt và máy chủ x86 của riêng họ
- Các phòng thí nghiệm Frontier AI đối mặt với thiếu CPU cho huấn luyện RL và đang trực tiếp cạnh tranh với các nhà cung cấp đám mây để giành máy chủ x86 đa dụng
- Intel đang xem xét tăng giá Xeon khi xảy ra tình trạng cạn hàng ngoài dự kiến, và đồng thời tăng cường công cụ sản xuất bổ sung
- AMD dự đoán TAM CPU máy chủ sẽ tăng trưởng "hai chữ số mạnh" trong năm 2026 khi mở rộng năng lực cung ứng

Lịch sử liên kết CPU đa nhân

Thiết kế crossbar ban đầu và giới hạn
- Ở các CPU hai nhân đầu tiên (Intel Pentium D, AMD Athlon 64 X2, năm 2005), liên kết dựa trên FSB(Front Side Bus) hoặc NoC trên cùng die
- Kiến trúc crossbar làm số kết nối tăng vọt khi tăng số lõi (2 lõi=1, 4 lõi=6, 6 lõi=15, 8 lõi=28), nên 4 lõi là giới hạn thực tế
- AMD Istanbul (2009) mở rộng thành crossbar 6 cách kết nối, Magny-Cours (2010) thành 12 lõi với dual die, Interlagos mở rộng lên 16 lõi
Kiến trúc ring bus của Intel
- Intel Nehalem-EX (2010) đưa ring bus vào, tích hợp 8 lõi trên một die duy nhất và bao gồm IMC cùng liên kết QPI
- Ring quay ngược chiều kép giúp giảm độ trễ và tắc nghẽn, nhưng độ trễ truy cập lõi này tới lõi khác là không đồng nhất (NUMA)
- Ivy Bridge-EX đạt 15 lõi với 3 hàng 5 cột và 3 “vòng ảo”
- Haswell/Broadwell dùng hai ring bus độc lập cho 18~24 lõi, nhưng khi đi qua bộ chuyển mạch có bộ đệm giữa các ring thì phát sinh độ trễ trên 100ns
  - Cấu hình “Cluster on Die” cho phép tách 2 nút NUMA
Kiến trúc mesh của Intel
- Intel đưa giao diện mesh vào Xeon Phi “Knights Landing” năm 2016, mở rộng sang Skylake-X Xeon Scalable (28 lõi) năm 2017
- Bố cục lưới 2D đặt lõi, lát L3 cache, PCIe I/O, IMC và bộ tăng tốc tại mỗi điểm dừng mesh
- Chế độ Sub-NUMA Clustering(SNC) chia mesh thành bốn phần để giảm độ trễ trung bình
- Skylake-X: mesh 6x6, xung mesh 2,4GHz đạt độ trễ trung bình tương đương với dual ring của Broadwell
- Ice Lake: chuyển sang 10nm nên mở rộng đến mesh 8x7 với tối đa 40 lõi (đụng trần reticle)
Mesh phân tán qua EMIB
- Sapphire Rapids: trên nút Intel 7, một die đơn monolithic dừng ở 34 lõi; việc bổ sung AMX engine làm tăng diện tích lõi
  - Nhờ EMIB advanced packaging nối 4 die, cấu hình mesh 8x12 đạt 60 lõi (khoảng 1600mm² silicon)
  - Độ trễ trung bình giữa các lõi xấu đi từ 47ns (Skylake) thành 59ns
  - Tăng L2 cache riêng của từng lõi lên 2MB (tổng L2 > L3: 120MB so với 112,5MB)
  - Tiến triển tới E5 stepping kéo dài trong nhiều năm; dự kiến ra mắt năm 2021 nhưng tới đầu 2023 mới phát hành
- Emerald Rapids (cuối năm 2023): giảm còn 2 die, 66 lõi (tối đa 64 lõi hoạt động), tăng L3 cache gần gấp 3 lên 320MB
Thiết kế phân tán dị hợp của Xeon 6
- Nền tảng Xeon 6 năm 2024 tách I/O và tính toán theo kiểu dị hợp: I/O die là Intel 7, compute die là Intel 3
- Có thể phối hợp cấu hình P-core Granite Rapids và E-core Sierra Forest
- Granite Rapids-AP Xeon 6900P: 3 compute die tạo mesh 10x19, 132 lõi (tối đa 128 lõi hoạt động)
- Sierra Forest: gom 4 E-core thành cluster, tạo mesh 8x6 với 144 lõi, tuy nhiên các nhà cung cấp hạ tầng lớn đã chấp nhận sớm AMD/CPU ARM của riêng họ nên triển khai hạn chế
  - Dual die 288 lõi Sierra Forest-AP (Xeon 6900E) chỉ dừng ở sản xuất số lượng ít
Giới hạn của Clearwater Forest
- Xeon 6+ Clearwater Forest-AP: Intel dùng Foveros Direct hybrid bonding để xếp chồng die lõi 18A lên die nền Intel 3, đạt 288 lõi
- Thiết kế phức tạp gồm 12 die tính toán mỗi die 24 lõi
- Vấn đề tích hợp Foveros Direct khiến lùi tiến độ từ H2 2025 sang H1 2026
- Băng thông truy cập L3/mesh của die nền cho mỗi cluster 4 lõi chỉ 35GB/s
- Dù cách nhau 2 năm, tăng hiệu năng chỉ dừng ở 17% so với Sierra Forest cùng số lõi
- Intel gần như không nhắc về Clearwater Forest trong báo cáo kết quả Q4 2025; có khả năng sẽ dùng như "xe chạy thử” cho việc học yield của Foveros Direct thay vì sản xuất khối lượng lớn
Quảng cáo

Kiến trúc interconnect Zen của AMD

EPYC Naples (2017)
- Nỗ lực trở lại của AMD trong trung tâm dữ liệu, cấu hình 4 die “Zeppelin” theo kiểu MCM để đạt 32 lõi
- Mỗi die có 2 CCX (4 lõi + 8MB L3, kết nối crossbar), liên kết IFOP (Infinity Fabric on Package) giữa các die
- Do thiếu L3 cache hợp nhất và nhiều miền NUMA (Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket) nên độ lệch độ trễ rất lớn
- Dù Intel từng trêu là “nhìn giống như dán 4 die desktop”, đó là thiết kế tiết kiệm tài nguyên của một đội ngũ nhỏ
Sự tiến hóa sau EPYC Rome (2019)
- Rome: 8 CCD 8 lõi xếp quanh I/O die trung tâm, CCD dùng TSMC N7, I/O die dùng GlobalFoundries 12nm
  - Việc trao đổi giữa mọi CCX đi qua I/O die theo kiểu liên kết GMI nên về mặt chức năng tương đương 16 nút NUMA 4 lõi
- Milan (2021): mở rộng CCX lên 8 lõi, áp dụng ring bus và tái sử dụng I/O die của Rome
- Genoa (2022): 12 CCD, Turin (2024): tối đa 16 CCD đạt 128 lõi (EPYC 9755), nâng cấp DDR5 và PCIe5
- Lợi thế cốt lõi của kiến trúc chiplet: từ một tapeout CCD duy nhất có thể dựng toàn bộ dải số lõi, và die nhỏ giúp cải thiện yield cùng tốc độ tung hàng
- Với biến thể lõi Zen 4c/Zen 5c gọn hơn, Bergamo (Zen 4c), Turin-Dense (192 lõi) cũng được cung cấp trên cùng nền tảng

Kiến trúc Intel Diamond Rapids

4 die CBB (Core Building Block) bao quanh 2 die IMH (I/O and Memory Hub), nhìn bề ngoài tương tự thiết kế của AMD
32 mô-đun lõi kép DCM trong mỗi CBB được sản xuất bằng Intel 18A-P và hybrid bonding lên die nền Intel 3-PT
- 2 lõi chia sẻ chung L2 cache, gợi nhắc thiết kế của thế hệ Dunnington 2008
Tổng cộng 256 lõi, nhưng trên SKU dòng mainstream dự kiến kích hoạt tối đa 192 lõi
Die IMH: DDR5 16 kênh, PCIe6 (hỗ trợ CXL3), bộ tăng tốc đường dữ liệu Intel (QAT, DLB, IAA, DSA)
Thay vì EMIB, dùng trace đường dài trên PCB package để nối các die, mỗi CBB có thể truy cập trực tiếp cả hai IMH hai bên
- Tuy nhiên, độ trễ cross-CBB dự đoán sẽ xấu đi đáng kể
Vấn đề bỏ SMT
- Sau Spectre/Meltdown, Intel loại bỏ SMT trên P-core, áp dụng từ client Lion Cove năm 2024
- Trong trung tâm dữ liệu, nơi throughput tối đa là quan trọng, đây là điểm yếu nghiêm trọng của Diamond Rapids
- So với Granite Rapids hiện tại 128 lõi/256 luồng, Diamond Rapids 192 lõi/192 luồng chỉ dự kiến tăng khoảng 40% hiệu năng
- Hủy toàn diện nền tảng Diamond Rapids-SP 8 kênh mainstream; ít nhất đến 2028 vẫn thiếu thế hệ mới trong phân khúc này
  - Kết quả là mất cơ hội ở thị trường CPU tính toán chung cần thiết cho công cụ AI và lưu trữ ngữ cảnh
Quảng cáo

Kiến trúc AMD Venice

AMD lần đầu tiên áp dụng công nghệ đóng gói nâng cao, kết nối CCD và die I/O bằng liên kết tốc độ cao tầm ngắn.
Nhờ thêm đường truyền cho liên kết CCD, hub I/O trung tâm được tách thành 2 die, tạo thêm miền NUMA giữa hai phía chip.
16 kênh bộ nhớ (tăng từ 12 kênh của Genoa), với bộ nhớ ghép MRDIMM-12800 đạt băng thông 1.64TB/s (cao hơn Turin 2.67 lần).
Đưa mạng mesh vào bên trong CCD: 32 lõi Zen6c theo bố trí lưới 4x8, quy trình N2 của TSMC.
8 CCD cho tổng cộng 256 lõi, tăng 1/3 so với 192 lõi của Turin-Dense.
Phân bổ toàn bộ 4MB L3 cache cho mỗi lõi Zen6c (thế hệ Zen5c chỉ là một nửa), mỗi CCD có 128MB cache.
SKU "-F" dành cho AI head node ít lõi, xung cao: tận dụng CCD Zen6 12 lõi cho desktop/mobile, tối đa 96 lõi.
Ổn định nguồn bằng 8 IPD (Integrated Passive Device) nhỏ cạnh giao diện DDR5 gần die I/O.
Hiệu năng và tập lệnh mới của Venice
- Mô hình đỉnh 256 lõi có hiệu năng trên mỗi watt cao hơn 1.7 lần so với Turin 192 lõi trong SPECrate®2017_int_base.
- Tăng đáng kể IPC (Instructions per Clock) của vi kiến trúc Zen 6.
- Tập lệnh loại dữ liệu AI mới: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (nhân ma trận bit)
  - BMM: lưu ma trận nhị phân 16x16 trong thanh ghi FPU, thực hiện cộng dồn BMM bằng phép toán OR/XOR.
  - Hiệu quả cho mô phỏng Verilog và các ứng dụng tương tự, nhưng dự kiến mức độ áp dụng hạn chế vì thiếu độ chính xác cho LLM.
- Khi Turin 96 lõi của AMD tương đương với Intel 128 lõi Granite Rapids, dự kiến chênh lệch hiệu năng giữa Venice và Diamond Rapids sẽ còn mở rộng.
- Trong khi Intel hủy bỏ CPU 8 kênh, AMD giới thiệu nền tảng Venice SP8 8 kênh mới, kế tiếp EPYC 8004 Siena, cung cấp tối đa 128 lõi Zen 6c.
  - Dự kiến AMD mở rộng thị phần ở lĩnh vực doanh nghiệp, vùng truyền thống mạnh của Intel.

NVIDIA Grace và Vera

CPU Grace
- Thiết kế cho nút đầu GPU và mở rộng bộ nhớ GPU, với NVLink-C2C (900GB/s hai chiều) để GPU truy cập toàn băng thông vào bộ nhớ CPU.
- Áp dụng bộ nhớ LPDDR5X tầm thiết bị di động, bus bộ nhớ 512-bit với băng thông 500GB/s, tối đa 480GB mỗi CPU.
- 72 lõi ARM Neoverse V2 (76 lõi hoạt động), mesh 6x7, L3 cache 117MB.
- Mạng mesh có băng thông chia đôi hai chiều 3.2TB/s để tối ưu luồng dữ liệu.
- Nút thắt vi kiến trúc: Branch Target Buffer giảm mạnh hiệu năng khi vượt quá 24 vùng, và khi vượt quá 32 vùng sẽ bị flush toàn bộ buffer 64MB.
  - Mã HPC chưa tối ưu có thể giảm 50% hiệu năng, và cũng ảnh hưởng đến AI workload của GB200/GB300.
CPU Vera (2026)
- Dành cho nền tảng Rubin, băng thông C2C tăng lên 1.8TB/s, gấp 2 lần.
- 8 mô-đun SOCAMM 128-bit cho tổng 1.5TB bộ nhớ, băng thông 1.2TB/s.
- Mesh 7x13 với 91 lõi (88 lõi hoạt động), L3 cache 162MB.
- Đóng gói CoWoS-R: 1 die tính toán 3nm kích thước reticle + 4 die bộ nhớ LPDDR5 + 1 die I/O PCIe6/CXL3 (tổng 6 die).
- Trở lại với lõi Olympus do tự thiết kế để thoát khỏi nút thắt hiệu năng lõi Neoverse.
  - 88 lõi/176 luồng (hỗ trợ SMT), ARMv9.2, FPU 6 cổng 128b (so với 4 cổng trên Neoverse V2).
  - Hỗ trợ ARM SVE2 FP8, cache L2 2MB mỗi lõi (gấp đôi Grace).
  - Tổng thể đạt khoảng 2 lần hiệu năng.
Quảng cáo

AWS Graviton5

AWS là nhà cung cấp hạ tầng siêu quy mô đầu tiên thành công triển khai CPU nội bộ trên cloud, khi mua lại Annapurna Labs và tận dụng ARM Neoverse CSS.
Graviton2: Trong thời kỳ bùng nổ COVID, giảm giá mạnh để thúc đẩy chuyển sang ARM; 64 lõi Neoverse N1.
Graviton3: Neoverse V1, hiệu năng dấu phẩy động trên mỗi lõi tăng 2 lần, thiết kế chiplet EMIB, giới thiệu DDR5·PCIe5 sớm hơn AMD·Intel 1 năm.
Graviton4: 96 lõi Neoverse V2, bộ nhớ 12 kênh, PCIe5 96 lane, hỗ trợ dual-socket.
Graviton5 (xem trước tháng 12/2025): 192 lõi Neoverse V3, TSMC 3nm, 172 tỷ transistor.
- L3 cache 192MB (từ 36MB của Graviton4 tăng đột biến), 12 kênh DDR5-8800.
- Nâng cấp PCIe6 nhưng số lane giảm từ 96 xuống 64 (tối ưu chi phí lane không dùng).
- Mesh 8x12, 2 lõi cùng chia sẻ một mesh stop, chia nhỏ nhiều die tính toán và áp dụng chiến lược đóng gói mới.
AWS dùng hàng nghìn CPU Graviton cho CI/CD và EDA bên trong để phục vụ thiết kế Graviton, Trainium, Nitro thế hệ kế tiếp (dogfooding nội bộ).
Gia tốc Trainium3 dùng CPU Graviton làm head node (1 CPU : 4 XPU)

Microsoft Cobalt 200

Là phiên bản kế tiếp của Cobalt 100 (2023, 128 lõi Neoverse N2), ra mắt cuối năm 2025.
132 lõi Neoverse V3, mỗi lõi có 3MB L2 cache, 2 compute die TSMC 3nm.
Mỗi die có mesh 8x8, 72 lõi thiết kế, 66 lõi hoạt động, 192MB L3 cache, DDR5 6 kênh, PCIe6 64 lane.
Tăng 50% hiệu năng so với Cobalt 100.
Dùng riêng cho dịch vụ tính toán CPU đa dụng của Azure, không dùng cho AI head node (Microsoft Maia 200 chọn Intel Granite Rapids).

Google Axion C4A, N4A

Được công bố năm 2024, GA năm 2025, đánh dấu Google tham gia thị trường CPU silicon custom của GCP.
Axion C4A: tối đa 72 lõi Neoverse V2, DDR5 8 kênh, PCIe5, die monolithic 5nm (81 lõi, mesh 9x9).
- Dự đoán đây là thiết kế die 3nm mới cho instance bare-metal 96 lõi đã xem trước cuối năm 2025.
Axion N4A: tối ưu chi phí cho scale-out, 64 lõi Neoverse N3, thiết kế custom full của TSMC 3nm.
Google chuyển dần hạ tầng nội bộ (Gmail, YouTube, Google Play...) sang ARM, và có kế hoạch triển khai Axion cho head node của các cụm TPU trong tương lai.

Ampere Computing và thương vụ thâu tóm SoftBank

Là đơn vị tiên phong ARM silicon thương mại, hợp tác với Oracle, dùng Altra (80 lõi) và Altra Max (128 lõi) để thách thức độc quyền x86.
- Lõi Neoverse N1, interconnect mesh tự thiết kế (cluster 4 lõi), DDR4 8 kênh, 128 PCIe4 lane, die đơn TSMC 7nm.
AmpereOne: quy trình 5nm, 192 lõi, tách chiplet I/O (DDR5·PCIe), thiết kế MCM không cần interposer.
- Lõi ARM tự thiết kế (tối ưu mật độ lõi) + 2MB L2 cache (giảm hiện tượng noisy-neighbor).
- Dùng lại chiplet để phát triển các biến thể như AmpereOne-M 12 kênh, AmpereOne-MX 3nm 256 lõi, v.v.
Năm 2025, SoftBank mua lại với 6.5 tỷ USD, nhằm bổ sung nhân lực thiết kế CPU cho Stargate.
Nguyên nhân thất bại của Ampere:
- Thế hệ Altra ra mắt quá sớm khi phần mềm native ARM chưa trưởng thành.
- AmpereOne bị chậm trễ nhiều lần, chỉ có thể dùng được từ nửa sau năm 2024, khi CPU ARM của các hyperscaler đã trưởng thành và AMD đã cung cấp 192 lõi với hiệu năng trên mỗi lõi cao hơn 3~4 lần.
- Chi tiêu mua CPU Ampere của Oracle: FY2023 48 triệu USD → FY2024 3 triệu USD → FY2025 3.7 triệu USD, giảm mạnh
Quảng cáo

ARM Phoenix

ARM sẽ bước vào hoạt động thiết kế và bán CPU trung tâm dữ liệu toàn diện vào năm 2026, trực tiếp cạnh tranh với các khách hàng cấp phép Neoverse CSS hiện hữu
Tính đến nay, ARM đã triển khai hơn 1 tỷ lõi Neoverse cho CPU/DPU trung tâm dữ liệu, và có 21 giấy phép CSS cho 12 doanh nghiệp
Doanh thu bản quyền trung tâm dữ liệu tăng hơn 2 lần so với cùng kỳ năm trước, và dự kiến trong vài năm tới CSS sẽ chiếm hơn 50% doanh thu bản quyền
Phoenix: 128 lõi Neoverse V3, ARM CMN mesh, 2 die half-reticle TSMC 3nm
- 12 kênh DDR5 (8400MT/s), PCIe Gen 6 96 lane, TDP có thể cấu hình 250~350W
- Khách hàng đầu tiên là Meta, OpenAI (Stargate/SoftBank Ventures) và Cloudflare cũng là ứng viên khách hàng
- Với Accelerator Enablement Kit dựa trên PCIe 6, có thể kết nối XPU với bộ nhớ dùng chung nhất quán

Huawei Kunpeng

Kunpeng 920 và 920B
- Thế hệ đầu (Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920 (2019): lõi TaiShan V110 tùy chỉnh 64 lõi, 2 die tính toán TSMC 7nm, đóng gói CoWoS-S (lần đầu tiên áp dụng CoWoS-S cho CPU)
  - 8 kênh DDR4, 40 lane PCIe4, tích hợp dual 100GbE
  - Do lệnh trừng phạt của Mỹ, nguồn cung TSMC bị cắt, thế hệ kế tiếp Kunpeng 930 chưa được ra mắt
- Kunpeng 920B (2024): lõi TaiShan V120 hỗ trợ SMT, 10 cụm 4 lõi mỗi die (tổng 80 lõi/160 luồng)
  - 8 kênh DDR5, tách riêng die I/O, tái thiết kế theo quy trình SMIC N+2 (khoảng trống 5 năm)
Kunpeng 950 (2026)
- 192 lõi mới LinxiCore (hỗ trợ SMT), sản xuất cả phiên bản nhỏ 96 lõi
- Cấu hình rack TaiShan 950 SuperPoD: 16 máy chủ dual-socket, tối đa 48TB DDR5 (ước tính 12 kênh)
- Hiệu năng cơ sở dữ liệu OLTP tăng 2.9 lần so với Kunpeng 920B (dựa trên GaussDB Multi-Write)
- Máy chủ cơ sở dữ liệu Oracle Exadata và các cơ sở tài chính Trung Quốc dự kiến sẽ chấp nhận/áp dụng
- Dự kiến sản xuất theo quy trình SMIC N+3
Kunpeng 960 (lộ trình 2028)
- Phiên bản hiệu năng cao: 96 lõi/192 luồng, dành cho AI head node và cơ sở dữ liệu, hiệu năng trên mỗi lõi tăng trên 50%
- Phiên bản mật độ cao: trên 256 lõi cho ảo hóa và đám mây
- Dự kiến nắm giữ thị phần đáng kể trong thị trường CPU của các nhà cung cấp hyperscaler Trung Quốc

Sự trở lại của CPU: Dự báo thị trường CPU trung tâm dữ liệu năm 2026

Sự thay đổi và tiến hóa vai trò của CPU trung tâm dữ liệu

Từ thời đại PC đến thời đại Dot-com

Thời đại hyperscaler điện toán ảo hóa và đám mây

Thời đại tích hợp AI GPU và CPU

Thời đại học tăng cường và AI agentic

Lịch sử liên kết CPU đa nhân

Thiết kế crossbar ban đầu và giới hạn

Kiến trúc ring bus của Intel

Kiến trúc mesh của Intel

Mesh phân tán qua EMIB

Thiết kế phân tán dị hợp của Xeon 6

Giới hạn của Clearwater Forest

Kiến trúc interconnect Zen của AMD

EPYC Naples (2017)

Sự tiến hóa sau EPYC Rome (2019)

Kiến trúc Intel Diamond Rapids

Vấn đề bỏ SMT

Kiến trúc AMD Venice

Hiệu năng và tập lệnh mới của Venice

NVIDIA Grace và Vera

CPU Grace

CPU Vera (2026)

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A, N4A

Ampere Computing và thương vụ thâu tóm SoftBank

ARM Phoenix

Huawei Kunpeng

Kunpeng 920 và 920B

Kunpeng 950 (2026)

Kunpeng 960 (lộ trình 2028)

Bài viết liên quan

Chưa có bình luận nào.