Huawei công bố mô hình open-weight được huấn luyện trên GPU Ascend

(arxiv.org)

2 điểm bởi GN⁺ 2025-07-03 | 1 bình luận | Chia sẻ qua WhatsApp

Pangu Pro MoE áp dụng kiến trúc Mixture of Grouped Experts (MoGE) được tối ưu cho môi trường Huawei Ascend NPU, qua đó giải quyết hiệu quả vấn đề mất cân bằng tải giữa các expert trong môi trường phân tán
Mô hình được thiết kế ở quy mô 72 tỷ tham số, nhưng với mỗi token chỉ kích hoạt 16,5 tỷ tham số, giúp tăng mạnh hiệu quả tính toán và khả năng mở rộng
Kiến trúc MoGE áp dụng quy tắc phân bổ và lựa chọn đồng đều giữa các nhóm expert khác nhau, đạt được cân bằng tải hoàn hảo trên mọi thiết bị, từ đó cải thiện tốc độ suy luận và huấn luyện
Kết quả đánh giá hiệu năng cho thấy Pangu Pro MoE vượt qua các mô hình mã nguồn mở chủ lực như GLM-Z1-32B, Qwen3-32B, đồng thời cho thấy hiệu quả suy luận hàng đầu và hiệu năng trên chi phí vượt trội trên các nền tảng Ascend 300I Duo/800I A2
Thông qua tiền huấn luyện, tinh chỉnh và học tăng cường, mô hình đạt được năng lực suy luận mạnh và khả năng khái quát hóa trên nhiều lĩnh vực dựa trên bộ dữ liệu chất lượng cao

Tổng quan

Gần đây, trong các mô hình ngôn ngữ lớn (LLM), phương pháp Mixture of Experts (MoE) ngày càng được áp dụng như một xu hướng để tăng số lượng tham số và năng lực huấn luyện mà không làm chi phí tính toán tăng tương ứng
Cấu trúc MoE giảm lượng tính toán bằng cách chỉ kích hoạt một phần expert cho mỗi token đầu vào, nhưng trên thực tế tồn tại hiện tượng mất cân bằng tải giữa các expert, khi chỉ một số expert nhất định liên tục được chọn
Vấn đề này làm giảm hiệu quả tổng thể của hệ thống khi mô hình được phân tán trên nhiều thiết bị
Các kỹ thuật heuristic cân bằng tải hiện có chỉ cải thiện một phần, chưa phải là lời giải căn cơ và triệt để

Giới thiệu kiến trúc Mixture of Grouped Experts (MoGE)

MoGE chia các expert thành các nhóm (Group) có cùng kích thước, và triển khai chiến lược định tuyến cân bằng theo nhóm bằng cách buộc mỗi token phải kích hoạt một số lượng expert nhất định trong từng nhóm
Nhờ đó, công việc được phân bổ đồng đều lên mọi thiết bị, và Imbalance Score (IS) được thiết kế để luôn bằng 0, đạt cân bằng tải hoàn hảo ngay từ kiến trúc
Với mỗi token, điểm ban đầu của tất cả expert được bộ định tuyến Softmax toàn cục tính toán trước, sau đó chỉ chọn các expert Top-K′ trong từng nhóm; các expert không được chọn sẽ có điểm bằng 0
Cấu trúc này đặc biệt tối ưu cho các mô hình lớn trong môi trường phân tán (hàng chục đến hàng trăm tỷ tham số), giúp tối đa hóa tốc độ suy luận, tốc độ huấn luyện và hiệu quả sử dụng tài nguyên

Mô hình Pangu Pro MoE và tối ưu cho nền tảng Ascend

Huawei đã phát triển Pangu Pro MoE được tối ưu cho các nền tảng NPU Ascend 300I Duo và 800I A2 (tổng 71,9 tỷ tham số, 16,5 tỷ tham số kích hoạt cho mỗi token)
Dựa trên mô phỏng hệ thống ở quy mô lớn, hãng đã điều chỉnh nhiều tham số phần cứng để tối đa hóa hiệu năng, bao gồm cấu trúc mô hình và cấu hình song song hóa phần cứng (tensor/expert/pipeline/virtual pipeline parallelism)
Các kernel tính toán tùy chỉnh như MulAttention, SwiftGMM được tối ưu theo đặc tính của Ascend, giúp giảm truy cập bộ nhớ, chi phí truyền thông và overhead tính toán, đồng thời loại bỏ nút thắt theo từng operator và cải thiện mức tận dụng băng thông
Kết quả mô phỏng tối ưu kích thước batch và hiệu năng cho thấy mô hình đạt Throughput cao nhất, Latency thấp nhất và hiệu quả truyền thông tối ưu trong phạm vi các ràng buộc

Thiết kế dữ liệu và tiền huấn luyện

Cấu trúc dữ liệu

Huawei xây dựng một bộ dữ liệu lớn, chất lượng cao gồm 1,3E(13 nghìn tỷ) token dựa trên tokenizer riêng, được thu thập từ nhiều nguồn như web, sách, mã nguồn, STEM, công nghiệp, suy luận và dữ liệu tổng hợp
Tokenizer được thiết kế theo chiến lược nhấn mạnh cân bằng miền dữ liệu, giúp cả các miền chuyên biệt cũng có tính đại diện

Các giai đoạn và chiến lược huấn luyện

Tiền huấn luyện (Pre-training) được tiến hành qua ba giai đoạn (general, reasoning, annealing), với mục tiêu huấn luyện và curriculum dữ liệu được điều chỉnh ở từng giai đoạn
- Giai đoạn general: học kiến thức phổ quát và năng lực ngôn ngữ trên nhiều lĩnh vực
- Giai đoạn reasoning: tăng tối đa tỷ trọng dữ liệu suy luận phức tạp như STEM, lập trình và bài toán logic khó
- Giai đoạn annealing: tinh chỉnh thêm bằng dữ liệu độ khó cao và dữ liệu theo phong cách instruction
Ở mỗi giai đoạn, các yếu tố như độ dài chuỗi, độ khó dữ liệu, kích thước batch, learning rate được điều chỉnh dần để tăng cả khả năng khái quát hóa lẫn năng lực chuyên biệt của mô hình

Đánh giá dữ liệu

Huawei vận hành hệ thống đánh giá đa miền dựa trên mô hình sử dụng chính các mô hình thuộc dòng Pangu để chấm các chỉ số như độ sạch, độ trôi chảy, giá trị giáo dục và độ phong phú của từng bộ dữ liệu, rồi phản ánh vào chiến lược lấy mẫu và tuyển chọn dữ liệu
Tổng cộng 188 danh mục được gán nhãn chi tiết để quản lý phân bố và đặc tính dữ liệu

Môi trường tiền huấn luyện và tối ưu hóa

Pangu Pro MoE được huấn luyện và đánh giá trên Huawei Ascend 800T A2; con chip này đạt FP16 256TFlops, INT8 512TOPS, với mức tiêu thụ điện cực thấp 310W, mang lại hiệu năng AI cao và hiệu quả chi phí tốt
Mô hình sử dụng huấn luyện một epoch, optimizer AdamW, lịch learning rate cosine ba giai đoạn, cấu hình batch lớn nhằm bảo đảm khả năng khái quát hóa vững và khả năng chuyên biệt theo từng tác vụ mục tiêu

Post-training (tinh chỉnh tiếp theo và học tăng cường)

Supervised Fine-tuning (SFT)

Dữ liệu SFT được chia thành hai tập 'suy luận' và 'không suy luận', trong đó tỷ trọng dữ liệu suy luận được nâng lên 3:1 để tập trung vào các tác vụ phức tạp như toán, code và suy luận logic
Thông qua chiến lược tối ưu tiến dần hai giai đoạn (từ chỉ thị đơn giản trên nhiều phạm vi đến suy luận phức tạp), mô hình phát triển cân bằng cả năng lực suy luận theo từng bước lẫn năng lực xử lý ngôn ngữ thông thường
Trong quá trình SFT, chiến lược gộp checkpoint cũng được bổ sung để tích hợp hiệu quả các mô hình tại những mốc trung gian khác nhau, từ đó tăng độ vững và khả năng khái quát hóa

Học tăng cường (RL)

Giai đoạn RL dựa trên phần thưởng áp dụng đồng thời thuật toán Group Relative Policy Optimization (GRPO) và kỹ thuật Zero-Advantage-Mask, vốn bỏ qua các mẫu không có tín hiệu phần thưởng, nhằm hỗ trợ khám phá chính sách và học hiệu quả hơn
Hệ thống phần thưởng nhiều lớp được đưa vào, gồm độ chính xác, sở thích, phần thưởng phụ trợ; các tác vụ toán học và lập trình được đánh giá bằng hệ thống tự động, còn các tác vụ miền mở được đánh giá bằng bộ chấm dựa trên LLM riêng (Preference Model)
Curriculum data mixing được dùng để điều chỉnh động phân bố độ phức tạp của dữ liệu, liên tục tạo động lực phát triển cho mô hình

Tối ưu hệ thống và hạ tầng

Hệ thống huấn luyện Ascend NPU

Chiến lược song song phân cấp và lai (Hierarchical & Hybrid Parallelism) cùng các kỹ thuật tiên tiến như EP All-to-All communication, Adaptive Pipeline Overlap, operator fusion được áp dụng tích cực
Hiệu suất tính toán mô hình (MFU) tăng 35%, đồng thời song song pipeline và virtual pipeline giúp phân bổ hoàn hảo tải tính toán và truyền thông theo từng giai đoạn, tăng cả khả năng mở rộng lẫn thông lượng
Kernel tùy chỉnh, tối đa hóa tận dụng băng thông HBM, loại bỏ truyền thông và overhead bộ nhớ không cần thiết giúp đẩy hiệu năng lên mức tối đa ở mọi giai đoạn huấn luyện và suy luận
Hệ thống suy luận cũng cho thấy kết quả Throughput và Latency tốt nhất trên từng cấu trúc phần cứng nhờ cấu hình song song linh hoạt theo từng mô-đun như Attention và Expert (chiến lược H2P) cùng tối ưu operator chuyên biệt

Hiệu năng và benchmark

Pangu Pro MoE đạt hiệu năng suy luận 1148~1528 token/s(mỗi card)* trong môi trường Ascend, cho thấy kết quả áp đảo so với các mô hình cùng phân khúc tham số (open dense 32B, 72B)
Về cost-to-performance, mô hình cũng đạt hiệu quả vượt trội trên nền tảng Ascend 300I Duo
Trên nhiều benchmark bên ngoài khác nhau (ra quyết định, logic, lập trình, hiểu tài liệu...), mô hình vượt hiệu năng của các mô hình công khai lớn như GLM-Z1-32B, Qwen3-32B, Gemma3-27B
Các thực nghiệm cho thấy đây là một LLM thuộc nhóm tốt nhất ở quy mô dưới 100B tham số

Kết luận và hàm ý

Pangu Pro MoE giải quyết tận gốc vấn đề mất cân bằng tải trong huấn luyện/suy luận phân tán cho mô hình lớn thông qua thiết kế cân bằng theo nhóm expert
Nhờ tối ưu chuyên biệt cho nền tảng Ascend cùng nỗ lực toàn diện về nâng cao chất lượng dữ liệu, đây là mô hình ngôn ngữ lớn thế hệ mới đạt sự cân bằng ở mức cao giữa chi phí, tốc độ và năng lực khái quát hóa
Kiến trúc và phương pháp này được kỳ vọng sẽ trở thành tài liệu tham chiếu và chuẩn mực quan trọng cho hệ sinh thái LLM phân tán quy mô lớn cũng như nhiều ứng dụng công nghiệp trong tương lai

1 bình luận

GN⁺ 2025-07-03

Ý kiến Hacker News

Lý do khiến mình thật sự háo hức với lần công bố kiến trúc này là khả năng các nhà phát triển nhỏ có thể cạnh tranh với những công ty lớn chỉ bằng GPU giá rẻ. Cuối cùng, điều đó cho thấy việc phát triển AI mở theo kiểu crowdsourcing là khả thi về mặt kỹ thuật. Thực tế, Trung Quốc đang nghiên cứu hướng này và nhắm đến mức có thể cạnh tranh với các mô hình nguyên khối. Ban đầu mình khá hoài nghi về các lệnh trừng phạt của Mỹ, nhưng nếu điều này thực sự khả thi một cách logic thì đây sẽ là một thành tựu rất lớn
- Mình nghĩ các lệnh trừng phạt, không mang ý mỉa mai, thực sự có thể giúp thế giới tốt hơn theo nhiều cách. Chúng thúc đẩy nhiều cải thiện như đa dạng hóa năng lực tính toán, phân tán hóa sản xuất, v.v.
- Deepseek-R1 đã ở mức tương đương GPT 4.1. Nó được cung cấp dưới dạng open-weight, open-source, và cả mã suy luận cũng được công khai mã nguồn
- Mình cũng quan tâm đến mạng huấn luyện GPU mở peer-to-peer kiểu như SETI@Home
- Với câu hỏi liệu AI mở theo kiểu crowdsourcing có khả thi về mặt kỹ thuật hay không, xin chia sẻ liên kết Intellect-2 của PrimeIntellect.ai như một ví dụ cho thấy điều đó đã khả thi
- Mình thấy đây là một bước tiến thú vị. Nhưng việc đây có phải điều tốt hay không còn tùy vào việc công nghệ AI có trở thành mối đe dọa hiện sinh đối với sự tồn tại của con người hay không. Nghe có thể hơi cường điệu, nhưng thực sự có rất nhiều người đang suy nghĩ rất nghiêm túc về vấn đề này
Giấy phép cấm việc sử dụng và cài đặt trong EU, nên mình tự hỏi liệu có thể soạn một giấy phép kiểu “hạn chế này chỉ để bảo vệ chứ thực tế sẽ không thực thi” hay không. Có lẽ có thể gọi kiểu diễn đạt này là một “điều khoản tách biệt” (isolating clause), nhưng mình không chắc thẩm phán có chấp nhận đó như một lối lách luật hợp pháp hay không. Có vẻ bối cảnh này khá giống lúc Meta công bố trọng số llama. Mình nghĩ bản chất của Đạo luật AI của châu Âu là kiểm soát các cách sử dụng AI cụ thể, và việc chỉ phân phối trọng số cùng kiến trúc có lẽ không nằm trong đó. Nếu cấm phân phối thì trên thực tế lại tước đi thêm lựa chọn và cạnh tranh của người châu Âu, nên mình tự hỏi liệu điều đó có thực sự bị cấm về mặt pháp lý không. Mặt khác, nếu cài open-weight thì cũng cần cẩn trọng về bảo mật, vì có thể xuất hiện backdoor, tức các điểm yếu cho phép thao túng hệ thống thông qua những prompt cụ thể. Mình nhớ đã thấy trong một bài báo có trường hợp tổ hợp ký hiệu như '0?,#2!' có thể khiến LLM rơi vào trạng thái để ai đó đọc được thông tin ẩn của nó, tức prompt injection. Mình cũng tò mò liệu có thể ngăn chặn hoặc làm suy yếu kiểu tấn công này bằng fine-tuning hay Lora không, hoặc có thư viện Python nào hữu ích cho phòng thủ hay không. Nếu tải về, cài đặt rồi chỉnh sửa bằng fine-tuning hoặc lora thì có được bảo vệ không
- Huawei không có quyền kiểm soát hành vi của công dân EU, và thực ra mình nghĩ họ cũng chẳng cần phải đưa hạn chế đó vào. Với tư cách là công dân EU, cách tự bảo vệ là tự nắm luật và tránh các mô hình nguy hiểm
- Về mặt bảo mật, đừng tin bất kỳ đoạn mã nào do LLM tạo ra; luôn cần phải rà soát
- Để giải thích bằng một điều kiện tương tự “điều khoản tách biệt”, có thể lấy giấy phép codec của Alliance for Open Media làm ví dụ. Codec đó miễn phí bản quyền, nhưng theo điều kiện giấy phép thì nếu khởi kiện pháp lý liên quan đến việc sử dụng định dạng, quyền sử dụng sẽ bị thu hồi
Có thể tải trọng số từ gitcode
- Tuy nhiên, theo giấy phép thì việc truy cập, tải xuống, cài đặt, chạy, phân phối, tích hợp, sửa đổi và mọi hình thức sử dụng khác trong EU đều bị chặn rõ ràng. Liên kết giấy phép liên quan ở đây
- Mình thích việc họ dùng cách gọi chính xác hơn là “open-weight” thay vì “open-source”. Nhưng mình tự hỏi open-weight có thực sự thú vị không. Liệu điều này có cho biết mô hình đó có thiên lệch hay không thiên lệch không? Có thể dùng nó để huấn luyện mô hình cạnh tranh không? Mình muốn hiểu sự khác biệt, ưu nhược điểm giữa open-source và open-weight, và trong thời đại LLM thì câu “trọng số chính là mã nguồn” có còn hợp lý hay không
Nếu LLM hiện tại đang chạm phải giới hạn mở rộng (scaling wall) và sắp tới hiệu quả sẽ là yếu tố quyết định, thì liệu có hình thành một thị trường mô hình nhỏ tập trung vào các trường hợp sử dụng cụ thể không? Thực tế mình dùng Gemini để trích xuất dữ liệu có cấu trúc từ ảnh và mô hình flash làm việc rất hiệu quả. Mình tò mò không biết cần bao nhiêu công sức để tạo ra một mô hình nhẹ chỉ phục vụ mục đích cụ thể trên những thiết bị nhỏ như NUC và AMD APU. Hoặc cũng khá thú vị nếu xuất hiện những thiết bị kiểu mini external GPU stick chỉ dành cho một số use case nhất định. Có thể về thương mại không phải thị trường lớn, nhưng sẽ rất ngầu
- Chủ đề “mô hình nhỏ tập trung vào use case cụ thể” đã là một cuộc thảo luận quan trọng trên HN: "Small language models are the future of agentic AI"
- Khi tìm mô hình cho nhận dạng thực thể có tên, mình biết đến mô hình dslim/bert-base-NER. Nó có 108 triệu tham số
- Hướng đi này đã tồn tại dưới tên “model distillation”, tức dùng nhãn do LLM lớn tạo ra để mô hình nhỏ chuyên dụng suy luận rẻ hơn 1000 lần
- Tình huống này gợi nhớ thời người ta cắm ASIC vào cổng USB để đào Bitcoin
Mình cho rằng các lệnh trừng phạt chỉ là giải pháp tạm thời. Lý tưởng nhất là để câu giờ nhằm tăng cường năng lực trong nước, nhưng ngược lại năng lực của Mỹ có thể bị bào mòn vì cắt giảm tài trợ nghiên cứu trong nước và kiềm chế dòng sinh viên, nhà nghiên cứu nước ngoài, trong khi Trung Quốc lại bước vào quỹ đạo tăng trưởng
Tin này đã là chuyện của vài ngày trước. Có thể tham khảo tin Tencent open-source mô hình AI lai của họ tại TechInAsia, và cũng chia sẻ luôn liên kết GitHub
Sic transit gloria nvidii(vinh quang của Nvidia rồi cũng trôi qua như vậy)
- Kiến thức nền về ngôn ngữ học: 'invidia' trong tiếng Latin có nghĩa là “đố kỵ”
- Đây đúng là khoảnh khắc 5 năm học tiếng Latin phát huy tác dụng
- Xin bắt lỗi một chút, nhưng sở hữu cách số ít đúng phải là nvidiae. i là đuôi biến cách o
- Sic transit gloria nvidiae mới là dạng đúng
- Cảm tưởng đây là câu hay nhất mình đọc hôm nay, bravo
Mình có một người bạn Trung Quốc. Sáu năm trước anh ấy tham gia một startup phần cứng ở Trung Quốc với vai trò kỹ sư sáng lập. Rồi các lệnh trừng phạt ập đến. Gần đây gặp lại, anh ấy nói đó là sự kiện tốt nhất trong đời mình. Các công ty nội địa Trung Quốc hoàn toàn ngừng mua sản phẩm có xuất xứ phương Tây nên công ty của anh ấy tăng trưởng mạnh. Giờ đây các lệnh trừng phạt đã được mọi người xem là “điều hiển nhiên”, nên kết quả duy nhất là tự lực cánh sinh và tập trung tăng trưởng
- Tác động khác nhau tùy ngành. Trước các lệnh trừng phạt, những công ty phần mềm EDA nhỏ vốn chỉ cầm cự trước khoảng cách công nghệ rất lớn so với các ông lớn như Synopsys, giờ đây lại thu hút được hàng loạt khách hàng mới nhờ nhu cầu tránh rủi ro. Người ta gọi điều này là “hormesis”
Mình tò mò không biết điều này có ý nghĩa gì sau các lệnh trừng phạt. Liệu Huawei, hãng smartphone từng bị giáng đòn mạnh bởi trừng phạt, giờ đang có cơ hội phản công bằng GPU tự phát triển? Hiệu năng của loại GPU này nếu so với GPU mới nhất của phương Tây thì thế nào? Và liệu điều này có nghĩa là Huawei giờ đã có đủ năng lực để thương mại hóa GPU này không
- Huawei là một công ty khổng lồ hơn người ta tưởng rất nhiều. Không chỉ có trạm gốc 5G mà còn rất lớn trong nhiều lĩnh vực khác như điện thoại và xe điện
- Về cụm từ “cơ hội phản công”, doanh số smartphone của Huawei tại Trung Quốc đã vượt Apple rồi. Liên kết dữ liệu thị phần chi tiết
- Về phần cứng, Huawei hoàn toàn có thể làm ra điện thoại đủ sức cạnh tranh. Chỉ là trong bối cảnh không có Google Play Store thì rất khó thuyết phục người dùng về tính hợp lý khi mua
- Có thể tham khảo liên kết video YouTube giải thích tình hình tổng thể của Huawei
Để có thể cạnh tranh với TSMC và Nvidia, thế giới cần có một cục diện cạnh tranh từ Huawei và Trung Quốc về mặt Node Size
- Nếu không xét đến các vấn đề địa chính trị thì đó là một kịch bản rất tốt. Nhưng công nghệ AI là con dao hai lưỡi, và cạnh tranh ở mảng tiêu dùng rất có thể sẽ dẫn tới chạy đua vũ trang. Xét đến năng lực sản xuất và chi phí nhân công của Trung Quốc thì cuối cùng khả năng cao Trung Quốc sẽ thắng. Tuy nhiên để đạt được điều đó thì trước hết phải nhân bản được năng lực của ASML, mà điều này trong tương lai gần không thực tế
- Nếu Mỹ dỡ bỏ kiểm soát xuất khẩu chip, mình có cảm giác chính phủ Trung Quốc thậm chí có thể áp hạn chế nhập khẩu. Lợi ích từ việc nuôi dưỡng một đối thủ cạnh tranh thực sự với Nvidia/TSMC/Apple/Google là lớn hơn hẳn

Huawei công bố mô hình open-weight được huấn luyện trên GPU Ascend

Tổng quan

Giới thiệu kiến trúc Mixture of Grouped Experts (MoGE)

Mô hình Pangu Pro MoE và tối ưu cho nền tảng Ascend

Thiết kế dữ liệu và tiền huấn luyện

Cấu trúc dữ liệu

Các giai đoạn và chiến lược huấn luyện

Đánh giá dữ liệu

Môi trường tiền huấn luyện và tối ưu hóa

Post-training (tinh chỉnh tiếp theo và học tăng cường)

Supervised Fine-tuning (SFT)

Học tăng cường (RL)

Tối ưu hệ thống và hạ tầng

Hệ thống huấn luyện Ascend NPU

Hiệu năng và benchmark

Kết luận và hàm ý

Bài viết liên quan

1 bình luận

Ý kiến Hacker News