来自奥菲神庙的金·莱(Jin Lei)
量子位|官方帐户QBITAI
现在,具有万亿美元参数的大型模型可以与Nvidia Say Goodbye完全匹配。
正是华为完成了这一举动!
技术报告:arxiv.org/abs/2505.04519
您应该知道,在此之前,在培训数万亿参数模型中有许多“绊脚石”。
例如,很难加载平衡,大型沟通开销,低训练效率等。
华为pangu团队(包括诺亚方舟实验室,华为云等)在基于Ascend的国内计算功率平台的一个Fell Swoop中克服了上述所有挑战。
6000多个上升的NPU群集完成了7180亿(718B)参数MOE模型的长期稳定培训,并通过许多突破性系统优化技术实现了显着的性能提高。
这些创新大大提高了培训效率,并支持了行业顶级模型的发展!
必须说,大型硬件中“国内”一词的价值仍在增加。
纯国内NPU,柔滑跑步的准参数模型
在拆除华为系列的“黑色技术”之前,我们需要对训练超大参数MOE模型背后的困难有更深入的了解。
总体而言,有守护这条路的“四大国王”。
首先是架构参数优化的问题。有必要探索许多参数组合之间的最佳配置,设计适合Asteng NPU的大规模MOE架构,并实现计算资源的有效利用。
第二个是动态负载平衡的挑战。路由机制需要智能分配任务,以避免专家资源的分配不平衡。这种不平衡不仅会降低由于“枪管效应”而降低训练效率,而且还可能导致模型收敛异常并影响最终性能。
也有分布式通信的瓶颈。有了将近万亿美元的参数量表,不同计算节点之间的代币之间的专家转移将导致巨大的通信开销,而“通信墙”问题已成为限制培训效率的关键因素。
最后,这是硬件改编的复杂性,并意识到MOE算法与特殊AI加速器(例如Ascend npus)之间的深入协作,需要对算法设计,软件框架和硬件特性进行完整的堆栈优化,以完全释放硬件计算的潜在计算。
为了应对这些问题,华为的技术报告详细介绍了如何从模型架构,MOE培训分析,系统优化等方面处理问题。
首先是MUE结构选择和上升亲和结构优化
该团队进行了试点实验,并确定了像细粒专家和共享专家一样的范式。后来,选择模型时,考虑了多个因素。
就计算和访问而言,通过增加模型中的隐藏大小(隐藏的层大小)并减少激活参数,这不仅增加了模型的计算量,而且还会减少访问量,从而提高了在推荐过程中模型训练和吞吐量期间计算能力的利用率。
在多维并行亲和力方面,采用了指数级为2的专家数量,以实现TP8×EP4超融合并行化方法。
使用TP-EXTEND-EP技术,避免由于TP切片精细的专家而导致的MTMUL(矩阵乘法)等操作员的效率,同时,请使用ALLTO ALLTO ALLTO alto alloto alloto alloto alloto alloto allto alloto allto allo to s andle communication造成了EP通信的间接费用。
就Davinci体系结构亲和力而言,根据256对张量对齐,以便它可以完美匹配16×16矩阵计算单元,从而完全释放Asteng NPU的计算能力。
就管道编排亲和力,PP(管道平行),VPP(可变管道平行),空图层和其他技术用于实现PP和VPP的负载平衡,并减少空闲计算资源(真空)。
在模型结构仿真方面,团队根据硬件适应性特征对模型参数的选择范围进行了重大调整,将原始的巨大参数搜索空间降低到约10,000。
为了更准确地了解不同模型的性能限制,团队开发了一组特殊的建模和仿真工具。该工具非常强大。它将模型结构,运行时采用的策略和硬件系统划分为小参数。
通过在诸如操作员,块和层之类的级别上模拟计算,数据传输和阅读操作,可以计算模型的整体性能。在将其与实际测试数据进行了比较之后,发现该模拟工具的准确性可以达到85%以上。
团队使用此建模和仿真工具来测试满足硬件适应要求的所有参数,仔细评估了他们在培训和推理期间的数据处理速度,最后找到了一个相对较好的性能的模型结构。有关详细信息,请参阅下图。
接下来,让我们看一下MOE培训的分析
与普通密集模型相比,训练MOE模型时,存在一个特别引起头痛的问题,即负载不平衡。
例如,这就像一群工作的人,有些人很忙,而另一些人则无事可做,因此效率绝对不会很高。
为了解决这个问题,科学研究界从算法的角度考虑了许多解决方案,并提出了各种辅助损失函数,这些辅助损失功能着重于平衡范围。
例如,在早期,有专门针对序列水平的平衡辅助损失,并且有DP组(即全球批量大小)均衡的辅助损失,由Tongyi Qianwen提出。
这些辅助损失功能就像设置了MOE模型中的路由模块(负责分配任务的部分),并且通过不同程度的约束,它可以更均匀地分配任务。特定约束在下表中排序。
Balance BSZ表示用于计算专家选择频率的令牌数量
该团队还开发了一种新的EP组负载平衡损失算法
与传统的微批量辅助损失相比,它不会超越本地任务分配的绝对平衡,避免“过度纠正”;与DP组的均衡损失相比,它在数据传输过程中消耗的资源较少,这可以节省大量的通信成本。
此外,就专家任务数量的约束程度而言,它介于两者之间,这是一个更妥协的解决方案。
为了验证该新算法的效果,该团队对Pilot MoE模型进行了消融实验,总参数量为200亿(20B)。具体情况如下:
为了应对不均匀负载对专家的“桶效应”,MOE可以使用滴盘来改善训练吞吐量。
该团队首先将掉落和垫子的表现和在20B飞行员Moe上的表现进行了比较:
结果表明,无滴总是比掉落方案更好。
随着专家数量的增加和模型参数的增加,该性能差距将进一步扩大。
因此,在训练pangu ultra萌时,采用了无滴计划,并且该策略下的培训效率集中在优化。
具体而言,团队从四个关键方向上全面优化了Pangu Ultra MOE模型,包括改善并行计算策略,优化数据传输效率,提高视频记忆使用效果以及使任务分配更加偶数。
在由6,000多个ASTENG NPU组成的大型计算集群中,该模型的计算功率利用率(MFU,模型FLOPS利用率)达到30.0%,并且与优化前相比,增加速率高达58.7%。
团队使用了模型模拟系统,该系统可以模拟整个过程,并反复尝试并找到了最佳的并行计算解决方案。
最终解决方案是:16通道管道并行性,8通道张量并行性,4通道专家并行性,2渠道虚拟管道并行性和48通道数据并行性。
在专家并行性中,团队使用TP扩大EP策略。
简而言之,让TP组划分专家的数量。这可以避免GMM操作员在处理小规模专家数据时的效率下降的问题,因为TP组分解了专家参数。
在整个系统中,专家组的总数为32(由TP和EP的组合计算),总共256位专家分为256名专家。
虚拟管道并行策略具有特别好的效果。过去,空闲计算资源(真空率)占18.98%。使用新策略后,它直接下降至10.49%。
同时,通过合理地在MTP层和损耗函数层中分配任务,由不均匀任务分配引起的负载溢出在5%之内控制,从而大大降低了任务分配不均的负面影响。
为了解决并行扩展的通信瓶颈,该团队还设计了两种主要技术。
第一个是层次结构EP通信层次结构EP通信
与机器内通信相比,跨机器通信带宽较低。该团队采用层次EP通信以减少跨机流量。
具体而言,跨机器Allgather通信用于将所有令牌同步到机器中,然后在机器中对令牌进行排序,然后使用机器内通信重新分配令牌。
机器内通信和机间通信都可以通过前反向通信掩盖技术掩盖。从下图中的流量量的比较,我们可以看到层次EP通信对跨机器通信的减少的影响。
接下来是自适应管道重叠机制的反向掩蔽策略
即使采用了层次EP通信策略,EP通信的耗时比例仍然很高。前反向的大多数EP通信都具有计算的依赖性,并且自然掩蔽策略将暴露大多数EP通信。
如果采用了诸如一般计算融合操作员之类的自掩蔽策略,则计算效率将不可避免地降低。
因此,团队采用了基于VPP调度的自适应前向反向掩盖策略,以实现下面所示的过程中的前向计算掩蔽反向通信,并反向计算屏蔽向前向通信。
核心设计包括:使用机器间和机内通信链接的独立带宽特征来实现机器内通信之间的相互掩蔽,使用有效的操作员来减轻宿主的结合,并将专家反向DW计算和DX计算分开,以使较精细的粒状掩盖。
优化视频记忆时,团队采用了一种新的计算方式。
重新计算出诸如MLA,置换和激活功能之类的细粒模块,而不是使用传统的全重量计算,可以避免额外的计算消耗。
同时,使用张量交换技术,应首先将激活值首先传输到CPU,然后在需要反向计算时预先检索它,以便可以更有效地使用NPU存储器。
该团队还研究了新的视频存储器节省方法,并准备结合多个优化策略,以基于不同的设备配置找到最合适的组合,这不仅可以改善视频内存利用而不会降低模型性能。
使每个设备上的专家处理的任务数量(代币数)尽可能均匀,这可以极大地提高训练效率。
为此,团队设计了一个动态的设备级负载平衡机构。
首先,计划者就像一个“小管家”。通过在一段时间内观察专家的工作量,预测将来的任务数量,然后使用贪婪的算法来计划如何重新分配专家,以使设备之间的任务更加平衡。
然后,执行器定期起作用以在设备之间传输不同变压器层的专家参数和优化器状态。通过这种动态调整,模型的MFU提高了10%。
除上述内容外,团队还开发了一些专门针对上升设备的技术,包括主机端优化,计算卸载和数据共享以及融合操作员。
实验结果
在培训数据集的构建过程中,团队实施了严格的数据质量控制,并强调了语料库的多样性,复杂性和全面性。
引入了特殊标记符号,以供长链思考样本构建推理轨迹和最终答案。
指令进行微调策略在训练后阶段采用,数据涵盖了广泛的领域,包括一般的问题和答案,文本生成,语义分类,代码编程,数学逻辑推理和工具使用等。
特别是,将推理与非推理样本的比率设置为3:1,以进一步提高推理性能。
实验表明,Pangu Ultra MoE对话版本在许多领域都表现出出色的竞争力,并且在大多数基准测试中的表现与DeepSeek-R1相当。例如,它在一般理解任务(例如ClueWSC 94.8点,MMLU 91.5分)中表现出了出色的理解,在高缺陷测试(例如数学推理和代码生成)中表现出色(例如AIME2024 81.3分,MBPP+ 81.2分),并且具有出色的编码和数学的技能。
该团队还对Pangu Ultra Moe进行了专业和专业分析。
在不同的任务中,同一网络层的代币将首先将其路由到不同的专家,并且专家专业的任务差异很大。
这证实了Pangu Ultra Moe已经形成了重要的专家差异化,这不仅增强了模型的表现能力,而且还为其出色的性能提供了关键的支持。
Pangu Ultra Moe的MOE层输出由共享专家和路由专家贡献的加权总和组成。
因此,至关重要的是要在两者的输出之间保持平衡。
下图显示,路由专家保持与所有网络层共享专家相当的贡献强度。这种平衡的协同作用有效地提高了模型的整体表示能力。
该小组还分析了专家的共同激活现象。激活评分越高,两个专家之间的相关性越强。
在下图中,除了少数例外,这三层专家之间没有明显的共同激活,这反映了Pangu Ultra Moe的专家冗余低。
以上是华为的国内NPU背后的奥秘,运行了万亿美元的参数模型。
华为的Pangu Ultra Moe技术突破不仅标志着国内计算能力平台在AI大型模型培训领域中进入了世界领先的排名,而且还表明了中国在独立技术创新方面的强大力量。
它证明了中国公司有能力从跟随到跑步,甚至在全球AI竞争中领先。
将来,随着技术的持续迭代和应用程序场景的扩展,Pangu Ultra Moe将向数千个行业的智能转变注入强大的动力,帮助中国在新一轮的科学和技术革命中占领了高度的高度,并为人类科学技术的进步贡献了更多的“中国智慧”。
技术报告下载地址:
arxiv.org/abs/2505.04519