发布信息

华为重磅推出7180亿参数盘古Ultra MoE模型及技术细节

作者:软荐小编      2025-06-02 10:01:12     137

近期,华为在MoE模型训练技术方面取得新进展,隆重发布了参数量达到7180亿的全新模型——盘古Ultra MoE。该模型在昇腾AI计算平台上完成了全流程的训练,成为一款准万亿级的MoE模型。华为还同步发布了盘古Ultra MoE的模型架构及训练方法的技术文档,详细揭示了众多技术细节,充分展现了昇腾在超大规模MoE训练性能方面的显著提升。

开发具有超大规模和高稀疏性的MoE模型是一项艰巨的任务,其训练过程中的稳定性常常难以得到保证。为了攻克这一技术难关,盘古团队在模型结构和训练策略上进行了创新性的探索,最终在昇腾平台上顺利完成了准万亿MoE模型从训练到部署的全流程操作。

_华为模型机和真机的区别_华为模型

在架构设计方面,盘古团队创新性地提出了Depth-Scaled Sandwich-Norm(DSSN)的稳定架构以及TinyInit的小初始化技术,这些方法在昇腾平台上得以应用,成功实现了对超过18TB数据的长期稳定训练。此外,他们还提出了EP损失负载优化策略,这一设计不仅确保了不同专家之间能够维持较佳的负载均衡,同时亦增强了专家在各自领域的专业化水平。盘古Ultra MoE采用了行业领先的MLA和MTP架构,并且在预训练及后训练环节均采纳了Dropless训练方法,成功在模型性能与效率之间达成了超大规模MoE架构的最佳平衡。

华为团队在训练方法方面,首次公开了在昇腾CloudMatrix 384超节点上实现的高效技术,该技术成功实现了大稀疏比MoE强化学习(RL)后训练框架的打通,从而将RL后训练推进到了超节点集群的新时代。在5月初推出的预训练系统加速技术的基础上,华为团队在短短一个月内便完成了新一轮的迭代和升级,具体包括:针对昇腾硬件的自适应流水线掩盖策略的适配,对算子执行顺序的进一步优化,以及Host-Bound掩盖的降低和EP通信掩盖的提升;开发自适应内存管理优化策略;实现数据重排以实现DP间的Attention负载均衡;以及针对昇腾硬件的算子优化。这些技术的应用使得万卡集群预训练MFU的效率从30%大幅提升至41%。

华为模型__华为模型机和真机的区别

近期推出的盘古Pro MoE大模型,尽管其参数量仅有720亿,且激活了其中的160亿,但凭借动态激活专家网络的创新设计,展现出了卓越的性能,这种性能甚至可以与千亿级模型相媲美。在业界权威的大模型榜单SuperCLUE于2025年5月发布的最新排行榜中,该模型在千亿参数量以内的大模型排名中,与国内其他模型并列第一。

华为推出的盘古Ultra MoE与盘古Pro MoE系列模型,标志着华为在国产算力与国产模型的全流程自主可控训练方面取得了显著成果,并且其集群训练系统的性能已达到行业顶尖水平。这一成就进一步证实了国产AI基础设施在自主创新能力上的提升,为中国人工智能产业的持续发展注入了信心。

相关内容 查看全部