发布信息

梁文锋参与的DeepSeek最新论文公布:DeepSeek-V3解决硬件瓶颈的四项创新技术

作者:软荐小编      2025-05-16 09:01:13     134

Liang Wenfeng亲自参加的最新Deepseek论文在这里!

这次,团队宣布了如何在培训和推理期间解决DeepSeek-V3的“硬件瓶颈”。

具体而言,DeepSeek-V3的核心可以实现一个非常大规模集群(例如成千上万的GPU)的训练效果,仅为2,048 H800,而核心在于四种创新技术

内存优化

公牛的潜在关注(MLA)

计算优化

混合专家模型(MOE)和FP8低精度培训

通信优化

多层网络拓扑和低延迟设计

加速推理

多语预测(MTP)

因此,这四个优化如何发挥作用,让我们继续研究它。

优化的硬件和软件协作设计

在训练大型模型的道路上,可以说,占据道路的“三个山”。

首先,没有足够的内存。

当今的大型语言模型(例如GPT和Llama)越来越大,所需的存储空间正在增加。特别是,他们使用的“注意机制”将生成大量的临时数据(KV缓存),并占据了许多图形卡存储器。

但是,高性能视频记忆的能力越来越慢,并且每年只会增加不到50%,这与需求相符。

第二个是低计算效率。

培训超大规模的模型需要大量的计算资源。传统的“密集模型”(例如Llama-3)需要激活每个计算的所有参数,从而产生极高的计算成本。

尽管“混合专家模型”(MOE)更有效,但它需要复杂的通信机制(例如专家之间的数据传输),这需要极高的网络带宽。

最后,通信速度很慢。

当一起训练多个GPU时,他们需要不断交换数据,这会产生延迟。即使使用Infiniband等高速网络,此延迟仍然会降低整体训练速度,尤其是在处理长文本或实时响应时。

本文需要解决的是上述困难问题。

DeepSeek-V3的基本架构

DeepSeek团队首先优化了内存,并且采用的方法是多电位注意力(MLA),以减少“键值缓存”(KV CACH)的内存使用情况。

在传统模型中,每个注意力标头都需要独立缓存键值对,而MLA通过投影矩阵将所有标头的键值对压缩到一个较小的“潜伏向量”中,只是缓存该向量。

与其他模型(例如Llama-3和Qwen-2.5)相比,DeepSeek-V3的KV高速缓存大小仅需要每个令牌的70 kb,即传统方法的1/7至1/4,大大降低了存储压力,并且特别适合长文本处理。

在计算优化方面,DeepSeek-V3采用的方法是MOE和FP8低精度培训。

MUE,也就是说,将模型参数分为多个“专家”,只有某些专家一次被激活以一次处理输入,从而大大减少了实际的计算量。

DeepSeek-V3采用了类似的想法。尽管其总参数为6710亿,但每次都只能激活370亿个参数,训练成本仅为相同规模的密集模型的1/10(例如Llama-3.1的培训成本接近10倍)。

由于推理过程中的激活参数很少,因此DeepSeek-V3可以在消费级GPU上运行(例如价格为10,000美元的图形卡),每秒产生近20个令牌,适用于个人或中小型企业。

至于FP8低精度训练,与使用BF16(16位浮点)的传统训练不同,它可以将内存足迹和计算减少一半,同时通过“量量化”(例如块状压缩)保持准确性。

DeepSeek-V3是FP8培训首次成功地应用于开源大型模型中,培训成本降低了50%,准确性损失小于0.25%。

此外,DeepSeek-V3还对通信进行了相应的优化。

例如,多层脂肪树网络(多平面脂肪树)将群集网络分为多个“平面”,每个GPU都连接到独立的网络平面,以避免不同任务的交通冲突(例如培训和存储通信的分离)。

与传统的三层网络相比,两层结构的成本降低了40%,延迟降低了30%,并且支持数以万计的GPU扩展。

进行推断时,DeepSeek-V3还使用管道并行性(DualPipe)在阶段执行“注意计算”和“专家间通信”,以允许GPU在计算过程中同时传输数据,避免闲置等待,并增加吞吐量的时间近1倍。

最后,就推理加速度而言,DeepSeek-V3采用了多型预测(MTP)方法。

传统模型一次只能产生1个令牌,而MTP可以通过轻量级子模型并行预测多个候选令牌(例如一次预测2-3),并在验证后选择最佳结果。

从实验结果来看,生成速度增加了1.8倍,例如,每秒产生的kiens数量从10增加到18倍,同时保持精度在80%至90%之间。

以上是DeepSeek-V3可以通过硬件和模型的协作设计在有限的资源下实现有效的培训和推理的关键技术。

但是,除此之外,本文还具有未来工作的一定灵感。

从“被动适应”到“主动设计”

由于我们已经知道硬件中AI的当前瓶颈,因此我们可以提出对下一代AI硬件的期望。

DeepSeek团队从五个方面取得了前景,希望在这方面逐渐从过去的“被动适应”到“主动设计”。

1。低精度计算支持

为了应对低计算效率的问题,下一代AI硬件需要提高累积寄存器的准确性,支持FP32积累或可配置的精度(例如用于培训的FP32和推理的FP16)。这允许在不同的模型培训和推理要求中平衡性能和准确性。

硬件还需要支持本地细粒量化,以便张量核可以直接接收缩放因子,完成计算单元内的完全量化和逆量化,并减少数据处理。

此外,建议支持LogFMT(对数浮点格式),以在相同的位宽度下提供更高的精度,并提高编码和解码速度。

2。扩展和扩展集成

为了响应缓慢的传输速度问题,建议将来的硬件通过集成专门用于网络流量管理的协处理器来整合节点(垂直缩放)和节点(水平比例)到统一框架中。

这样的设计可以降低软件复杂性并最大化带宽利用率,包括以下内容:

统一网络适配器:设计NIC(网络接口卡)或I/O芯片连接到统一扩展和还原网络,从而使网卡可以直接支持所有通信需求。

专用通信协助程序:卸载数据处理,减少,键入转换和其他任务,以发布专用硬件以发布GPU SM资源。

添加了智能传输功能:自动转发数据,支持广播和摘要操作,并自动处理数据序列问题。

动态带宽分配:支持流量优先级调度(例如EP通信> KV缓存传输)。

CPU-FPU高速互连:使用NVlink连接CPU和GPU,以进一步优化节点内的通信。

3。网络拓扑优化

针对网络滞后问题,建议以太网供应商开发ROCE开关,这些开关专门针对RDMA工作负载进行了优化,以删除不必要的以太网功能。

还必须优化路由策略和支持自适应路由(AR),以通过将数据包动态发送到多个路径来显着提高网络性能。

或者,可以通过虚拟输出队列(VOQ)改善交通隔离或拥塞控制机制,以隔离不同的流量并避免拥塞。

4。内存系统优化

鉴于AI模型变得更糟和较差的问题,并且很难在聊天过程中记住上下文,因此您可以通过堆叠DRAM 3D将内存芯片像三明治一样将内存芯片堆放到计算芯片上。

或者学习脑力并直接在晶圆上进行集成工程,以最大程度地提高内存带宽和计算密度,以便硬件可以记住更多。

或者,在硬件存储层中部署稀疏注意加速器,以便硬件可以直接帮助组织内存并仅记住关键点。

5。稳健性和容错性

为了解决网络闪存断裂和GPU故障的问题,在大规模训练中会导致任务故障,我们希望下一代硬件可以支持链接层重试和快速故障转移,并且可以在Flash Breaks后立即找到备份路线。

还可以添加基于信用的流量控制(CBFC) +智能拥堵控制算法(例如RTT-CC),以避免集体网络干扰。

简而言之,下一代AI硬件必须在快速算术(低精度计算 +本地细粒量化),快速消息传输(与网络 +智能路由的直接连接),良好的内存 +接近内存计算)以及没有停机时间(自动化网络)(自我实现的网络)方向上有所改善,以便更好地应用大型模型培训和有效的扩展。

- 超过-

相关内容 查看全部