发布信息

玉盘AI的SRDA架构浮出水面,能否挑战传统芯片规模观念?

作者:软荐小编      2025-06-10 21:02:00     74

与此同时,我国团队开发的玉盘AI的SRDA系统级数据流计算架构方案逐渐显现,旨在从硬件层面入手,当前人工智能算力的关键难题。

许多玉盘SRDA所从事的活动与DeepSeek的设想相近,这些SRDA正处于推出阶段,在一定程度上,它们较好地汇聚了业界对下一代AI硬件的共同认知。

玉盘的核心团队目前仅有二十多人,平均年龄在三十岁左右,这不禁让人想起硅谷那家知名的AI芯片初创企业Etched——它是由三名哈佛大学的学生创立的,在产品试制阶段,其团队规模也只有35人。

玉盘团队堪称AI时代中成功应对精简团队挑战、挑战传统大象团队形象的又一典范,同时,它也彻底改变了人们对芯片企业规模的传统认知。

Etched芯片专为Transformer架构设计,用于推理ASIC,而玉盘SRDA架构虽简约却具备可重构性,能够支持包括Transformer、Diffusion、Mamba、MoE在内的多种模型进行训练和推理。

矿池算力和全网算力_zen算力成本_

Sohu所刻制的芯片被誉为全球首个专为LLM计算设计的集成电路。

同时,作者还得知,在2023年大模型技术爆发之前,玉盘团队就已经着手研究I/O融合技术,并于同年推出了eSPUAIHub方案。结合近期DeepSeek论文的对比分析,这无疑就像是AI基础设施领域的“我猜中了你的猜测”。

这,或许正是他们敢于在当下即时公开自身底层架构设计理念的信心所在。

本文将深入分析玉盘团队发布的白皮书,探讨其中SRDA架构的核心特性,并研究其设计理念如何为AI算力基础设施中的若干关键问题提供潜在解决方案。

zen算力成本_矿池算力和全网算力_

项目位于:https://github.com/moonquest-ai/SRDA,这是一个专门的项目页面。

让我们审视一番,我国创新硬件领域的团队已深入思考至何种程度,其成果是否与DeepSeek等高级玩家所需相匹配。

大模型凶猛:AI算力面临「N重门」

在深入讨论SRDA架构之前,我们应当首先理清它所旨在解决的模型难题,这些问题正是DeepSeek论文中所明确指出的行业核心痛点,。

矿池算力和全网算力_zen算力成本_

内存容量受限:由于模型规模急剧扩大,以HBM技术为代表的内存容量提升却相对迟缓。为了有效解决此问题,DeepSeek采纳了低精度计算以及MLA技术这两种策略,显著减少了模型参数和KV Cache的存储要求。

内存带宽不足问题日益凸显:尽管芯片的算力理论值持续攀升,然而,由于模型规模的扩张速度远超内存带宽的增长速度,在众多AI应用的实际情况中,计算单元往往需要大量时间等待数据,导致其计算能力未能得到充分释放。

计算精度受限:低精度计算可显著提升训练与推理效率,然而,为确保模型性能不受损害,必须实施高精度累加及细致的量化处理。纯软件实现这一过程颇具挑战,且会增加额外的成本。

集群扩展面临挑战:模型规模呈指数式膨胀,导致分布式训练与推理变得普遍,从而在集群层面迫切需要实现高效的扩展。然而,目前普遍采用的节点内部连接技术(例如NVlink)与节点间连接技术(例如Infiniband)常常基于不同的技术规范和硬件配置,这一现象不仅使得系统的优化与管理工作变得更加复杂,而且还有可能带来额外的通信延迟,进而对系统的整体扩展性能造成负面影响。

PCIe总线带宽的争夺现象明显:在现有架构中,节点间的数据交流以及节点内部GPU与CPU之间的数据传输(例如KV Cache)都需要共用PCIe总线,这导致了带宽的竞争。这种竞争的存在,一旦通信受到影响,就会引发难以预估的性能下滑,进而对整个系统的性能产生不利影响。

zen算力成本__矿池算力和全网算力

SRDA架构:打造AI计算新范式

这些痛点,是否有解决之道?

玉盘团队,从根本上找到了解决问题的思路。

依据团队发布的公开技术文档,SRDA架构的核心思想被阐述为重返AI计算的根源——那就是高度组织化的数据流转与转换。

这个设计目标,并非仅仅是对现有架构进行简单的优化,而是力求进行更深层次的变革。

其关键设计哲学据称包括:

_zen算力成本_矿池算力和全网算力

zen算力成本_矿池算力和全网算力_

zen算力成本_矿池算力和全网算力_

SRDA能否回应DeepSeek等前沿玩家的需求

数据流通不再拥堵!SRDA为每个计算单元配备了“定制化高速通道”。

DeepSeek的研究指出,该模型的发展速度超过了HBM技术的进步,特别是在注意力机制等应用场景中,内存带宽的局限尤为明显。在其提出的参考方案中,提到了3D DRAM等前沿技术方向。

传统GPGPU架构面临的主要问题在于,在共享内存架构中,各个计算单元必须争夺内存资源,这使得内存带宽变成了制约性能的关键。SRDA技术提出了一个巧妙的解决方案,它运用了3D堆叠技术以及独特的内存架构,确保每个计算单元都能拥有独立的大容量、高带宽内存。这一理念与DeepSeek所提出的3D DRAM方向不谋而合,其宗旨在于从硬件层面增强数据的供应能力。

此外,SRDA采纳了“数据流驱动”的设计理念,这一理念致力于通过优化计算图的执行路径,减少对内存的频繁读写以及不必要的数据传输,以期在计算模式上减轻对内存带宽的依赖,最终提高计算单元的实际使用效率。

研发效率极高

数据显示,在2024年的主流大型模型中,Transformer架构的占比高达92%,同时,有70%的计算资源被R1、Qwen等开源模型所消耗。

这种发展态势导致AI专业芯片厂商只需对2至3种主流模型进行深度优化,便能满足大部分市场需求。

玉盘架构充分利用这一特性,化繁为简,与GPU构建完整软件生态(例如CUDA)的需求相比,玉盘架构专注于硬件加速,据悉,其研发成本可以降低至GPU企业成本的五分之一到三分之一。

原生提供合适计算精度

目前主流硬件存在的一个问题在于,它们并未直接提供对低精度数据类型进行高精度累加以及细粒度量化的功能。

为了解决这一精度难题,SRDA原生对DeepSeek等模型制造商所探索的低精度FP8进行了支持,同时原生对高精度FP32的累加操作和细粒度量化提供了支持,以此充分发挥低精度计算的潜在优势。

告别「线程打架」:I/O融合巧解数据传输与通信的「拥堵费」

DeepSeek在观察现有方案后,指出了以下几个关键点——

扩大带宽存在一定的限制;Scale-up技术与Scale-out网络之间的技术差异导致了通信的复杂性,并有可能耗费计算资源;在特定情况下,PCIe总线可能成为数据传输(例如KV缓存)以及节点间通信的竞争焦点。

对于这些问题,DeepSeek提出了一系列对策,诸如实现内外网络的统一、采纳通信协处理器技术、并将网络接口卡(NIC)的功能整合至计算芯片(Die)之上等。

对此,SRDA团队也形成了自己的对策。

在白皮书里,他们提出了构建一个统一的网络,该网络覆盖了片内、片间直至节点间的快速互联,并实现了scale-up与scale-out网络的统一。

特别值得关注的是,该设计还巧妙地集成了独立的通信引擎,从而实现了计算与通信的分离。

若这种“独立通信引擎”得以顺利实施,其作用或许与DeepSeek所提出的“通信协处理器”相仿,具备将网络处理职责从主计算核心中移除的能力,进而实现计算资源的有效释放。

这种片上集成的统一网络与通信引擎,其设计宗旨在于提升节点间通信的便捷性与效率,有望降低对传统PCIe总线的依赖程度,进而为解决DeepSeek所提出的PCIe带宽竞争问题提供新的可能性。

SRDA架构借助上述创新,旨在在大模型训练与推广的场合实现以下几方面的优势:

SRDA架构实际上为人工智能基础设施的进一步发展开辟了一条全新的思路,它提供了一种前所未有的构想。

其设计理念源于对数据流动性的深刻洞察,以及软硬件之间紧密协作的构思,充分展现了突破当前人工智能计算能力限制的巨大潜能。

数据流的理念已经逐渐被越来越多的人所认知,并有望达成广泛认同。在此背景下,SRDA在此基础上,依托更为先进的互联技术,成功构建了数据中心整体的数据流架构,显然处于行业领先地位。

目前,在国内外市场上,已经涌现出了诸如昇腾达芬奇、Groq LPU以及SambaNova RDA等创新型的计算架构。

然而,这些架构大多在大型模型技术需求趋于稳定之前便已出现,它们主要针对的是传统的AI小型模型应用场景。相比之下,在大规模模型应用场景中,这些专用计算架构所展现的效果似乎并不显著——尤其是与GPGPU相比。

在这些针对AI设计的特定架构中,部分依然沿用了GPGPU的架构设计,而另一些则因难以满足大型模型的特定要求而显得有些吃力(比如Groq LPU架构在大规模模型应用中的成本问题,已经引起了业界人士的广泛批评)。

截至目前2025年,实用的模型架构和技术要求已逐渐趋于一致。

在较长的时期内,现有的Transformer、Diffusion等架构将继续占据市场的主流地位,同时,3D-DRAM颗粒技术也恰好达到成熟阶段,其容量完全满足大型模型的需求。

玉盘选择在此时实施SRDA,或许能产生与众不同的成效,甚至有可能成为区分通用型GPGPU架构与专门用于AI大模型的计算架构的临界点。

SRDA所公开的设计理念显示,其解决问题的方法与DeepSeek等前沿研究在分析某些挑战时的方向高度一致。这一点或许暗示,以数据流为核心的专用计算架构,在AI算力发展的未来将扮演愈发关键的角色。

玉盘团队在其公众号上提前告知,他们计划在不久的将来推出demo,并会公开详细展示性能数据。

参考资料:

矿池算力和全网算力__zen算力成本

相关内容 查看全部