6月7日,智东西报道,于2025年的智源大会上,北京一家专注于大模型研发的初创企业面壁智能推出了MiniCPM 4.0开源模型的两个新版本,分别是0.5B和8B,这些版本被赋予“前进四”的代号。
MiniCPM4-0.5B的训练成本仅仅是Qwen3-0.6B的2.7%,却凭借一半的参数量实现了性能上的翻倍提升,其综合得分平均达到了52.06分,显著超越了同类模型。此外,面壁科技还推出了一款0.5B的三级量化版本,该版本的平均得分更是高达56分,堪称优异的成绩。
MiniCPM4-8B的训练成本仅为22%,引入了长文本稀疏化技术后,其参数和性能均得到提升,综合评分可与Qwen3-8B相媲美,甚至超越了Gemma3-12B,在同类端侧模型排行榜上名列前茅。
李大海,面壁智能公司的首席执行官,在总结中指出,MiniCPM4模型最为显著的优势在于其运行速度之快。
在端侧跑140K上下文,需要很大的端侧内存,属于极端场景。在搭载Jetson Orin AGX(64G)或RTX 4090(24G)的硬件上处理128K长文本时,若采用Qwen3-8B这类未进行上下文稀疏化处理的模型,将面临显存不足的问题,不得不依赖CPU内存,进而导致运行速度显著降低;相反,MiniCPM4-8B经过快速稀疏化处理,能将所需的长文本缓存占用减少至原来的1/4,在常见应用场景中,其速度至少能提升3-5倍。
在显存资源紧张的情况下,MiniCPM4的测试结果甚至能高达220倍之快。
面壁智能的MiniCPM4-MCP模型,在端侧通过MCP协议运行,兼容了15种主流应用,并在此过程中展现出卓越的综合性能评分。此外,MiniCPM4-Survey端侧版则能在AI PC上搭建深度研究服务,成为一款离线状态下也能使用的便携式研究工具,对于保护本地隐私数据具有重要意义。
面壁智能与英特尔携手紧密,成功实现了端侧解锁128K长上下文窗口的突破,该成果在英特尔平台上借助InfLLM 2.0的稀疏注意力结构,实现了推理优化的3.8倍加速效果。此外,MiniCPM4已在华为昇腾、联发科、高通等主流芯片上实现流畅运行,同时兼容vLLM、AutoGPT等多种推理框架,而欧拉版也正在紧张地进行适配工作。
又快又好,是怎么做到的?
李大海透露了技术背后的具体信息——这是行业内首个实现全开源的系统级上下级稀疏化的高效创新技术。
一、架构:混合稀疏注意力机制,稀疏与稠密方案灵活切换
传统的Transformer模型在处理每个token时,都需要与序列中的所有token进行相关性计算,这种逐字重复的计算方式效率十分低下。而在引入稀疏注意力机制后,随着稀疏度的提升,计算量相应减少,从而使得处理速度得到显著提高。
MiniCPM4运用了InfLLM 2.0的混合稀疏注意力机制。这种架构借鉴了检索策略,对文本进行分块和分区处理,仅对最具相关性的关键区域实施注意力计算“抽查”,从而提高了效率。运用此方法,面壁智能能够将稀疏度降低至5%,并将计算量减少至10%。
面壁智能在技术层面进行了创新,引入了高效的自动双频换挡技术;对于长文本,采用稀疏方案进行处理;而对于短文本,则运用稠密方案。
二、在推理方面,我们自主研发了一套端侧的高性能推理框架,实现了90%的体积缩减,同时将速度提升了2倍。
端侧生态资源充沛,然而实现兼容性往往代价不菲。面壁智能致力于降低端侧模型部署的难度,因此自主研发了名为“三级火箭”的推理架构。
自研的端侧高性能推理框架CPM.cu,成功实现了稀疏性、投机性和量化技术的有效融合。借助FR-Spec的轻量化投机采样技术,该框架将原始模型的运行速度提升了2倍。它使得小型模型能够成为大型模型的实习生,从而减轻了小型模型的负担并加速了其运行,速度提升幅度甚至超过了5倍。
极致低位宽量化BitCPM技术,对端侧低内存容量部署十分友好;采用4bit量化,已达到业界顶尖水平;若采用3倍量化,还能实现90%的体积缩减。
Arkinfer,我们自主研发的跨平台部署框架,针对多平台端侧芯片进行深度优化;它实现了跨平台的快速高效采样和限制解码;同时,它还支持端侧多平台Model Zoo的流畅使用,显著提升了速度,达到了原来的两倍。
三、学习:多维度训练策略优化,FP8低精度提升训练速度
在高效训练方面,面壁智能也做了很多探索。
模型风洞Model Wind Tunnel v2版本:通过采用小规模模型进行先行探索,为大规模模型训练提供方向,通过优化小模型的训练过程,探寻大规模模型训练的最佳参数设置,包括学习率和批处理大小等,并将这些参数应用于大规模模型的训练中,以实现参数的最优配置搜索。
在强化学习训练过程中,若单个数据样本过于庞大,便会在GPU上形成众多无效的空载,进而引发负载不平衡的问题。鉴于此,我们采取将长数据样本进行分段处理和采样的策略,确保它们能在后续阶段得以持续生成,从而实现GPU资源的合理且高效的分配。
工程优化方面,我们运用了FP8训练技术,通过降低计算精度来加快模型运算速度,从而提高训练的效率;同时,我们引入了MTP监督信号,这种信号能提供更为密集的监督信息,有助于增强模型对数据的利用效率。
四、数据:用8T高质量数据训练,表现不输36T竞品数据
MiniCPM4模型具备另一显著优点:其仅依赖于极少量却极具价值的高品质训练数据。
优秀的资料是提升性能的关键。采用8T的高品质数据,其模型训练成效与36T同类产品的数据相当。
Ultra-FineWeb系统具备严格的数据筛选功能,能够有效构建包含万亿级别的高质量数据集。它采用“半成品加工法”进行高效验证,首先训练一个“半熟”模型,随后利用新数据进行快速微调,从而实现成本降低90%。此外,该系统运用fastText工具对大型语言模型进行质量检测,处理15万亿数据仅需1000小时的CPU时间。
UltraChat-v2具备高能力密度,能够合成数据,支持构建多种类型的有监督微调数据集,包括大规模的知识密集型、推理密集型、指令遵循型、长文本处理型以及工具调用型等。
结语:以更低成本实现更高智能,端侧模型走向普及普惠
MiniCPM4之所以能在参数数量较少的情况下展现出卓越的性能,其根本原因在于面壁智能在架构、系统、推理以及数据等多个层面进行了全面优化。此外,通过更少的数据和算力便能达到相同的性能水平,这不仅有助于降低成本,还能让时间和资源得到更高效、更有价值的利用。
国内端侧模型领域的佼佼者面壁智能,其旗下模型矩阵已全面覆盖了包括基座模型MiniCPM、高端多模态模型MiniCPM-V以及高端全模态模型MiniCPM-o等多个系列,并且在全球范围内的下载量已经突破了千万大关。
面壁智能计划正借助MiniCPM技术不断深化密度定律的研究。李大海坚信,在接下来的数年内,将会有更多智能且高效的硬件和终端设备问世,它们将配备MiniCPM等端侧模型,从而为公众提供更加优质的服务。