记者 陈月芹
6月17日,稀宇科技旗下的MiniMax品牌对外宣布,他们自主开发的MiniMax M1模型将实行开源策略。同时,该公司还计划在接下来的5天时间里,每日推出至少一项新的产品或技术。这款MiniMax M1模型在多个方面与DeepSeek R1相媲美,包括关键技术规格、架构设计、上下文处理能力以及训练成本等,甚至与谷歌的Gemini 2.5 Pro一较高下,看究竟哪个更实用、哪个成本更低。
对于大型语言模型来说,评估其处理复杂且篇幅较长的任务能力,上下文窗口的宽度以及长文本的处理能力是至关重要的标准。MiniMax M1能够处理高达100万个token的上下文,这一数值是DeepSeek R1所能容纳的上下文大小(12.8万个Token)的8倍,并且仅略逊于谷歌的Gemini 2.5 Pro。具备百万级上下文输入的强大功能,MiniMax M1特别擅长应对长篇文档,无论是进行法律文件的审核、深入的学术研究,还是对整个代码库进行管理,它都展现出了卓越的适用性。
在架构设计方面,MiniMax M1与DeepSeek R1均选用了混合专家(MoE)架构。具体来看,MiniMax M1的参数总量达到了4560亿,单个token的激活参数为459亿;相比之下,DeepSeek R1的总参数量更高,达到6710亿,但每个token的激活参数相对较少,仅为370亿。
此外,MiniMax-M1在处理生成10万个token的任务时,其浮点运算消耗仅为DeepSeek R1的25%。而在执行长度达到64000个token的推理任务时,M1的计算需求甚至不到DeepSeek R1的一半,这进一步显著减少了模型操作的总体成本。
2025年2月,DeepSeek迅速走红,不仅因其免费且易用,更因仅需500万至600万美元的GPU投入,便打造出与OpenAI o1相当实力的DeepSeek R1模型,给业界带来巨大震动。然而,这一成本数据同时也引发了广泛的争议。
MiniMax公司表示,在M1模型的强化学习全过程中,仅动用了512块英伟达H800 GPU,整个过程历时三周,总成本仅为53.5万美元,这一成本较最初预期减少了整整一个数量级。
MiniMax的原理涉及MiniMax M1在文本处理方面的卓越性能和成本优势,这些优势得以实现主要得益于两项关键技术的支撑。首先,它采用了线性注意力机制(Lightning Attention)与混合架构相结合,其次,还运用了强化学习算法CISPO。CISPO算法通过削减重要性采样权重的手段,区别于传统算法中对Token更新方式的调整,以此达到增强强化学习效率和稳定性的目的。
在降低训练成本的基础上,MiniMax还将用户调用API服务的费用进行了下调。
MiniMax M1实行分等级的收费标准,这一费用会随着用户输入或输出的Token数量,也就是内容的长度,相应地进行调整。0—32k Token的收费标准为每100万个输入Token0.8元,输出费用为8元/百万Token;32k—128k Token的输入费用为1.2元/百万Token,输出费用为16元/百万Token;128k—1M Token的输入费用为2.4元/百万Token,输出费用为24元/百万Token。
DeepSeek R1的API服务费用为每百万输入Token计0.55美元,相当于大约3.95人民币;而每百万输出Token的费用则是2.19美元,约合人民币15.4元。
据此推算,MiniMax M1的前两个档位价格均低于DeepSeek R1,至于第三个专门针对超长文本的档位,目前DeepSeek的模型还没有涉足这一领域。
目前,MiniMax M1的代码及模型权重已在Hugging Face和GitHub平台公开发布,用户得以进行透明化的审查、个性化调整以及本地化部署。