发布信息

字节Seed首次开源代码模型Seed-Coder,8B规模超越Qwen3拿下多个SOTA

作者:软荐小编      2025-05-11 15:01:08     78

来自Aofei Temple的Cresy Mingmin

量子位|官方帐户QBITAI

Byteseed的第一个开源代码模型!

种子代码量表8B,超过Qwen3并赢得了多个SOTA。

它证明“ LLM可以自行管理代码培训数据,而人类的参与很少”。

通过单独生成和过滤高质量的培训数据,可以大大提高模型代码生成能力。

od汇编代码到字节集_安卓app开源代码在哪下_

这可以看作是DeepSeek-R1模型的自我生成和过滤培训数据策略的扩展。

安卓app开源代码在哪下__od汇编代码到字节集

总共有三个版本:

其中,指导在编程方面表现良好,并赢得了两个测试基准SOTA。

_od汇编代码到字节集_安卓app开源代码在哪下

推理版本在IOI 2024上超过QWQ-32B和DeepSeek-R1。

_od汇编代码到字节集_安卓app开源代码在哪下

模型上下文是32K,使用6T令牌训练,并采用了松动的MIT开源协议,完整的代码已在拥抱面前发布。

使用模型管理培训数据

种子编码器的前身是doubao-coder,它采用了Llama 3结构,参数量为8.2b,6层,隐藏的层大小为4096,并且使用了组查询注意(GQA)机制。

最关键的任务是数据处理。种子团队使用模型计划数据提出了一种“模型中心”数据处理方法。

具体而言,该模型从GitHub和网络档案中爬网,并在多个处理步骤后输出最终的验证数据。

安卓app开源代码在哪下_od汇编代码到字节集_

种子代码的过滤数据分为四类:

让我们首先看一下代码处理。在预处理阶段,该系统在两个级别上实施重复数据删除:仓库和文件,SHA256哈希执行精确的重复数据删除,并通过Minhash算法近似重复数据删除。

这种两层策略生成了两个变体的代码语料库 - 文件级变体用于短上下文窗口训练,仓库级变体保留了项目结构,以支持更连贯的长上下文学习。

随后,系统使用语法解析器(例如树木)来检查其余文件并丢弃包含语法错误的文件。此预处理阶段总共将原始数据的量减少了约98%。

在质量过滤阶段,种子代码使用了专门由220,000多个代码文档训练的评分模型来过滤低质量的代码文件。

评分模型基于DeepSeek-V2-Chat,评估指标包括四个关键方面:

要求评分模型给出从0到10的总体得分,并提供详细的解释,然后将分数重新缩放到[0,1]范围内,并使用1.3B参数的预训练的Llama 2模型来通过回归标头作为质量得分手来微调一个时期。

最后,基于这种评分方法,种子团队以最低分数过滤了约10%的文件,并获得了支持89种编程语言的语料库,并包含约1万亿个独特的代币。

od汇编代码到字节集_安卓app开源代码在哪下_

接下来是提交部分,在该部分中,种子编码器收集了140,000个高质量GitHub存储库中的7400万个提交记录。这些仓库的过滤标准包括:至少100颗恒星,10叉,100张提交和100天的维护活动。

每个提交记录都包含丰富的元数据,例如提交消息,代码补丁,合并状态和预先承担的代码快照。

为了有效地利用这些数据,在预训练中,种子代码格式将每个将样本提交为代码更改预测任务。给定提交消息及其相关上下文,该模型需要预测修改后的文件路径和相应的代码更改。

重复数据删除和预处理后,种子代码获得了大约1000亿个提交数据语料库的令牌,以进行预训练。

对于从网络获得的数据,种子代码还提出了一个特殊的提取框架。

在预处理阶段,该框架有效地预处理大规模网络档案并确定了两种类型的原始数据:

与GitHub数据处理类似,研究团队在预处理阶段实施了精确和近似重复数据删除技术,并制定了启发式规则,以删除显着低质量的文档(例如,少于10个字的文档)。

在质量过滤阶段,该框架采用了两种互补策略来确保数据质量:首先,确定代码相关性,然后评估已确定内容的固有质量。

在代码相关识别步骤中,研究团队首先从通用爬网数据中提取了1000万个网页样本,标记了具有代码特征的页面,并建立了评估数据集。

该数据集的70%用作训练集,用于训练FastText模型以自动识别与代码相关的内容,其余30%则用作评估模型有效性的验证集。

在质量评估步骤中,系统使用LLM对确定的代码相关内容进行评分,并且评分标准采用0-10分制来评估内容的标准化,完整性和价值。

但是,在实际评估过程中,研究人员发现,不同类型网站的得分显示出系统的偏差:

文档网站,技术博客等。通常由于标准化格式和清晰的结构而获得很高的分数;尽管技术论坛和问答平台等网站通常包含有价值的技术讨论和解决方案,但由于非正式格式,它们得分较低。

为了解决这一评分偏见,研究团队优化了评分系统 - 首先通过其内容形式和功能对网站进行分类,然后为每种类型的网站开发特殊评分标准和过滤阈值。

通过这种优化的双重过滤机制,该系统最终构建了一个约1.2万亿代币的网络数据语料库。

安卓app开源代码在哪下_od汇编代码到字节集_

根据前四个数据类别,种子代码预训练分为两个阶段。

其中,第一阶段是使用文件级代码和与代码相关的网络数据进行例行预训练,目的是构建模型的基本功能。

第二阶段是使用所有四个类别的数据进行连续的预训练,另外还引入了高质量的数据集和长上下文数据集,以增强性能和对齐,同时刺激模型理解长上下文数据的能力。

除了传统的下一步预测目标外,种子代码还使用中间(FIM)和后缀 - 释放培训(SPM)培训,分别增强了上下文感知的完成和中间内容功能。

基于基本模型,种子团队还开发了两个特殊的种子代码变体 -

这两个变体的建立进一步扩大了种子代码的实用性。

Byteseed最近更开放

除了开源种子编码器外,Byteseed最近的许多动作还集中在降低阈值并打开开源。

例如,就基本模型而言,已经发布了视频生成和推理模型。

视频生成模型海藻,有70亿参数在本地支持1280x720分辨率,任意纵横比和持续时间视频生成,其效果超过140亿参数。

它强调了成本的优势,使用665,000 H100 GPU小时完成培训,可以由中小型团队部署,并且可以使用仅40GB视频记忆GPU的1280x720分辨率生成视频。

od汇编代码到字节集__安卓app开源代码在哪下

深思熟虑的模型种子思维 - v1.5较轻,激活参数较少,在数学和代码等推理任务中超过了DeepSeek-R1。

_安卓app开源代码在哪下_od汇编代码到字节集

同时,该团队发布了一份技术报告,介绍了秘密,并通过三个方面提高了推理性能:数据,RL算法和RL基础架构。

就智能机构而言,它共同推出了计算机操作的智能机构UI-TARS,超过GPT-4O等,并且免费用于商业用途。

它来自QWEN-VL,可以逐步完成跨任务的复杂操作,并且与各种系统兼容。目前,Github上的星标超过5.8K。

od汇编代码到字节集_安卓app开源代码在哪下_

此外,多湿基础台:用于解决问题的多语言基准。它涵盖了7种编程语言,并包含1632个高质量实例。

同时,也不断进行章程的内部调整。据报道,LLM领导下的三支球队,培训前(训练前),训练后(训练后)和地平线现已直接报告给种子头吴阳。 Byte AI实验室探讨了机器人和体现智能的三个方向,AI用于科学和AI安全性的解释性,并且也已纳入种子中。

今年年初,Byte正式建立了一个以编码为代码为“种子边缘”的研究项目。核心目标是与预训练和大规模模型迭代相比,进行长期和更基本的尖端AGI研究。项目成员具有轻松的研究环境,独立的计算资源和实施长期评估方法。五个主要的研究方向也完全针对下一代AI研究,原始创新或范式变化。

通过字节的趋势,AI圈的新趋势现在更加清晰。

开源,开放性,原始创新,AI包容性...

简而言之,我必须感谢DeepSeek? (Doge)

项目地址:

参考链接:

相关内容 查看全部