相较于当前市场上众多的大型模型,该轻量级模型不仅体型更为紧凑、运行速度更快,而且实现了令人瞩目的性能飞跃,其解析效率几乎提高了近两倍。
测试结果显现,Dolphin在文档解析这一任务上的准确率显著高于GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等众多通用多模态大型模型,同时亦超越了诸如Mistral-OCR这类近期推出的,自诩为最强大OCR模型的垂类大型模型。
论文已被收录于ACL 2025,项目链接可见文末。
突破性的两阶段解析方法
文档图像解析的解决方案主要分为两大类别:一是集成式方法,二是端到端方法。
采用集成式策略,链路中可组合多个专业模型;而端到端技术则是通过视觉语言模型,借助自回归解码技术,直接产出结构化的输出结果。
Dolphin采纳了一种创新的“先分析结构再分析内容”的(结构-内容)两步法范式:
海豚采用了基于编码器-解码器Transformer架构的,一种分析与解析相结合的范式。
这种创新的体系结构一举两得,不仅消除了传统商业方案中多个OCR专家模型级联产生的错误累积问题,而且解决了通用多模态大型模型容易丢失版面结构信息以及自回归解码效率低下的难题。
由于单独提取图像元素(如表格、公式)及其相应的标签相较于搜集包含众多元素的整个文档页面要更为实际,Dolphin的元素解耦解析方法在数据搜集领域展现出了其独特的优越性。
更轻量、更高效
Dolphin与先进VLMs在基准测试中的比较
在众多流行的基准测试中,Dolphin展现了卓越的性能,无论是在页面级别还是元素级别的解析任务上,都达到了业界领先的水平。
页面级文档解析的性能比较
尽管Dolphin采用了轻量级的架构设计,参数量仅为322M,然而其性能表现却超越了基于集成的方法,甚至超过了参数量更大的VLM模型。
“Plain Doc”指的是那些仅由文字组成的文件,相对地,“Complex Doc”则涵盖了包含多种元素,如表格、公式以及图形等的文档。
针对纯文本资料,Dolphin在英文语料库和中文语料库的测试中,分别实现了0.0114和0.0131的编辑误差,这一成绩超越了同领域的VLM模型GOT(其编辑误差分别为0.035和0.038),以及跨领域的VLM模型GPT-4.1(其编辑误差分别为0.0489和0.2549)。
在编辑融合表格、公式以及图像等多种元素的文档过程中,Dolphin软件的编辑误差仅为0.1283,这一成绩超越了所有对比的基准系统。
除此之外,Dolphin凭借其并行解析的设计优势,实现了效率的显著飞跃,其性能达到了0.1729FPS,这一速度比最顶尖的基线(Mathpix,0.0944FPS)还要快将近两倍。
文本段落、公式和表格的元素级解析性能比较
在文本段落解析方面,Dolphin在Fox-Block以及Dolphin-Block这两个测试集中均实现了颇具竞争力的成绩。
在公式识别领域,Dolphin表现卓越,无论是面对简单、中等还是复杂的难度等级(即SPE、SCE和CPE),均能展现出其强大的识别能力。其获得的CDM分数,与专业的公式识别技术相当,具有极高的竞争力。
在表格解析方面,Dolphin在PubTabNet以及PubTab1M两个基准测试中展现出了令人瞩目的成绩,它成功地对结构关联与单元格数据进行了精准的提取。
在文本段落、公式以及表格中,这些持续显现的显著成效彰显了Dolphin在基础识别任务方面所展现出的强劲竞争力。
实际案例展示
以下案例具体呈现了Dolphin在文档解析方面的实际效能,直观地揭示了其强大的解析能力。
无论是繁复的学术论文多栏排版,还是复杂的数学公式,亦或是中英文混排的表格,Dolphin均能实现精确识别与高效处理。
Dolphin的页面级解析结果可视化
Dolphin在各种场景下的元素级解析演示
顶部行显示输入图像,底部行显示相应的识别结果。
Dolphin的其他功能
Demo:
请勿访问该网址,该链接指向的页面内容受限。
Github:
此链接指向的是字节跳动公司开发的Dolphin项目。
Hugging Face:
禁止访问该网站,确保用户无法直接进入ByteDance的Dolphin项目页面。
论文:
该文献网址为https://arxiv.org/abs/2505.14059,访问该链接可以获取相关内容。