Griffin团队 投稿
量子位 | 公众号 QbitAI
在企业系统及科学研究领域广泛应用的、构造繁复的关系型数据库(RDB)环境中,对基础模型的探究活动目前尚处于初级阶段。
由于关系型数据库中涉及的多表连接以及其非同质化的特性,导致传统的通用大型模型在这样的结构化环境中难以充分施展其功能。
在此背景下,北京大学张牧涵的研究团队携手亚马逊云科技,共同研发出了一种名为Griffin的创新型、以图像为核心的RDB(关系型数据库)基础模型。
Griffin对关系数据库(RDB)进行了动态异质图的建模与推理,通过在超过1.5亿行的表格数据上实施预训练以及监督微调,成功打造了一个具有可迁移性和强大泛化能力的基础模型,该成果已由国际顶级会议ICML 2025正式收录。
挑战:复杂的表间关系及丰富的表内语义信息
关系型数据库依托于清晰的架构(Schema)来设定数据组织形式,其在金融、电子商务、科学研究、物流运输以及政府信息管理等多个关键行业得到广泛应用,构成了当代信息社会不可或缺的数字化基础架构。
依据市场预测数据,预计到2028年,全球范围内的数据库管理系统(DBMS)市场规模将突破1330亿美元的大关。
然而,RDB智能建模所遭遇的困难相当繁复,主要体现在以下三个方面:
图中呈现了一个典型的关系型数据库模型,其中以绿色标注的Purchase表专门记录了交易信息,每条记录包含用户标识、所购商品标识、用户对该商品的评分以及购买的具体日期。每一行数据都能够通过User ID这一关键索引与用户信息表中的相应记录相连接,同样,也可以通过Item ID这一关键索引与产品信息表中的对应条目相连接,从而获取关于用户或商品的详细信息。
与常规表格(单一表格)数据相较,关系型数据库(RDB)通常包含着极为繁杂的表间关联以及丰富的内部语义信息,这给模型构建和基础模型训练带来了不小的挑战。此外,社区中长久以来缺少能够真实反映实际生产环境的标准化基准。
诸如4DBInfer等数据集正逐步填补这一领域的空白,为包括Griffin在内的各类新模型提供了统一的评估平台。
方法:以图为中心的数据库建模
Griffin的核心观点在于将关系型数据库作为一个整体,抽象成一种时序异质图。在这个图的基础上,它实现了统一的编码、消息的传递以及解码过程。这样做有助于捕捉到跨表格、跨时间段的深层依赖关系。具体而言,其创新的设计可以从以下几个方面进行阐述:
RDB的数据建模:结构化图表示与时序感知
Griffin将每张数据表中的单行数据对应到图中的某个节点,同时将主键与外键之间的约束关系构建成带有特定类型的有向边。通过这种方式,原本分散于不同表中的数据记录得以整合成一张异质图,图中的节点与边的类型自然而然地揭示了数据间的模式信息。
为防止未来信息泄露并确保与生产预测任务因果关系的约束,模型在训练与推理过程中将针对目标节点进行“局部时序子图”的采样操作;这一过程仅包括时间戳早于目标节点的邻近区域。
该流程参考了4DBInfer等标准方法的成熟经验,在确保效率的同时,明确地引入了时间导向性。
统一数据编码器:异构信息的规范化表征
在关系型数据库中,既有文本和类别等字段,还涵盖了数值、时间序列等多种模态特征。Griffin为此设计了一套统一的编码方案,该方案能够将不同类型的特征转化为同一语义空间内的向量表示。
通过上述操作,原本的多态信息被转换成了一组具有高度语义的向量,这为后续的图消息传递过程打下了坚实的基础。
先进MPNN架构:深度关系推理网络
经过统一编码处理后的图像被输入到Griffin定制的消息传递神经网络(MPNN)中,该网络的核心部分由两个相互补充的模块组成:
模型在交叉注意力机制中,针对每个节点,通过结合当前节点的嵌入和任务嵌入,构建查询向量,并与列的元数据和特征进行交互。此过程能够动态地评估各列在当前任务中的重要性,并据此进行加权聚合。这种设计天生具备列置换的不变性,同时也能灵活应对列数变化的表格数据。
层级聚合技术,在消息传递的各个层级中,首先对同一类型边上的邻近消息进行均值计算,随后在不同类型边之间执行最大池化操作。这种分两步进行的层级聚合策略,显著增强了模型在应对具有复杂拓扑结构和邻居数量多变的表间关系时的稳定性。
经过多轮循环迭代,MPNN能够捕捉从邻近节点到较远节点的复杂依赖关系,从而为后续任务提供内容丰富的节点特征表示。
统一任务解码器:多任务输出的一体化方案
MPNN输出的节点向量随后被送入统一解码器,这一操作使得Griffin能够在保持架构不变的情况下,同时执行多种预测任务。
在分类任务中,将候选类别的标签文本融入作为可训练的动态分类器头部,与节点向量执行点积运算,进而得到概率分布,此方法适用于不同数量可变的类比任务。
在回归任务中,我们将节点向量直接输入到预训练的DEC模型中,通过模型的反解操作,最终获得预测的数值结果。
训练:三阶段优化方案
Griffin采用“自监督预训练、联合监督微调、下游任务微调”的三个阶段流程,循序渐进地引入了从通用表格语义到特定关系数据库任务的知识层次。
在第一阶段,进行预训练以完善模型(Completion Pretraining)。
Griffin起初在数量庞大且种类繁多的单表数据集中进行了自监督学习,其任务形式与“完形填空”相似。模型通过一行数据中已知的列信息来预测被遮挡单元的嵌入表示,同时尽量减小预测嵌入与真实嵌入之间的余弦距离,以此为基础建立起对表格结构和语义的初步理解。
在第二阶段,我们采用了一种名为联合监督微调(Joint Supervised Fine-Tuning,简称SFT)的技术。
经过自监督预训练的完成,Griffin采用了单表任务或关系数据库任务的数据集,对这些数据集进行了监督式的微调,以此让模型更好地适应实际场景中的预测需求以及数据的特定特征。
第三阶段:对下游任务进行细致的调整优化(Downstream Task Refinement)
最终,经过预先训练和序列到序列训练的Griffin模型,将针对特定的下游关系数据库基准测试任务进行细致的调整,旨在在特定的应用场合中实现最优的性能表现。
验证:三阶段训练的优越性
为了全面衡量不同训练阶段对模型性能的特定影响,我们对Griffin模型的三个主要版本进行了细致的剖析:包括仅采用Griffin基础架构且未进行预训练的Griffin-unpretrained版本、仅经过单表预训练和单表SFT的Griffin-pretrained版本,以及完成了包括预训练和SFT在内的完整三阶段训练流程的Griffin-RDB-SFT版本。
图中展示了四个GNN基准模型、四个采用DFS的单表基准模型以及两个Griffin变体的性能对比,这些模型各自在特定任务上都进行了细致的调整。
左侧子图呈现了各项任务的平均排名情况,而其他子图则是根据评估标准对任务进行了分类,并对这些分类的结果进行了平均处理。
系统实验证实了Griffin在架构设计及预训练策略方面的成效,结果显示Griffin在多个关系数据库基准测试中表现出色,例如4DBInfer和RelBench,同时对其在少量样本情况下的跨任务迁移能力以及数据领域间关系的影响进行了深入分析。
Griffin的核心优势可归纳为以下三点:
1.强大的基础架构性能
即便在完全没有经过预训练的情况下(Griffin未预训练),该模型凭借其统一编码、交叉注意力和层级化MPNN等设计特点,即便是在各个下游的RDB任务中进行微调之后,其表现依旧超越了基于GNN的基线方法,以及那些结合了深度特征合成(DFS)的传统单表模型,充分展现了其架构设计的优越性。
2.单表预训练的普适性增益
Griffin-pretrained模型在处理大规模且种类繁多的单表数据时,经过预训练后,相较于未进行预训练的版本,其性能得到了显著提高。这一提升表明,在单表场景中学习到的知识能够有效迁移到复杂的RDB任务中,从而增强了模型的泛化能力。
3.RDB-SFT驱动的迁移
在针对特定关系型数据库数据实施监督式微调(Griffin-RDB-SFT)的深化阶段,模型在特定情境中显现出跨任务的学习迁移效果,尤其在样本量较小的场景中这一能力表现得尤为显著,这一现象主要受到以下两个要素的影响:
该论文的链接为:https://arxiv.org/abs/2505.05568,请查阅。
该代码库位于GitHub平台,网址为https://github.com/yanxwb/griffin,对相关内容进行禁止修改。