发布信息

ZJU REAL Lab投稿:首个评估VLM空间定位能力的基准体系

作者:软荐小编      2025-06-02 21:01:44     153

ZJU REAL Lab 投稿

量子位 | 公众号 QbitAI

杯子在我的左边还是右边?

这样一个对人类而言极为容易的问题,即便是GPT-4o这样高层次的视觉语言模型,也有可能给出错误的答案。

探究其本质,主要原因是当前的大规模图文数据中,视觉语言模型所习得的空间信息通常是零散的,并且仅限于对静态图像的解读,未能具备从多个维度和角度进行空间推理的能力。

因此,每当遇到那些需要从多个角度进行空间推理的任务,这些模型便常常陷入困境。

定制软件开发评估基准__基准电子有限公司

然而,只有那些拥有坚实空间推理技巧和敏锐视角理解能力的AI系统,才能成为真正能与人类并肩合作的智能伙伴。

为此,浙江大学、电子科技大学以及香港中文大学的研究团队共同研发了首个针对VLM在多视角和多任务环境下的空间定位性能进行系统评估的基准评估体系。

ViewSpatial-Bench 包含五种多样的任务类型,它既从相机的角度,也以人类的视角为基准,对模型在空间推理方面的能力进行了全方位的评估。

此外,我们还配备了自动化3D标注系统,该系统能够精确生成方向标签。借助这一高效的3D方向标注流程,我们成功实现了超过5700组问答对,内容涵盖了众多3D场景。

通过在多视角空间数据集上进行细致的调整,ViewSpatial-Bench研究团队成功地将模型的整体性能提高了46.24%。

定制软件开发评估基准__基准电子有限公司

五大任务,覆盖双重视角

ViewSpatial-Bench评估集内含5700组问答,这些问答涉及两种视角——相机视角和人类视角——下的五种空间定位识别任务。

基准电子有限公司_定制软件开发评估基准_

图中可见,该基准测试对模型提出了要求,它需在场景布局和人物动作的识别上保持精准,同时在不同场景下对空间结构进行准确把握与定位。此外,它还对多模态模型的跨视角空间推理能力进行了系统性的评价,这涵盖了以下方面:

以相机视角为出发点,这两项任务主要针对视觉语言大型模型在自我视角下对空间直观理解能力的评估。

物体间的相对方位辨别:直接通过图像分析来判定它们在空间中的相互位置。人物视向定位:依据相机的观察角度,确定图像中人物所看的方向。

此外,存在三种任务是以人的视角为基准,主要考察模型是否拥有抽象和基于感知的空间认知能力,具体包括:

物体相对方向识别,即从图中人物的视角出发,对其与周围物体之间的空间关系进行判断。人物视线方向识别,则是假想自己站在图中人物的位置,来推测其面向的具体方向。至于场景模拟的相对方向识别,则是通过模拟“我”在场景中的具体位置,进而确定物体的相对位置。

为了建立一个高水准的空间推理评价标准,该研究小组依托于ScanNet和MS-COCO这两大知名的视觉数据集,成功研发了一套全面的数据构建自动化流程。

构建流程如下:

首先,需从场景中挑选出蕴含大量三维信息的图片,然后,将这些图片与现有的标注数据进行融合,以此来精确地获取物体的具体位置坐标以及人物的姿态方向。

之后,依据这些三维坐标和朝向角度,计算出各种相对空间关系,再借助精心设计的自然语言模板,自动构建出语义清晰的问答对,最后还需人工审核,以保证问答质量。

_基准电子有限公司_定制软件开发评估基准

该自动化处理技术不仅确保了数据的规模化和处理效率,而且精确保留了空间关系的细节,同时丰富了语言表达的多样性,从而为模型的训练与评价提供了稳固的数据支撑。

多模态大模型并未真正理解空间结构

依托于构建的ViewSpatial-Bench平台,研究团队全面审视了GPT-4o、Gemini 2.0、InternVL3、Qwen2.5-VL等多种主流模型的表现,研究发现:

在真正理解空间关系上,当前VLMs的表现还远远不够

基准电子有限公司__定制软件开发评估基准

在综合评估准确度的过程中,众多卓越的模型在ViewSpatial-Bench测试平台上的表现并不理想,得分相对较低。

这显示出,尽管该模型拥有基本的图像识别功能,然而在处理多角度的空间定位任务时,它依然缺少对空间感知以及角色转换的思考能力。

更值得关注的是不同任务类型间的显著表现差异。

在摄像头捕捉的画面中,模型在人物面向方向的识别任务上的平均正确率只有25.6%,这一数据明显低于“物体相对方向判断”的38.9%。但有趣的是,当从人物自身的视角来看时,这一情况发生了彻底的逆转。

这种“任务-视角”交叉表现的失衡暴露了VLMs在当前阶段的一个关键不足:它们不能构建一个统一的三维空间认知体系,以支撑不同视角间的推理过程。

实际上,该模型并未完全掌握空间结构的本质,它将不同视角下的推理过程孤立对待,并且缺少在统一的空间表征中灵活运用信息的能力。

有趣的是,实验结果还揭示出一个反直觉的现象:

大多数模型在人物视角的任务上表现略优于摄像头视角

GPT-4o 在模拟人物视角的平均准确度上达到了36.29%,这一数值略超出了摄像头视角的33.57%;而InternVL2.5和Kimi-VL同样显现出了这一趋势。

这一现象颠覆了我们对“自我视角处理更为简便”的普遍看法,它与前面所述任务表现的不平衡现象紧密相关,表明在模型的训练阶段,可能已经习得了更多关于“第三人称”视角的空间分布规律,却未能掌握从相机视角进行空间信息映射的技能。

这种偏差暴露了当前训练语料在视角分布上呈现出结构性的不均衡,这一发现为后续数据集的构建和模型的改进提供了关键性的指导方向。

如何让模型理解“换位思考”

鉴于当前视觉语言大型模型在多视角空间推理能力上存在的根本缺陷,研究团队特此研发了名为Multi-View Spatial Model(MVSM)的模型,旨在对跨视角空间理解进行全面的系统优化。

MVSM运用自动化空间标注技术,成功构建了大约43000个高品质且种类丰富的空间关系样本,这些样本对ViewSpatial-Bench的五大任务类别实现了全面覆盖。

实验数据表明,在ViewSpatial-Bench测试平台上,MVSM模型相较于其基础模型Qwen2.5-VL,性能提升了46.24%,这一结果充分证明了针对特定任务进行训练在改善空间认知能力方面的显著效果。

_定制软件开发评估基准_基准电子有限公司

如图所示,为了深入检验MVSM在空间认知方面的性能,研究团队分别在VSI-Bench平台以及自主构建的ViewSpatial Interaction Application Dataset(VSI-App)数据集上进行了测试和评估。

在VSI-Bench测试平台上,MVSM算法在处理物体相对方向视角转换能力方面实现了0.93%的进步,而在路径规划任务上的表现更是大幅提升,达到了9.54%的显著效果。

定制软件开发评估基准__基准电子有限公司

VSI-App涵盖了50个不同场景,其中室内和户外场景各占一半,这些场景的设置旨在对人类在具身交互环境中的空间推理能力进行评估。

在这次更贴近实际的测试中,MVSM继续保持显著优势,特别是在结构更为明了的室内场景中,其表现尤为突出,提升了20个百分点;而在户外场景中,其表现同样有所增强,提升了4个百分点。

上述成果显示,MVSM不仅擅长构建静态空间联系,还具备处理穿过三维空间的动态路径和涉及人机交互场景的能力——这些技能系由视角感知训练技巧自然衍生而来,并非通过直接优化手段所获得。

ViewSpatial-Bench和MVSM的提出,不仅为多模态模型的空间理解能力提供了全面而系统的评估手段,同时也开创性地在数据集和训练方法上,对“视角采择”这一人类核心认知功能进行了全新的建模探索。

通过构建首个多视角空间推理的基准模型,并在此领域取得了显著的性能提升,为人工智能系统获取类似于人类的空间认知能力开辟了一条切实可行的途径。

更聪明的空间感知,是下一代机器人与多模态助手的关键一步。

论文链接:

该链接指向的论文禁止对特定内容进行修改,确保了研究的专有性和原创性。

项目主页:

浙江大学真实视觉实验室的官方网站为:https://zju-real.github.io/ViewSpatial-Page。

GitHub仓库:

该平台禁止对专有内容进行擅自修改,确保了数据的一致性和准确性。

— 完 —

相关内容 查看全部