发布信息

具身智能初创企业灵初智能发布Psi-R1大模型,多家企业跟进

作者:软荐小编      2025-05-02 10:04:25     190

刚刚从实验室离开的机器人,若想在实际场景里创造效益,究竟需要多长时间?

近日,具身智能初创企业灵初智能发布了Psi-R1大模型,该企业宣称,搭载了这个“真正的VLA模型(Vision-Language-Action,视觉语言动作模型)”的机器人,能够在开放场景下解决长程复杂任务。作为当前具身智能领域的技术突破看点,处在发展早期的VLA模型已然成为了各家机器人厂商秀技术的标的。第一财经记者梳理后发现,自2025年起,至少有七家企业发布了与VLA相关的模型,这些企业包含Physical Intelligence、英伟达、银河通用等 。

另一边,具身大模型不断发展,这使得机器人在落地方面获得了更多机会。到目前为止,Figure、开普勒、优必选、乐聚等多家机器人厂商均已宣布旗下机器人开始“进厂打工”。不过,第一财经记者了解到,人形机器人从实验室到“进厂”,想要在泛工业、零售场景“上工”,还需走过漫长的概念验证阶段,如今大部分人形机器人还处在“试用期” 。

概念验证阶段需要证明产品,即人形机器人的技术成功率、可靠性、效率、成本和收益,这与拍出一段酷炫的打工视频不同,这些数据横亘在人形机器人技术突破与商业化落地之间,是每一家想要实现落地的人形机器人企业都必须啃的“硬骨头”。

动作信号输入成VLA模型难点

“碰!”“吃!”“杠上开花!”

第一财经记者看到,灵初智能发布的视频中,有搭载Psi-R1模型的机器人PsiBot V1,它能在开放环境中和人类同伴打麻将,从洗牌开始,接着拿牌,再到翻牌、打牌,PsiBot V1看到“麻友”打牌的动作、打出的花色,听到“麻友”的指令后,打出自己的下一张牌。

人类在熟知打麻将规则后,能在一次次判断中准确打出一张牌,然而对于机器人而言,拆解打麻将的每一个动作,还要稳定地进行输出,这都是一个复杂的工程。

灵初智能是一家重点攻克具身大模型和灵巧手操作的企业,打麻将是其有意挑选的展示场景,在这个场景里,机器人要先通过自身视觉、听觉、触觉等传感器获取牌面图像信息,还要实时接收包括音频、动作等输入信息,借此推断出出牌策略,进而进行决策操作。

大部分VLA模型只能听从语音、图片等指令并输出动作,与之相比,R1把人类“麻友”打牌的动作当作了输入端的信号。

在小红书上,记者看到一位博主晒出一段视频,这位博主把头部品牌的机器人带回家里,通过语音向机器人发出“做家务”的指令,可是这个机器人握住扫把后,只是机械地清理同一块地面,它仅能做到语音跟随,没办法开展实际工作。

灵初智能创始人王启斌向记者解释,当动作不作为大脑规划的输入,就有可能出现上述状况 。本质上来说 ,对于搭载了这类模型的机器人而言 ,机器人大脑在进行规划的时候 ,模型所依据的只有眼睛看到的视觉信息 ,听到的语言信息 ,以及机器人的一些关节状态信息 。动作未作为大脑规划的输入,这表明机器人大脑不清楚动作执行的具体情形,它依旧依照原来基于视觉和语言信息规划的路径以及动作序列持续执行,所以会出现偏差。

动作信号缺失,致使部分VLA模型欠缺泛化性,还影响了机器人长线推理能力的准确性,在家庭场景中,这种缺失或许仅造成打碎一个杯子、地面不整洁的后果,可要是在商超、工业场景又会怎样呢?

王启斌说,因此我们觉得,只有把动作当作输入,让其参与规划层推理,才能够在非结构化的场景切实达成工程化的落地。

今年以来,中国和海外的多家机器人企业都开始发力VLA模型。今年年初,银河通用发布了大模型GraspVLA,该模型完全基于仿真合成大数据训练得出;2月,Figure发布了自研的VLA模型“Helix”;英伟达于2025 GTC大会上发布了VLA模型Isaac GR00T N1;4月下旬,Physical Intelligence发布了新的VLA模型π0.5 。

在视频里,这些搭载了VLA模型的机器人,有的能够进行简单操作,有的能够展示双机器人协作的能力。很多视频里展现的机器人操作,实际上用简单的模仿学习加原子技能调用就能完成,无法体现VLA模型的自主推理能力。一位国内具身大模型企业的高层向第一财经记者作出解释,VLA是当前具身智能技术取得突破的重要标志,它还是机器人公司用于融资的手段,是获取曝光度的手段,是体现自身先进性的手段,“有一个好的名字,好的展示视频很重要” 。

纷繁的花朵渐渐让人眼花缭乱,蒙太奇手法把真实的技术隐藏起来,使其藏在了VLA的壳子里。

真正的VLA需具备几个特点,搭载VLA模型的机器人要有长时序的动作执行能力,能跟随带有描述性的语言指令,且这些任务都由同一个模型直接完成,而非依靠多个模型 。星海图联合创始人、清华大学交叉信息研究院助理教授许华哲向第一财经记者解释道 。

“转正”还需要多久?

机器人想要进厂打工,一步到位难于登天。

美国机器人初创公司Figure已宣布在宝马“上工”,近期却陷入“造假”争议,此前公布的视频中,Figure向外界展示了多台机器人在宝马工厂作业的场景,然而宝马方面发言人Steve Wilson指出,实际状况是任何时候都只有一台Figure机器人执行任务。他还表明,到今年三月为止,Figure的人形机器人仅在非生产时间段开展简单的零件搬运训练,其主要承担的工作是零件拿放工作 。

在大部分机器人厂商展示的打工视频当中,人形机器人看起来十分智能,动作流畅,工作高效。然而在企业的镜头背后,怎样把机器人的算法和硬件进行耦合,如何保证精准度与安全性,这些均是要经过概念验证的细节,所考验的是团队的工程化能力。

王启斌透露了信息,机器人若想接到工厂的实际订单,需经过起码三个阶段,这一过程时间可能需要一年。

王启斌说,第一个阶段是在内测,为期三个月,会在实验室一比一搭建、复刻实际的工厂环境,在此期间,团队需要根据场景进行新的数据采集,进行模型调优,并且确保硬件整机的稳定性。

完成这一步后,要前往客户的场景中,进入为期三个月的验证阶段。打磨后的大模型实际落地时,技术理想和现实场景的分歧才刚开始显现。

正如王启斌讲的那样:“许多问题都是进入工厂后才会发觉。”在实际的工厂里,光线状况复杂,这有可能干扰机器人视觉系统对物体的识别与定位,现场存有大量机器设备,其产生的电磁干扰会对机器人的信号传输造成影响,致使指令延迟或者出现错误,不同工厂的生产流程以及布局差别极大,机器人需要迅速适应新的空间环境以及操作路径规划。

同时,客户会针对此环节提出成功率方面的要求 ,客户还会针对此环节提出作业效率方面的要求 。“这三个月 ,客户对成功性有一定要求 ,效率要达到实际人工作业的60%左右 。”王启斌透露 。

六个月后,机器人才能够在有人陪产的情况下,开展实际部署。灵初智能联合创始人、强化学习负责人陈源培告知第一财经记者,此阶段产品要真正于生产环境中运行,承受生产环境的压力。工厂里存在诸多不可控因素,诸如突然的人为打断、避让,这就需要机器人在这些场景里进行有效反馈。

这意味着机器人的上层大脑要拥有有效的推理能力,当有人发出“让一让”的指令时,机器人的上层大脑得听得懂,即要对这个信号进行分析和推理,还要迅速作出合理反应,调整当前任务流程,当有人发出“帮忙捡一下”的指令时,机器人的上层大脑同样得听得懂,也就是要对这个信号进行分析和推理,迅速作出合理反应,调整当前任务流程。陈源培表示,在实际训练里,团队会借助强化学习,在模拟环境中运用一些被打断的数据来开展训练,以此优化决策策略,增强上层大脑应对打断时的推理和决策能力。

跟工业机器人抢岗位?精细化才是目标

在产品验证阶段,除了工程化能力,最难的是“选择场景”,这是王启斌所说的“第一刀扎在哪里” 。

第一财经梳理后发现,在一些泛工业场景中,人形机器人已经进入工厂,它们大多数从事放置工种,大多数从事搬运工种,大多数从事检测工种。在浙江宁波前湾新区的吉利汽车极氪5G智慧工厂里,优必选S1工业人形机器人开始搬运物料,还对车标及车灯实施毫米级无损伤检测,乐聚旗下的人形机器人“夸父”在汽车工厂中搬运物料箱,今年3月公布的新视频里,波士顿动力的机器人Atlas进入汽车厂进行零件排序工作,本月宣布在上汽通用工厂落地的开普勒K2能在工厂中完成车身缝隙检测等任务。

不过,对于一些自动化程度足够高的“黑灯工厂”,布满工业机器人的自动化流水线已完全能够解决人力不足的问题。在此情况下,人形机器人若只是替代机械臂、带移动底盘的搬运叉车,其意义究竟何在?

王启斌指出,我们希望在未来,人形机器人能进入工厂工作,其所做的工作是目前只能依靠人力完成,自动化设备无法做到的 ,在场景落地的选择上,他会优先选择更需要人工完成、具有迁移性和通用性的场景,比如3C制造的质检车间 。

在他的逻辑里,3C制造的质检车间中,细致化、灵活化的操作仍需通用性更强的人形机器人来完成,比如抓取以零点几毫米为单位的微小原料,完成不同零部件的数量清点和外观检测等。在多个SKU、工位动态变化时,自动化设备的固定化特征无法解决这些工作。在每个场景里,单个操作拆分出的原子动作数量是多少,每个动作中的节拍是多少,动作串联的成功率能否稳定下来,这些都要专业的工程化团队去解决,还要用结果说服客户。

或许,岗位的颗粒度足够小,岗位的泛化性足够高,这样的岗位才是人形机器人最后在工厂中实际想要“应征上岗”的目标 。

陈源培也察觉到,客户更关注落地的可行性,而非技术的完美性 。具身智能的VLA模型仍处于发展早期,长程任务的推理能力可能会增加机器人操作实时性降低的风险 ,后期还需进一步通过优化模型与推理的方式,来确保工业场景中的实时控制要求 。

(本文来自第一财经)

相关内容 查看全部