发布信息

人形机器人50年迟缓发育,具身智能的ImageNet时刻何时到来?

作者:软荐小编      2025-04-22 14:01:22     83

人形机器人在过去的 50 多年里发展较为迟缓,这种迟缓的发展态势很像曾经的 AI。

深度学习的概念诞生于几十年前。2009 年,斯坦福教授李飞飞发布了图像数据集 ImageNet。在此之后,科学家们意识到了数据对于算法的重要性。从那时起,深度学习拉开了变革与飞速发展的序幕。

抄上学机器作业人说中文怎么说__小学生买抄作业机器人

具身智能领域,人们也在尝试创造类似“ImageNet 时刻”的东西。近些年来,业界多次宣称“ImageNet 时刻来了”,然而却都未能真正地推动整个行业的发展。如果没有高质量的训练数据,具身智能的 GPT 时刻以及 iPhone 时刻,也就是产品的突破点,还远远没有达到。

科研院校在其中扮演着重要角色,政府机构在其中扮演着重要角色,服务商在其中扮演着重要角色,本体厂商在其中扮演着重要角色,它们都要解决数据问题。

开源数据集:聚流成海

GPT 横空出世之后,科学家们察觉到数据的“大力出奇迹”这一法则是很有作用的。倘若每家机器人,乃至每款机器人的每个场景都单独使用一套数据并且训练一套模型,那么具身智能的进展肯定会迟缓很多。

_抄上学机器作业人说中文怎么说_小学生买抄作业机器人

2023 年 10 月,谷歌 DeepMind 与 21 个机构进行了合作。他们收集了 22 个不同类型机器人的数据。之后,他们开源了这一数据集 Open X-Embodiment。

这个数据集涵盖了 527 种技能,这些技能对应着 16 万个任务,同时还包含 100 多万条真实的机器人轨迹。DeepMind 进一步在这个数据集上对通用机器人模型 RT - X 进行了训练。

Open X-Embodiment 是由 60 个已有的机器人数据集构建而成的。这些子数据集在数据格式方面各不相同,数据质量也有高有低,场景的多样性更是参差不齐。所以它不是特别“好用”。紧接着,国内外的许多机构也都纷纷将自己的具身智能数据集进行了开源。

2024 年 8 月,深圳的鹏城实验室与南方科技大学、中山大学一同发布并将数据集 ARIO(All Robots In One)开源。该数据集有一套专门针对具身大数据的标准格式,其中包含 258 个场景序列、32 万个任务以及 300 万个样例,在数据的统一性、质量、规模以及场景的丰富度方面都取得了进一步的进展。

抄上学机器作业人说中文怎么说_小学生买抄作业机器人_

南方的研究机构开始发力,北方也不甘示弱。优必选、京城机电、小米机器人、亦庄机器人等单位联合组建了国地共建具身智能机器人创新中心,该中心位于北京,它联合北京大学、智源研究院等机构发布了开源数据集 RoboMIND。

这些科研机构之外,业内领先的机器人厂商也为开源数据贡献了力量。

2024 年 12 月,“天才少年稚晖君”创立的智元机器人发布了开源数据集 AgiBot World。这些数据来源于 100 个机器人,数量多达 100 多万条轨迹。这些轨迹覆盖了 5 大领域,包含百余个真实场景。该数据集的数据全部来源于智元机器人在数千平米的训练场里进行的真机操作,所以它拥有超高的数据质量和数据统一性。有一个对比情况是,ARIO 中的数据有较大部分是来自开源和仿真的。

AgiBot World 有将近 90%的任务属于 30 秒以上的“长程任务”,其中有很多是由多个动作组合而成的“复杂任务”。Open X-Embodiment 则有 78%的任务是在 5 秒以内的简单任务。AgiBot World 的场景范围得以扩大,涵盖了家居领域、餐饮领域、工业领域、商超领域、办公领域等,不再局限于实验室环境。

_小学生买抄作业机器人_抄上学机器作业人说中文怎么说

2025 年 2 月 25 日,智元机器人将 AgiBot Digital World 仿真数据集进行了进一步的开源。

宇树机器人如同智元机器人一般,将其 G1 机器人操作数据集进行了开源。

数据对于具身智能的训练有着极为重要的地位,然而各家厂商在是否开源这一方面有着不同的抉择。例如波士顿动力的 Atlas,还有特斯拉的 Optimus,它们的数据以及代码都未曾进行公开。

大语言模型拥有互联网上“取之不尽”的庞大训练数据,与之相比,具身智能的几百万条开源数据显得微不足道。然而,尽管数据量少,总归是聚流成海,各个研究机构和科技厂商的开源数据集依然非常有价值且不可或缺。

真机训练:再贵的学费也得交

真机训练在真实环境中进行,它依然是具身智能获取数据的重要来源。

上一集提及,人形机器人真机训练主要依靠人类动作捕捉以及人类遥操作。并且在每个领域和环节都涌现出了许多服务商,这些服务商成为了这场“淘金热”里的“卖铲人”。

抄上学机器作业人说中文怎么说_小学生买抄作业机器人_

诺亦腾是一家动作捕捉公司。在过去的前十来年,其业务主要集中在电影特效、游戏交互、运动科学、虚拟主播(数字人)以及 VR 等方向。2023 年下半年伊始,随着具身智能的热度持续上升,来自机器人领域的合作迅速增加。诺亦腾合作过的本体厂商有智元机器人、千寻智能以及 Tokyo Robotics 等。

在机器人遥操作领域,最为重要的一点在于,借助算法的优化来降低“Sim2Real Gap”。这样能够使人类的动作更为良好地映射到机器人本体之上。这同时也是动捕厂商与本体厂商需要一同进行磨合以及训练的所在之处。

诺亦腾与智元机器人一同对惯性动作捕捉算法进行了优化;机器视觉企业凌云光和宇数科技一起研发了光学动作捕捉系统 FZMotion,此系统能够精准地捕捉人体的姿态和运动轨迹,并且可以直接映射到宇树 H1 机器人本体上——春晚中 H1 甩手绢的舞蹈,很有可能是通过这套算法训练出来的。

本体动捕和遥操作之外,有一些服务商专门给予末端抓夹、机器人双臂等局部数据采集遥操作的解决方案。另外,如同智能驾驶的发展轨迹相似,人形机器人的数据采集也出现了相应的数据质检、数据标注、数据存储的服务商。这些共同构成了具身智能真机数据采集的生态链。

机器人本体厂商中的一些厂商会自建大型真机训练场,以让机器人有更好的“学习环境”。像智元机器人就搭建了全球最大的机器人数据生产与采集工厂,在那里,100 台机器人跟着人类“带教老师”学习冲咖啡、熨衣服、扫码结账等技能。它们需要通过数百条数据,来学会这样一个具有一定复杂度的技能。

_抄上学机器作业人说中文怎么说_小学生买抄作业机器人

国家部门和地方政府正在自行搭建机器人训练场。不久前,由国家地方共建人形机器人创新中心(位于上海,简称“国地中心”)建设的全国首个“异构人形机器人训练场”已投入使用。十多家公司,如智元、傅利叶、开普勒等,共 100 多台机器人在此一起“上学”,它们跟着人类老师学习特种、制造、民生服务这三大领域的各种技能。

国地中心首席科学家进行解释:不同厂家的机器人在形态方面存在差异,在功能方面存在差异,在技术架构方面存在差异,在应用场景方面也存在差异,这就是“异构”。把不同厂家的这种异构机器人放置在同一空间让其运行,这样就能使 AI 意识到它处于一个多元多样的物理世界里,进而能够建立起客观的认知,并且发育出能够明辨是非的能力。

国地中心作为国家级创新中心,其一重要任务是统一并规范具身智能机器人的数据标准,其另一重要任务是搭建真机训练场。在 2025 年,这个真机训练场预计能够收集 1000 万条高质量的机器人实体数据,以此来支撑机器人基础模型的进化迭代。

仿真训练:无限拓展现实边界

真机数据采集的质量最高,不过成本也是最高的,同时难以解决机器人“泛化”的问题。许多本体厂商和服务商也在同步对仿真数据采集和训练的解决方案进行探索。

上文提及的智元科技的 AgiBot Digital World,它实际上是一套开源的仿真框架。此框架除了具备仿真数据集之外,还包含专家轨迹生成机制以及模型评估工具等。通过这些内容,能够实现一系列的具身仿真服务。

_小学生买抄作业机器人_抄上学机器作业人说中文怎么说

在机器人仿真这个领域里,已经有很多成熟的仿真平台,这些平台可供机器人厂商用来进行物品和场景的建模。然而,随着具身智能在近一两年里变得火热起来,国内外的服务商也都相继推出了更加灵活且更智能的仿真解决方案。

空间智能企业群核科技,有一个较为大众熟知的产品叫“酷家乐”。在给人形机器人提供空间数据之前,群核科技的主要业务是利用酷家乐在家装领域提供设计以及渲染服务。设计师能够在平台上设计自己喜爱的房间装潢,业主也可以在平台上设计自己喜欢的房间装潢,并且都能完成逼真的渲染。

酷家乐在装修领域经过十几年的积累,所形成的模型数据,如今成为了人形机器人最为优良的训练“养分”。

群核空间智能平台拥有 3.6 亿个 3D 仿真物品模型,这些模型具备真实的物理性质,像密度、摩擦力、弹性、阻尼等。过去,设计师借助该平台来设计人类的家;如今,科学家们也能够利用这个平台去设计机器人的工作环境,并且能确保其物理上的正确性。

_抄上学机器作业人说中文怎么说_小学生买抄作业机器人

“物理正确”在机器人仿真训练中极为重要,同时也是 AI 目前难以完美解决的难题。OpenAI 发布 Sora 之际,人们首先被“文生视频”展现出的强大创造能力所深深震撼,然而随后便察觉到 Sora 缺乏对物理规律的理解。在它所生成的那个错乱世界中,仿佛能听到牛顿的棺材板在砰砰作响。

人形机器人的真机训练成本较高,仿真训练则需要复杂的建模过程。倘若 AI 能够无限生成一个“赛博世界”,那将是极好的。这个数字世界最好能如同真实的物理世界那般运转,人能够在地上行走,鸟能够在天上飞翔,水会往低处流动,球落到地面会弹起,光遇到镜面会反射……

这就是世界模型了。

英伟达于今年 1 月 7 日推出了世界模型 Cosmos。它能够通过文本、图像或视频等提示,生成基于物理世界的、高度仿真的虚拟世界。英伟达对其的定义为:世界基础模型是一种能够依据过去发生的事情以及当前的变化,来对未来的情况进行预测的工具。

小学生买抄作业机器人_抄上学机器作业人说中文怎么说_

理想情况下,有了 Cosmos 后,自动驾驶汽车能够依据各种天气下的路况进行判断。仓储机器人可以在不同的仓库设计取货和搬运路线。人形机器人能够将堆满杂物的桌面分门别类地收拾干净……并且这一切都无需真机参与,在虚拟世界里就可以完成,同时还能收获实时反馈。

Sora 在诞生之际,被 OpenAI 定义为“世界模型”。这一领域随着具身智能以及物理 AI 的发展,越来越受到关注。李飞飞创立的 World Labs 正致力于构建大型世界模型(LWM)。谷歌 DeepMind 聘请了前 Sora 的核心成员,投入到世界模型的研发工作中。

也许在不远的未来,机器人无需再到一个固定的“工位”去打工。它们可以在不断变换的“赛博世界”中打怪升级,学习技能,之后再回到物理世界进行实操。听起来,你是不是也很想试试呢?

人形机器人拥有“具身智能”,就如同一个刚出生不久的孩子。为了让它既能在过年时给亲戚朋友们进行限定表演,又能不断提升自身的动手能力和学习能力,从而生长出真正的“智慧”,相关各方都为此费尽心思。

国家在试图攻克数据训练的难关,地方也在尝试,各类服务商在努力,本体厂商同样在尝试,大家都想到达质变的“ImageNet 时刻”。未来会怎样呢?我们将在下一篇文章中进行探讨。

相关内容 查看全部