卢策吾教授谈具身智能:数据魔咒、第一性与两级火箭大模型 | 高榕未来
高榕资本·
2024-07-22
今年6月,上海交通大学卢策吾教授视频展示了一段具身大脑“硬控”机械臂为自己刮胡子的演示。看似简单的任务背后蕴含巨大挑战——嵌入了高精度力反馈模块的具身智能大模型,必须根据教授头部移动瞬时决策压力和切向力的变化,才能既把胡须刮干净,又不会伤到他。
在今年7月的2024世界人工智能大会上,卢策吾与团队进一步演示了具身大脑如何赋能实体机器人以实现一系列复杂任务。例如随手一扔的衣服,双臂自适应机器人可以叠得整整齐齐,这一通用柔性物体折叠技能(AnyFold)属于无限自由度物体操作,复杂物体理解堪比人类。
跟刮胡子类似,这次现场还展示了代表通用物体表面刮削技能(AnyShave)的黄瓜削皮,具身大脑使得机器人可以对不规则曲面操作,精细度甚至超越人类水平。
卢策吾在具身智能、机器人学习和计算机视觉领域深耕多年,是长江学者特聘教授、2023 年 “科学探索奖” 获得者(目前具身智能领域唯一)、通用智能机器人公司非夕科技首席AI科学家。2023年,非夕战略孵化生态企业穹彻智能,聚焦大模型具身智能技术,卢策吾教授担任联合创始人。
这次WAIC上,穹彻具身大脑Noematrix Brain首次公开亮相,并现场使用非夕自适应机器人进行一系列实时演示和真实互动,通用性和鲁棒性得以全方位展现。卢策吾也发表了演讲《穹彻具身大脑与具身智能Scaling Law》,分享他眼中发展具身智能的关键要素、落地产品和未来趋势。
在AI大模型领域,Scaling Law是重要的经验性发现,它是指大模型性能会随着模型大小、数据量和训练时间的增长而不断提高。OpenAI通过ChatGPT和Sora证实了Scaling Law在语言/视觉大模型领域的成功。
那么,具身智能领域是否找到了属于自己的“Scaling Law”?具身智能大模型如何在现实场景中有更多应用?
卢策吾认为,不能单纯地通过复制语言大模型Scaling Law的方式来打造具身智能大模型,因为具身智能的数据空间巨大,其超高的不确定性和数据采集难度在现阶段会造成“数据魔咒”。
随后他从第一性原理出发,给出以“实体世界大模型”和“机器人行为大模型”为两级火箭的解决方案。通过将“两级火箭”串在一起做端到端的联合训练,可以大幅提高增长斜率,使训练变得低成本、可规模化。
以下是卢策吾教授的分享:
我们知道,具身智能是一种基于物理身体进行感知和行动的智能系统,即通过智能体和环境交互进行认知、学习、决策、行动。由于缺乏实际执行体与世界的物理交互数据,目前的语言/视觉大模型没有全面覆盖具身智能研究所需的物理世界规律,因而如果仅仅在它们的基础上加大数据量,并不能满足具身智能发展的需求。
那么假如复制语言大模型Scaling Law,海量填充端到端的“视觉”到“控制”的数据用于模型训练,是否能得到性能足够优越的具身智能大模型呢?
答案是,即使这是一个逻辑成立的路线,在目前阶段还是面临许多瓶颈。最大的问题是数据获取难度的层级不同。探究过往语言/视觉大模型的演进,会发现互联网在蓬勃发展的过程中提供了海量的视觉/语言数据,相关数据的填充是一种全民式的行为。
然而,具身智能的数据需要进行1:1的采集,其数据空间巨大,在巨量的数据需求之上会产生超高的成本。拿同样需要采集“视觉”到“控制”数据的无人车领域举例:过往三年共有10万级别、配备了高级仿真的无人车采集这类数据,勉强达到了一个还算可用的水平;但就操作、场景和仿真的复杂度而言,具身智能的执行体(如通用机器人)相较无人车,数据具有至少几十倍的不确定性。
巨大的不确定性使得具身智能所需的数据空间巨大,这就成为了一个数据魔咒。因而我们在尝试有效、快速推动具身智能发展时,可以跳脱出“路线”本身,从第一性原理出发,去思考什么是使具身智能任务完成的关键因素。
从具身智能大模型的第一性原理出发,首先它要能理解这个物理世界,知道“世界是什么”;其次它要知道“如何决策”,才能展现出足够鲁棒的行为。结合语言/视觉大模型做预训练或辅助,通过对操作相关的物理常识,以及力反馈嵌入智能体过程中的行为决策进行联合训练,具身智能才能够飞快成长。
由此我们打造了两个大模型,可以将它们看作是推动具身智能发展的两级火箭:
第一级火箭是实体世界大模型,它可以在训练中让机器人掌握常识性的、低维的操作物理表征,从而理解客观物理事实,并与人类概念对齐。第二级火箭是机器人行为大模型,它可以充分耦合操作物理常识表征和执行体(以机器人为例)的高精度力反馈能力,从而作出仿人化的力位混合行为决策,且操作具有极佳的鲁棒性和通用性。
两级火箭串在一起做端到端的联合训练时,数据量需求就会大幅降低、增长斜率更加明显,使训练变得足够的低成本、可规模化。
为了不断训练实体世界大模型,我们需要有效获取物体的操作结构数据。
一方面,我们发现人手操作与物体具身知识具有对偶性,因此做了一个人手操作的学习平台,通过观察大量的手的操作,可以从中发现操作表征,帮助模型获得操作拓扑结构常识。
另一方面,一个有效模拟真实世界并能支持物理交互的虚拟环境是必不可少的,我们自研了具身智能仿真器RFUniverse(RSS 2023 & 获IROS 2022最佳论文)。结合一系列机器学习技术,RFUniverse能够加速500倍模拟物理世界、误差1mm以内,由此使仿真场景更加接近真实物理规律,且大模型能够以任务为中心理解常识,实现仿真与学习的耦合。
此次WAIC现场,我们搭配机械臂展示的衣物折叠体现了顶级的以任务为中心的物理常识理解能力。在AI的世界里,对操作对象的本质理解会随着其自由度增加而提升,如完全不会动的刚体是六维、关节体是6+k维,但衣服这类柔性物体的自由度是无穷维的,因此基于衣物的任意初始状态完成折叠操作需要在物体和操作常识理解上有一个巨大的突破。这个研究也使我们成为了历史上第一个获得国际顶会 RSS 2023 最佳系统论文题名的中国团队,并且我们应该也是全球第一个在公开展会上真实完整呈现衣物折叠的团队。
基于对操作物理常识的理解,我们还需要获取足够多力位混合的操作数据。传统的位置控制大模型只需要获取位置信息即可,但只有位置没有力将会使终端操作变得不够鲁棒、不够通用。
目前,我们已经在使用不少组合式的数据方案和设备,比如通过全球唯一的高精度力觉遥操作平台,获取高精度对齐的力位混合数据,做到“庖丁解牛”。我们还做了一个机械结构全映射的外骨骼数据采集平台,训练人员可以背着它去到任何地方,便捷、规模化、低成本地进行源头数据采集。
以这些数据生成方案为工具,我们参与构建了迄今为止最大的开源真实机器人数据集Open X-Embodiment Dataset,其中已包含22个机器人的超一百万个真实机器人轨迹,被许多权威人士反复引用,也欢迎大家来使用。
在以上分享的所有这些技术的积累之上,我们在此次WAIC正式面向公众发布了一个具身智能的通用大脑:穹彻具身大脑Noematrix Brain。
穹彻具身大脑具备全链路的具身智能技术框架,提供“以力为中心”的两个具身智能大模型(实体世界大模型和机器人行为大模型)、原子技能库AnySkill、基础软件框架及相关开发者工具链,与各种类型的机器人本体、甚至工业设备都能有机结合,助力机器人轻松掌握更多技能、实现更多应用。
除大脑本身,在实际方案层面,我们可以向客户提供高共性的、可以被反复使用的软硬件一体平台,通过不同形态硬件的模块化组合,满足不同场景的实际需求。
另外,基于穹彻具身大脑,穹彻提供不断扩张的机器人原子技能库AnySkill,从而使智能体具备通用操作能力。首发于2021年的通用抓取技能AnyGrasp是其中的代表。在初版发布时,AnyGrasp已经不受物体种类、柔性程度限制,可直接对未知物体进行抓取,检测速度极快,世界范围内首次使机器人抓取速度达到人类水平。经过不断优化,AnyGrasp现在可以具备动态物体抓取、高精度力觉抓取、多样纹理处理等多种泛化能力。
AnySkill在我看来,其实是一种Scaling law by skill。它可以通过推进基础技能的鲁棒性和通用性达到99.X%,使其产生一个能力跃迁,从而被观察到增长质变。而人类绝大多数的任务完成,都是通过基础技能的组合排列,因此AnySkill可以以最精简的原子通用技能集,通过多样的组合,并结合语言/视觉大模型辅助,支持各类场景的快速开发。
未来,通过统一模型和原子通用技能的不断增长,我们能够解锁的商业化任务也会成倍增长,直至统一模型形成技能空间,所有的技能都能够足够通用,覆盖全行业。
当执行体被具身智能加持,它们能够在很多行业成为人类的帮手:繁琐如工业产线上一颗螺丝的安装,危险如极端场景中的拆装爆破任务,细致如与日常生活息息相关的做家务、下厨、看护病患......
我们会持续用技术推动行业进步,期待这一天早日到来。
赞
分享
在看
写留言