置身机器人这样的大热赛道,明星研究员总被如此之多的目光注视着。
但关于庞江淼,网络查到的信息寥寥。为数不多的内容是,聚焦计算机视觉,浙江大学博士,香港中文大学MMLab研究员,接下来一份经历就是现在了——上海AI实验室青年科学家,具身智能团队负责人。30岁出头,属实年轻。
在今天的具身智能领域里,CV出身的研究人员占据了相当大的比重,庞江淼算得上是其中很典型但又很颠覆的一个。
之所以说典型,是因为其早期成果全部集中于传统CV范畴。他曾连续两年斩获MS COCO目标检测挑战赛冠军,是MMLab视觉感知系列开源平台MMDetection、MMTracking、MMDetection3D的作者,取得CVPR 2023最有影响力论文和ECCV 2024最佳论文提名。
而之所以又说颠覆,则是因为,庞江淼并未像多数CV出身的其他人一样,停留在感知层面向机器人领域渐进过渡,而是从转型之初就直接切入了底层的控制。
由他主导开发的人形机器人多姿势站起控制算法是一个典型例证,这篇文章获得了机器人学习顶级会议 RSS 2025 的最佳系统论文提名奖。这也是庞江淼第一次投稿 RSS,此后,他共有 6 篇文章相继被RSS接收,中稿率 75%,主要涉及人形机器人与机械臂的运动控制方向。
用他自己的话来说,“我切得很直接,决定去做具身之后,就不再是仅仅用视觉去解决具身的问题。所以,尽管我是CV出身,但我现在的mindset其实挺不CV的。科研最关键的还是定义问题和解决问题的思维逻辑。只要找到合适的问题,聚焦并追求极致,总会有好的结果。”
这个跨越式的转型发生在2021年前后。
据他回忆,当时,“老本行”目标检测触到瓶颈,技术“拱”不动了。同时,视觉本身很难产生闭环价值,业界开始热议“感知与行为闭环”,视觉的独立性被重新评估,成为机器人感知的一个模块。驱动机器人行动,才会带来价值。
而比这早一年,Marco Hutter团队采用强化学习在仿真环境中训练,再将之迁移到真实的四足机器人ANYmal上,使机器人实现高动态运动。这意味着机器人领域终于出现了data driven(数据驱动)的解决方案,也逐渐掀翻了传统认知。
“旧的领域遇到了瓶颈,新的东西也出现了,那么转型也是自然而然的了。”
在向雷峰网 AI科技评论讲述这段经历时,庞江淼向后靠坐在椅背,整个人似乎松懈了一下,但语速仍然很快——这也是对谈中他留给人最鲜明的印象,思维敏捷、语速极快,问与答之间基本没有留下思考的空档。
在刚刚过去的WAIC期间,他带领上海AI实验室具身智能团队发布了『书生』具身全栈引擎Intern-Robotics。发布结束后,雷峰网(公众号:雷峰网) AI科技评论与之进行了对谈。
以Intern-Robotics为锚点,你会发现,他们的目标不在某个单一的技术点,而是一套开放共享的基础设施,一个具身智能领域的“ChatGPT”时刻,让整个行业的飞轮转起来,转得更快。这也是在对谈中庞江淼数次想要强调的雄心。
大小脑融合可能是大趋势
AI科技评论:最近和很多行业内人士聊,一部分声音认为具身智能的研究逐渐收敛到了三个大方向——具身大脑、全身控制、大小脑协调。您认可吗?
庞江淼:我个人不完全认同。所谓大小脑是更偏宏观的划分。
具身智能目前还很难做到任务泛化,任务层面可能包括空间感知、导航、操作、人形运控等;所有任务都可以有大脑负责推理,同时有小脑负责具体执行,只不过有的任务侧重大脑,有的任务侧重小脑。现在无法融合才会存在所谓大、小脑,再发展几年可能就是一个模型。
AI科技评论:所以大小脑融合是大趋势?
庞江淼:可以这么说。目前大小脑之所以无法快速融合,和端侧算力水平有关,端侧芯片还推不起大模型,这就意味着,要做低频的思考和高频的行动,也就是双系统,前者相当于大脑,后者相当于小脑,这种架构本质上也符合人类行为学。
AI科技评论:你们在研究具身大模型的过程中会受限于算力水平吗?
庞江淼:算力分为云端和终端两部分,模型训练肯定是在云端,但推理一定是在端侧,目前主要是端侧算力受限。当然,科研是可以用各种各样的方式绕过它的,但如果走向了商业化落地场景,这个问题就绕不过去了。
AI科技评论:大脑层面,VLA是现在的共识路线了吗?
庞江淼:VLA是重要的技术路线,有助于泛化能力的提升,但只有VLA应该也不够,我们很关注一些传统的控制理论,共同提升模型的能力。其实在VLA领域现在也标准不一,我们一直开玩笑说现在市面上有三种VLA。
Google在2023年发布的RT-2算是第一个具身智能VLA。当时谷歌在VL大模型中加入了一个A的模态,将机器人动作映射为文本标记,和互联网规模的视觉-语言数据集共同训练,既保留多模态大模型的识别和交互能力,又能让机器人动起来。这是最狭义的VLA。
但后来大家逐渐发现这种技术路线不是最优的,因为机器人动作数据很少,加入后无法泛化。那就基于一个多模态大模型微调出来一个模型,只具备执行能力,不具备思考能力,我们一般把这种叫做A式的VLA。
第三种是只要有视觉、文本、行为的encoder就叫VLA,这种可能就过于宽泛了。
AI科技评论:你刚刚提到任务划分,具身领域的主流任务有哪些?
庞江淼:主要是四个比较核心的方向:感知、操作、导航、人形运控。
这几个任务之间是平行的,也许最终会融合但目前还没有。比如巡检机器人公司可能只关心导航能力,工业机器人公司可能只关心机械臂的操作能力,而人形机器人目前则只关心人形运控……
不同的任务,VLA大模型的技术方案和表现也会有所不同。和真实世界的交互越多,真机数据的价值就越大。所以导航,以及pick and place等简单任务,合成数据可以占据大部分比重。但如果复杂度进一步上升,仿真算法本身就会带来新的挑战,也会带来非常多有意思的研究课题。
AI科技评论:具身智能领域仍然有很多路线之争。
庞江淼:是的,我觉得有两个原因。
首先,复杂性太高了。拿计算机视觉举例,这个领域在上个世纪就已经形成了清晰的任务定义、数据集,比如目标检测、分割、跟踪等高维视觉,去模糊、超分辨等低维视觉……而具身智能的复杂度更大,子任务的拆分定义还是模糊的。
其次,高度复合,这意味着所有人都可以走向这个领域,NLP、视觉、机器人、IL、自动驾驶等等的人都会有自己的视角,选择离自己最近的路线切入。
做平台和卖芯片差不多
AI科技评论:在争论仍旧很“嘈杂”的背景下,WAIC期间团队发布的Intern-Robotics亮点在于什么?
庞江淼:我觉得可以从两个维度看,一方面,科研层面肯定有其先进性,我们还会在接下来一段时间公开最新的工作;另一方面,定位比较清晰,它作为一个平台,一个基础工具链,能够跟更多的伙伴合作,为领域内其他团队创造价值。
通过这次发布,实验室把过去几年的积累去以一种非常体系化的方式“给”了出去,我们也会以它为载体跟业内交流、合作。也希望未来平台用户量越来越大,大家能聚集起来一起做一些事情,同时随着数据积累形成公开数据集。
AI科技评论:但实验室离场景有点远,在提升大脑能力方面会不会受局限?
庞江淼:所以才需要跟公司合作,对方有数据和场景,我们提供模型能力,双向助益。
AI科技评论:合作具体是怎么进行的?
庞江淼:以今年我们跟国地中心的合作为例,国地中心有场景、有本体,我们协助他们进行任务定义和数据采集规则的制定。我们内部有一条合成数据的管线,场景数据给过来后,我们再做一些合成数据,把两种数据整合起来训练模型,模型会部署到“青龙”上。本体落地应用的过程中又会产生一系列交互数据,我们会利用这些逐步迭代模型能力、数据管线的能力。
慢慢地,这个领域可能会出现基模型,搭配上一系列工具链,行业内的任何本体公司都可以“开箱即用”,轮子也就转起来了。
AI科技评论:所以实验室在具身智能方向的定位是做平台?最终想达成的愿景是什么?
庞江淼:我们一直希望做平台,但不仅仅是平台。
最终目的是希望推动整个领域有更加归一化的基准,比如在任务划分、数据等方面,大家的努力能汇到一块去,推动整个领域迭代更快一些。
AI科技评论:这种定位和团队的发展历程、优势基础有关吗?
庞江淼:实验室在具身智能这个领域积淀的时间算是比较长了。2022年初我们团队就已经存在了,早期偏向前沿探索,最初是做足式机器人,但同期也有做操作。2024年年中,具身智能团队更完善,方向也更加聚焦。
另外我们团队组成足够diverse,NLP、AGC、自动驾驶等等领域的人员都有,内部还有一个 AIGC的团队,能做Real2Sim。
总之,认知积累早、技术储备全,公立的研发机构的身份也有助于开展类似的合作。所以我们有希望率先去解决领域内关于任务定义、数据集等基础问题。
AI科技评论:怎么吸引企业加入合作?
庞江淼:其实做平台和卖芯片差不多,本质是把生态做好,靠模型算法取胜。同时把用户体验做好,比如一套易用性很高的框架。
AI科技评论:平台希望吸引更多人、沉淀更多数据,对量级有没有初步的规划?
庞江淼:无论是用户,还是数据,我认为现在很难去判断量级,因为没什么参考。打个可能不太恰当的比方,大模型有点像互联网,具身智能有点像制造业。制造业的本质是价值闭环的流程更长,例如,一家车企销量过百万已经算是很高的数值,但一家互联网企业用户上亿都不算什么。所以讨论用户数的量级意义不大。
再者,数据量本身不产生价值,数据集的多样性也不产生价值,利用这一数据集能训练出来什么样的模型,才决定了价值。
接下来的目标是“三个泛化”
AI科技评论:那接下来平台还有什么重点方向吗?
庞江淼:现在具身智能主要的问题在于,泛化不足。包括今年以来很火的机器人跳舞,其实也是用模型去拟合一条轨迹。未来实验室的目标是,在具身智能作业100%可靠性的前提下,实现本体泛化、场景泛化、任务泛化,这是总体的逻辑。
具身智能和大模型有一个非常明显的不同,就是对作业成功率趋近 100% 的要求。大模型可以有幻觉,可以“再想一想”,但人形机器人摔倒了就是摔倒了。
现在我们正在做人形运控的基模型,当然它目前只是基模型的概念,但在参数量上还是一个小模型。我们也一直在寻找一些更难的场景来展示模型能力,比如高动态场景的交互,之后我们可能会出一个demo,让异构的机器人从不同速度转动的轮盘上把物体精准拿下来,再去做协作,这就同时能够体现出上述三种泛化。
当然,短周期内我们会先做好聚焦场景下的局部泛化,先解决最基础和关键的问题,再去拓宽。刚刚提到了3种泛化、4种任务,我们会在这个大框架下找一些具体场景,横向拉几条比较窄的线去做。
AI科技评论:所以Intern-Robotics的“一脑多形”也呼应了其中的本体泛化?
庞江淼:是的,具身智能要面向应用需求,不限场景、任务。高成功率,本质是需要一个好的后训练技术。那么只要有一条通用的管线,基于前期预训练的基模型,就可以在一定时间内微调出一个具体行业领域的机器人。
如果基模型是允许“多形”的,也就相当于管线相通。在迭代过程中,我们可以逐渐把后训练过程干掉,这样也许可以出现一个可以零样本泛化的“ChatGPT”。
AI科技评论:这也是业内大家一直在追问的,具身智能领域的ChatGPT什么时候才能出现?这也是你们在做的东西对吗?
庞江淼:其实我们是“沿途下蛋”。ChatGPT是终极目标,但并不是立刻就要做出来。这是一个一边迭代、一边落地,逐渐把后续微调工作压缩下来的过程。
AI科技评论:除了本体泛化,还有场景泛化,之前你主导的可泛化地形人形机器人自主站立控制技术做了多久?
庞江淼:这项工作的周期并不长,也就3—6 个月。
技术突破其实是跟着整个领域的迭代节奏走,如果你真的觉得一些工作做得很好,它本质只是领先了整个领域3—6个月,并不会超脱出领域发展的客观规律。
AI科技评论:当时这个项目的idea是怎么出现的?
庞江淼:我们当时在做人形机器人运控,第一阶段是盲走。没有视觉的情况下,机器人动作是非常稳定的,包括现在机器人打拳整个决策也是没用到视觉的。
接下来要让它上台阶,这时候就必须加入视觉了,但视觉会给系统带来噪声,使机器人经常摔倒,每摔倒一次都要重新调试。所以我们觉得,如果机器人能自主站起来,整个系统会更加鲁棒。所以这个项目就出来了。
其实从这个项目也能看出,我们的风格还是以解决具体问题为导向去做项目的。
AI科技评论:怎么处理视觉带来的这些噪声?
庞江淼:我们当时有一篇论文叫PIM(Perceptive Internal Model),利用传统机器人领域的建图技术,把机器人周围环境精尽量精准构建起来。仿真训练的过程可以直接拿到障碍物位置的真值,然后再把Sim和Real之间尽可能对齐。
AI科技评论:这套算法其实还解决了一些高难度地形上机器人的动作稳定性,比如梅花桩这样的稀疏落足点,甚至在机器人运动中突然加入障碍物。
庞江淼:梅花桩很简单,只要在仿真里加一些这样的地形,定向去微调一下。在通用的框架下,机器人就能完成相关动作。
动态地形的问题比较难,现在所有AI处理动态事物都非常困难,坦白讲,我们最近并没有什么能解决这个问题的办法。动态相当于增加了多样性,AI的逻辑很简单,input多样性越小,模型表现越好;多样性上去了,模型表现就会下来。
数据匮乏的对策是 Real-Sim-Real
AI科技评论:从多样性的维度看,机器人动作仍然是背诵而非自学习的过程?
庞江淼:你可以理解它是在背诵,但当数据量足够大,它会出现智能的涌现。
这也是ChatGPT最厉害的地方,它证明了,AI的本质很有可能就是一种极致的 over fitting。它目前已经在大语言模态下做到了,但语言是一维的,并且是结构化的,有海量的互联网数据支撑,所以可以堆上去。
但在具身智能领域,数据的量级差距不可同日而语,数据量小是最本质的问题。
AI科技评论:具身智能领域最匮乏的是哪一类数据?
庞江淼:主要是精准行为数据。
AI科技评论:团队在训练模型时数据来源有哪些?
庞江淼:现在还是一个数据金字塔的概念,最顶层是真机数据,它最精准,但数量也最少;中间是仿真;下面是网络视频数据,离机器人最远,但数量最大。纯粹依赖真机数据肯定不行,因为数据不够,且没办法解决采集成本高昂的问题;纯粹的合成数据也不行,它没办法做到复杂交互场景的完全精准合成。
因此主要在于如何搭建这个金字塔,训练出一个足够鲁棒、泛化的模型。我们每种数据都会用,关键在于怎么融合。我个人会比较看好Real to Sim to Real这套技术路线,再配上一些真实世界的强化学习。
AI科技评论:你们会使用网络视频数据吗?
庞江淼:视频数据更多是做预训练,但很难用于后训练。二者的区别在于,预训练的数据量非常大,含有更多领域的知识;但后训练必须有非常精准的行为标签。
AI科技评论:Real to Sim to Real的过程中,如何消除Sim和Real之间的gap?
庞江淼:Sim和Real之间最大的gap无非两点。
一点是关节运动本身带来的误差,但这一点是相对可控的,因为电机是自己造的,所有的真值在机器人运动过程中都能拿到;
另一点是视觉带来的误差。加入视觉后就意味着需要在仿真器里做一个相机的仿真,相机仿真本身和真实世界就是有差距的,再加上机器人看到的事物的多样性是没有约束的,这是最大的困扰点,也是接下来需要重点研究的方向。
AI科技评论:大模型的scaling law会面临瓶颈,具身智能也会如此吗?
庞江淼:先解决从无到有,再解决从有到优。大模型已经用互联网数据提升到了很高水平,面对接下来的瓶颈,需要更高质量的数据做调优。但具身智能还停留在前一个阶段,即怎么把数据堆上去,现在谈论scaling law瓶颈还为时尚早。
我对 scaling law 其实还有一个思考:它并不只是一条线性的增长曲线。我们可以在很多维度找到这种数量和性能的线性关系。它的关键其实是一个可以让你放心 scaling 资源投入的支点,这也是我们正在探索的。
AI科技评论:之前元宇宙没能做起来,也是类似的原因,比如3D内容不够丰富。现在大家也会担心具身智能会不会成为下一个元宇宙。你怎么看?
庞江淼:不会。具身智能的能力确实远未达到落地的水平,但它和元宇宙最大的区别在于,它的行业需求是客观且持续存在的,只要能做出来,下游有很多原本就存在的产业都在等待着。我对这个领域的感受是,绝对值不行,但动量非常大。
需求明确,只是当前技术不成熟,那么技术可以往前迭代,在接下来的周期里,技术会继续往前跑,然后慢慢落地,就像刚刚说的沿途下蛋。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。