DDS-LOGO

【圆桌对话】具身智能:从实验室走向现实世界的“登月之旅” | 2025 IDEA 大会回顾

本文转载自 “IDEA数字经济研究院” 公众号。全文无删减。

圆桌主持

  • IDEA计算机视觉与机器人研究中心负责人 张磊

圆桌嘉宾

  • 中国工程院外籍院士、德国工程院院士 张建伟

  • 北京大学计算机学院助理教授及博士生导师、北京银河通用机器人创始人及CTO 王鹤

  • 比亚迪集团副总裁、比亚迪第十五事业部总经理  罗忠良

  • 美团机器人研究院理事、美团高级总监、美团无人机软件产品研发负责人 陈天健

  • 香港科技大学教授,冯诺依曼人工智能学院副院长 谭平

封面图.jpeg

具身智能需要具备「行为-后果」的理解能力

具身智能早在人工智能实验室研究智能驾驶、路径规划的年代就已是核心议题。今天的具身智能处在一个全新的时间点,大模型浪潮,结合语言、视觉,再加上不断发展的机器人本体,带来一个智能新起点。

在机器人学、认知科学与脑科学等交叉学科的发展中,“感知—行动”始终被视为理解智能的底层结构。中国工程院外籍院士、德国工程院院士张建伟指出,具身智能真正的难度,在于“不是只有大脑,还要有小脑”。材料、形态、控制、感知、通信等多个系统必须协同,全部整合到一个模型里,是巨大的挑战。尤其在物理世界中,触觉能力与人类差距依旧显著,机器人结构太硬、太重,材料科学、机械工程与 AI 必须一同推进。“AI for Science、Science for AI 和 Science for Embodiment,这三条线需要同时往前走。”

北京银河通用机器人创始人及CTO 王鹤表示,做出 In-body 的 AGI ,路还很长。当前具身智能最大的瓶颈,并不完全在硬件,而是在数据, “真实世界的数据远远不够让具身智能做 Scaling Law”。与自动驾驶依赖上百万公里的真实驾驶数据不同,机器人在现实世界中没有如此天然的大规模数据来源。这个过程中必须探索合适的数据拼盘和合适的学习方法。

香港科技大学的谭平教授认为,如今的大模型训练主要依赖来自互联网的图像、视频与文本,但机器人生活在三维连续的物理世界,而这两者之间存在着根本鸿沟。他认为世界模型、空间智能是当下解决问题的关键。“我们要定义世界模型里最重要的特质是什么,最重要的点是让 AI 能理解它的行为对这个世界会导致什么样的改变”,他指出,这或将是接下来机器人领域取得巨大突破的技术要点。

视觉的下一步从「看见」到「行动闭环」

在通用 AI 的语境里,视觉模型往往是“被动的”:输入一张图片,输出一个预测。在机器人领域,视觉是一项“主动能力”,它要与机械结构、动作规划、触觉反馈共同完成一项真实世界中的任务。IDEA计算机视觉与机器人研究中心负责人张磊抛出了一个关键问题:在具身智能时代,对于机器人来说,最重要的视觉能力究竟是什么?

张建伟认为,下一步是视觉和世界模型的融合,机器人与环境的交互关系,视觉、触觉的融合变得必不可少。

王鹤近年来开始探索从显式3D输入变成隐式的3D输入,未来多模态大模型、VLA的架构也完全基于多目RGB输入。多目就像是除人的双眼,同时加上手部动态相机,多视角刻画出物体的三维几何,将过去分割、检测任务全部作为VLA的混训任务,完全融合在VLA中,让感知、决策、执行变成一段式。

对于机器人视觉什么问题比较重要这一问题,谭平表示,无论是2D的识别、分割、检测还是3D的重建、3D的定位,对于机器人而言,关键是如何把视觉的输入映射到对应的输出,机器人也许并不需要知道这个水瓶的准确距离就能够完成抓取,另外需要将触觉传感器融合进来,输出一个行动过程的反馈,比如抓得不够稳就再多用一些力气,打通输入和输出的闭环尤为关键。

具身智能的商业价值在第四次工业革命的长周期中孕育

“过去三次工业革命里,本质上都改变了生产关系,而且颠覆性的改变了生产关系,前提是生产力的重大变化”,比亚迪集团副总裁罗忠良说。如今全行业都在谈智能化会不会带来第四次工业革命,他认为,具身智能必然有商业价值,但经过漫长的技术迭代,真正实现商业价值的进展远没有最初想象中迅速,直到最近几年,产业的多重条件才逐渐成熟:传感器、控制器、芯片、算法、人才、供应链、法规体系,更重要的,是“GPT时刻”的到来。具身智能要迎来爆发式商业价值,路还非常长,未来一定会带来可能性,但耐心必不可少,罗忠良指出。

美团机器人研究院理事陈天健坦言,当下市场往往将具身智能等同于人形机器人,但在他看来,人形机器人作为生产工具,并不是效率最高的形态。他认为,现在机器人的传感和智能能力水平尚未能支撑人形机器人完成复杂任务,机会可能在“低节拍、高价值”的任务和场景中,例如家务、陪护、康复等,陈天健带着行业幽默地说道:“在人形具身智能退而求其次的情况下,大概率可以来美团送外卖。”

面对具身智能落地,企业究竟是“解决大问题”,还是“小步快走”?罗忠良给出回答:“工业界还是效率优先,效率就是效益。”在他看来,具身智能要进入真实的生产体系,必须遵循产业的闭环逻辑:从小场景开始,把效率做出来,将危险、脏累、无人愿意做的环节覆盖。

陈天健则从研发与部署的差异切入,在他看来,具身智能研发的加速度与商业部署的成本压力,会在未来几年持续拉扯,这将深刻影响具身智能在产业的落地节奏,也是每个企业必须思考的问题。

「登月成功」的时间预言

在圆桌的最后,主持人张磊抛出了一个带着未来意味的问题:把具身智能真正融入现实世界视为一次“登月”,如何预测这次“登月成功”的时间表?

张建伟将具身智能的前景与“Digital Labor 向 Robot Labor 的跃迁”联系起来,他认为通用机器人不会以“一步到位”的方式出现,而会经历“叠加场景,从专业到多功能再到全功能”的漫长演化。他判断,未来十年内将出现更多专业级场景的突破,而真正的人形通用机器人可能需要十年、二十年。

王鹤则给出了另一种时间尺度:“只争朝夕”。他解释,银河通用正不断以小场景证明可用性,从一个 3×3 平米的小卖部开始,在全国铺设数十个真实点位,目的是让机器人在具体场景中形成VLA闭环的验证。

罗忠良把愿景归结为八个字:耳聪目明、心灵手巧。这是他对具身智能最直观的期待,并为此给出了自己的时间表:“十五年吧。”

陈天健则从历史类比中找到答案。他说,真正的登月工程往往不是目的本身,而是在过程中创造大量意想不到的突破。他认为,当下的大模型、算力系统、高带宽内存,都是具身智能“登月火箭发射后”出现的衍生成果。至于人形机器人,他给出一个量化的具体预测:当某个企业能够做到一年交付 100 万台,将是行业真正进入“应用爆发期”的标志。他估计,“还有 8 到 10 年。”

谭平认为,技术本身具有自我加速的趋势,人们常常低估长期变化,“未来十年看到的变化,会比过去十年大得多。”他相信,在十年周期内,一定会看到更多新的东西。