万亿赛道的具身智能,到底是什么?

【来源:虎嗅网】

周末和朋友聊天,提到具身智能。有诸多观点,但让我意外的是,大家对具身智能的理解不太一样。

有的说,机械臂在工厂内能自动搬运货物,这是具身智能;有的朋友认为,具身智能应该是像人一样能走路的机器人。还有人说,具身智能像大模型一样,有意识、认知。

这些观点到底哪个是准确的呢?说实话,我也有点懵;于是,回来后赶紧恶补了这堂课,搞清楚具身智能到底是什么。

什么是具身智能,和传统人工智能核心区别是什么?

准确而言,具身智能(Embodied Intelligence)分为具身(Embodiment)、具身的(Embodied)、具身智能(Embodied AI)、以及非具身智能(Disembodied AI)四个维度。

具身,指具有支持感觉和运动(sensorimotor)的物理身体。而具身的,强调智能体,通过身体与环境交互来实现智能行为,它可交互、具有感知。

比如:

一个扫地机器人,用摄像头感知环境,用轮子移动来探索周围,再通过传感器识别障碍物并自动调整路径,最终完成清扫任务;这种用身体和环境的直接交互,来实现功能的过程,就是具身的。

那具身智能呢?可以总结为,一个一个身体力行的智能体,不仅拥有身体,还支持物理交互,能够用身体与环境的交互实现智能行为,像家用服务机器人、无人车等非常符合核心特征。

而非具身智能(Disembodied AI)是没有身体,只有大脑、智能被动接受人类采集、制作好的数据,像一个纸上谈兵、或运筹帷幄的家伙。

写到这,问题来了:通过概念可以看出,具身的和具身智能很像。到底如何区别它们呢?

简单粗暴地说,“具身的”靠身体跟环境互动,比如:机械臂抓个东西、搬个货,干点基础活儿;而“具身智能”高级多了,不光要动手,还得会动脑,要感知环境、自己做决定,还能边干边学,越干越聪明。

说白了,“具身的”是纯体力活,而“具身智能”是“体力+脑力”的结合体。

这或许,也是宇树科技创始人王兴兴在3月23日接受《每日经济新闻》采访时提到的观点。

他说,现在人形机器人最大的坎儿是大模型,尤其是多模态大模型。多模态搞定了,具身智能离通用人工智能就不远了。

所以,王兴兴那句“具身智能到通用已经很快了”,在暗示:大模型一突破,机器人满地跑的日子真不远了;明白这些,你也就理解了什么是具身智能,它和传统人工智能的核心区别是什么。

既然这样,当前具身智能发展是处于“婴儿期”还是“青春期”呢?

我觉得还处在婴儿期。这不是瞎说。大家都这么认为。

中国信通院(CAICT)2024年的报告里提到,工业和服务领域确实已经有一些成熟的案例,但这些应用,基本都局限在特定场景,功能有限,离全能型还差得很远。

其他报告里,也差不多是同一个意思;说白了,要让具身智能干更复杂、更广泛的工作,还要在很多地方下功夫,其中,更根本的是底层能力的不足。

一个最显眼可见的例子是:减速机。

什么是减速机?你可以把它看成机器人的“关节”,连接动力源和执行机构的关键部件。咱们国家在核心零部件和材料技术上进步很快,也实现了部分国产化,但和人类关节那种灵活自如的能力相比,差距非常明显。

比如说,工业机器人常用的两种“关节”:RV减速器和谐波减速器。RV减速器像健身房里壮汉的膝盖,能扛起几百公斤的重物;谐波减速器则像瑜伽达人的手腕,能灵活转动还不费劲。

国产RV减速器已能替代进口(双环传动市占率15%),但要让机器人像人类关节那样既能举哑铃又能绣花,还差着代际差距。

目前来看,国内减速机领域的领先企业包括国茂股份、中大力德、绿的谐波、双环传动等,它们的产品主要用在工业机器人领域。

双环传动在RV减速器市场中表现突出。它从2013年开始立项研发RV减速器,经过多年的努力,在2017年实现了量产,填补了国内在这一领域的空白。

2021年,双环传动成功打破了日本纳博特斯克长期以来的市场垄断,其产品在国内市场的占有率达到了15.1%,成为国产品牌第一。

所以,从时间轴上看,我们在核心零部件上已经取得不少进展,要让机器人像人一样灵活自主,还有很长的路要走。

在调研时我发现,像减速机这种关键部件是冰山一角,还有好多地方要突破。最值得一提的是:机器人的“小脑”,也就是它的运动控制系统。

小脑的组成包括,运动规划模块、动力学控制模块、传感器融合系统,以及技能学习与分解模块。这些模块协同工作,才能让机器人能够像人类一样灵活地完成各种动作。

这么说,你也许感触不大。我举个例子:

机器人找到冰箱的位置、避开障碍物走过去,再用合适的力度拉门。难点在于,怎么在复杂动态环境(比如有人突然挡路)中快速规划路径,还要在长时间任务中保持稳定,这得靠规划模块来实现了。

再比如,要协调全身关节的动作,调整走路时的重心、控制手臂的力度,目前的挑战是,怎么让机器人像人一样灵活应对突发情况。比如:被人推一下也不摔倒。

还有,把传感器融合在一块,也是一大难题。

你想,现在有很多摄像头、IMU(惯性测量单元)、力觉传感器,怎么把数据捏合到一块,做到视觉、触觉同步进行呢?最新报告显示,这些都要进一步研究。

另外,技能学习和分解模块也要进一步突破。教机器人开门,要把动作拆解成“接近门、抓把手、旋转、拉门”等基本操作,再通过强化学习训练。

但目前这些技能很难在不同场景下复用。比如:换个门把手形状就懵了。

这一切表面上看似简单的动作,背后是一系列复杂的融合挑战,每一个小进步都要在硬件、软件上持续投入,才能让人一样灵活智能。

如果实现难度这么大,那么,评价具身智能标准,到底应该以完成任务为主,还是以环境适应为主呢?

我认为,问题的关键在于到底要追求专用性,还是通用性。

专用性是什么?拿工业机器人来说,在流水线上,它替代了人,专注地完成焊接、装配这些固定任务;服务机器人也一样,专注于清洁、搬运。这就是完成任务的专业性,它们在特定场景下表现出色,效率高、精度高。

那通用性,或者说环境适应性呢?我再举个例子:

奥运会上,突然停电了,大家都找不到安全出口。这时候,机器人该扮演什么角色?它肯定不能像其他人一样摸黑乱撞,它得是个超级智能体,迅速感知环境变化,引导人们安全疏散。

这个问题听起来有点荒诞,却恰恰戳中了具身智能评价体系的死穴:现在的厂商到底是在比拼谁拧螺丝钉更快,还是谁能应对突发状况?

所以,环境适应为主的机器人,显然是一个更高层次的目标。它技术难度高,短期很难实现,但它更贴近人类的本质。毕竟,人类之所以被认为智能,不仅是因为能完成具体任务,更在于能在环境中随机应变。

因此,我认为完成任务更适合目前发展,它能有效推动具身智能在垂直行业的落地;而以适应环境为主,则是未来需要突破的方向。

那么,在当前技术条件下,哪些具体技术突破最有可能推动具身智能从专用性向通用性迈进?

最近有一篇论文叫:《Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions》,里面重点提到了具身多模态大模型(EMLMs)技术。

这篇论文厉害的地方在于,它填补了现有研究中的一个空白。研究团队啃了300多篇文献,从基础大模型到仿真技术,全都捋了一遍,尤其是像机器人怎么感知环境、怎么导航、怎么跟人互动这些关键问题,都讲得挺透彻。

具体来说,论文提到了四点:

一,跨模态预训练和微调。怎么研究出更聪明的跨模态预训练和微调方法,让不同模型在任务中都能表现得很好;二,自监督学习。怎么让模型通过没标注的数据,学到更丰富的知识,变得更灵活、更实用。

三,怎么把多模态模型跟强化学习结合起来是个好方向;最后一点是,端到端的发展。现在有很多大模型是为不同任务设计,但未来,朝着一个大模型包揽所有任务的方向发展,会是一个重要的趋势。

所以,最后得出结论是:现在最大挑战是怎么把多模态感知、推理和行动整合到一起。说白了,核心集中在大脑、小脑上。

另外一个是高精尖的传感器技术。为啥是传感器,不是硬件?

传感器像一把钥匙,能把现实中的各种信息,转化成机器能理解的数据。比如温度、压力、位置。在国家战略层面,传感器是关键的“胜负手”——它的性能直接决定了重大装备和战略产品的质量。

举个例子:

咱们国家的高铁“和谐号380AL”,一辆列车上有超过1000个传感器,平均每个零部件都得有个传感器盯着;这些传感器干啥用?监测列车运行状态、检查轨道有没有问题、保障列车安全防护。

再看看医疗领域,你拍心电图、量血压、测血糖靠什么?依然是传感器。现在的医生,很多时候靠传感器给的数据做判断。

前段时间,宇树科技G1机器人火了,能跳舞、完成拍手、扭腰等动作,还能跟着音乐节奏舞动,甚至能施展挥拳、旋踢等高难度武术动作,回旋踢完之后,腿可以稳稳落地而不倒。

这背后靠什么?还是传感器。

传感器让机器人有了“触觉”,能感知地面情况,从而灵活调整动作。换句话说,传感器不仅提升了机器人的运动能力,还让它能够更好地感知环境,完成更复杂的任务。

宇树科技这样的通用机器人为啥受到国内外青睐?不是因为它便宜,是它成了综合型选手。正是传感器技术的发展,才推动机器人从“专用型选手”向“通用型高手”迈进,为未来带来更广泛的应用可能。

所以,不管是具身多模态大模型的技术突破,还是高精尖传感器的升级换代,都在给具身智能添砖加瓦,让它从只能干“专活”的小工,变成啥都能干的“全能选手”。

希望以上分析能带来点新启发,使你看问题时多几个新角度。

本文来自微信公众号:王智远,作者:王智远

本站部分内容来源于网络,如果你是该内容的作者,并且不希望本站发布你的内容,请与我们联系,我们将尽快处理!

国泰海通证券的公募牌照布局大猜想 谁将成为“弃子”?

棕榈油占据跌幅榜首