大导演詹姆斯·卡梅隆曾在 2019 年担任编剧,制作了一部【阿丽塔:战斗天使】的电影,这个电影的原著漫画【铳梦】早在 1991 年的时候,就有一个非常超前的设定:住在世界底部「废铁镇 Scrapyard」的居民,大多是拥有人类大脑,机械身体的改造人,而住在世界上方乌托邦城市「扎雷姆 Zalem」的居民,则都是成年后被摘除大脑,植入芯片大脑,被超级计算机控制,但拥有人类躯体的改造了。
除去关于战斗和科幻的描述,【铳梦】提出了一个在当时看起来很玄妙的问题:拥有人类大脑和机械躯体的人,和拥有机械大脑和人类躯体的人,哪个才算真正的人?
所有公司都应该是 AI 公司?所有公司都可能是具身智能公司!
2023 年下半年 ChatGPT 3.5 和大模型技术开始进入公众视野之后,也有人喊出了一个口号:所有公司都应该是 AI 公司,不入局 AI,不会用 AI 的公司在未来毫无竞争力。
于是我们在 2024 年上半年经历了无数的人类剧变之夜,OpenAI、微软、Google 或者英伟达的任何新消息,都可以被解读为历史的转折点。
然后人们发现,AI 对世界的冲击,好像没有媒体说的那么剧烈。
与狂飙突进的 AI 进程相匹配的,还有「具身智能 Embodied Intelligence」概念的兴起,这也是一个具备了哲学,生物,科幻和科技意义上的概念。
我们可以这么简单理解「具身智能」:Embodied Intelligence 是赋予智能以身体,把智能系统和机器人身体结合在一起,使之能认知环境,理解环境,可以与环境交互和行动,来体现智能。
在制造业发达的中国,「具身智能」其实是一个比 AI 更吸引人,更容易被大众接受的概念,也是更适合中国实业的 AI 技术路线。
之所以有如此感触,是因为在行业趋于冷静的 2024 年下半年之后,我做的多次采访,都提到了自家企业未来的发展方向都会是,或者都包含具身智能。
有趣的是,这些企业都不是大众认知中严格意义上的机器人公司,或者人工智能公司,而是大众眼里的车企,无人机车企,或者家电企业……
去年 8 月,爱范儿与理想智驾团队有过对话,其中理想智驾研发副总裁郎咸朋这么形容端到端技术路线的智能驾驶,和此前依靠「感知-规划-控制」逻辑的智能驾驶是「能力和功能」的区别。
或者说,是授人以渔还是授人以鱼。
▲ 端到端+VLM 的底层模型框架,可能是目前具身智能的通用框架
在采访中,理想智驾核心团队都会把理想汽车比喻成装在轮子上的机器人,也聊到了人形机器人等具身智能载体在用「端到端+VLM」的框架的应用雏形。
车企在研究智驾技术弯道超车的过程中,发现了具身智能的曙光。
然后就是理想创始人李想在去年年底亮相接受专访,直接表示理想的定位和愿景:理想是一家人工智能企业,致力于人工智能的汽车化,推动人工智能普惠到每一个家庭。
如果关注过 2024 小鹏 AI 科技日活动的话,也会发现小鹏更是高举 AI 大旗,还发布了 AI 机器人 Iron,并把 AI 机器战略人放在了重要位置,表示没有 500 亿,做不好 AI 机器人。
更不用说马斯克一再强调「特斯拉是一家 AI 和机器人公司,而不仅是一家汽车公司」,关于造车卖车这件事,大家想必感觉到了马斯克已经意兴阑珊,他更多的精力在 xAI 和 TeslaBot,还有 RoboTaxi+FSD 的商业模式上。
▲ Figure 02
甚至是被大家认为最正统最纯粹的 AI 公司 OpenAI,也可以是一家具身智能公司。AI 机器人公司 Figure 背后的投资方包括了 OpenAI、微软、英伟达等巨头企业,去年下半年发布的 Figure 02 被称为「地球上最先进的 AI 硬件」,其中的 AI 技术,包括多模态 AI 能力,由 OpenAI 提供。
非常一致的是,无论是特斯拉的 TeslaBot,还是小鹏的 Iron,亦或是 Figure 02 都被安排进了汽车生产车间打工,这其中固然有营销的成分,但也说明他们的愿景。
在不少的细分领域,比如专注在农业领域的极飞,认为在耕种管收的农业生产阶段,具身智能也有用武之地,比如大型棉田粮田都有大型收割机械,但是在收苹果收梨子这种果园场景,大型农机难以进入,主要还是靠人力来采摘,具有复杂狭小地形行动能力和机械臂的 AI 机器人,正好适合这种场景。
而目前主要产品为扫拖机器人和洗地机的云鲸,则认为目前家庭环境清洁只做到了平面,也就是地面的清洁,未来云鲸的发展方向是空间清洁,即各种桌面台面的清洁和整理。想要做到空间清洁,自然也需要以「视觉能力」为核心的人工智能能力,以及在扫拖机器人基础上进化而来的更多维度的机械结构。
▲ 石头 Saros Z70 扫地机器人,带有机械手
无独有偶,在 2025 年 CES 旗舰,同为扫地机器人生产商的石头和追觅,都发布了带机械手的扫地机器人,或者是仿生多关节机械手技术,扫地机器人只是机械手技术的载体而已。
▲ 戴森的机械手做家务演示
更早之前,戴森也发布了机械手清理家居的演示物料,基本上各大从事家居清洁工作的厂商,都开始思考用机械臂机械手的硬件,和以 AI 视觉为核心的 AI 能力来突破只能清洁地面的局限,这是家居环境里的具身智能。
虽然小标题里的「所有公司都可能是具身智能公司」这句话有点标题党,但如此强调的意义在于,这一批有志于具身智能的企业,并不完全是离商业化较远,离前沿技术很近的机器人公司(比如波士顿机器人),而很可能是我们身边日常接触的企业,它们有成熟的商业模式和现金流,以及对技术的巨大投入决心。
这也是技术路线可以走下去的标志之一:共识。
很多热门的技术趋势,比如 AR/VR/XR,元宇宙,NFT 等等,热度或许高,但共识很脆弱,各有各的想法和算盘,没有合力,也没有普适场景。
▲ 阿丽塔甚至没有头骨,用机械结构包裹大脑,图片来自【阿丽塔:战斗天使】剧照
给身体以智能,还是给智能以身体?
「给岁月以文明,而不是给文明以岁月」是个万能句式,就像我们讨论具身智能的时候,也要讨论是「给身体以智能,还是给智能以身体?」一样。
也可以回到开始的问题,【铳梦】提出的「拥有人类大脑和机械躯体的人,和拥有机械大脑和人类躯体的人,哪个才算真正的人?」
图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长,也是世界最顶尖计算机人才摇篮「清华姚班」的创办者姚期智,在 2023 年世界机器人大会上发言说:
人类本身就是世界上相当理想的一个具身智能体。
它基本上具备三个方面,三个成分:第一方面是身体,第二方面是小脑,第三方面是大脑。
身体的部分具身必须要有足够的硬件,具有传感器和执行器,小脑会主导视觉、触觉各种感知来控制身体,完成复杂的任务,最后大脑部分,它主导上层的逻辑推理、决策、长时间的规划以用自然语言能够和其他的智能体、环境交流。
身体,小脑和大脑的三重比喻,是业界最通俗易懂的,关于「具身智能」的解释。
相比于身体的相对成熟,具身智能当中「小脑」和「大脑」的成熟度还远远不够,尤其是「大脑」。
作为负责「感知-推理-预测-行动」的模块,如今具身智能的大脑能力和人类还有巨大的差距,研究上也属于早期阶段,Google 在 2022 年发布了机器人控制系统 SayCan,次年发布了 562B 参数的多模态大模型 PaLM-E,其中包括 22B 参数的视觉模型。
▲ PaLM-E 简介
PaLM-E 的进步之处在于,具身智能机器人可以根据人类的自然语言指令,自主分解任务,付诸行动,完成任务,类似于 ChatGPT 根据 prompt 生成结果。
另外 Google 和 DeepMind 等机构也一直在汇集机器人的训练数据集,最新的 RT-X 汇集了 22 种不同机器人类型的数据,涵盖 100 万个片段,展示了机器人 500 多项技能和 16 万项任务表现。
斯坦福终身教授、前 Google 首席科学家李飞飞最近的研究重心也转移到了空间智能,并且创办了空间智能科技公司 World Labs,意在将 AI 模型从 2D 像素平面提升到完整的 3D 世界(虚拟和现实世界),构建大型世界模型 (LWM),以感知、生成和与 3D 世界互动。
而在创办 World Labs 之前,李飞飞在具身智能领域也有重大贡献,她领导的 VoxPoser 和 PaLM-E 类似,也是具身智能多模态大模型,具有很强的视觉智能,以及把自然语言指令转变为具体行动的能力。
▲ VoxPoser 支持下的机器人绕过花瓶打开抽屉
比方说,告诉机器人「打开抽屉,小心花瓶」,机器人就会绕过花瓶去打开抽屉。
这个自然语言指令和最终动作之间,说明 VoxPoser 支持下的机器人能够知道什么是抽屉,什么是花瓶,看得到抽屉和花瓶在 3D 空间的方位,「小心」的潜台词是什么,最终任务是什么…….
▲ VoxPoser 运行逻辑
这意味着机器人有耳朵,有眼睛,有脑子,当然也有手。脑子会理解耳朵听到的指令,然后拆解成任务步骤,接着脑子还会指挥眼睛,去生成空间信息的「地图」,最后手会根据「地图」进行行动。
如此复杂的过程当中,多模态大模型中的大语言模型和视觉模型会不断交互,生成拆解任务的代码,空间信息地图,以及执行任务的代码等等信息。
更关键的是,机器人没有经过预训练,而是直接完成了任务,这就是具身智能和先前机器人的最大区别:之前的机器人,无论是产线上的机械臂,还是晚会上跳舞的机器人,都是按照固定程序运行,行为只有一套模板,无法理解环境信息并做出反应。
多模态大模型支持下的具身智能也会产生「涌现」的能力,比如在没有预训练的情况,要机器人把抽屉抽出一半这个任务,因为机器人预先不知道抽屉的长度,所以「一半」是什么,对于机器人是未知数。
但机器人是这样求解的:先把抽屉完全抽出,然后推回一半,也就等于抽出了一半。
或者说,像 VoxPoser 这样的多模态大模型,赋予了具身智能「泛化」的能力,即具身智能不止能干一件事,而是可以举一反三,干很多事情。
这就又回到了前面说的那个问题,是授人以渔还是授人以鱼。端到端大模型是智驾里的「授人以渔」,写规控是「授人以鱼」,类似的,多模态大模型自己生成代码是自己掌握了「能力」,能力能够产生多种「功能」。
VoxPoser 的演示能够帮助我们理解具身智能和此前各种机器人的显著区别,也能够回答小标题的设问:给身体以智能,还是给智能以身体?
当然是给智能以身体,大脑才是身体的主宰。
【铳梦】的问题也有了答案,拥有人类大脑和机械躯体的人,和拥有机械大脑和人类躯体的人,哪个才算真正的人?当然也是前者。
▲ 特斯拉自研了用于 AI 训练的 Dojo 芯片和 Dojo 系统
马力与智力,马斯克与 MAGA
哲学问题和技术问题或许遥远和晦涩,但现实问题永远存在。
当我思考为什么现在的汽车厂商如此热衷于 AI 和具身智能,以至于都要抛弃「汽车厂商」身份的时候,出现了这么一些想法:
特斯拉位于上海的工厂是汽车行业里自动化程度最高,效率最高的工厂之一,当然也可能是人类参与最少的汽车工厂之一,绝大多数生产装配工序,都依靠机器完成。
▲ 当代汽车产线
而「黑灯工厂」的概念,也深受汽车行业欢迎,不少车企还会专门宣传「黑灯工厂」,所谓「黑灯工厂」,就是指无需人类参与,自动化智能化程度极高,可以不用照明也可以运行的产线或工厂。
作为普通人,我们理解汽车对人类的「抛弃」更多还是智能驾驶层面,「驾驶行为」可以预见到在未来会变得越来越稀有,离日常越来越远,离兴趣爱好越来越近。
我们也可以从另一个角度去理解汽车这种产品,无论是特斯拉还是蔚小理的产品,都可以算作是普通人能够拥有的马力最大,智力最高产品。
在很长一段时间里,马力和智力是分开的,燃油车时代的汽车智力有限,车内虽然芯片众多,但制程和算力都很落后,我们日常使用的手机和电脑,以及背后的云计算,具有不错的算力,但都不会拥有马力。
而现在,一辆旗舰电动汽车,能够拥有上千匹马力,以及数百亿个晶体管。
如果从这个角度考虑,那些在往汽车里加传感器加大算力芯片,自建万卡训练集群做大模型的汽车品牌,和坚持聘用画线老仙人给汽车画腰线的汽车品牌,已经是完全不同的品类了。
那么,前者自称「人工智能和机器人公司」就太合理了。
最近马斯克和川普的一些狂热支持者(简称 MAGA 群体)在社交媒体上有过一场猛烈的交锋,起因是 MAGA 群体反对高技术人才工作签证,认为这类签证会抢走本土人才的工作机会,把大好工作机会留给外人。
生在南非的移民马斯克和他的另一位移民伙伴盟友反驳得就很直接,甚至自带破防和溅射效果:
类似的桥段也有佐证,比如有媒体说,美国投资人如果看到一个硅谷互联网创业团队里没有华裔名字,会问一个问题:
你们团队没有中国人,那活到底谁来干呀?
所谓谎言从不伤人,真相才是快刀,马斯克和他盟友的潜台词意思差不多就是,MAGA 群体干不了高技术人才的活,活是给聪明人干的。
这是真相之一,真相之二就是,MAGA 群体集中的中端蓝领工作,恰是马斯克所谋。
▲ 机器人进厂打工,是营销噱头,也是未来的必然场景
制造业、物流、建筑业、仓储、食品加工等领域中,大量低技能、高重复性的岗位是目前 MAGA 群体的主要就业机会,这些岗位已经被不少自动化产线所侵占,剩余的更柔性的部分,也很有可能被拥有更强环境理解能力和学习能力的具身智能机器人所取代。
那么这些具身智能主要是谁来研究的呢?通过高技术人才签证引进的工程技术人才。
当一家企业的创始人同时能够生产巨大的马力和智力的时候,他很难不想着去用这两种力量去替代羸弱而复杂的人类。
管理过巨型企业的企业家更是深知人是多么难以管理,以及机器人是多么好管理。对技术抱有信仰,看到 AGI 曙光的企业家,自然也不会让 AI 只显示在屏幕上。
更现实的问题:为什么我们需要具身智能?
2024 年对于日德车企来说,不是很好的年份,因为一方面市场份额在下降,利润骤减,产能也开始出现冗余了;另一方面,产能冗余,但工人工资还是要发,逐利的资本自然会考虑裁员降本,但在工会组织强大的德国,又是困难重重。
相比于在中国生产一辆汽车,大众在德国生产一辆汽车的成本要高得多,成本高竞争力就下降,竞争力下降,份额就减少,份额下降,产能不饱,成本还会继续变高,大众在德国本土就进入了这样的泥沼之中,所以大众计划在德国本土关厂降薪裁员,然后就是工会反对,员工罢工。
经过漫长的谈判,德国大众和工会达成协议:不关厂,但裁员,到 2030 年逐步在德国本土裁员 3.5 万人。
具身智能们不会成立工会,这就是具身智能的巨大优势。
当然这是站在资本角度考虑的。
其实站在普通人角度考虑,逻辑也大差不差,关键词都是一个:劳动力。
对于企业主来说,押注具身智能,是指望它们成为更高效率,更低成本(使用成本和管理成本)的劳动力。
▲ 在干旱地区使用智能水阀,能够大大减少用水成本和人力成本,并且方便管理
对于我们来说,老龄化不可逆转的情况下,从事基础的农业、制造业、服务业工作的劳动力可以预见地会出现短缺,智能化和具身智能被认为是最有效的解法之一,这在诸多企业家或者创业者眼里是共识。
甚至对于现在已经有一些制造业的企业主开始抱怨,年轻人更愿意送外卖,也不愿意进厂,原因不外乎送外卖更自由收入预期更高,进厂打工性价比不高。
对于具身智能成为劳动力的进程,大家的共识也差不多:
至于这个远期到底有多远,大家倒是没有一致看法,乐观的认为是三五年,保守的认为得十年以上。
关于具身智能,劳动力和企业主的情况有很多,甚至有些情况看起来还是矛盾的,一会儿产能冗余,劳动力太多,一会儿劳动力又太少,但本质上还是同一个问题,如果有选择,企业主其实不喜欢用人当劳动力,就像没有老师喜欢当班主任那样,加津贴也不喜欢。
▲ 天空上的城市就是扎雷姆 Zalem,图片来自【阿丽塔:战斗天使】剧照
【铳梦】里面,乌托邦城市「扎雷姆 Zalem」的被摘除原始大脑被植入芯片大脑的居民,然后接受超级计算机统一管理,才是企业主最喜欢的模式。
当然,现实不会如此黑暗,一方面,人类和机器人的发展,确实会像【铳梦】描述的那样,人类如同「废铁镇 Scrapyard」居民那样开始赛博格化,从外置机械开始,再接受一定程度上的身体机械化,从残障和疾病人群用机械补足身体机能,再到正常人类利用机械增强身体机能。
另一方面,具身智能的方向自然是朝着「扎雷姆 Zalem」居民那样聪明的大脑和灵活的躯体发展,以及,要听话。
不过对于具身智能来说,其复杂度和容错率与做一个 ChatGPT 不是一个维度,大语言模型已经有海量的互联网数据作为训练预料,但具身智能却没有这样的待遇,RT-X 汇集的 22 种不同机器人类型的数据,涵盖 100 万个片段,展示了机器人 500 多项技能和 16 万项任务表现,已经是目前的集大成者,但这些数据量,都还远远比不上一个优秀端到端智驾训练所需的数量,更别说应付更复杂的场景了。
但或多或少,我们在OpenAI、特斯拉、英伟达、理想、World Labs、宇树等等等企业身上看了具身智能的拼图。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。