大導演詹姆士·卡麥隆曾在 2019 年擔任編劇,制作了一部【阿莉塔:戰鬥天使】的電影,這個電影的原著漫畫【銃夢】早在 1991 年的時候,就有一個非常超前的設定:住在世界底部「廢鐵鎮 Scrapyard」的居民,大多是擁有人類大腦,機械身體的改造人,而住在世界上方烏托邦城市「紮雷姆 Zalem」的居民,則都是成年後被摘除大腦,植入芯片大腦,被超級電腦控制,但擁有人類軀體的改造了。
除去關於戰鬥和科幻的描述,【銃夢】提出了一個在當時看起來很玄妙的問題:擁有人類大腦和機械軀體的人,和擁有機械大腦和人類軀體的人,哪個才算真正的人?
所有公司都應該是 AI 公司?所有公司都可能是具身智慧公司!
2023 年下半年 ChatGPT 3.5 和大模型技術開始進入公眾視野之後,也有人喊出了一個口號:所有公司都應該是 AI 公司,不入局 AI,不會用 AI 的公司在未來毫無競爭力。
於是我們在 2024 年上半年經歷了無數的人類劇變之夜,OpenAI、微軟、Google 或者輝達的任何新訊息,都可以被解讀為歷史的轉折點。
然後人們發現,AI 對世界的沖擊,好像沒有媒體說的那麽劇烈。
與狂飆突進的 AI 行程相匹配的,還有「具身智慧 Embodied Intelligence」概念的興起,這也是一個具備了哲學,生物,科幻和科技意義上的概念。
我們可以這麽簡單理解「具身智慧」:Embodied Intelligence 是賦予智慧以身體,把智慧系統和機器人身體結合在一起,使之能認知環境,理解環境,可以與環境互動和行動,來體現智慧。
在制造業發達的中國,「具身智慧」其實是一個比 AI 更吸引人,更容易被大眾接受的概念,也是更適合中國實業的 AI 技術路線。
之所以有如此感觸,是因為在行業趨於冷靜的 2024 年下半年之後,我做的多次采訪,都提到了自家企業未來的發展方向都會是,或者都包含具身智慧。
有趣的是,這些企業都不是大眾認知中嚴格意義上的機器人公司,或者人工智慧公司,而是大眾眼裏的車企,無人機車企,或者家電企業……
去年 8 月,愛範兒與理想智駕團隊有過對話,其中理想智駕研發副總裁郎鹹朋這麽形容端到端技術路線的智慧駕駛,和此前依靠「感知-規劃-控制」邏輯的智慧駕駛是「能力和功能」的區別。
或者說,是授人以漁還是授人以魚。
▲ 端到端+VLM 的底層模型框架,可能是目前具身智慧的通用框架
在采訪中,理想智駕核心團隊都會把理想汽車比喻成裝在輪子上的機器人,也聊到了人形機器人等具身智慧載體在用「端到端+VLM」的框架的套用雛形。
車企在研究智駕技術彎道超車的過程中,發現了具身智慧的曙光。
然後就是理想創始人李想在去年年底亮相接受專訪,直接表示理想的定位和願景:理想是一家人工智慧企業,致力於人工智慧的汽車化,推動人工智慧普惠到每一個家庭。
如果關註過 2024 小鵬 AI 科技日活動的話,也會發現小鵬更是高舉 AI 大旗,還釋出了 AI 機器人 Iron,並把 AI 機器戰略人放在了重要位置,表示沒有 500 億,做不好 AI 機器人。
更不用說馬斯克一再強調「特斯拉是一家 AI 和機器人公司,而不僅是一家汽車公司」,關於造車賣車這件事,大家想必感覺到了馬斯克已經意興闌珊,他更多的精力在 xAI 和 TeslaBot,還有 RoboTaxi+FSD 的商業模式上。
▲ Figure 02
甚至是被大家認為最正統最純粹的 AI 公司 OpenAI,也可以是一家具身智慧公司。AI 機器人公司 Figure 背後的投資方包括了 OpenAI、微軟、輝達等巨頭企業,去年下半年釋出的 Figure 02 被稱為「地球上最先進的 AI 硬體」,其中的 AI 技術,包括多模態 AI 能力,由 OpenAI 提供。
非常一致的是,無論是特斯拉的 TeslaBot,還是小鵬的 Iron,亦或是 Figure 02 都被安排進了汽車生產車間打工,這其中固然有行銷的成分,但也說明他們的願景。
在不少的細分領域,比如專註在農業領域的極飛,認為在耕種管收的農業生產階段,具身智慧也有用武之地,比如大型棉田糧田都有大型收割機械,但是在收蘋果收梨子這種果園場景,大型農機難以進入,主要還是靠人力來采摘,具有復雜狹小地形行動能力和機械臂的 AI 機器人,正好適合這種場景。
而目前主要產品為掃拖機器人和洗地機的雲鯨,則認為目前家庭環境清潔只做到了平面,也就是地面的清潔,未來雲鯨的發展方向是空間清潔,即各種桌面台面的清潔和整理。想要做到空間清潔,自然也需要以「視覺能力」為核心的人工智慧能力,以及在掃拖機器人基礎上前進演化而來的更多維度的機械結構。
▲ 石頭 Saros Z70 掃地機器人,帶有機械手
無獨有偶,在 2025 年 CES 旗艦,同為掃地機器人生產商的石頭和追覓,都釋出了帶機械手的掃地機器人,或者是仿生多關節機械手技術,掃地機器人只是機械手技術的載體而已。
▲ 戴森的機械手做家務演示
更早之前,戴森也釋出了機械手清理家居的演示物料,基本上各大從事家居清潔工作的廠商,都開始思考用機械臂機械手的硬體,和以 AI 視覺為核心的 AI 能力來突破只能清潔地面的局限,這是家居環境裏的具身智慧。
雖然小標題裏的「所有公司都可能是具身智慧公司」這句話有點標題黨,但如此強調的意義在於,這一批有誌於具身智慧的企業,並不完全是離商業化較遠,離前沿技術很近的機器人公司(比如波士頓機器人),而很可能是我們身邊日常接觸的企業,它們有成熟的商業模式和現金流,以及對技術的巨大投入決心。
這也是技術路線可以走下去的標誌之一:共識。
很多熱門的技術趨勢,比如 AR/VR/XR,元宇宙,NFT 等等,熱度或許高,但共識很脆弱,各有各的想法和算盤,沒有合力,也沒有普適場景。
▲ 阿莉塔甚至沒有頭骨,用機械結構包裹大腦,圖片來自【阿莉塔:戰鬥天使】劇照
給身體以智慧,還是給智慧以身體?
「給歲月以文明,而不是給文明以歲月」是個萬能句式,就像我們討論具身智慧的時候,也要討論是「給身體以智慧,還是給智慧以身體?」一樣。
也可以回到開始的問題,【銃夢】提出的「擁有人類大腦和機械軀體的人,和擁有機械大腦和人類軀體的人,哪個才算真正的人?」
圖靈獎獲得者、中國科學院院士、清華大學交叉資訊研究院院長,也是世界最頂尖電腦人才搖籃「清華姚班」的創辦者姚期智,在 2023 年世界機器人大會上發言說:
人類本身就是世界上相當理想的一個具身智慧體。
它基本上具備三個方面,三個成分:第一方面是身體,第二方面是小腦,第三方面是大腦。
身體的部份具身必須要有足夠的硬體,具有傳感器和執行器,小腦會主導視覺、觸覺各種感知來控制身體,完成復雜的任務,最後大腦部份,它主導上層的邏輯推理、決策、長時間的規劃以用自然語言能夠和其他的智慧體、環境交流。
身體,小腦和大腦的三重比喻,是業界最通俗易懂的,關於「具身智慧」的解釋。
相比於身體的相對成熟,具身智慧當中「小腦」和「大腦」的成熟度還遠遠不夠,尤其是「大腦」。
作為負責「感知-推理-預測-行動」的模組,如今具身智慧的大腦能力和人類還有巨大的差距,研究上也屬於早期階段,Google 在 2022 年釋出了機器人控制系統 SayCan,次年釋出了 562B 參數的多模態大模型 PaLM-E,其中包括 22B 參數的視覺模型。
▲ PaLM-E 簡介
PaLM-E 的進步之處在於,具身智慧機器人可以根據人類的自然語言指令,自主分解任務,付諸行動,完成任務,類似於 ChatGPT 根據 prompt 生成結果。
另外 Google 和 DeepMind 等機構也一直在匯集機器人的訓練數據集,最新的 RT-X 匯集了 22 種不同機器人型別的數據,涵蓋 100 萬個片段,展示了機器人 500 多項技能和 16 萬項任務表現。
史丹佛終身教授、前 Google 首席科學家李飛飛最近的研究重心也轉移到了空間智慧,並且創辦了空間智慧科技公司 World Labs,意在將 AI 模型從 2D 像素平面提升到完整的 3D 世界(虛擬和現實世界),構建大型世界模型 (LWM),以感知、生成和與 3D 世界互動。
而在創辦 World Labs 之前,李飛飛在具身智慧領域也有重大貢獻,她領導的 VoxPoser 和 PaLM-E 類似,也是具身智慧多模態大模型,具有很強的視覺智慧,以及把自然語言指令轉變為具體行動的能力。
▲ VoxPoser 支持下的機器人繞過花瓶開啟抽屜
比方說,告訴機器人「開啟抽屜,小心花瓶」,機器人就會繞過花瓶去開啟抽屜。
這個自然語言指令和最終動作之間,說明 VoxPoser 支持下的機器人能夠知道什麽是抽屜,什麽是花瓶,看得到抽屜和花瓶在 3D 空間的方位,「小心」的潛台詞是什麽,最終任務是什麽…….
▲ VoxPoser 執行邏輯
這意味著機器人有耳朵,有眼睛,有腦子,當然也有手。腦子會理解耳朵聽到的指令,然後拆解成任務步驟,接著腦子還會指揮眼睛,去生成空間資訊的「地圖」,最後手會根據「地圖」進行行動。
如此復雜的過程當中,多模態大模型中的大語言模型和視覺模型會不斷互動,生成拆解任務的程式碼,空間資訊地圖,以及執行任務的程式碼等等資訊。
更關鍵的是,機器人沒有經過預訓練,而是直接完成了任務,這就是具身智慧和先前機器人的最大區別:之前的機器人,無論是產線上的機械臂,還是晚會上跳舞的機器人,都是按照固定程式執行,行為只有一套樣版,無法理解環境資訊並做出反應。
多模態大模型支持下的具身智慧也會產生「湧現」的能力,比如在沒有預訓練的情況,要機器人把抽屜抽出一半這個任務,因為機器人預先不知道抽屜的長度,所以「一半」是什麽,對於機器人是未知數。
但機器人是這樣求解的:先把抽屜完全抽出,然後推回一半,也就等於抽出了一半。
或者說,像 VoxPoser 這樣的多模態大模型,賦予了具身智慧「泛化」的能力,即具身智慧不止能幹一件事,而是可以舉一反三,幹很多事情。
這就又回到了前面說的那個問題,是授人以漁還是授人以魚。端到端大模型是智駕裏的「授人以漁」,寫規控是「授人以魚」,類似的,多模態大模型自己生成程式碼是自己掌握了「能力」,能力能夠產生多種「功能」。
VoxPoser 的演示能夠幫助我們理解具身智慧和此前各種機器人的顯著區別,也能夠回答小標題的設問:給身體以智慧,還是給智慧以身體?
當然是給智慧以身體,大腦才是身體的主宰。
【銃夢】的問題也有了答案,擁有人類大腦和機械軀體的人,和擁有機械大腦和人類軀體的人,哪個才算真正的人?當然也是前者。
▲ 特斯拉自研了用於 AI 訓練的 Dojo 芯片和 Dojo 系統
馬力與智力,馬斯克與 MAGA
哲學問題和技術問題或許遙遠和晦澀,但現實問題永遠存在。
當我思考為什麽現在的汽車廠商如此熱衷於 AI 和具身智慧,以至於都要拋棄「汽車廠商」身份的時候,出現了這麽一些想法:
特斯拉位於上海的工廠是汽車行業裏自動化程度最高,效率最高的工廠之一,當然也可能是人類參與最少的汽車工廠之一,絕大多數生產裝配工序,都依靠機器完成。
▲ 當代汽車產線
而「黑燈工廠」的概念,也深受汽車行業歡迎,不少車企還會專門宣傳「黑燈工廠」,所謂「黑燈工廠」,就是指無需人類參與,自動化智慧化程度極高,可以不用照明也可以執行的產線或工廠。
作為普通人,我們理解汽車對人類的「拋棄」更多還是智慧駕駛層面,「駕駛行為」可以預見到在未來會變得越來越稀有,離日常越來越遠,離興趣愛好越來越近。
我們也可以從另一個角度去理解汽車這種產品,無論是特斯拉還是蔚小理的產品,都可以算作是普通人能夠擁有的馬力最大,智力最高產品。
在很長一段時間裏,馬力和智力是分開的,燃油車時代的汽車智力有限,車內雖然芯片眾多,但制程和算力都很落後,我們日常使用的手機和電腦,以及背後的雲端運算,具有不錯的算力,但都不會擁有馬力。
而現在,一輛旗艦電動汽車,能夠擁有上千匹馬力,以及數百億個晶體管。
如果從這個角度考慮,那些在往汽車裏加傳感器加大算力芯片,自建萬卡訓練集群做大模型的汽車品牌,和堅持聘用畫線老仙人給汽車畫腰線的汽車品牌,已經是完全不同的品類了。
那麽,前者自稱「人工智慧和機器人公司」就太合理了。
最近馬斯克和川普的一些狂熱支持者(簡稱 MAGA 群體)在社交媒體上有過一場猛烈的交鋒,起因是 MAGA 群體反對高技術人才工作簽證,認為這類簽證會搶走本土人才的工作機會,把大好工作機會留給外人。
生在南非的移民馬斯克和他的另一位移民夥伴盟友反駁得就很直接,甚至內建破防和濺射效果:
類似的橋段也有佐證,比如有媒體說,美國投資人如果看到一個矽谷互聯網創業團隊裏沒有華裔名字,會問一個問題:
你們團隊沒有中國人,那活到底誰來幹呀?
所謂謊言從不傷人,真相才是快刀,馬斯克和他盟友的潛台詞意思差不多就是,MAGA 群體幹不了高技術人才的活,活是給聰明人幹的。
這是真相之一,真相之二就是,MAGA 群體集中的中端藍領工作,恰是馬斯克所謀。
▲ 機器人進廠打工,是行銷噱頭,也是未來的必然場景
制造業、物流、建築業、倉儲、食品加工等領域中,大量低技能、高重復性的崗位是目前 MAGA 群體的主要就業機會,這些崗位已經被不少自動化產線所侵占,剩余的更柔性的部份,也很有可能被擁有更強環境理解能力和學習能力的具身智慧機器人所取代。
那麽這些具身智慧主要是誰來研究的呢?透過高技術人才簽證引進的工程技術人才。
當一家企業的創始人同時能夠生產巨大的馬力和智力的時候,他很難不想著去用這兩種力量去替代羸弱而復雜的人類。
管理過巨型企業的企業家更是深知人是多麽難以管理,以及機器人是多麽好管理。對技術抱有信仰,看到 AGI 曙光的企業家,自然也不會讓 AI 只顯示在螢幕上。
更現實的問題:為什麽我們需要具身智慧?
2024 年對於日德車企來說,不是很好的年份,因為一方面市場份額在下降,利潤驟減,產能也開始出現冗余了;另一方面,產能冗余,但工人薪資還是要發,逐利的資本自然會考慮裁員降本,但在工會組織強大的德國,又是困難重重。
相比於在中國生產一輛汽車,大眾在德國生產一輛汽車的成本要高得多,成本高競爭力就下降,競爭力下降,份額就減少,份額下降,產能不飽,成本還會繼續變高,大眾在德國本土就進入了這樣的泥沼之中,所以大眾計劃在德國本土關廠降薪裁員,然後就是工會反對,員工罷工。
經過漫長的談判,德國大眾和工會達成協定:不關廠,但裁員,到 2030 年逐步在德國本土裁員 3.5 萬人。
具身智慧們不會成立工會,這就是具身智慧的巨大優勢。
當然這是站在資本角度考慮的。
其實站在普通人角度考慮,邏輯也大差不差,關鍵詞都是一個:勞動力。
對於企業主來說,押註具身智慧,是指望它們成為更高效率,更低成本(使用成本和管理成本)的勞動力。
▲ 在幹旱地區使用智慧水閥,能夠大大減少用水成本和人力成本,並且方便管理
對於我們來說,老齡化不可逆轉的情況下,從事基礎的農業、制造業、服務業工作的勞動力可以預見地會出現短缺,智慧化和具身智慧被認為是最有效的解法之一,這在諸多企業家或者創業者眼裏是共識。
甚至對於現在已經有一些制造業的企業主開始抱怨,年輕人更願意送外賣,也不願意進廠,原因不外乎送外賣更自由收入預期更高,進廠打工價效比不高。
對於具身智慧成為勞動力的行程,大家的共識也差不多:
至於這個遠期到底有多遠,大家倒是沒有一致看法,樂觀的認為是三五年,保守的認為得十年以上。
關於具身智慧,勞動力和企業主的情況有很多,甚至有些情況看起來還是矛盾的,一會兒產能冗余,勞動力太多,一會兒勞動力又太少,但本質上還是同一個問題,如果有選擇,企業主其實不喜歡用人當勞動力,就像沒有老師喜歡當班主任那樣,加津貼也不喜歡。
▲ 天空上的城市就是紮雷姆 Zalem,圖片來自【阿莉塔:戰鬥天使】劇照
【銃夢】裏面,烏托邦城市「紮雷姆 Zalem」的被摘除原始大腦被植入芯片大腦的居民,然後接受超級電腦統一管理,才是企業主最喜歡的模式。
當然,現實不會如此黑暗,一方面,人類和機器人的發展,確實會像【銃夢】描述的那樣,人類如同「廢鐵鎮 Scrapyard」居民那樣開始賽博格化,從外接機械開始,再接受一定程度上的身體機械化,從殘障和疾病人群用機械補足身體機能,再到正常人類利用機械增強身體機能。
另一方面,具身智慧的方向自然是朝著「紮雷姆 Zalem」居民那樣聰明的大腦和靈活的軀體發展,以及,要聽話。
不過對於具身智慧來說,其復雜度和容錯率與做一個 ChatGPT 不是一個維度,大語言模型已經有海量的互聯網數據作為訓練預料,但具身智慧卻沒有這樣的待遇,RT-X 匯集的 22 種不同機器人型別的數據,涵蓋 100 萬個片段,展示了機器人 500 多項技能和 16 萬項任務表現,已經是目前的集大成者,但這些數據量,都還遠遠比不上一個優秀端到端智駕訓練所需的數量,更別說應付更復雜的場景了。
但或多或少,我們在OpenAI、特斯拉、輝達、理想、World Labs、宇樹等等等企業身上看了具身智慧的拼圖。
#歡迎關註愛範兒官方微信公眾號:愛範兒(微訊號:ifanr),更多精彩內容第一時間為您奉上。