瞭望｜從0到1造一個人形機器人，需要哪些關鍵技術？ - 心靈

2024-08-22心靈

擁有43個自由度的「青龍」，代表了目前人形機器人行業比較頂尖的硬體設計水平

「‘青龍’平台的核心技術經過了十多年的技術沈澱，標誌著我們的人形機器人平台技術實作從無到有的突破。」

文 |【瞭望】新聞周刊記者董雪龔雯　實習生宮雅婷

「你好，我是青龍人形智慧機器人，能幫你做家務。」

「你看桌面上有什麽？」

「我看看。桌面上有三個麵包、兩個水果。」

「你幫我清理一下吧。」

「好的，正在為您整理中，我先把麵包和水果分類擺放。」

說話間，身高1公尺85、體重80公斤的「青龍」看向桌面，依次拿起麵包和水果，分類放入筐中。現場展示了行走、對話、做家務等能力。

在2024世界人工智慧大會上，全球首款通用人形機器人開源公版機「青龍」驚艷亮相。「我們看到，人形機器人可以透過語言資訊理解人的意圖，根據現場環境做出綜合判斷並執行任務。」現場工作人員介紹，這個任務看似簡單，實際上體現了「大小腦」的感知、規劃、決策以及控制能力，代表了國內人形機器人技術的領先水平。

「青龍」由國家地方共建人形機器人創新中心（以下簡稱中心）打造，該中心於今年5月，由工業和資訊化部和上海市政府共同授牌，落戶浦東。中心科研團隊碩博士占比約80%，研究團隊長期從事人形機器人領域技術研究與軟硬體研發。

擁有43個自由度的「青龍」，代表了目前人形機器人行業比較頂尖的硬體設計水平。「青龍」不僅在硬體參數上達到了國際領先水平，更在具身智慧技術的整合與套用上展現出了特有的優勢。「‘青龍’包含人形機器人平台技術、具身智慧、數據集和智慧訓練場四大技術板塊，我們已經進行了開源，希望更多人參與到人形機器人的技術創新中來。」中心首席科學家江磊說。

近日，【瞭望】新聞周刊記者走近「青龍」，與科研團隊對話，看如何打造和訓練一個「優秀」的人形機器人。

機械軀體：人形機器人的「骨肉」

「平台技術可以簡單理解為機械軀體，是人形機器人的基礎，包含行走與驅動系統、操縱與作業系統、感知與控制系統三大模組。」中心機器人平台技術負責人梁振傑介紹說。

本刊記者在現場看到，「青龍」一步一步走上講台，然後停下來向觀眾揮手打招呼，它走路的速度不算快，但步伐足夠穩健，軀體結構與人體類似。

梁振傑介紹，「青龍」全身整合了43個主動自由度，實作從頭部到手部、臂部、腿部、腰部和踝部的全尺寸設計。關節模組是軀體結構的核心組成單元，它一共搭載了10種、31個關節，最大關節扭矩達到396Nm，峰值扭矩密度實作了200Nm/kg，用以實作高強度動力輸出。

雙足負責行走，雙臂執行作業。梁振傑說，「青龍」的腿部系統追求輕量化、高剛度和低慣量，搭載了高扭矩密度的軸向電機，以此保障它在復雜地形中的穩態行走能力。其上肢配備了7自由度的機械臂與整合觸覺感知的五指靈巧手，為完成精細操作和復雜任務提供了硬體基礎。

在動力和電源管理方面，「青龍」搭載了有能量回收系統和輸出穩壓管理的電源系統，可以支持其在復雜工況下持續執行3小時至4小時。

「青龍」搭載了算力可達400TOPS的控制器和豐富的外部介面，用以滿足人形機器人產品以及常規外部裝置的使用要求。400TOPS意味著控制器每秒可以進行400萬億次操作，是當前非常強大的算力，能支持復雜的AI套用和高級別的自動駕駛功能。

平台整體整合了「視、聽、觸、嗅、動」五感融合設計，使人形機器人能感知周圍環境。

「‘青龍’平台的核心技術經過了十多年的技術沈澱，標誌著我們的人形機器人平台技術實作從無到有的突破。」梁振傑說。

青龍核心研發團隊是國內最早開展仿生腿足式機器人研究的團隊之一，擁有近十年機器人行業技術積累，構建了仿生機器人核心技術體系，建立了機器人控制、感知、互動等核心技術群，支撐著「青龍」處在國內人形機器人技術領先水平。

全尺寸通用人形機器人開源公版機「青龍」（2024年7月4日攝）王翔攝/本刊

具身大腦＋小腦模型：人形機器人的智力

「青龍」擁有「朱雀」具身大腦和「玄武」小腦模型。

「朱雀」具身大腦是一個以多模態大模型為核心的機器人指揮排程中心，利用多模態大模型的感知能力、任務理解能力、記憶能力以及規劃能力，幫助機器人完成任務。輸入方式是文字和影像資訊，支持語音互動，最終將任務決策資訊輸出給「玄武」小腦模型。

記者采訪了解到，在當前釋出版本中，「朱雀」具身大腦共整合3個大模型，分別是：科大訊飛星火大模型、上海人工智慧實驗室書生·浦語大模型、上海人工智慧實驗室書生·永珍多模態大模型。

「朱雀」具身大腦擁有跨裝置的排程框架。具體來看，書生浦語大模型和永珍多模態大模型執行在本地伺服器，其中，語言大模型實作使用者意圖辨識與對話功能；訊飛星火大模型與浦語功能相似，但是執行在雲端伺服器；多模態大模型具備處理影像的能力，當辨識到使用者的任務與當前環境相關時，會啟用多模態大模型進行環境感知。

中心具身智慧負責人田翀說，在後續更新版本中，我們將微調參數量較小的語言模型，直接部署在機器人終端，作為大模型的補充。對於簡單問題，機器人直接做出回復，從而減少與伺服器通訊的時間，實作更快速準確的互動與技能排程。

「玄武」小腦模型是任務執行模型，分為軌跡規劃模組和運動控制器兩個部份。首先，軌跡規劃模組負責輸出期望軌跡，它由端到端的機載視覺資訊為驅動，以人類動作為模仿物件。然後，由運動控制器控制人形機器人做出相應的動作。

田翀介紹說，小腦模型主要有控制理論、模仿學習、強化學習等三條技術路徑。控制理論通常需要對系統進行詳細建模，模仿學習透過模仿專家的行為來學習任務，強化學習則是讓人形機器人透過與環境的互動來學習，三者各有優劣。上述三種技術路徑，「玄武」小腦模型都采用了。

不斷前進演化的具身大腦和小腦模型讓人形機器人更聰明。

數據：人形機器人的「靈魂」

受訪者表示，決定人形機器人智慧程度的關鍵因素是數據。「數據是人形機器人的靈魂，數據越富集，‘大小腦’的智慧越高、能力越強。」中心具身智慧負責人邢伯陽介紹，「大小腦」需要非常多數據進行綜合訓練，包括但不限於多樣化垂類場景訓練數據、多模態語音數據、人體開源數據、運動捕捉數據、機器人本體數據、環境地形數據等。

人形機器人自身的數據采集主要有兩類，邢伯陽說，一類是透過全身運動捕捉裝置捕捉人體全身高精度運動關節角度，可以訓練人形機器人完成走、跑、跳、抓、拿、放等多種技能。另一類針對靈巧的專用作業和精細作業，是透過頭戴式視覺系統完成公釐級手部動作的采集。

透過「解剖」小腦模型，能看出數據對其的塑造作用。「我們首先收集了大量的人力數據，以模仿學習為基礎打造行為策略和行為標準。然後利用控制理論和強化學習打造運動控制系統，在3個月內完成了小腦模型的演算法開發和叠代。」田翀說，我們充分利用了人體運動數據，結合模仿學習策略，為機器人運動訓練提供了精準的參考軌跡和運動標準。同時，我們還將傳統的運動控制方法套用於數據收集工具的開發，並將這些思想融入到強化學習訓練中。

透過技術融合，不僅提高了機器人運動控制策略的訓練效率，縮短了訓練周期，還確保了策略在實際套用中的安全性和可靠性，這是「玄武」小腦模型與其他小腦模型相比的一大特點。「當然，該模型還在發展初期，能力和功能仍需提升和完善。」田翀說。

借助AI，管控平台同時完成對數據標註、管理與模型部署的需求，助力實作機器人數據采集、評估清洗、訓推一體的全流程閉環。邢伯陽向記者解釋說，透過仿真環境對采集數據實作快速的測試，對失敗數據單元進行刪除，完成對原始數據的清洗，再對神經網路模型進行訓練，實作面向機器人端快速部署。

中心計劃用3年時間完成「白虎」數據集的構建，一方面建設超過100個高精度運動采集裝置，另一方面共享業界其他單位采集的數據，實作清洗後的高品質數據總量超過1PB，覆蓋超過100個場景、2000個任務。如果1部高畫質電影占用的數據空間大約是1GB，那麽1PB的數據量大約可以儲存100萬部這樣的電影。

訓練場：人形機器人的學校

「人為演示一個動作大約50次，機器人就能學會。」在2024世界人工智慧大會的國家地方共建人形機器人創新中心展區，記者看到了一個小型的機器人「訓練場」，現場工作人員如同一個熟練的「老師傅」做著生產線上的抓取動作，4個機器人則跟著他同步做出了一樣的動作。

為什麽要搭建訓練場？中心技術負責人劉宇飛說，構建智慧訓練場，模擬產線及工業流水線，收集多模態數據，並搭建數據管理平台，將有效提升人形機器人在不同場景下的作業能力，加速具身智慧技術的發展與套用落地。

在位於上海張江的國家地方共建人形機器人創新中心，記者看到更多機器人在努力學習人類本領：它們有的在學習高負載狀態下穩定快速地行走，有的在練習拿飲料、餅乾等不同形狀和重量的物品……

「歸根結底，訓練場是數據生產和數據規模化的場地。」劉宇飛表示，訓練場分為感、存、算、學、用五個部份。「感」和「存」主要用來做雲端數據的采集，包括要操作的數據、音訊數據、自然語言、運動捕捉等。「算」和「學」是指機器人的技能模仿學習和強化學習，主要是做單臂、雙臂以及全身行為的運動訓練。「用」則是在工業生產線及服務等場景裏實作人形機器人最新的模擬和套用。

劉宇飛介紹，訓練場數據的生產方法包括三個階段：

第一步是打造單臂的單技能學習與作業物件環境的泛化能力。

第二步是基於協作臂把這套技術路線遷移到「青龍」的上肢。

「青龍」的上肢單臂擁有7自由度+6自由度的靈巧手，協作臂是單臂6自由度+夾爪；為了使靈巧手擁有更廣的作業空間，沒有加入手腕相機。遷移時，我們對采集數據即時最佳化，在時間上嚴格對齊動作軌跡和影像，以達到和三相機（1頭部+2手腕）同樣的學習效果。

第三步則是生產大規模、低成本的人類作業視訊。

訓練場不僅關註「小腦」模型的訓練，還涉及「大腦」模型，如環境感知、行為控制、人機互動、雲端網聯等能力的訓練。

「2024年，我們會在上海打造100+人形機器人的產品、100+人形機器人的訓練場。到2027年，我們期待能夠在多個城市、面向各類場景，搭建1000+人形機器人訓練場來服務整個人形機器人生態。」劉宇飛說。■