當前位置: 華文星空 > 心靈

用動作捕捉技術建立人形機器人的「數據工廠」

2024-09-22心靈

日前,2024世界機器人大會在京舉辦。諾亦騰聯合創始人、CTO戴若犁博士受邀出席大會專題論壇「人機融合:共創具身智慧機器人新時代青年精英論壇」,發表主題演講 【用動作捕捉技術構建具身智慧數據工廠】 ,公布諾亦騰在具身智慧人形機器人領域的新進展,闡述了諾亦騰具身智慧機器人解決方案服務行業客戶的詳細工作流程。

圖註:諾亦騰聯合創始人、CTO 戴若犁博士

戴若犁博士表示:「自去年下半年以來,諾亦騰動作捕捉產品在機器人領域中的銷售比例大幅增加,這一變化促使我們深入機器人行業進行研究,發現這一領域對於高品質人類動作數據的需求正在急速增加。」

在演講中,戴若犁博士從動作捕捉技術與具身智慧機器人領域的關系切入,分享了他的洞察與見解,公布諾亦騰具身智慧機器人解決方案的工作流程,強調人體與機器人本體之間的對映在整體工作流程之中的重要性與挑戰性;闡釋四種主流機器人數據集生產方式的差異,並最終透過介紹諾亦騰與行業內合作夥伴的落地案例,再次強調建立大規模具身智慧數據工廠(DataFactory)的重要性與可行性。

以下為此次演講的全文整理。

感謝各位。我是做動作捕捉的,所以先用簡單一句話跟大家解釋一下什麽是動作捕捉。動作捕捉就是用各種技術的手段,把人的動作數位化。人的動作很難變為時間域上面的數位表達,因此需要用到一些復雜的數學方式,透過電腦視覺、各種傳感器的方式,把人的動作數位化。

那動作捕捉為何和機器人,或者說人形機器人相關呢?先簡單介紹一下我的公司。諾亦騰位於北京,是一家國家級的專精特新小巨人企業。動作捕捉這件事情,其實諾亦騰已經做了十二年了。在過去這十幾個年頭裏,機器人領域其實並不是我們的市場重點。但是從去年下半年開始,這個領域中的合作激增,相關營收數位翻了四倍。有這麽多的機器人領域使用者與我們合作,去采集高品質的,數位化的人類動作,我們不得不高度重視。

動作捕捉在具身智慧領域的五個套用方向

透過對機器人套用領域進行深入調研,我們發現具身智慧人形機器人領域的客戶,主要在以下五個方向套用諾亦騰的動作捕捉裝置。

遙操作(Teleoperation) 。人類透過身體/手指來遠端控制機器人,還可以透過虛擬現實裝置,實作遠端存在(Telepresence),更加真實與靈活地操控機器人。在諾亦騰的早期,就有像早稻田大學背景的 TokyoRobotics 這樣的公司在利用諾亦騰的動作捕捉裝置進行遙操作任務,包括疫情期間的遠端巡檢、數據中心伺服器維護等。甚至還有一家智利的企業利用諾亦騰動捕遙操作機器人在火山口采集樣本。

人類-機器人在環境中的協同工作 。利用動作捕捉技術,還可以幫助機器人更好地融入人類存在的環境中,和人類共同完成任務,同時對任務的完成情況進行即時監測。

機器人示教 。透過人類對機器人進行示範教育,也就是Human Demonstration,在機器人領域中是一種非常成熟有效的方法。人類作出示範動作,透過動作捕捉系統對映到機器人本體並且記錄。透過采集大量的人類示教數據去訓練機器人,以便在機器人智慧尚未成熟時,幫助其學習如何主動執行任務。

以上三個方向都屬於 人在回路(Human-in-the-loop) 的範疇。對於具身智慧機器人的智慧提升來說,是非常重要的。特別是在機器人示教與訓練數據采集方向,如果能將這一路徑規模化,形成大規模的數據工廠,將會有更大的收益。

數位孿生與高精度量測 。這一能力在機器人研發的驗證環節至關重要。結構耦合而成的機器人並不是理想的剛性體,它在運動執行任務的過程中會出現一定程度的形變。特別是在大規模訓練數據采集流程中,對大空間、多目標進行即時量測,獲取機器人的高精度姿態與運動軌跡,將幫助研究人員發現本體存在的問題並及時修正。

訓練數據集 。最終透過采集海量的真實行為數據,並對其進行標註,將構建起通用的數據集,進一步提升機器人的效能,為機器人訓練提供有力的支持。目前來看,透過規模化這一路徑是有著非常明確的預期收益的。而諾亦騰作為目前動作捕捉領域中經驗突出,參與過豐富計畫的廠商,願意與更多本體廠商展開合作,只有動捕廠商與本體廠商通力合作,才能做到最好。

為何說遙操作是極為重要的

在這裏重點說一下遙操作(Teleoperation)。傳統來說,遙操作是為了在惡劣的、人力不可達的環境中去完成一些具體的任務。但是後來我們發現,有越來越多的科研工作者開始利用遙操作去收集數據,並對機器人進行訓練。

打個比方來說,包括 Tesla 在內的智慧車企業,他們生產的汽車就是遙操作裝置,是人類開著一個智慧載具在真實環境中完成運載的任務。最終的目標,一定是要達到L5級別的自動駕駛,但是在此之前,要有大量的數據資訊作為提升智慧的「原材料」,開車的過程其實和遙操作一個智慧運載機器人的過程是一致的。

圖註:諾亦騰合作夥伴,智元機器人遠征 A2 機器人采用諾亦騰動作捕捉系統進行遙操作控制

在這裏再介紹幾個合作夥伴的例子:一個是智元機器人,他們利用了諾亦騰的動作捕捉裝置去進行機器人的遙操作,共同探索提升演算法的「Sim2Real2Sim」路徑。我專門和智元研究院的姚卯青姚院長進行過溝通,他表示是非常看好動作捕捉遙操作這條路徑的。

智元A2機器人可以透過諾亦騰動作捕捉系統在真實物理世界與虛擬空間中進行遙操作采集數據集,用於訓練策略/控制規則(Policy)。經過最佳化的Policy將被遷移回到真實環境中的本體,實作智慧演算法的提升。這樣的演算法最佳化路徑,既能在最大程度上消除 Real2Sim Gap,同時也將 Sim2Real Gap 盡量保留在可控的視覺部份,以獲得更佳的訓練效果。

「在遙操作流程中,sensing(動作捕捉)和actuating(機器人本體)的廠商需要通力合作,才能把流程做到最順暢,效果做到最好。動作捕捉系統可以捕捉更多的關節,更豐富的數據,相比需要演算法IK逆向解算的其他動作采集方式,更為便利,更為穩定,資訊的裕量也更好。動作捕捉系統原生支持靈巧手和全身運動的捕捉,將人形機器人更多套用場景變為可能。」 —— 姚卯青,諾亦騰業界合作夥伴,智元機器人研究院 執行院長

圖註:諾亦騰合作夥伴,千尋智慧機器人采用諾亦騰動作捕捉系統進行遙操作控制

另一家廠商是千尋智慧,同樣在動捕遙操作具身智慧機器人這條路上與諾亦騰有非常良好的合作,共同探索高效率,高精度的遙操作流程和數據產出流程。

「過去十年,我曾帶隊在工業機器人/協作機器人領域量產交付了幾十款,超20000台產品,深深敬畏從科研到實用,從樣機到產品的巨大鴻溝。同樣,諾亦騰在行業裏也有十余年的商業化成功經驗,全球市場占有率處於領先地位,相信兩家‘老司機企業’聯手,一定能做好機器人遙操作的產品化落地。」 —— 韓峰濤,諾亦騰業界合作夥伴,千尋智慧創始人兼CEO

動作捕捉系統可以捕捉更多的關節,更豐富的數據,相比需要演算法IK逆向解算的其他動作采集方式,更為便利,更為穩定,資訊的裕量也更好。動作捕捉系統原生支持靈巧手和全身運動的捕捉,可以將人形機器人更多套用場景變為可能。事實上在這次大會上,許多企業也都在他們的研發過程中進行遙操作,在機器人自主性還不滿足需求,數據還不充足的情況下,去積累數據。因此這件事情是非常非常重要的。

諾亦騰如何服務具身智慧領域客戶?

那麽作為一家動作捕捉的廠商,諾亦騰是如何服務具身智慧人形機器人這個領域中的眾多客戶的呢?

首先來說,這個流程從我們自己的子系統開始,也就是 動作捕捉 。在這個流程圖中,我們的 Motion Capture Subsystem 追求的是高精度、低時延、高品質、高頻率的人類動作數據采集與記錄。

隨後的環節,是諾亦騰自己的一套 數據處理與輸出 的閉環,將采集到的原始資訊,轉譯成為人體的動作數據資訊,其中有很多的Know How,但這件事情諾亦騰已經做了12年,服務了各個領域的大小客戶,這件事情是我們非常熟悉的了。

有一件往往被許多本體廠商所忽視的事情:人的「本體」和機器人本體,有著本質上的區別。我舉個例子:我的肩膀,可以看做是一個有三自由度的球頭,但是大部份人形機器人的肩部都是三個結構上分離的單自由度電機。

因此在我們看來, 本體對映 是這個流程的關鍵,也是非常困難的。如果直接輸出人的動作給到機器人,機器人是學不了的,你要輸出和機器人構型一樣的自由度,給到和機器人構型一樣的位姿的資訊,甚至還要有一些包括速度資訊在內的其他資訊,機器人才能夠利用這一資訊去進行學習。在我們看來,這一步最合適放在動捕子系統中,由動捕廠商來提供服務。

之後還要對 工作平台 進行適配。只提需求,不匹配執行路徑是不行的。作為一個「老」演算法工程師,我最敬畏的一點就是從 Paper 到產品之間的這個漫長的路程,其中有大量的工程量,要把它轉變成為一個能用、能賣、能維護、能夠長期使用不出現錯誤,魯棒性足夠高的系統,是非常非常困難的。因此需要針對主流的工作平台進行匹配。

在這裏值得稱道的一家企業是 Nvidia ,他們從很早的時候就開始在具身智慧人形機器人這個方向進行投入。因此諾亦騰的解決方案也對這個平台進行了適配。目前這一解決方案所能適配的開發語言、平台包括但不限於 C++ / Python / ROS 以及 Nvidia Isaac。在此之後,才最終來到被驅動的 機器人本體 以及最終產出的 訓練數據集

四種方式如何生產機器人訓練數據集?

最後,我想多用一點時間講講機器人的訓練數據集的幾種生產模式,這是我這次分享的關鍵內容。

現在說到具身智慧機器人領域的數據集的生產,一般來說有四種比較清晰的流派。不同的科研工作者可能會選擇不同的方向。但是對於業界真正有實力的廠商來說,如果想要真正的落地,實作泛化抓取,完成任務,通常會選擇其中兩種方法。

基於真實本體的數據集生產方式 。比如說 Tesla 就選擇了這一方式,我的一些客戶廠商也選擇了這個方向。真實的人類穿戴動作捕捉裝置遙操作一個真實本體,完成真實環境的任務,同時采集這個本體真實的視覺資訊、運控資訊、傳感資訊,用來進行訓練,這是最高品質的、真實的數據,沒有任何 Gap。當然這種方式的成本是最高昂的,一個采集席位就需要一套機器人本體,一套動作捕捉裝置,以及一個遙操作采集人員。

圖註:諾亦騰 HybridTrack 混合運動測量系統動作捕捉套用於虛擬本體遙操作

另一種方式是Nvidia等廠商正在力推的一個方向, 基於虛擬本體的數據集生產 。它的前半截還是真實的,是人類穿戴真實的動作捕捉裝置,但是遙操作的物件是一個在物理仿真的虛擬環境中的,和真實本體構型完全一致的虛擬機器器人。人類遙操作這個虛擬本體在虛擬環境中完成虛擬任務,同時采集虛擬合成的視覺資訊,運控資訊以及合成力觸覺資訊。它的數據品質也是非常高的,因為本體的構型是一致的,而且也確實是真人在進行 Human Demostration,但這種方式多少還是存在著一些 Domain Gap。

圖註:圖中所示為利用諾亦騰動作捕捉系統遙操作Nvidia Isaac 平台中的智元遠征 A2 機器人虛擬本體

這些方法成本相對高昂,盡管如此,有實力的企業特別是期待早期就能閉環任務執行能落地的企業依然傾向於采用這兩種方法(更多的是第一種)來采集數據。追求的還是數據的品質和數據在本體上的相容性。實際上,主要問題並不是成本,而是效率。效率仍然是數據采集的最大瓶頸。例如,透過遙操作機器人進行任務時,其速度只有真人的五分之一。而第三種方法具有較高的效率。

第三種方式是 直接基於人體運動數據的數據集生產 。讓人類穿戴機器人本體上的那些傳感器,也穿戴上動作捕捉裝置,讓人去完成一個具體的任務。由於這種方式脫離了本體,甚至可以完成一些非常復雜困難的任務,因此效率是非常高的。但是其中存在著巨大的 Human2Robot Gap,甚至要比剛才所說的真實本體與虛擬本體之間的 Gap 還要大,在科研方面的難度是非常非常高的。

這種方法依賴於相信「Scaling Law」能彌合所有差距,但目前我對此暫時持懷疑態度。這個假設類似讓一個嬰兒不允許實操只能看視訊學會走路和拼樂高。當然如果這一方法成功實作,將極大降低數據生產成本。我更傾向於相信合成數據和真實數據將以一個合適的比例進行組合,達到品質與成本的平衡。

建設未來極有價值的具身智慧數據工廠

一個成熟的,結合了動作捕捉/高精度追蹤子系統、數據處理與輸出流程、本體對映工作流以及支持多種平台、本體的解決方案,如果再設計得好,能易於搭建,能高效運轉,是能支持建設起來大規模「具身智慧數據工廠」的。

圖註:諾亦騰攜手深圳市人工智慧與機器人研究院(AIRS)籌建大規模數據工廠,本圖僅為示意參考

「廣東省具身智慧機器人創新中心致力於建設國家‘具身智慧機器人產業集群的技術型服務平台’,與全球知名的動作捕捉裝置廠商諾亦騰開展緊密合作,針對具身智慧機器人訓練數據集生產等行業共性需求進行技術攻關,致力打造行業標桿性數據工廠範本,推動提升國內的推動提升國內的人工智慧與機器人技術水平。」—— 丁寧,諾亦騰戰略合作夥伴,廣東省具身智慧機器人創新中心主任兼深圳市人工智慧與機器人研究院(AIRS) 常務副院長

當然,如何讓數據通用,可以跨本體使用這件事情,仍然是值得科研探索的事情,我們也在努力。

剛才許多演講嘉賓都提到了數據獲取難,數據品質差這個問題。目前,諾亦騰正在與一些有遠見有見識的機構積極討論合作,探討更多可能性,探索集中力量,建設有規模、產能夠、成本可控的具身智慧數據工廠的可能性,希望將來能多一種模式來更好地服務大家。

謝謝大家。