不開心時安慰你，開心時陪你開心……我們離這樣的機器人還有多遠？

2024-07-30新聞

提到有情感的機器人，科幻作家們已經創作過很多打動人心的形象。

離我們最近的一個，是【流浪地球】電影中的MOSS，嘴上說著「讓人類永遠保持理智，確實是一種奢求」，卻一直忠實地陪伴在劉培強身邊，直到最後。

不過，回到現實，要提高機器人的情商，現在還是科學家要解決的問題和難題。

在中國科協釋出的 2024 重大科學問題、工程技術難題和產業技術問題中，十大前沿科學問題便包括中國影像圖形學學會提出的「情智兼備數碼人與機器人的研究」。

那麽，現在數碼人和機器人的「情商」已經發展到了什麽水平？在科學家眼裏，理想中的數碼人和機器人是什麽樣子？

我們邀請這一問題的提出者之一、中國影像圖形學學會情感計算與理解專業委員會常委、清華大學副教授高躍聊了聊。

以下內容根據高躍的講述整理——

「情智兼備數碼人與機器人的研究」 這個問題是我們影像圖形學學會情感計算專委會共同的思想結晶，也是這些年來我們很多同事探索的一個關鍵科學問題。

現在，人工智能發展非常快速，隨著像 AlphaGo 這些技術的湧現，在很多場景下都取得了非常重要的突破，近兩年，具身智能等技術也在迅猛發展，對決策和智能化分析處理等方面都有很大推動。

需要指出的是，在生活環境中，我們和外界的人、物、事都有很多情感上的溝通。如何讓這些技術、裝置在具備智能化的同時還能兼顧情緒化的溝通，其實是非常重要的，也是我們一直在思考的問題。

電影【霹靂五號】中的機器人「No.5」圖片來源：【霹靂五號】電影截圖

理想狀態下，情智兼備的

數碼人和機器人是什麽樣子？

數碼人主要在虛擬空間 裏進行仿真模擬，有更多可供設計的空間，給出一些我們在日常生活裏很難見到或更豐富的場景；而 機器人更多是在現實空間 裏，看得見、摸得著，可以和我們有行為上的互動甚至肢體上的互動，這裏會存在更多挑戰。

從套用角度看，數碼人和機器人，都在向我們期望的場景不斷拓展。

比如我們現在會在互聯網平台上看到很多數碼人，做新聞播報或講一些有趣事情。前兩年，這些數碼人可能也會張嘴說話或做其他動作，但很機械化，你可能一眼就能辨識出它是假的。現在，很多數碼人仿真程度已經非常好了，會伴隨很多情緒化的表情或動作。

新華社此前推出的 3D 版 AI 合成主播圖片來源：新華社

同時，周圍生活裏也已經有很多自動化的機器人，比如工廠裏的機器人，還有做咖啡的機器人，但它們和我們之間的互動，現在可能只是比較機械化的互動，你發個指令過去，它給你一個反饋，給你執行，比如給你做了一杯咖啡，或造了一個汽車零部件。

但是， 我們人類和外界還需要很多情感互動，希望和周圍環境交融在一起 。比如，家裏的小貓小狗，你可以跟它一起玩耍，它可以陪伴你。可能很多看過動畫片【機器貓】的朋友都會希望家裏有只機器貓，不僅僅因為它能從兜裏給你變個你想要的東西出來，而是像個朋友，在你不開心的時候安慰你，開心的時候陪你開心——這就是一個非常典型「 機器人融入生活 」的例子，而且融入得很自然。

圖片來源：【哆啦 A 夢】動漫截圖

情感互動對我們人類非常重要。日常生活中，我們都希望有一個能在情感上溝通的物件。機器人也好，數碼人也好，我們都希望它不僅僅是一個完成任務的工具，而是更好地融入我們的生活。

比方說，這兩年大家很關註的智能陪護機器人，它肯定不能只是一個冷冰冰的機器。如果你家的咖啡機突然走過來問你要不要咖啡，這可能會是一個怪異的場景；但如果它可以征求你的意見，了解你的想法，甚至從你的動作和生活習慣去理解你當前的狀態——這是一個未來可以努力的方向。

圖庫版權圖片，轉載使用可能引發版權糾紛

數碼人或機器人的情商

怎麽打分？

怎麽給機器人或數碼人的「情商」打分，這也是當前學術界非常關心的一個問題，因為這比評價智能化更難。

要量化評價智能化水平的話，現在已經可以在不同任務下設計不同的評測指標，像無人駕駛現在已經有了 L0 到 L5 的不同分級。但 要從情感或情緒角度去量化，現在還很難 。比如針對一個事情的反應，開心或不開心，我們當然也可以弄一個量表，開心程度從 1 到 10，但這其實很難界定。

我們肯定都希望數碼人和機器人可以和人類無縫溝通。之前非常典型的是「圖靈測試」，去評價機器是不是可以讓人區分出它是人還是機器。從情感維度去評價也是類似的。如何評價情感溝通能力的強弱，情感激勵效果的好壞，我們現在可以在很多特定任務裏進行評估，比如透過面部表情來判斷情緒，但更加通用的、完整化的分析模型，現在還需要進一步探索，進行一些規範化的評測，形成一個標準去評價「它們到底在情感裏達到了什麽樣的狀態」，在未來肯定是有必要的。

「情智兼備」難在哪裏？

前面提到，現在數碼人看起來很真實了，它其實是從電腦圖形學和虛擬現實維度考慮如何讓它的動作更連續、讓仿真場景更真實，這是從外觀等角度看待這個問題。

但當我們要關心「情智兼備」時，除了它外觀的真實感，更多是要關心它在情緒上的表達以及應對外界反饋時對情緒的準確判斷。

圖庫版權圖片，轉載使用可能引發版權糾紛

要讓數碼人和機器人更好地做到這些，我們需要從更底層的角度理解人的情緒和一些表征的產生機理。換句話說，除了讓數碼人和機器人學會根據外界訊號，分析人的情感並判斷，我們也需要從人的大腦本身來理解人的情緒狀態，比如在不同場景下會有什麽樣的變化和影響，再比如一些特定疾病患者人群，像抑郁癥或孤獨癥的兒童，他們的情緒狀態也會和常人有一些差別——然後，更好地認知這些差別就非常重要了。比如我們可以構建一個機器人幫我們造車或倒咖啡，但它或許還可以同時幫助我們辨識一些疾病前兆，或者在服務孤獨癥或認知障礙人群的時候，可以提供一些診療服務或感情上的關懷。

我們希望機器人和數碼人從情和智兩個角度都能不斷接近人類。當然，對我們自己本身情感認知能力的探索也還有很長的路要走。

我想，一方面需要腦認知研究水平的提升，大腦如此復雜，對它的執行機理，乃至對我們自己的認知、情緒的起因和情感的分析，我們遠遠沒有理解透徹，還有很長的路要走；另一方面，也需要新技術使這些數碼人和機器人的能力進一步增強。這兩條線可能都在向前走，如何讓它們走到一起以及最終路到底通往哪裏，也需要長時間的探索。

如果我們有很多數據去做情感計算和情緒判斷，用這些數據訓練一些模型，然後用它來判斷這種情況下人的正常情緒是什麽樣子，我覺得這屬於初級階段。

但在未來更加通用的階段裏，還需要考慮不同人群的特定情緒差異，甚至在不同區域或特定的環境下的差異。這些個人化、多樣化的特點使得情感計算和情緒判斷變得非常困難。

圖庫版權圖片，轉載使用可能引發版權糾紛

從這個角度看，要讓數碼人和機器人實作和人的情感互動，確實很難。因為每個人都是獨立的個體，而個人化本身很難。比方說，你聽一個脫口秀的笑話，現場每個觀眾給出的反饋肯定都有差異，但你很難把一個笑話對每個人機械性復述 100 遍去收集反饋並開展研究。

這種情況下，如何針對外界反應給一個即時反饋並且調整做這件事的節奏，就很重要——我們人類可能比較擅長這件事，但要讓機器人去做到給出更合適的個人化反饋，還有很多技術性難題要突破。

比如我們去看待外界的事物，會收到很多視覺數據、聽覺數據以及其他不同的感官數據。這些對外界的反應，往往並不能簡單地按照一二三四分出幾種具體情況來，其內在聯系是更加復雜的。好比拋硬幣，要麽正面要麽反面，但現在會發現，它還可以存在中間搖擺狀態，更加難以判斷。

由於很多感官資訊數據不見得完備，我們也很難把一個人放到充滿網絡攝影機和各種傳感器的器材裏去觀察，因為這會給被試人員帶來極大的不適，難以實作。僅基於有限的局部資訊進行智能模型訓練，要去更好地理解一個人的當前狀態並給出反饋，就更困難了。

另外，當你把這些模型或方法嵌入到數碼人或機器人，要實作和你的互動，還有很多問題要解決。比如計算效率，如果我們跟它說句話，它過 10 秒鐘才給一個反饋，感覺就像卡頓掉了，體驗會非常不好。如何讓它即時地給出反饋，既要解決計算效率，也要解決硬件問題，包括芯片，這些都需要提升。

怎麽解決？

「情智兼備的數碼人和機器人」背後，其實是很綜合的問題，有很多技術難題需要逐步解決。

這涉及幾個方面的問題。

一方面是需要更豐富的數據。

很多人工智能方法都需要數據支撐。這幾年，關註情感計算的研究者越來越多，能夠獲得更多數據來支撐模型的訓練，另外，隨著硬件技術進步，算力和傳感器技術也快速提升，采集數據也更容易了。比如以前要采集腦電數據就非常困難，現在的腦電采集器材就相對更加易於使用了。

和情感相關的醫學、心理學及腦科學的研究這幾年也發展得非常迅速。許多研究工作都會和相關領域醫生共同討論和探索，很多隨訪數據可以幫助我們更好地建模及理解人的情緒狀態，包括內在和外在的表征有哪些區別，這些也可以幫助我們理解人的情緒到底和哪些因素相關，人的言語和行為這些外部表征和他本身大腦的變化的關聯，反過來還可以幫助我們去判斷人的情緒。這些交叉學科的交融也為情感認知與理解提供了重要的突破路徑。

圖庫版權圖片，轉載使用可能引發版權糾紛

另外，硬件技術的進步也是非常重要的。

數碼人可能不需要一個硬件形態，在耳機、螢幕等器材裏就可以和你進行互動。但機器人就需要解決載體的問題。一些場景中，機器人可以把車給舉起來，但另外一些場景中，你還希望它能夠跟你柔和地握手。在很多實際活動中，要讓它們把我們希望它們做的事情準確、即時地操作出來，這肯定需要機械、材料、傳感器等其他領域都介入進來。

策劃制作

受訪專家丨高躍清華大學副教授、中國影像圖形學學會情感計算與理解專業委員會常委

整理丨楊楊

策劃丨孫雅麗中國影像圖形學學會

丁崝

責編丨楊楊

審校丨徐來、林林