作者 | 李水青
編輯 | 心緣
短短三個月內,幾乎每一家擁有智能語音技術能力的大廠都在采取行動布局虛擬數碼人。
百度、華為、阿裏等都紛紛引入AI數碼人入職,擔任技術宣講員、形象代言人;OPPO、小米接連宣布其智能語音助手的虛擬形象;騰訊聯合搜狗一口氣推出了五款數智人,為企業客製智能客服、數碼員工;科大訊飛、華為、OPPO、輝達等都推出了虛擬人生成或互動平台……
▲今日,百度APP上線龔俊數碼人語音助手
如何讓一個智能語音助手更像人?在圍繞智能音箱展開的探索中受挫後,頭部玩家們紛紛將目光投向了擁有擬人形象、能說會動的「虛擬數碼人」。
關於虛擬數碼人當下沒有一致定義,一般認為是具有人的外觀、語言和肢體表達能力的數碼化的人物。背後,主要是語音生成、動畫生成、音影片合成、對話互動等多個智能語音及多模態模組的配合。
「元宇宙」概念的走紅,讓龔俊數碼人、清華數碼學生「華智冰」、虛擬偶像 「A-SOUL」等虛擬數碼人看起來更具有改變世界的潛力。
他們就像來自一個新星球的外星人,模仿人類的講話和行動方式,又透過影響人的情感和思維方式對真實世界產生作用。而在軀殼之下,很多是被安裝上了人類研發的AI「大腦」,或者嵌入了AI語音能力。
生動形象的虛擬數碼人為存量不足的智能語音賽道帶來新玩法,這也讓智能語音玩家們看到潛藏的「造富」新故事。
一、數碼人從直播走進工廠,智能語音助手的新故事
不知從何時起,「虛擬數碼人」已經火出了圈。
他們出現在短影片平台和直播中——穿著簡單的白T,喝著可樂打著哈欠,一個叫「阿喜」的小姑娘沒有台詞,不跟使用者互動,卻獲得了抖音50w粉絲;能說能互動的女團「A-SOUL」則獲得了更高人氣,在直播中,五個二次元的小姐姐與使用者聊天,相互打趣,收獲了很多願意去現場看他們表演的死忠粉。
▲左圖為抖音網紅「阿喜」,右圖為虛擬女團「A-SOUL」
他們出現在手機APP裏、帶屏智能音箱上,以活潑生動的形象充當使用者的智能助手,甚至讓喜歡的偶像對自己「言聽計從」,做資訊搜尋等語音辨識服務;
▲數碼人出現在手機APP中
他們也早已出現在新聞播報中——在新華社APP上,一位像真人一樣的AI合成主播已經累計播報新聞超過1萬條,並且零誤差,可實作對日常和突發事件的即時響應;
▲在新華社上線的AI合成女主播
他們出現在各種服務場合裏,在金融、醫療等APP的客服界面中,像真人一樣和需要答疑解惑的使用者進行互動,連續7x24小時提供服務……
除了國內,國外虛擬數碼人也十分火熱,比如近日,南韓的創企DeepBrain AI正在用提供能代替群眾演員的虛擬數碼演員;2019年,一位名為「安德魯」的美國作家在AI技術的幫助下有了首個孿生「數碼人」,用以在百年之後依然在雲端陪伴家人……
從實驗室到現實套用場景,從無智能互動能力到有智能互動,從2C端市場到2B市場……
據我們不完全統計,在過去2~3年裏,國內以「數碼人」、「虛擬人」、「數智人」等標簽出道並引起關註的虛擬數碼人物眾多。 目前,已經有眾多虛擬數碼人具備智能驅動或互動功能,究其背後推手,有很多都是2017~2019年那場智能音箱大戰中的頭部選手,以及其他智能語音玩家。
「虛擬數碼人」一詞最早源於1989年美國國立醫學圖書館發起的「可視人計劃」(Visible Human Project, YHP)。1982 年,日本動畫【超時空要塞】的女主角林明美被包裝成歌手,成為世界上第一位虛擬歌姬。2007年,「初音未來」在日本誕生於成本較高的CG(電腦動畫)技術,是第一個被廣泛認可的虛擬數碼人 。近年來,隨著深度學習演算法突破,智能驅動的虛擬數碼人開始嶄露頭角。
從視覺發展角度來看,當下虛擬數碼人在「捏臉」設計人形的環節門檻降低,往視覺形象上加智能驅動和互動能力成為新趨勢。 當我們反過來從智能語音互動技術發展的角度來看,語音助手正在實作技術的變道和升維,前進演化為多模態的虛擬數碼人。
虛擬數碼人正在成為令智能語音玩家興奮的新故事。 在這個故事中,語音助手更加具有人情味,但這與「元宇宙」中的虛擬人不同的是,它們更關註促進現實世界的產業數碼化轉型。
正如騰訊智能產品副總裁李學朝在采訪中談到他的觀點:元宇宙很火,但騰訊現在主要是當成數碼世界的打造的數碼員工,它與「元宇宙」中的虛擬人有技術上的重疊,但騰訊打造數智人不是往元宇宙方向,而是從數碼員工怎麽更好的服務行業場景。
相比於元宇宙,虛擬數碼人顯然是一個更加落到實處、更聚焦的技術套用領域,擁有從To C到To B的更廣大市場想象空間。
二、兼並、聯合、跨界,智能語音玩家與跨界玩家混戰
作為智能語音技術的主要落地方向,在前兩年還炙手可熱的「 語音助手 」故事,如今似乎已不再動聽。「不像人」、「缺乏人情味」是被廣為吐槽的點。
就拿各大玩家悉數入局的智能音箱來說, 2018年出貨增長1051.8%,2019年繼續翻一番達4589萬台(IDC咨詢數據),智能音箱一度成為百度、阿裏、小米等玩家進行瘋狂技術和價格戰的大戰場。然而,市場行情卻在2020年以來陡轉直下——2020上半年同比下降14.8%,2021年最新數據顯示第三季度同比下降1.5%,智能音箱告別高速增長期,究其背後原因,離不開「傻瓜對話」、「難以理解深度含義」等技術上的發展瓶頸。
以「智能音箱」為代表的語音助手故事再難以引起市場和資本的太大興奮, 但令一眾智能語音玩家欣慰的是,一個圍繞「虛擬數碼人」新形態展開的新故事、新玩法已經雛形初顯。
這是一個池子更大、場景更豐富的市場,而各大智能語音助手早已入局,成為這一領域的龍頭玩家。根據調查機構頭豹研究所釋出的預測,當前虛擬數碼人市場規模已超2000億元,2030年有望達2703億元。
1、騰訊聯合搜狗VS百度,互聯網巨頭之戰打響
在互聯網玩家陣營中,騰訊和搜狗聯合組成的戰隊無疑是打頭陣的玩家。就在11月剛剛舉辦的騰訊數碼生態大會上,騰訊一口氣推出五款不同能力的數智人,面向AI播報、手語播報、客服對話等場景有需求的客戶賦能;同時,騰訊推出一款「雲小微」數智人平台,這也成為整個騰訊雲智能發力產業互聯網的三大平台之一。
▲騰訊推出多種風格的數智人
在智能音箱大戰中,騰訊直到2018年才釋出其第一款智能音箱騰訊聽聽,彼時,百度和阿裏正為新的帶屏音箱打的火熱。但面向虛擬數碼人的新風口,騰訊首先將能力值拉滿,對這個市場龍頭寶座勢在必得。
騰訊自己早在2018年就布局3D即時動作捕捉的數碼人,而新並入的搜狗則為其帶來自2018年就積累的虛擬主播數碼人能力。同時,從騰訊CSIG(雲與智慧事業部)內部發展來看,其在5月最新建立的技術委員會組織架構下,與擁有多模態智能語音技術的AI Lab實驗室進一步跨部門合作,使其在虛擬數碼人領域獲得了雙重能力加成。
能與騰訊「掰腕子」的互聯網玩家,當屬百度。百度在智能音箱熱潮中當之無愧的贏家,曾占據近三成市場。
眼看騰訊聯合搜狗在虛擬數碼人領域大大發力,百度也緊鑼密鼓。近日,百度節奏緊密地上線了冬奧會手語機器人、龔俊數碼人語音助手等多款套用,一把用虛擬數碼人抓住年輕人、體育愛好者等不同人群的心。而早在兩年前,百度就推出了一款名為「小浦」的虛擬數碼人,進入浦發銀行作為國內首個虛擬數碼員工正式上崗,完成身份稽核、答疑解惑等工作。
▲浦發銀行行長親手為小浦佩戴上了正式員工工牌
百度創始人李彥宏曾透露了自己做虛擬人的一大初衷:因為想在懷念時,與過世的父親溝通,他認為這種情感需求會促進虛擬人互動方式產生很大的市場。
百度早在2010年就率先成立了「自然語言處理部門」,據彭博報道,從自然語言處理到語音互動領域,百度過去十年中已投入了數十億美元。百度的虛擬數碼人背後是實打實研發資金砸出來的,可以說可與騰訊+搜狗一敵高下。接下來,要看的就是誰能夠在這條賽道找到更加巧妙套用場景。
再看看其他曾經參團「智能語音助手」大戰的互聯網玩家,阿裏、京東、網易都已迅速在一些垂直領域探索落地虛擬數碼人。比如,阿裏、京東近期紛紛將數碼人引入電商,擔任代言人、賣貨人;網易也在教育、遊戲等領域推出了文本驅動的虛擬講解員、虛擬講師等套用。
當然,更不能忽視字節跳動、快手這樣的新興流動互聯網玩家,它們原生具有人工智能基因。比如字節跳動與樂華娛樂合作打造的「A-SOUL」的虛擬二次元女團獲得了無數的粉絲。虛擬主播領域已經展現出商業化價值,影片網站嗶哩嗶哩數據顯示,2020年6月~2021年5月已有32,412位元主播在其上開播,同比增長40%。
作為當下最接近「元宇宙」代言人Facebook的公司,下一步字節是否會為「A-SOUL」嵌入AI互動能力取代背後扮演的真人?這想想就很「元宇宙」。
可以看到,新老互聯網巨頭正成為虛擬數碼人的主要玩家,背後的深層次邏輯也不再僅僅是它們擅長的「2C故事」。
當下,互聯網行業高速增長時代已經遠去,百度、騰訊、阿裏等互聯網巨頭們比之前任何時候都更需要考慮第二增長曲線。虛擬數碼人雖然看起來只是一條很小、且還很初期的賽道,卻可能暗藏雲與AI技術在未來產業互聯網中的諸多新機遇。
2、科大訊飛商湯等AI玩家,可與互聯網巨頭一戰?
除了互聯網巨頭,AI企業也是這場「造人」派對的主場玩家。
其中,智能語音龍頭企業科大訊飛無疑是這一玩家陣營的龍頭。科大訊飛早在2012年就上線語音智能助手,2015年與京東聯合釋出了國內第一款智能音箱「叮咚智能音箱」,而到了虛擬數碼人時代,對於科大訊飛這樣的玩家來說更多是技術的自然演變。
去年1024開發者節現場,科大訊飛就推出了AI虛擬人5G互動一體機硬件,其虛擬數碼人「愛加」已陸需進入春節拜年、「兩會」播報等套用場景。在今年10月剛剛過去的1024開發者節上,科大訊飛更進一步,推出了賦能B端生態夥伴的虛擬人互動平台1.0,虛擬人家族形象已經達到了54位元,並且還支持自訂形象,未來將在多模感知、情感貫穿、多維表達和自主客製上持續升級。
▲科大訊飛在2021年1024開發者節上推出的虛擬數碼人
科大訊飛有聲平台總經理郜靜文告訴我們,傳統的智能語音賽道是以聲音為傳遞的,虛擬人的加入,使得資訊的傳遞在有聲化的基礎上實作了視覺化。虛擬人多元化、個人化、情感表現等特點,將拓寬智能語音的賽道,有更多的套用方向和場景,反向又驅動人工智能有更高的智能化表現。
除了科大訊飛,其他智能語音玩家布局虛擬數碼人也都比較早。如AI創企思必馳公司在2019年就推出能夠即時對話的導演陸川數碼人,追一科技、矽基智能等創企也都推出了落地銀行、公檢法等場景的數碼人產品。對於這些智能語音玩家來說,虛擬數碼人一方面是其技術叠代的自然而然演化出的新形態,另一方面也是一個新的吸引資本的好故事。
好故事並不僅僅屬於智能語音玩家,還有從視覺相向切入的智能視覺玩家,以及下一代通用人工智能玩家。
比如,電腦視覺廠家如商湯科技的「小糖」、通用AI研究機構智源研究院的清華虛擬學生「華智冰」、冬奧會的手語數碼播報員,都將虛擬數碼人可能達到的互動效果和套用空間不斷拓展。
▲商湯科技推出的數碼人「小糖」
可以看到,早先一批做智能語音助手、電話機器人的玩家無疑是這場虛擬數碼人搶灘大戰的主場玩家;同時,更多擁有跨界能力的AI玩家也在成為這一領域的爆品制造者,有望成為新的「黑馬」。
從虛擬數碼人長期的發展路徑來看,AI企業有望將數碼人生動形象之下的「內涵」大大提升,讓其更加接近人的思維和對話水平,這是AI類玩家更大的優勢。但與此同時,互聯網玩家廣泛的C端入口和客戶渠道也是AI企業難以追趕的。
3、智能電話商:華米OV你追我趕,從2C到2B
在上一波智能語音技術的落地中,華為、OPPO、小米等智能電話玩家既是這一市場的推動者也是獲益者。他們的智能語音助手、智能音箱產品活躍在人居生活的多個場景,正在成為全屋智能的中樞。
如果有什麽企業希望透過讓智能語音助手變得更加有人情味這種方式,俘獲更多的使用者量和更大的使用者黏度,非智能電話廠商莫屬,而虛擬數碼人做的正是這件事。
就在今年,在智能音箱大戰時代錯過機遇的OPPO已經在虛擬數碼人這件事上擺出態度和實力。就在10月剛剛舉辦的OPPO開發者大會上,OPPO推出了小布虛擬人和小布虛擬人客製平台。小布是OPPO月活使用者突破1.3億的智能語音助手,此次小布助手從純粹的手機語音助手升級為多終端、多模態的對話式智能助手。
▲OPPO推出了小布虛擬人和小布虛擬人客製平台
在OPPO數智工程事業部總裁劉海鋒的暢想中,OPPO希望構建一個以小布助手為中心,實作智能器材之間的萬物互融。可以想象,小布虛擬人未來在智能家居場景,也有望成為一個更有人情味的管家。
同樣快速布局的還有華為公司,作為一家在ICT和消費電子跨界的玩家,華為做虛擬數碼人的布局在To B領域具有更寬廣的想象空間。
就在今年9月,華為推出了一款名為「雲笙」的虛擬數碼人,擔任華為雲內部員工,會進行技術內容宣講、答疑解惑等工作。一個月後,華為又推出了一款虛擬數碼人平台,要把這一能力開放給行業。華為此舉既讓我們看到其對自身虛擬數碼人技術的自信,也能看出,當下華為的業務中心正在從消費電子端向To B領域有所偏移。
▲華為雲CEO張平安在與雲笙互動
除了今年動作迅猛的OPPO、華為,其他智能電話玩家在虛擬數碼人也不甘示弱。比如小米公司,就在OPPO公布「小布」虛擬數碼人的前後腳,小米也宣布在新款Civi手機中上線「小愛同學」的虛擬數碼人形象,而早在2020年8月,這一技術已經在小米使用者中內測這一套用。
結合前面互聯網玩家的動作來看,各家做虛擬數碼人的落地,其實越來越跳出智能音箱時代聚焦的消費互聯網,而是更加寬廣的產業互聯網。
三、感官技術升維,但繞不過語音互動的痛點
說完產業,我們再來看看技術。
不同的場景選用不同的虛擬人驅動方案,目前包括AI演算法、真人捕捉等驅動方案,各有優劣勢,不同套用場景選擇不同的方案,綜合從成本、體驗效果考慮會有不同選擇。
根據驅動方式的不同,我們可把市面上存在的虛擬數碼人大致分為四類:
1、文本驅動的虛擬數碼人,比如搜狗AI合成主播「雅妮」、「兩會」期間播報的愛加和小C等,多以文本或語音驅動,多用於新聞播報等領域。
2、會話場景驅動的虛擬數碼人,比如OPPO推出的小布虛擬人、騰訊的金融數碼客服等,它們可以與人對話,同步嘴型和動作。
3、真人(即時捕捉)驅動的虛擬數碼人,如 「A-SOUL」女團,它們一般在形象背後由真人扮演,透過即時捕捉即時驅動。
4、無智能化驅動,如抖音網紅「阿喜」,暫時還沒有顯示出AI驅動及智能語音能力,強調形象逼真而非動感互動。
在過去很長一段時間裏,智能語音技術的研究主要解決兩大挑戰,第一大挑戰是圍繞著「聽得清」做研究,「前言不搭後語」,尤其是出現指代不明的問題,這主要是因為需要的數據以指數函數增加,但實際可用的對話數據太少。
第二大挑戰,則是多模態——即除了語音,還透過視覺、觸覺等多種感知來支持機器對話決策,比如眼神、唇語等。
在克服第一重挑戰中,很多企業仍然還有很長的路再走。 而在克服第二重挑戰的過程中,很多玩家看到了「虛擬數碼人」這一條新路。既然語音辨識的瓶頸一時難以破除,何不轉個彎,從多模態的角度讓AI更加像人,實作服務升級?
為此,虛擬數碼人應運而生。當下國內這些布局虛擬數碼人的公司,正是率先掌握了唇語辨識技術進而將語音辨識的準確度大大提升,形成了技術壁壘。
一般來說,市面上的虛擬數碼人主要包括人物形象、語音生成、動畫生成、音影片合成顯示、互動等5個模組構成,其中多個環節主要用到的就是智能語音技術,以及智能語音與視覺融合的多模態技術。
▲圖源【2020年虛擬數碼人發展白皮書】
在 語音生成 方面,基於文本生成對應的人物語音,主要采用了TTS(從文本到語音)技術,比如很多人知道的明星語音包,早已不是由明星一句句錄制,而是只需要錄制幾句話,就可以合成明星的聲音。
在 動畫生成 方面,2D、3D數碼人的嘴型動作,基本可以靠AI模型實作智能合成。這是對已采集到的文本到語音和嘴型影片(2D)/嘴型動畫(3D)的數據進行模型訓練,得到一個輸入任意文本都可以驅動嘴型的模型,再透過模型智能合成。但對於一些肢體動作來說,大多采取錄播形式。
另外,動態即時捕捉也是一種方案,光學式和慣性式動作捕捉占據主導地位,此外,基於電腦視覺的動作捕捉成為聚焦熱點。
互動模組 使得數碼人具備互動功能,比如透過語音語意辨識能即時明白使用者的意圖,並據此對使用者進行語音、表情、動作的反饋。這其中需要用到的基礎技術包括智能語音辨識、自然語言處理、圖文合成技術等。互動能力並不是當下虛擬數碼人的標配,也是智能語音玩家的門檻所在。
當下,深度學習技術的進步使得虛擬數碼人技術成本越來越低,效果更好。但與此同時,虛擬數碼人的規模化部署仍然面臨難點。
騰訊智能產品副總裁李學朝在接受智東西等媒體的采訪中指出:「當透過虛擬數碼人這一外形變得更加像人,這樣使用者對數碼人的期待就會變得更高。這時,如果語音互動能力依然得不到提升, ‘答非所問’ ,其實得到的落差會更大。」換句話說,逼真好看的外貌對智能語音套用只是錦上添花,在「人人捏臉」的時代,過硬的AI互動能力成為一大更核心的競爭力。
可以看到,盡管虛擬數碼人為智能語音賽道帶來了新故事,但這並不代表智能語音玩家就可以完全繞開先前的障礙。這一難點,即便是在虛擬數碼人階段,依然是玩家們繞不過去的大石頭。
此外,除了智能語音技術發展的瓶頸無法真正繞開,還需要註意的是 安全問題 。當虛擬數碼人變得更像人,更加容易地牽動人的心智,也意味著可能的風險越大。比如,如果虛擬數碼人如果用來制作現實人的形象,沒有得到本人的同意,可能帶來非常恐怖的影響。
可以看到,盡管一陣「元宇宙」的風讓大家對虛擬數碼人都興奮不已,但回到虛擬數碼人技術本身,這個動聽故事其實更接近智能語音玩家推進企業將產品和服務進入一個新的階段——從智能語音階段到虛擬數碼人階段,從單維的智能語音技術到多模態技術,從消費互聯網市場拓展到產業互聯網市場……
而在這一新階段,不論是騰訊(搜狗)、科大訊飛這樣的老牌智能語音龍頭,還是百度、阿裏、華米OV這樣的智能音箱時代的收割者,亦或者商湯、智源研究院、字節這樣的跨界新玩家,都正在爭奪入場券。
四、結語:虛擬數碼人,智能語音新故事
我們從中國智能語音技術十年發展脈絡來看,對於虛擬數碼人新玩法的探索,不僅是一場搜狗(騰訊)和科大訊飛兩大智能語音技術龍頭的對拼,更是一場將整個互聯網、消費電子、行業玩家圈入混戰的開始。
從語音助手前進演化到虛擬數碼人,是人工智能技術與人類互動方式前進演化新的重要節點。當然,正如騰訊李學朝指出的,當下,虛擬數碼人發展仍處於探索階段,還有很長的路要走。這很有可能是一場智能語音賽道的升維戰,也是AI互動領域的未來新戰場。