當前位置: 華文星空 > 知識

未來語音技術或者語音智慧助手的發展方向是什麽?

2013-06-06知識

簡要總結一下:

語音技術支持下的語音智慧助手發展要解決的首要問題,也同時是發展方向——是持續提升「開放域」的連續對話能力,表達中越來越貼近人類的交流特點,豐富互動文本(在語音基礎上增加圖片、視訊等多媒體文本)。
在此基礎上,不僅要關註技術發展,更要關註它可能帶來的社會影響,如社會偏見以及技術濫用傾向。

關於這個問題的解答,我們可以考慮從語音智慧助手的 重要基礎支持——語言模型的最新進展聊起


美國時間2021年5月18日,一年一度的谷歌I/O大會如期而至。在一眾產品和技術之間,LaMDA的出現被認為很有可能是目前智障語音助手的「拯救者」。 LaMDA 的全稱是Language Model for Dialogue Applications,簡單而言, 它是一種能力更強的語言模型,適用於對話應用程式。


與前輩BERT、GPT-3一樣,LaMDA也基於Transformer架構。後者是谷歌公司於2017年釋出並開源的神經網路架構。利用該架構生成的模型,可以被訓練閱讀一組單詞(比如一句話或一個段落),並且關註這些單詞之間的聯系,然後預測接下來會是什麽單詞 [1] 。與其他模型不同的是,LaMDA在對話方面接受了更多訓練。


在展開介紹之前,我們需要仔細想想,現有的語音助手為何如此「智障」?


智障的根本原因是技術能力不足,具體表現為「文不對題」——不能給我們想要的答案,這一點相對還好解決,只要加大訓練量就能逐漸最佳化。 但另一個更難以解決的問題是,語音智慧助手只會孤立地理解我們提出的問題,並且孤立地給出答案。 換句話說,你不能指望它聯系上下文語境,跟我們進行長時間的「連續對話」。


要知道,我們在現實中的對話場景是完全開放性的,經常是從一個主題出發,延伸到另一個主題,最後在完全不相關的主題結束。比如,我們見到一個朋友,常常以「你吃飯了沒?」打頭,聊到前幾天推出的一款新遊戲,最後打算周末約一場電影。


現實對話的開放性特征,使之成為機器學習領域最難解決的問題之一。 它涉及到一項很重要的能力,即自然語言理解(NLU),要求AI能夠進行語意語境情感的判斷,這是比自然語言處理(NLP)還要復雜的能力。


現在大多數智慧助手,往往按照狹窄的、預先定義好的對話路徑被設計,並不能進行開放對話、連續對話。 這就是它們看起來還相當智障的原因。


而LaMDA就針對這一問題進行了技術突破。LaMDA基於谷歌2020年的一項研究 [2] ,這項研究顯示,基於Transformer架構的語言模型在經過對話訓練後,能夠談論幾乎所有話題。


在訓練的過程中,LaMDA發現了開放式對話與其他形式語言的細微差別。它最為核心的,就是 進行「開放域」(Open Domain)對話的能力 。而這項能力的重要依托,就是相比於現有的對話模型,LaMDA更能理解對話的語境。它可以透過閱讀句子或段落來「破譯」對話意圖,發現單詞之間的關聯,並能預測接下來可能出現的單詞,從而做出合乎語境的回答。


在這樣的能力支撐下,LaMDA能夠和人在無窮無盡的話題轉換中聊下去,進行長時間的開放性對話。用谷歌官方的話來形容,就是「 能夠用自由流動的方式,談論無窮無盡的主題 」。


舉兩個具體的例子——


在本次大會的演示環節中,LaMDA扮演了冥王星的角色,與使用者進行對話 [3]


使用者:「我對你真的很好奇。」
冥王星(LaMDA):「我感受到你的興奮了,來問我任何事吧。」
使用者:「告訴我如果我去參觀你,我會看見什麽?」
冥王星(LaMDA):「你會看到一條巨大的峽谷,一些封凍的冰山,間歇泉,還有一些火山口。」
使用者:「那聽上去真美麗。」

可以發現,在範例場景中,LaMDA能夠根據使用者的提問作出精準回答,而且還能夠將一個主題,引向另一個主題,不斷推進對話。這種主題的過渡並不突兀,顯得自然而合理。


當被問到:「 你希望大家了解你的哪一面?


它這樣回答:「 我希望人們知道我不僅僅是一顆隨機的冰球(random ice ball),我實際上是一個美麗的星球。


對於「冥王星之前是否有過到訪者」的問題,LaMDA也能給出準確的答案。它甚至還貼心地提醒使用者,如果要存取冥王星,需要帶上大衣,因為它非常冷。


這種對話給人的感覺,就像是在和一個知識淵博的朋友聊天。雖然話題天花亂墜、不斷湧現,但LaMDA總能接住話茬,並且自然而然地展開對話。

在另一個演示中,LaMDA也展現了高超的對話能力。


使用者:「成為一架極好的紙飛機的秘訣是什麽?」
紙飛機(LaMDA):「嗯,我的朋友。我必須先問你如何定義‘好’。有些人會認為這關乎紙飛機能飛多遠,有些人認為是紙飛機能飛得多直,還有些人可能會認為是紙飛機平穩落地的程度。所以,你是怎麽看的?」

在這個演示中,LaMDA扮演的角色是一架紙飛機。當使用者問,你曾經最糟糕的著陸地點是什麽?它回答說:「 可能是一個小水窪(puddle)。


當被使用者問到:「 成為一架真正好的紙飛機的秘訣是什麽?


它主動追問使用者:「 ‘好’是什麽意思? 」,體現了足夠的靈活和機敏。


使用者回答:「 我關心距離(distance)。 」LaMDA進而圍繞「如何最佳化紙飛機的飛行距離」這一話題,分享了相關知識。


要知道,LaMDA的這些回復都不是預先設定的,而是自然生成的。這也就意味著,LaMDA不必再經過專門的訓練才能進行另一次對話,也不會作出重復的回答。這樣的能力確實令人驚奇。


這兩個範例中,僅憑寥寥幾語就能看出LaMDA使問題應答更有意義了,而這就是理解對話語境能力帶來的結果。在這樣的能力輔助下,LaMDA表現得相當理智和機敏。


谷歌公司也表示,理智和特異性並不是LaMDA所追求的唯一品質。他們還註重洞察力、幽默感等能力。與此同時,谷歌也非常關註事實性問題,也就是LaMDA的回答是否符合事實 [4] 畢竟對於一個語音助手來說,有趣很重要,正確更重要。

雖然現在LaMDA這一語言模型在演示運作中可以根據對話語境提供建議和答案,讓對話不違和地進行下去,但它仍在研發初期,想要達到AI助手的功能,還需要時間的磨合。
面對 語言的豐富性、靈活性以及隨之伴生的復雜性 ,LaMDA的能力同樣還稱不上成熟。在現實執行中,它仍可能出錯,給出荒謬的回應。比如,在扮演冥王星的演示案例中,它就說到自己跳得很高(jump really high),經常練習翻轉動作,並且很樂於用它最喜歡的球——月球來玩接球遊戲。這些回答顯然是違背常識的。


除此之外,作為語言模型,LaMDA也無可避免地面臨一些AI的老問題。比如它 可能會被濫用或者傳播偏見 。演算法偏見是極為復雜的問題,既可能源於演算法結構設計,也可能是訓練數據集的問題,它的本質是社會偏見在演算法層面的延伸。


如谷歌所言,「語言可能是人類最偉大的工具之一,但像所有工具一樣,它可能會被濫用。接受語言訓練的模型可能傳播這種濫用行為——例如, 透過內化偏見、反映仇恨言論或復制誤導性資訊。 即使它所訓練的語言經過仔細審查,模型本身仍然可能不被善用 [5] 。」


當然,LaMDA還會面臨許多意想不到的 被濫用的現實風險 。比如被違法犯罪分子用於網路欺詐,類似的新聞已經屢見不鮮。更仿真的對話能力,也就意味著更強大的欺詐能力。


即便在技術層面,LaMDA也有更大的最佳化空間。目前,LaMDA主要是圍繞文本對話進行構建的, 在未來,LaMDA可能會相容其他的媒介形態,包括影像、音訊、視訊等等。 這可以寄希望於同在本次大會釋出的MUM(多工統一模型),未來人機互動手段或許會因這兩項技術而出現革命性的變化。


LaMDA的具體作用如何,還待進一步觀察,畢竟Google之前有過黑歷史(2017年,Google釋出了餐廳訂位服務AI Duplex,後來被發現背後有真人幫忙完成 [6] )。不過,人們和語音智慧助手進行更自然、開放的對話,相信已經不再遙遠了。

答案整理節選自 騰訊研究院 文章:【谷歌最新黑科技LaMDA,能讓你的語音助手不再智障嗎?】
作者:王煥超

參考

  1. ^https://www.blog.google/technology/ai/lamda
  2. ^https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
  3. ^https://www.youtube.com/watch?v=aUSSfo5nCdM
  4. ^https://www.blog.google/technology/ai/lamda
  5. ^https://www.blog.google/technology/ai/lamda
  6. ^https://wallstreetcn.com/articles/3567850