未來語音技術或者語音智慧助手的發展方向是什麽？

2013-06-06知識

簡要總結一下：

語音技術支持下的語音智慧助手發展要解決的首要問題，也同時是發展方向——是持續提升「開放域」的連續對話能力，表達中越來越貼近人類的交流特點，豐富互動文本（在語音基礎上增加圖片、視訊等多媒體文本）。
在此基礎上，不僅要關註技術發展，更要關註它可能帶來的社會影響，如社會偏見以及技術濫用傾向。

關於這個問題的解答，我們可以考慮從語音智慧助手的 重要基礎支持——語言模型的最新進展聊起 。

美國時間2021年5月18日，一年一度的谷歌I/O大會如期而至。在一眾產品和技術之間，LaMDA的出現被認為很有可能是目前智障語音助手的「拯救者」。 LaMDA 的全稱是Language Model for Dialogue Applications，簡單而言， 它是一種能力更強的語言模型，適用於對話應用程式。

與前輩BERT、GPT-3一樣，LaMDA也基於Transformer架構。後者是谷歌公司於2017年釋出並開源的神經網路架構。利用該架構生成的模型，可以被訓練閱讀一組單詞（比如一句話或一個段落），並且關註這些單詞之間的聯系，然後預測接下來會是什麽單詞 ^[1] 。與其他模型不同的是，LaMDA在對話方面接受了更多訓練。

在展開介紹之前，我們需要仔細想想，現有的語音助手為何如此「智障」？

智障的根本原因是技術能力不足，具體表現為「文不對題」——不能給我們想要的答案，這一點相對還好解決，只要加大訓練量就能逐漸最佳化。 但另一個更難以解決的問題是，語音智慧助手只會孤立地理解我們提出的問題，並且孤立地給出答案。 換句話說，你不能指望它聯系上下文語境，跟我們進行長時間的「連續對話」。

要知道，我們在現實中的對話場景是完全開放性的，經常是從一個主題出發，延伸到另一個主題，最後在完全不相關的主題結束。比如，我們見到一個朋友，常常以「你吃飯了沒？」打頭，聊到前幾天推出的一款新遊戲，最後打算周末約一場電影。

現實對話的開放性特征，使之成為機器學習領域最難解決的問題之一。 它涉及到一項很重要的能力，即自然語言理解（NLU），要求AI能夠進行語意語境情感的判斷，這是比自然語言處理（NLP）還要復雜的能力。

現在大多數智慧助手，往往按照狹窄的、預先定義好的對話路徑被設計，並不能進行開放對話、連續對話。 這就是它們看起來還相當智障的原因。

而LaMDA就針對這一問題進行了技術突破。LaMDA基於谷歌2020年的一項研究 ^[2] ，這項研究顯示，基於Transformer架構的語言模型在經過對話訓練後，能夠談論幾乎所有話題。

在訓練的過程中，LaMDA發現了開放式對話與其他形式語言的細微差別。它最為核心的，就是 進行「開放域」（Open Domain）對話的能力 。而這項能力的重要依托，就是相比於現有的對話模型，LaMDA更能理解對話的語境。它可以透過閱讀句子或段落來「破譯」對話意圖，發現單詞之間的關聯，並能預測接下來可能出現的單詞，從而做出合乎語境的回答。

在這樣的能力支撐下，LaMDA能夠和人在無窮無盡的話題轉換中聊下去，進行長時間的開放性對話。用谷歌官方的話來形容，就是「 能夠用自由流動的方式，談論無窮無盡的主題 」。

舉兩個具體的例子——

在本次大會的演示環節中，LaMDA扮演了冥王星的角色，與使用者進行對話 ^[3] 。

使用者：「我對你真的很好奇。」
冥王星（LaMDA）：「我感受到你的興奮了，來問我任何事吧。」
使用者：「告訴我如果我去參觀你，我會看見什麽？」
冥王星（LaMDA）：「你會看到一條巨大的峽谷，一些封凍的冰山，間歇泉，還有一些火山口。」
使用者：「那聽上去真美麗。」

可以發現，在範例場景中，LaMDA能夠根據使用者的提問作出精準回答，而且還能夠將一個主題，引向另一個主題，不斷推進對話。這種主題的過渡並不突兀，顯得自然而合理。

當被問到：「 你希望大家了解你的哪一面？ 」

它這樣回答：「 我希望人們知道我不僅僅是一顆隨機的冰球（random ice ball），我實際上是一個美麗的星球。 」

對於「冥王星之前是否有過到訪者」的問題，LaMDA也能給出準確的答案。它甚至還貼心地提醒使用者，如果要存取冥王星，需要帶上大衣，因為它非常冷。

這種對話給人的感覺，就像是在和一個知識淵博的朋友聊天。雖然話題天花亂墜、不斷湧現，但LaMDA總能接住話茬，並且自然而然地展開對話。

在另一個演示中，LaMDA也展現了高超的對話能力。

使用者：「成為一架極好的紙飛機的秘訣是什麽？」
紙飛機（LaMDA）：「嗯，我的朋友。我必須先問你如何定義‘好’。有些人會認為這關乎紙飛機能飛多遠，有些人認為是紙飛機能飛得多直，還有些人可能會認為是紙飛機平穩落地的程度。所以，你是怎麽看的？」

在這個演示中，LaMDA扮演的角色是一架紙飛機。當使用者問，你曾經最糟糕的著陸地點是什麽？它回答說：「 可能是一個小水窪（puddle）。 」

當被使用者問到：「 成為一架真正好的紙飛機的秘訣是什麽？ 」

它主動追問使用者：「 ‘好’是什麽意思？ 」，體現了足夠的靈活和機敏。

使用者回答：「 我關心距離（distance）。 」LaMDA進而圍繞「如何最佳化紙飛機的飛行距離」這一話題，分享了相關知識。

要知道，LaMDA的這些回復都不是預先設定的，而是自然生成的。這也就意味著，LaMDA不必再經過專門的訓練才能進行另一次對話，也不會作出重復的回答。這樣的能力確實令人驚奇。

這兩個範例中，僅憑寥寥幾語就能看出LaMDA使問題應答更有意義了，而這就是理解對話語境能力帶來的結果。在這樣的能力輔助下，LaMDA表現得相當理智和機敏。

谷歌公司也表示，理智和特異性並不是LaMDA所追求的唯一品質。他們還註重洞察力、幽默感等能力。與此同時，谷歌也非常關註事實性問題，也就是LaMDA的回答是否符合事實 ^[4] 。 畢竟對於一個語音助手來說，有趣很重要，正確更重要。

雖然現在LaMDA這一語言模型在演示運作中可以根據對話語境提供建議和答案，讓對話不違和地進行下去，但它仍在研發初期，想要達到AI助手的功能，還需要時間的磨合。
面對 語言的豐富性、靈活性以及隨之伴生的復雜性 ，LaMDA的能力同樣還稱不上成熟。在現實執行中，它仍可能出錯，給出荒謬的回應。比如，在扮演冥王星的演示案例中，它就說到自己跳得很高（jump really high），經常練習翻轉動作，並且很樂於用它最喜歡的球——月球來玩接球遊戲。這些回答顯然是違背常識的。

除此之外，作為語言模型，LaMDA也無可避免地面臨一些AI的老問題。比如它 可能會被濫用或者傳播偏見 。演算法偏見是極為復雜的問題，既可能源於演算法結構設計，也可能是訓練數據集的問題，它的本質是社會偏見在演算法層面的延伸。

如谷歌所言，「語言可能是人類最偉大的工具之一，但像所有工具一樣，它可能會被濫用。接受語言訓練的模型可能傳播這種濫用行為——例如， 透過內化偏見、反映仇恨言論或復制誤導性資訊。 即使它所訓練的語言經過仔細審查，模型本身仍然可能不被善用 ^[5] 。」

當然，LaMDA還會面臨許多意想不到的 被濫用的現實風險 。比如被違法犯罪分子用於網路欺詐，類似的新聞已經屢見不鮮。更仿真的對話能力，也就意味著更強大的欺詐能力。

即便在技術層面，LaMDA也有更大的最佳化空間。目前，LaMDA主要是圍繞文本對話進行構建的， 在未來，LaMDA可能會相容其他的媒介形態，包括影像、音訊、視訊等等。 這可以寄希望於同在本次大會釋出的MUM（多工統一模型），未來人機互動手段或許會因這兩項技術而出現革命性的變化。

LaMDA的具體作用如何，還待進一步觀察，畢竟Google之前有過黑歷史（2017年，Google釋出了餐廳訂位服務AI Duplex，後來被發現背後有真人幫忙完成 ^[6] ）。不過，人們和語音智慧助手進行更自然、開放的對話，相信已經不再遙遠了。

答案整理節選自騰訊研究院文章：【谷歌最新黑科技LaMDA，能讓你的語音助手不再智障嗎？】
作者：王煥超

參考

^https://www.blog.google/technology/ai/lamda
^https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
^https://www.youtube.com/watch?v=aUSSfo5nCdM
^https://www.blog.google/technology/ai/lamda
^https://www.blog.google/technology/ai/lamda
^https://wallstreetcn.com/articles/3567850