當前位置: 華文星空 > 知識

考那麽多試,拿那麽高分,大模型們真的懂語言了嗎?

2021-12-22知識
關於 GPT-3 等大規模語言模型能否理解人類語言,人們一直存在分歧。

選自quantamagazine, 作者:Melanie Mitchell,機器之心編譯,編輯:小舟、張倩。

十年前,IBM 的 Watson 獲得了答題節目【Jeopardy!】的冠軍,當時 IBM 宣稱:「Watson 能夠理解自然語言的所有歧義和復雜性。」然而,正如我們所看到的,Watson 隨後在試圖「用人工智能徹底改變醫學」的過程中失敗了,智能體所具備的語言能力與實際理解人類語言並不能完全劃等號。

自然語言理解一直是人工智能研究的主要目標之一。起初,研究人員試圖手動編程,讓機器理解新聞故事、小說或人類可能創作的任何其他內容。結果就像 Watson 一樣,這種方法是徒勞的,人們不可能歸納出理解文本所需的所有事實、規則和假設。

近年來一種 AI 領域建立起一種新的範式:我們不建立顯性知識,而是讓機器學習自己理解語言——攝取大量書面文本並學習預測單詞。這種新範式現在被稱作語言模型,GPT-3 等基於大型神經網絡的模型可以生成令人難以置信的人類散文和詩歌,並且能夠執行復雜的語言推理。

但是 GPT-3 這樣在大量網絡文本上訓練的模型真的超越了 Watson 嗎?它真的理解它生成的語言和推理嗎?這是 AI 研究界存在明顯分歧的話題。

此類討論曾經是哲學的範疇,但在過去十年中,人工智能已經從學術泡沫中迸發出來,進入了現實世界,它們對現實世界缺乏了解可能會產生非常嚴重的後果。一項研究發現 IBM 的 Watson 曾提出了「不安全和不正確的治療建議」。另一項研究表明:谷歌的機器轉譯系統在為非英語患者轉譯醫療說明時出現了重大錯誤。

那麽我們如何確定機器是否可以理解現實?1950 年,電腦科學先驅艾倫 · 圖靈試圖用「圖靈測試」來回答這個問題。然而,圖靈低估了人類被機器愚弄的可能。早在上世紀 60 年代,Joseph Weizenbaum 就構建了一個簡單的聊天機器人 Eliza,試圖透過解釋句子讓 Eliza 模仿心理治療師講話。結果發現 Eliza 會讓人們相信他們正在與理解自己的人交談,即使他們知道和自己對話的是一台機器。

在 2012 年的一篇論文中,電腦科學家 Hector Levesque、Ernest Davis 和 Leora Morgenstern 提出了一個更客觀的測試——Winograd 模式挑戰。這種測試方法已被 AI 語言社區采用,是當前評估機器理解的最佳方式之一。

Winograd 模式挑戰中包含一對句子,兩個句子僅相差一個詞,每個句子後面跟一個問題,例如:

Sentence 1: I poured water from the bottle into the cup until it was full.Question: What was full, the bottle or the cup?Sentence 2: I poured water from the bottle into the cup until it was empty.Question: What was empty, the bottle or the cup?
Sentence 1: Joe’s uncle can still beat him at tennis, even though he is 30 years older.Question: Who is older, Joe or Joe’s uncle?Sentence 2: Joe’s uncle can still beat him at tennis, even though he is 30 years younger.Question: Who is younger, Joe or Joe’s uncle?

句子中一個詞的差異可以改變代詞所指的人或事,正確回答這些問題需要常識性的理解。Winograd 模式正是為了測試這種理解而設計的,減輕了圖靈測試對人類判斷和聊天機器人技巧的不可靠性。特別是,Winograd 的作者設計了數百個被稱為「Google-proof」的模式:機器不應該使用谷歌搜尋(或類似搜尋)來正確回答問題。

Winograd 模式在 2016 年被用作一場比賽的主題,其中獲勝程式僅在 58% 的句子上給出了正確答案,這幾乎和簡單猜測的準確率差不多。

然而,大型神經網絡語言模型的出現讓人工智能程式解決 Winograd 模式的能力迅速提高。OpenAI 2020 年的一篇論文稱 GPT-3 在 Winograd 模式基準集中近 90% 的句子上都是正確的。在專門針對這些任務進行訓練後,語言模型的表現甚至會更好。一些神經網絡在特定任務上甚至能達到 97% 的準確率,這種準確性和人類的表現已經大致相當。這是否意味著神經網絡語言模型已經達到了人類的理解水平?

並非如此。盡管創作者盡了最大努力,但 Winograd 模式實際上並沒有完全經過「Google-proof」。Winograd 模式中的挑戰就和許多其他 AI 語言理解測試一樣,有時允許使用捷徑 ,讓神經網絡在不理解的情況下也能表現良好。例如:

跑車超過了郵車因為它開得更快。
跑車超過了郵車因為它開得更慢。

在龐大的語料庫上訓練的語言模型將吸收「跑車」和「快」之間以及「郵車」和「慢」之間的相關性,因此語言模型可以僅根據這些相關性來正確回答這些問題,而不存在真正的理解。事實證明,SuperGLUE 比賽中的許多 Winograd 模式都可以使用這類統計相關性。

艾倫人工智能研究所的一組研究人員嘗試解決 Winograd 模式的一些問題。2019 年,他們建立了一個更龐大的 Winograd 模式——WinoGrande。

WinoGrande 包含多達 44000 個句子,而不是數百個範例。這些句子是借助 Amazon Mechanical Turk 平台獲得的,由真人編寫——每人被要求寫幾個句子對,這些句子包含多個主題,但每對句子可能相差不止一個單詞。

然後,研究人員透過用相對簡單的 AI 方法測試每個句子,將太容易解決的句子丟棄,以消除可能允許統計相關性捷徑的句子。與研究人員預期的一樣,與原始的 Winograd 模式相比,剩余的句子對機器提出了更困難的挑戰,在 Winograd 模式上與人類表現相當的神經網絡語言模型在 WinoGrande 集合上得分要低得多。

然而,另一個驚喜很快接踵而至。在 WinoGrande 集合問世之後的兩年裏,神經網絡語言模型變得越來越大。而且,模型越大,它們在這項新挑戰上的得分似乎就越高。在本文撰寫之時,當前最好的模型(在幾 TB 的數據和數千個 WinoGrande 例項上訓練)已經達到了接近 90% 的準確率(人類是 94%)。這種效能的增益幾乎全部來自於神經網絡語言模型規模的增大和訓練數據體量的增加。

這些大模型真的獲得了像人類一樣的常識理解能力嗎?看起來並沒有。WinoGrande 反映出的結果有幾點需要註意。例如,由於那些句子依賴於 Amazon Mechanical Turk 平台上的兼職人員,句子的質素和流暢度是非常不均衡的。同時,用來剔除「non-Google-proof」句子的 AI 方法可能過於簡單,無法發現一個龐大的神經網絡可能使用的所有統計捷徑。而且,該方法只適用於單個的句子,很多句子最後都會失去自己的「雙胞胎」兄弟姐妹。一項後續研究表明,神經網絡語言模型只在兩個「雙胞」句子上進行測試,而且兩個測試都要正確,它們比人類的準確率要低得多,這表明早前 90% 的結果沒那麽重要。

那麽,從 Winograd 的失敗中我們能得出什麽教訓呢?那就是:我們通常很難根據 AI 系統在某項特定挑戰中的表現來判斷它們是否真的理解了自己所處理的語言。我們知道,神經網絡經常會使用統計方面的捷徑來獲取高分,而不是真正像人類一樣去理解。

在我看來,問題的關鍵在於,理解語言就需要理解世界,而只接觸語言的機器就無法獲取這種理解能力。舉個例子,「跑車超過了郵車,因為它開得慢一些」,理解這句話需要什麽前提?首先,你要知道跑車和郵車分別是什麽、車是可以互相「超過」的,甚至你還要知道更基本的常識:交通工具是存在於這個世界並與之互動的物件,由人類根據自己的行程驅動。

以上這些都是我們人類認為理所當然的知識,但這些知識並沒有內嵌在機器中,也不可能被明確地寫在任何語言模型的訓練文本中。一些認知科學家認為,在學習和理解語言方面,人類依賴於先天的、前語言的關於時空以及世界上其他基本內容的核心知識。如果我們想讓機器像人類一樣掌握語言,我們首先需要賦予它們人類與生俱來的原始原則(primordial principle)。要評估機器的理解能力,我們應該首先評估它們對上述原則的掌握程度,有人將其稱為「嬰兒形而上學(infant metaphysics)」。

與 GPT-3 等成就輝煌的 AI 系統相比,訓練並評估一個嬰兒水平的機器看起來似乎倒退了一大步。但如果目標是真實可信的理解,那這可能是唯一一條讓機器理解「它」是什麽以及獲取理解「它」所需要的一切的途徑。

原文連結:https://www. quantamagazine.org/what -does-it-mean-for-ai-to-understand-20211216/