機器之心報道,編輯:杜偉、蛋醬。
在過去的數年,見證了機器學習(ML)和電腦科學領域的許多變化。按照這種長弧形的進步模式,人們或許將在接下來的幾年中看到許多令人興奮的進展,這些進步最終將造福數十億人的生活,並產生比以往更深遠的影響。
在一篇總結文章中,谷歌 AI 負責人、知名學者 Jeff Dean 重點介紹了 2021 年之後機器學習最具潛力的五個領域:
文章具體內容如下:
趨勢 1:能力、通用性更強的機器學習模型
研究人員正在訓練比以往任何時候規模更大、能力更強的機器學習模型。過去幾年,語言領域已經從數百億 token 數據上訓練的數十億參數模型(如 110 億參數的 T5 模型),發展到了在數萬億 token 數據上訓練的數千億或萬億參數模型(如 OpenAI 1750 億參數的 GPT-3 和 DeepMind 2800 億參數的 Gopher 等密集模型和谷歌 6000 億參數的 GShard 和 1.2 萬億參數的 GLaM 等稀疏模型)。數據集和模型規模的增長帶來了多種語言任務上準確率的顯著提升,並透過標準 NLP 基準任務上的全面改進證明了這一點。
這些先進的模型中有很多都聚焦於單一但重要的書面語言形態上,並在語言理解基準和開放式會話能力中展現出了 SOTA 結果,即使跨同一領域多個任務也是如此。同時,這些模型在訓練數據相對較少時也有能力泛化至新的語言任務,在某些情況下,對於新任務需要極少甚至不需要訓練樣本。
與谷歌對話套用語言模型 LaMDA 模擬威德爾氏海豹(weddell seal)時的對話。
Transformer 模型也對影像、視訊和語音模型產生了重大影響,所有這些都從規模中獲益頗多。用於影像辨識和視訊分類的 Transformer 模型在很多基準上實作了 SOTA,我們也證明了在影像和視訊數據上協同訓練模型可以獲得較單獨在視訊數據上訓練模型更高的效能。
我們開發了用於影像和視訊 Transformer 的稀疏、軸性註意力機制,為視覺 Transformer 模型找到了更好的標記化影像方法,並透過檢查視覺 Transformer 方法相較於 CNN 的操作原理來提升對它們的理解。摺積操作與 Transformer 模型的結合也在視覺和語音辨識任務中大有裨益。
生成模型的輸出也大幅提升。這在影像生成模型中最為明顯,並在過去幾年取得了顯著進步。例如,最近的模型有能力在僅給出一個類別的情況下建立真實影像,可以填充一個低分辨率影像以建立看起來自然的高分辨率對應物,甚至還可以建立任意長度的空中自然景觀。
基於給定類生成全新影像的 cascade 擴散模型示意圖。
除了先進的單模態模型之外,大規模多模態模型也在開發中。其中一些最先進的多模態模型可以接受語言、影像、語言和視訊等多種不同的輸入模態,產生不同的輸出模態。這是一個令人興奮的方向,就像真實世界一樣,有些東西在多模態數據中更容易學習。
同樣地,影像和文本配對有助於多語種檢索任務,並且更好地理解如何配對文本和影像輸入可以提升影像描述任務。視覺和文本數據上的協同訓練有助於提升視覺分類任務的準確率和穩健性,同時影像、視訊和語音任務上的聯合訓練能夠提升所有模態的泛化效能。
谷歌機器人團隊(Robotics at Google)基於視覺的機器人作業系統的示意圖,該系統可以泛化至全新任務。
所有這些趨勢都指向了訓練能力更強的通用性模型,這些模型可以處理多種數據模態並解決數千甚至數萬個任務。在接下來的幾年,我們將透過下一代架構 Pathways 來追求這一願景,並期望在該領域看到實質性進展。
Pathways 我們正在努力構建能夠在數百萬個任務中實作泛化的單一模型。
趨勢 2:機器學習持續的效率提升
效率的提升源自電腦硬體設計和機器學習演算法、元學習研究的進步,並正在推動機器學習模型更強大的功能。機器學習 pipeline 的很多方面,從訓練和執行模型的硬體到機器學習架構的各個元件,這些都可以進行效率最佳化,同時保持或提升整體效能。更高的效率促成了大量關鍵性進步,這些進步將繼續顯著提升機器學習的效率,使更大、更高品質的機器學習模型能夠在保持成本效益的前提下開發,並進一步促進大眾化。
一是機器學習加速效能的持續提升。每一代機器學習加速器都較前代更強,實作了更快的每芯片效能,並常常增加整體系統的規模。2021 年,我們推出了谷歌第四代張量處理器 TPUv4,在 MLPerf 基準上顯示出較 TPUv3 2.7 倍的提升。行動裝置上的機器學習能力也在顯著提升。Pixel 6 手機配有全新的谷歌張量處理器(Google Tensor processor ),該處理器整合了一個強大的機器學習加速器,以支持重要的裝置上功能。
左:TPUv4 板;中:TPUv4 艙;右:Pixel 6 手機采用的谷歌張量芯片。
二是機器學習編譯和機器學習工作負載最佳化的持續提升。即使當硬體無法改變時,編譯器的改進以及機器學習加速器的其他系統軟體最佳化也可以實作效率的顯著提升。
在 150 個機器學習模型上使用基於 ML 的編譯器進行自動調優,可以實作端到端模型加速。
三是人類創造力驅動的更高效模型架構的發現。模型架構的持續改進大振幅減少了在很多問題上實作一定準確率水平所需的計算量。例如,在使用計算量比 CNN 少 4 至 10 倍的情況下,Vision Transformer 能夠在大量不同的影像分類任務上提升 SOTA 結果。
四是機器驅動的更高效模型架構的發現。神經架構搜尋(NAS)可以自動發現新的機器學習架構,這些架構對於給定的問題域更加高效。神經架構搜尋的主要優勢是可以顯著減少演算法開發所需的努力,這是因為它對每個搜尋空間和問題域組合只需要一次努力(one-time effort)。
此外,雖然執行神經架構搜尋的初始努力需要很高的計算成本,但生成的模型可以極大地減少下遊研究和生產設定中的計算量,從而減少整體資源需求。
神經架構搜尋發現的 Primer 架構,效率是 plain Transformer 模型的 4 倍。
五是稀疏性的使用。所謂稀疏性,即模型具有非常大的容量,但只有一部份針對給定的任務、範例或 token 而被啟用。稀疏性是另一個重大的演算法進步,可以極大地提升效率。
2017 年,我們提出了稀疏門混合專家層(sparsely-gated mixture-of-experts layers),使用計算量比當時 SOTA 密集 LSTM 模型少 10 倍時在多個轉譯基準上實作更好結果。還有最近的 Swin Transformer,將混合專家風格的架構與 Transformer 模型架構結合,結果顯示訓練時間和效率均實作了較密集 T5-Base Transformer 模型 7 倍的加速。稀疏性概念還可以用來降低核心 Transformer 架構中註意力機制的成本。
谷歌研究院提出的 BigBird 稀疏註意力模型由處理輸入序列所有部份的全域 token、局部 token 和一系列隨機 token 組成。
趨勢 3:機器學習變得更個人化,對社群也更有益
隨著機器學習和矽硬體(如谷歌 Pixel 6 上的谷歌張量處理器)的創新,許多新體驗成為了可能,使行動裝置更有能力持續有效地感知周圍的背景和環境。這些進步提升了可存取性和易用性,同時也增強了計算能力,對於移動攝影、即時轉譯等功能至關重要。值得註意的是,最近的技術進步還為使用者提供了更加個人化的體驗,同時加強了私密保護。
可以看到,更多的人比以往任何時候都要依靠手機網路攝影機來記錄他們的日常生活並進行藝術表達。機器學習在計算攝影中的巧妙套用不斷提升了手機網路攝影機的功能,使其更易於使用、效能更強並生成更高品質的影像。
例如,改進的 HDR+、在極低光下拍照的能力、更好地人像處理能力、以及適用於所有膚色的更具包容性的相機,所有這些進步都使使用者可以拍攝出更好的照片。使用 Google Photos 中現在提供的基於 ML 的強大工具,如電影照片(Cinematic Photo)等,進一步提高了照片拍攝效果。
HDR + 從一組全分辨率的原始影像開始,每張都有相同的曝光度(圖左);合並後的影像減少了雜訊,增加了動態範圍,從而得到更高品質的最終影像(圖右)。
除了使用手機進行創意表達外,許多人還依靠手機來與他人即時溝通,使用訊息套用中的 Live Translate 和 Live Caption 進行電話通話。
得益於自監督學習和嘈雜學生訓練等技術,語音辨識的準確性繼續提升,在重音、嘈雜條件或重疊語音的環境以及多語言任務中都有顯著改善。基於文本到語音合成的進步,人們可以在越來越多的平台上使用谷歌 Read Aloud 服務收聽網頁和文章,從而使資訊更容易跨越形態和語言的障礙。
最近一項研究表明,註視辨識能力是精神疲勞的一個重要生物標記。(https://www. nature.com/articles/s41 746-021-00415-6 )
鑒於這些新功能背後的數據具有潛在的敏感性,因此必須將它們預設設計為私有的。它們中的許多都在安卓私有計算核心內(Private Compute Core)執行,這是一個與作業系統其余部份隔離的開源安全環境。安卓確保私有計算核心中處理的數據不會在使用者未采取操作的情況下共享給任何套用。
安卓還阻止私有計算核心內的任何功能直接存取網路。相反,功能透過一小組開源 API 與私有計算服務(Private Compute Services)進行通訊,後者消除辨識資訊並利用聯邦學習、聯邦分析和私有資訊檢索等私密技術,在確保私密的同時實作學習。
聯邦重構是一種全新的局部聯邦學習技術,它將模型劃分為全域和局部參數。
趨勢 4:機器學習對科學、健康和永續發展的影響越來越大
近年來,從物理學到生物學,機器學習在基礎科學中的影響越來越大,並在相關領域(例如可再生能源和醫學)實作了許多優秀的實際套用。例如,電腦視覺模型正在被用來解決個人和全球範圍內的問題,它們可以協助醫生展開日常工作,擴充套件人們對神經生理學的理解,還可以提供更精準的天氣預報,可以簡化救災工作。透過發現減少排放和提高替代能源輸出的方法,其他型別的機器學習模型被證明在應對氣候變遷方面至關重要。隨著 機器學習變得更加穩健、成熟且可廣泛使用,這樣的模型甚至可以用作藝術家的創作工具。
電腦視覺的大規模套用以獲得新的洞察力
過去十年電腦視覺的進步使電腦能夠用於不同科學領域的各種任務。在神經科學中,自動重建技術可以從腦組織薄片的高分辨率電子顯微鏡影像中恢復腦組織的神經結締結構。
前幾年,谷歌合作為果蠅、小鼠和鳴禽的大腦建立了此類資源;去年,谷歌與哈佛大學的 Lichtman 實驗室合作,分析了重建的最大腦組織樣本,以及任何物種中的這種細致程度成像,並生成了跨越皮層所有層的多種細胞型別的人類皮層突觸連線的第一次大規模研究。這項工作的目標是生成一種新的資源,幫助神經科學家研究人類大腦的驚人復雜性。例如,下圖顯示了成人大腦中約 860 億個神經元中的 6 個神經元。
來自谷歌人類皮層重建的單個人類枝形吊燈神經元,以及與該細胞連線的一些錐體神經元。
電腦視覺技術還提供了強大的工具來應對更大甚至全球範圍內的挑戰。一種基於深度學習的天氣預報方法使用衛星和雷達影像作為輸入,並結合其他大氣數據,在長達 12 小時的預測時間內產生比傳統的基於物理的模型更準確的天氣和降雨預測。與傳統方法相比,它們還可以更快地生成更新的預測,這在極端天氣出現時非常重要。
這些案例的一個共同主題是,機器學習模型能夠基於對可用視覺數據的分析,高效、準確地執行專門的任務,支持下遊任務。
自動化設計空間探索
另一種在許多領域產生出色結果的方法是允許機器學習演算法以自動化方式探索和評估問題的設計空間,以尋找可能的解決方案。在一個應用程式中,基於 Transformer 的變分自動編碼器學習能夠建立美觀且有用的文件布局,並且可以擴充套件相同的方法來探索可能的空間布局。
另一種機器學習驅動的方法能夠自動探索電腦遊戲規則調整的設計空間,提高遊戲的可玩性和其他內容,使人類遊戲設計師能夠更快地建立更好的遊戲。
VTN 模型的視覺化。它能夠提取布局元素(段落、表格、影像等)之間的有意義的聯系,以生成逼真的合成文件(例如,具有更好的對齊和邊距)。
還有其他機器學習演算法已被用於評估機器學習加速器芯片本身的電腦架構決策的設計空間。機器學習可用於為 ASIC 設計快速建立芯片布局,這些布局優於人類專家生成的布局,並且可以在幾小時而不是幾周內生成。這降低了芯片的固定工程成本,並減少了為不同套用快速建立專用硬體的阻礙。谷歌在即將推出的 TPU-v5 芯片的設計中成功地使用了這種方法。
這種探索性的機器學習方法也已套用於材料發現。在谷歌研究院和加州理工學院的合作中,幾個機器學習模型與改進後的噴墨印表機和客製顯微鏡相結合,能夠快速搜尋數十萬種可能的材料。
這些自動化設計空間探索方法可以幫助加速許多科學領域,特別是當生成實驗和評估結果的整個實驗迴圈都能以自動化或大部份自動化的方式完成時。這種方法也許會在未來幾年在更多領域中發揮良好的效果。
健康套用
除了推進基礎科學,機器學習還可以更廣泛地推動醫學和人類健康的進步。利用電腦科學在健康方面的進步並不是什麽新鮮事,但是機器學習開啟了新的大門,帶來了新的機會,也帶來了新的挑戰。
以基因組學領域為例。自基因組學問世以來,計算一直很重要,但機器學習增加了新功能並破壞了舊範式。當谷歌的研究人員開始在這一領域工作時,許多專家認為使用深度學習幫助從測序儀輸出推斷遺傳變異的想法是牽強附會的。而在今天,這種機器學習方法被認為是最先進的。
未來機器學習將扮演更重要的角色,基因組學公司正在開發更準確、更快的新測序儀器,但也帶來了新的推理挑戰。谷歌釋出了開源軟體 DeepConsensus,並與 UCSC 、PEPPER-DeepVariant 合作,支持這些前沿資訊學的新儀器,希望更快速的測序能夠帶來對患者產生影響的適用性。
除了處理測序儀數據之外,還有其他機會使用機器學習來加速將基因組資訊用於個人化健康的過程。廣泛表型和測序個體的大型生物庫可以徹底改變人類理解和管理疾病遺傳易感性的方式。谷歌基於機器學習的表型分析方法提高了將大型成像和文本數據集轉換為可用於遺傳關聯研究的表型的可延伸性,DeepNull 方法更好地利用大型表型數據進行遺傳發現。這兩種方法均已開源。
生成解剖和疾病特征的大規模量化以與生物庫中的基因組數據相結合的過程。
正如機器學習幫助我們看到基因組數據的隱藏特征一樣,它也可以幫助我們發現新資訊並從其他健康數據型別中收集新見解。疾病診斷通常是關於辨識模式、量化相關性或辨識更大類別的新例項,這些都是機器學習擅長的任務。
谷歌研究人員已經使用機器學習解決了廣泛的此類問題,但機器學習在醫學成像中的套用更進一步:谷歌 2016 年介紹深度學習在糖尿病性視網膜病變篩查中套用的論文,被美國醫學會雜誌 (JAMA) 的編輯選為十年來最具影響力的 10 篇論文之一。
另一個雄心勃勃的醫療保健計劃 Care Studio 使用最先進的 ML 和先進的 NLP 技術來分析結構化數據和醫療記錄,在正確的時間向臨床醫生提供最相關的資訊——最終幫助他們提供更積極、更準確的護理。
盡管機器學習可能對擴大臨床環境的可及性和提高準確性很重要,但一個同樣重要的新趨勢正在出現:機器學習套用於幫助人們提高日常健康和福祉。人們日常裝置逐漸擁有強大的傳感器,幫助健康指標和資訊民主化,人們可以就自己的健康做出更明智的決定。我們已經看到了智慧型手機網路攝影機已經能評估心率和呼吸頻率以幫助使用者,甚至無需額外硬體,以及支持非接觸式睡眠感應的 Nest Hub 裝置讓使用者更好地了解他們的夜間健康狀況。
我們已經看到,一方面,我們在自己的 ASR 系統中可以顯著提高無序語音的語音辨識品質,另一方面,使用 ML 幫助重建有語言障礙的人的聲音,使他們能夠用自己的聲音進行交流。支持機器學習的智慧型手機,將幫助人們更好地研究新出現的皮膚狀況或幫助視力有限的人慢跑。這些機會提供了一個光明的未來,不容忽視。
用於非接觸式睡眠感應的自訂 ML 模型有效地處理連續的 3D 雷達張量流(總結一系列距離、頻率和時間的活動),以自動計算使用者存在和清醒(清醒或睡著)的可能性的機率。
氣候危機的機器學習套用
另一個最重要的領域是氣候變遷,這對人類來說是一個極其緊迫的威脅。我們需要共同努力,扭轉有害排放的曲線,確保一個安全和繁榮的未來。關於不同選擇對氣候影響的資訊,可以幫助我們以多種不同方式應對這一挑戰。
借助環保路線,Google 地圖將顯示最快的路線和最省油的路線,使用者可以選擇最適合的路線。
Google 地圖中的野火層可在緊急情況下為人們提供重要的最新資訊。
趨勢 5:對機器學習更深入和更廣泛的理解
隨著 ML 在技術產品和社會中更廣泛地使用,我們必須繼續開發新技術以確保公平公正地套用它,造福於所有人,而不只是其中一部份。
一個重點領域是基於線上產品中使用者活動的推薦系統。由於這些推薦系統通常由多個不同的元件組成,因此了解它們的公平性通常需要深入了解各個元件以及各個元件組合在一起時的行為方式。
與推薦系統一樣,上下文在機器轉譯中很重要。由於大多數機器轉譯系統都是孤立地轉譯單個句子,沒有額外的上下文,它們通常會加強與性別、年齡或其他領域相關的偏見。為了解決其中一些問題,谷歌在減少轉譯系統中的性別偏見方面進行了長期的研究。
部署機器學習模型的另一個常見問題是分布偏移:如果用於訓練模型的數據的統計分布與作為輸入的模型的數據的統計分布不同,則模型的行為有時可能是不可預測的。
數據收集和數據集管理也是一個重要的領域,因為用於訓練機器學習模型的數據可能是下遊應用程式中偏見和公平問題的潛在來源。分析機器學習中的此類數據級聯有助於辨識機器學習計畫生命周期中可能對結果產生重大影響的許多地方。這項關於數據級聯的研究在針對機器學習開發人員和設計人員的修訂版 PAIR Guidebook 中為數據收集和評估提供了證據支持的指南。
不同顏色的箭頭表示各種型別的數據級聯,每個級聯通常起源於上遊,在機器學習開發過程中復合,並在下遊表現出來。
建立更具包容性和更少偏見的公共數據集是幫助改善每個人的機器學習領域的重要方法。
2016 年,谷歌釋出了 Open Images 數據集,該數據集包含約 900 萬張影像,標註了涵蓋數千個物件類別的影像標簽和 600 個類別的邊界框註釋。去年,谷歌在 Open Images Extended 集合中引入了更具包容性的人物註釋 (MIAP) 數據集。該集合包含更完整的針對人類階層的邊界框註釋,並且每個註釋都標有與公平相關的內容,包括感知的性別表示和感知的年齡範圍。
此外,隨著機器學習模型變得更有能力並在許多領域產生影響,保護機器學習中使用的私人資訊仍然是研究的重點。沿著這些思路,我們最近的一些工作解決了大型模型中的私密問題,既能從大型模型中提取訓練數據,又指出如何在大型模型中包含私密。除了聯邦學習和分析方面的工作之外,谷歌還一直在使用其他有原則和實用的機器學習技術來強化工具箱。