當前位置: 華文星空 > 心靈

瞭望|2025年人工智能三大關註點

2025-01-15心靈
如何建立一個足以控制超級智能並使其為人類服務的技術治理體制,同時使其成為國家治理體系的有機組成部份,同樣需要人們在未來找到確切的答案
「大世界模型」之所以引發關註,在於其直接面對了當前人工智能的一個關鍵難點:如何令AI認識和理解世界
當前,智能體研究的兩大領域——強化學習與機器人——都在關註一個關鍵問題:如何形成一個足夠準確的「世界模型」
文 | 譚笑間
2024年,人們看到了Sora、Germini、GPT-4o等新的大模型問世,國產大模型也在技術水平上不斷接近OpenAI。雖然過去一年並未等來GPT-5這樣的重磅產品,但人工智能(AI)的套用仍在不斷加速演進,呈現百花齊放之勢。2025年,通用人工智能之後的新紅線、具身智能和大世界模型的研發,將獲得各方更多的關註。
浙江省寧波市江北區甬港幼稚園的孩子們在科普活動現場近距離觀察人形機器人(2025年1月2日攝) 江漢攝 / 本刊
超級人工智能:通用人工智能之後的新紅線
2024年9月,OpenAI總裁山姆·奧爾特曼在以自己名字命名的網站上發表了一篇隨筆性質的文章【智能時代】,認為超級人工智能(ASI)可能會在幾千天或更長時間內到來。一時間,關於什麽是超級智能及其與此前廣泛討論的通用人工智能(AGI)的區別,引發了各方討論。
被提到最多的,莫過於牛津大學哲學家尼克·博斯特羅姆的專著【超級智能:路徑、危險、策略】中的定義——「在幾乎所有人類感興趣的領域都大大超過人類認知能力的智能體」。該書曾在2014年【紐約時報】最暢銷科普書籍榜單上排名第17位,其封面上畫著一只大大的貓頭鷹。據博斯特羅姆解釋,「貓頭鷹」的意象來自一則歐洲寓言,雖然年代久遠,卻生動地映照著當前人類面對ASI時的兩難處境:「一只麻雀找到一個貓頭鷹蛋,將它帶回麻雀一家共同棲息的巢,想讓長大後的貓頭鷹幫它們築巢並抵禦外敵。麻雀們意見不一:有的認為應當先考慮好如何不讓長大後的貓頭鷹吃掉它們,否則便不應將它養大;有的則認為不把貓頭鷹養大便永遠無法知道馴服它的方法。」
這則寓言並未給出麻雀一家的結局,而今人類正如故事裏的麻雀一家一樣,無法確定自身在面對知識儲備、認知能力和反應速度均大大超過人類的ASI時,是否有辦法控制其不對人類造成危害。
從過去一年全球各界的討論來看,將ASI代替AGI作為劃定人工智能給人類帶來存亡危機的紅線,已經在一定程度上成為新共識。
一方面,學界在不斷反思當前人工智能安全的紅線是否設定得過低。在2022年的一項針對AI領域專業人士的問卷調查中,受訪者認為出現超級智能的中位年份(即有50%的可能性出現在該年)可能在2061年左右,顯示ASI可能不會馬上到來。與此同時,大模型的推廣速度超乎預期。當前大模型不僅可以對圖片、音影片等做出擬人反應,而且可以透過自發的分析和推理幫助人完成種類繁多的線上任務。盡管各方未能就大模型是否應當被認為是AGI達成共識,但從定義的出發點來看,一個能夠完成多種任務的智能體,若其智能水平基本與人類相當,則未必會擁有足以威脅到全人類的能力。故此,使人工智能安全的紅線由AGI提升至ASI,更有利於學者們保持自身理論的說服力。
另一方面,現實中監管部門對人工智能安全威脅的反應,以及歐美民間不斷高漲的「停止GPT-5」等反人工智能的呼聲,正使AI企業在西方國家面臨逆水行舟的窘境。為了應對監管、安撫歐美民眾,AI企業推廣新的安全概念與標準,將人工智能造成威脅的紅線由AGI提高到ASI,就成為心照不宣的選擇。
然而,紅線的提高並不意味著風險不復存在。如何建立一個足以控制超級智能並使其為人類服務的技術治理體制,同時使其成為國家治理體系的有機組成部份,同樣需要人們在未來找到確切的答案。
具身智能:語言模型之外的路徑
具身智能(Embodied AI),是一種將AI融入機器人等物理實體的AI技術,目的是使其具備從環境中感知和學習並與環境進行動態互動的能力。該概念首次出現在1991年羅德尼·布魯克斯發表的論文【無需表征的智能】中,其主要觀點是:智能行為可以直接從自主機器與環境的簡單物理互動中產生,而無需復雜的演算法或內部表征。
具身智能不只是「AI+機器人」,如果對具身智能的理解僅限於給AI一副身體,那麽就會忽視其與語言模型的不同。
第一,具身智能相對於語言模型包含的智能範疇更廣。生活中人們或多或少有過想要傳達的「意」難以用「言」來表達的體驗。從智能的範疇來看,智能經由語言表達出的部份,僅占所有智能的一小部份。因此,具身智能相對於語言模型,在理論上就具有得天獨厚的優勢。
第二,具身智能的智能獲取方式更接近於人類。譬如,人類的智能主要來源於自身透過雙眼、雙手及其他器官習得的經驗,以及人類在傳承前進演化過程中不斷積累形成的生物本能。在漫長的前進演化過程中,人類與環境互動所產生的資訊之多,遠遠超出人類迄今為止用語言記載的一切。相比於語言模型唯讀取文字,具身智能可使智能體透過與人基本相同的感官來感知外界,其發展出的智能在理論上具有同人類智能更為相似的特點。
第三,具身智能更為接近智能發展的終極目標。近年來已有不少AI領域的學者指出,語言模型並非AI的終極發展方向,充其量只是一個階段性成果。由於語言模型只能透過學習人類的語言文字材料來獲取智能,其輸出的結果,究竟應當算作對人類語言的模仿,還是實實在在的來自機器智能的「思考」,學界尚無定論。無論如何,大模型都無法繞開人類語言這一中介,其即使從中獲得了智能,也只是一鱗半爪,存在著較為明顯的上限。
當然,具身智能目前也面臨著尚待突破的難題。
一方面,具身智能要透過與現實環境的互動來獲取智能,但即使一個理論上能夠完美感知周遭世界並進行無監督學習的具身智能,也面臨著學習效率受環境制約的問題,對於當前零樣本學習能力尚不完備的具身智能來說,這將大大限制其發展速度。
另一方面,以仿真環境為依托的具身智能雖然能夠藉由電腦仿真出的環境來進行非即時的高速訓練,但面臨著仿真環境無法完全「還原」現實世界的問題,導致該智能體難以在現實環境中實用化,也難以在短時間內積累出如同大模型訓練語料庫那樣的大規模數據集。
如何解決上述難題,將是具身智能未來發展的關鍵。
大世界模型:讓AI認識和理解世界
2024年3月,谷歌雲前人工智能主管、美籍電腦科學家李飛飛建立了一家名為「世界實驗室」的初創公司,主要從事開發一種能夠理解三維物理世界的AI模型,被稱為「大世界模型」。其基本用法是,給定任意圖片或文字,AI能夠從中萃取物體,進而還原出一個完整的三維空間。例如,如果把文學作品輸入該模型,使用者們就可以進入J.K.羅琳在【哈利·波特】中描繪的對角巷,或者劉慈欣描述的三日淩空的【三體】世界;把畫作輸入該模型,你可以坐進梵高的【夜晚露天咖啡座】,或者站在霍普的【夜遊者】酒吧門口,如同一個等待進入的顧客。
與此前廣泛套用於數碼媒體制作的「2D轉3D」工具不同,使用「大世界模型」,使用者不僅能夠在該空間內水平移動,還可以進行縱深移動和視角轉換,從不同角度看到物體的全貌,並且這些物體還具備真實世界裏的部份物理學特征,包括受阻、碰撞、透視關系等。李飛飛將這種具備認識和理解空間能力的AI稱為「空間智能」。
對於一個成立不久的公司,以上還只是早期的演示內容,但僅僅依靠這樣的演示內容,該公司便已拿到了2.3億美元的風險投資,僅僅四個月後估值就超過了10億美元。
「大世界模型」之所以引發關註,在於其直接面對了當前人工智能的一個關鍵難點:如何令AI認識和理解世界?其與Sora等圖文生影片類AI最大的不同點,也在於此。體驗過此類AI套用的人或多或少都遇到過這樣的情況:人工智能生成的內容完全不符合現實生活中的經驗,其結果或是令人啼笑皆非,或是幹脆成了「恐怖片」。這便是人工智能沒有認識和理解世界的結果,其所做的僅僅是預測每個像素點的數值。
當前,智能體研究的兩大領域——強化學習與機器人——都在關註一個關鍵問題:如何形成一個足夠準確的「世界模型」。這也是楊·勒丘恩等人工智能領域泰鬥級學者都在反復強調的,只有解決了構建世界模型的問題,才能真正突破人工智能的訓練瓶頸。屆時,人工智能能夠利用世界模型中的狀態表征和動作表征數據進行反復試錯,進而找到現實世界問題的解決方案。盡管當前距離這一目標還比較遙遠,但李飛飛的「大世界模型」或特許以看作朝向這一人工智能解決方案邁出了一小步。
(作者為中國現代國際關系研究院科技與網絡安全研究所副研究員、人工智能專案負責人)■