當前位置: 華文星空 > 心靈

AI能「生」萬物嗎?

2024-09-11心靈
AI能「生」萬物嗎?
半月談記者 張漫子
Sora誕生半年後,它的「挑戰者」紛至沓來,連「等不及」又「追不上」的輝達也親自下場。
迄今為止,Sora依舊只釋放小樣、未開放使用,而快手可靈、智譜清影、Vidu已率先開啟體驗大門,走向大眾。
盡管「一鍵生成」的初體驗稱不上完美,卻攪動了內容產業的一池春水。身邊不少微短劇、廣告、動畫已經開始用上AI這個「效率搭子」。人工智慧生成技術,從前不久的文生圖,到如今的文生視訊、圖生視訊、視訊生成視訊,「AIGC宇宙」不斷擴張。
AI,是華夏神話裏的「神筆馬良」嗎?它能讓多少想象力、創造力活起來、動起來?
「文生視訊」,如何「生」
「文生視訊是一顆重磅炸彈。」半年來,從大廠到獨角獸的Sora復現潮無一不在說明產業界對「生成」的重視。
視訊生成,簡言之是透過生成式人工智慧技術,將文本、圖片等多模態輸入,轉化為視訊訊號。
當前,視訊生成的技術路線主要有兩種。一種是擴散模型,其中又分為兩類,一類是基於摺積神經網路的擴散模型,如Meta的EmuVideo、騰訊等推出的VideoCrafter;一類是基於Transformer架構的擴散模型,如OpenAI的Sora、快手的可靈AI、生數科技的Vidu等。另一種是自回歸路線,如谷歌的VideoPoet、Phenaki等。
2024年7月26日,中國科技企業智譜AI面向全球使用者釋出其自主研發的人工智慧生成視訊模型清影(Ying)。圖為使用者登入界面
目前,基於Transformer架構的擴散模型是視訊生成模型的主流選擇,也稱「DiT」(Di為Diffusion縮寫,T為Transformer縮寫)。
文本「擴散」為視訊?「擴散在此指一種建模方式。」北京大學資訊工程學院助理教授、博士生導師袁粒舉了一個生動例子——
米開朗琪羅在鑿刻著名的大衛雕像時,說過這樣一句話:雕塑本來就在石頭裏,我只是把不要的部份去掉。「這句話很形象地形容了‘擴散’這一建模過程。原始的純雜訊視訊好比未經雕琢的石塊。如何敲打這個大石塊,敲除多余的部份,直到把它敲成輪廓清晰的‘大衛’,這樣的方式就是‘擴散’。」袁粒說。
袁粒進一步解釋:「Transformer就是一個神經網路,遵從‘規模規則’,執行敲石塊的過程。它能處理輸入的時空資訊,透過理解其內部復雜關系來理解現實世界,使模型具備推理能力,既能捕捉視訊幀之間的細微聯系,也能確保視覺上的連貫、時間上的流暢。」
「效率搭子」,有多快
一只憨態可掬的北極熊被鬧鐘叫醒,背起行囊,乘坐直升機、轉乘高鐵、換乘出租車、登上輪船,跨越山河湖海、歷盡艱難險阻,終於到達南極,與企鵝相會……
這部時長1分半、名為【一路向南】的動畫短片,由視訊生成模型Vidu完成。原本1個月的工作量,有了AI這個「效率搭子」的加入,僅用1周時間就制作出精良作品——效率是過去的4倍。
這讓北京電影節AIGC短片單元最佳影片得主、Ainimate Lab AI負責人陳劉芳心生感慨:視訊生成技術,讓高水平動畫不再是大廠才敢玩的「燒錢遊戲」。
AI動畫【一路向南】的創作團隊僅由3人構成:一名導演、一名故事版藝術家、一名AIGC技術套用專家。而以傳統流程制作的話,需要20人。算下來,僅制作成本就降低90%以上。
正如快手視覺生成和互動中心負責人萬鵬飛所言,視訊生成的本質是從目標分布中采樣計算得到像素。這種方式能以更低的成本,達到更高的內容自由度。
進入Vidu的視訊生成頁面,筆者也體驗了一把「一鍵生成」的自由。上傳一張照片設定為「起始幀」或作為「參考的人物角色」,在對話方塊裏輸入想要生成的場景的文字描繪,點選「生成」,一條靈動精彩的短視訊就自動生成了。從進入頁面到下載完畢,不足1分鐘。
將一張圖片發給國產視訊大模型Vidu,一段動畫視訊隨即自動生成。圖為視訊截圖
「‘人人成為設計師’‘人人成為導演’的時代將會到來,就像當年‘人人擁有麥克風’一般。」智譜AI執行長張鵬說。
「世界模擬器」,有戲嗎
視訊生成,顛覆的僅僅是內容產業嗎?這顯然不是OpenAI的初衷。「生成視訊」只是一道「開胃菜」。
Sora誕生之前,OpenAI並未將其定位為AIGC的實作工具,而是復刻物理世界的「容器」——世界模擬器。這一容器裏,執行著真實世界的物理規律、環境行為、互動邏輯,恰似【黑客帝國】描繪的虛擬世界,沖擊著我們的想象與感官。
然而,物理世界是三維的,目前的Sora等模型還只是基於二維運作,並非真實物理引擎,也就談不到深層次的物理世界模擬。
「多年來,我一直表示,‘看到’世界即為‘理解’世界。但是現在我願意將這個概念推進一步,‘看到’不僅僅是為了‘理解’,而是為了‘做到’。」史丹佛大學講席教授李飛飛公開表示,空間智慧的底線是將「看到」和「做到」聯系在一起,有一天,AI將會做到這一點。
當「看到」還不等於「做到」時,人工智慧的創造就不能停。最近,又有新的技術路線出現了。不同路線之間你追我趕,共同向前,推進這個由向量與模型構造的智慧世界。
未來的「世界觀」,依舊是一道尚未揭曉的謎題。正如美國物理學家費曼所說:「我不能創造一個我不理解的世界。」但這並不意味著,理解了一個世界,就一定能夠創造出一個世界。
此刻,依舊是顛覆到來的前夜。這就是為什麽當我們向技術探索者丟擲關於未來的問題時,會得到截然不同的答案。也許「不確定」,正是這個時代的幸事。