連張藝謀都感嘆影視業落幕腳步或將加快,人人成為導演不是夢想!強大的Sora或將「一鍵勾銷」百萬制作成本
Sora終結AI視訊開盲盒
作者/ IT時報記者 沈毅斌
編輯/ 郝俊慧 孫妍
「這是給大家準備的聖誕節禮物。」時隔10個月,OpenAI宣布正式向使用者開放人工智慧視訊生成模型Sora,使用者可以透過文字、影像或其他視訊素材,生成長達20秒的視訊。
除了在生成視訊的時長上有所突破,Sora還帶來了強大的視訊「編輯」功能,包括Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(迴圈)、Blend(混合)以及 style
presets(風格預設)。簡單來說,就是使用者可以透過指令對生成視訊進行精準裁剪、擴充套件生成、拼接混合、迴圈等。
當生成與編輯集於一身的Sora強勢來襲,一方面,壓力傳導至國產「Sora們」,一致性這一核心技術成為突破焦點;另一方面,AIGC改變影視劇制作行業的商業拐點,正在加速到來。
Sora一超 國產多強
一致性控制,一直是當前視訊生成領域亟待解決的技術難題。生數科技相關負責人告訴【IT時報】記者,業界解決一致性問題最主流的方案是LoRA(Low-Rank
Adaptation)微調方案。所謂LoRA方案,即在預訓練模型的基礎上,用特定主體的多段視訊進行微調,讓模型理解該主體的特征,從而生成該主體在不同角度、光線和場景下的形象,保證其在若幹次不同生成時的一致性。
簡單理解,比如創作一只卡通狗的形象,想生成連續一致的視訊畫面,但模型在預訓練過程中並沒有學習過該形象,就需要拿卡通狗的多段視訊,讓模型進一步訓練,認識這只卡通狗長什麽樣。
但這一方案通常需要投入20~100段視訊,數據構造煩瑣,耗費數個小時甚至更久的訓練時間,成本是單次視訊生成的成百上千倍。 而且還容易產生過擬合,即在理解主體特征的同時,會遺忘大量原先的知識。所以LoRA主要適用於大多數簡單情形下的主體一致性需求,而對於高復雜的主體或問題場景,需要更多的微調數據和更復雜的模型微調策略。
盡管Sora並未公布其控制一致性的技術,但顯然已經有所突破,並在業界處於領先位置。從大批視訊創作者爭先釋出針對Sora的測評、對比等體驗感受來看,大部份使用者還是被其強大的一致性控制能力所驚艷,尤其是Storyboard功能,能夠透過時間軸中的分鏡幀來引導畫面內容,確保鏡頭的一致性。
緊隨其後的國產視訊生成大模型廠商們在一致性方面也各顯神通。就在Sora上線前不久,中國電信人工智慧研究院(TeleAI)釋出的視訊大模型采用「二階段生成技術(VAST)」,也實作了主體和環境在不同片段中的形象一致性。
這項技術將視訊生成分為兩個過程,第一階段,采用多模態大型模型根據文本輸入生成中間素材,包括視訊構圖、主體目標位置及人物姿態等關鍵資訊的「Storyboard(故事板)」。第二階段,利用基於DiT架構的擴散模型,結合目標物件的文本描述和外觀資訊,生成最終的視訊。
生數科技 Vidu 則透過釘選主體形象的方式開發出「主體參照」功能。無須專門的數據采集、數據標註、微調訓練環節,使用者上傳任意一張圖片,Vidu就能釘選主體形象,透過描述詞任意切換場景也能保證輸出主體一致的視訊。可靈AI打造的運動筆刷功能,能做到主體一致性不變的情況下,對畫面中的元素指定運動軌跡,從而提升視訊可控性。
因此,在國內同行看來,Sora正式版的表現雖好,但也在預期之內。生數科技首席科學家朱軍認為, 相比今年二月的首次釋出,沖擊度已經弱了很多 ;智譜CEO張鵬表示, 如果看技術指標,國內有的視訊生成模型不比Sora差 。
一超多強的局面正在視訊大模型領域形成。
視訊界的「蒸汽機」來了
從生成視訊到編輯視訊,被Sora功能驚艷的不僅有體驗者,還有整個影視劇行業。
Sora上線之前,上海大學溫哥華電影學院副院長陳曉達曾和學生團隊做過一次測試,為了成功生成一個想要的鏡頭畫面,向視訊大模型最多輸入超300條指令,「每生成一幀畫面都是一次‘開盲盒’,無法確保生成內容符合標準,因此只能花費大量時間不斷生成,從中挑選出可用畫面拼湊成一部短劇」。
Sora上線後,針對特定畫面的可控編輯,讓陳曉達看到了專業性,也看到利用AI制作長視訊的希望。
「對於影視制作來說,重混、重新剪輯、混合等是剪輯裏的專業領域。」陳曉達向【IT時報】記者舉例稱,如果想達到主體變化而場景不變的效果,按照傳統方式,需要在前期拍攝兩段場景相似,主體不同的片段,後期還需要多圖層編輯,必要時要將主體從背景中摳出來,才能建立出全新的視覺效果。
而Sora釋出的Demo中,Remix(重混)可以將「奔跑的猛獁象」一鍵替換成「奔跑的機器人」,前期拍攝和後期編輯都變成精準的指令控制,對於視訊制作而言無疑是降本增效。
上海人工智慧研究院演算法工程師黃冠在接受媒體采訪時也表示,在當前情形下,Sora更多是作為輔助工具提高工作效率,但從工具內容上看,Sora帶來了一場「革命」,傳統視訊的制作方法可能完全被顛覆。未來,當理想版Sora以及AIGC成為現實,不僅是視訊行業的「工具革命」,說是媒體行業新一輪的「工業革命」也不為過。
此外,Sora剪輯功能的亮相也為視訊生成大模型和剪輯工具軟體樹立起AI智慧的標桿。
陳曉達認為,Sora的貢獻在於0~1的突破,但1~10的發展一直是國產的優勢所在,「Sora只是打了一個樣,我更期待有更多的套用創新。作為視訊制作者,我們希望可以誕生一種智慧與專業於一體的視訊工具,能在自動生成編輯與手動專業微調中來回切換。」
AIGC
將全面「入侵」影視業
當視訊生成大模型成為生產工具,商業化的拐點也將到來。
視訊大模型有多賺錢?根據Sora Turbo采用的靈活積分制定價策略,【IT時報】記者計算,每積分成本為0.02美元(約人民幣0.145元),在不使用其他功能的前提下, Sora生成一個5秒480P視訊成本為0.5美元,折合人民幣3.63元。生成5秒1080P視訊成本為4美元(約人民幣27.6元)。
快手科技創始人兼執行長程一笑透露,可靈AI使用者已超500萬,累計生成超5100萬個視訊和超1.5億張圖片,且使用者留存還在逐月提升,在9月實作了月活超150萬,商業化單月流水超過千萬元。
視訊大模型有多省錢?陳曉達告訴記者, 從前期的布景、美術、服化道,到中期的拍攝、演員,再到後期的特效,如果場面宏大些加點爆破,成本輕松超過百萬元,甚至千萬元。若AI能一步到位,將會讓制作成本「斷崖式」下降,甚至「一鍵勾銷」。
「當AIGC在影視行業真正實作商業化後, 我認為主要成本將只剩下兩個,一是導演和編劇的創意成本,二是AI人才的培養成本。 」陳曉達說。
從Sora釋出到上線的10個月時間,仿佛給影視行業打了一針AI「強心劑」,各大影視行業公司和知名導演紛紛開始擁抱AIGC。
華策影視推出AIGC新套用「影視劇本智慧創作系統」,提供「評估助手」和「編劇助手」工具,評估助手能將一本20萬~50萬字的小說劇本評估時間從3天壓縮為5分鐘。華策影視方面表示,將積極探索文生視訊等新興AI技術在傳媒領域的落地套用與業態創新。
博納影業利用AIGC技術完成了從劇本創作到視訊編輯等多種工作,出品制作的AIGC生成連續性敘事科幻短劇集【三星堆:未來啟示錄】在抖音播出。博納影業表示,AIGC是聯動影視產業上下遊多模態的鑰匙,可實作降本增效並探索突破性變革。
12月6日,中國第一個AIGC導演共創計劃舉辦,由李少紅、賈樟柯、俞白眉等9位導演共同發起,旨在借助AI的力量激發創意潛能。
陳曉達還透露,明年上海電影節計劃開設AIGC板塊,鼓勵創作者利用Sora等視訊生成大模型制作影視劇,加快推動AI在影視行業的套用落地。