百萬制作成本為零，成為導演不是夢！強大Sora或將影視業推入深淵

2024-12-18心靈

連張藝謀都感嘆影視業落幕腳步或將加快，人人成為導演不是夢想！強大的Sora或將「一鍵勾銷」百萬制作成本

2024-12-16 19:38

IT時報

Sora終結AI視訊開盲盒

作者／ IT時報記者 沈毅斌

編輯／ 郝俊慧 孫妍

「這是給大家準備的聖誕節禮物。」時隔10個月，OpenAI宣布正式向使用者開放人工智慧視訊生成模型Sora，使用者可以透過文字、影像或其他視訊素材，生成長達20秒的視訊。

除了在生成視訊的時長上有所突破，Sora還帶來了強大的視訊「編輯」功能，包括Remix（重混）、Re-cut（重新剪輯）、Storyboard（故事板）、Loop（迴圈）、Blend（混合）以及 style
presets（風格預設）。簡單來說，就是使用者可以透過指令對生成視訊進行精準裁剪、擴充套件生成、拼接混合、迴圈等。

當生成與編輯集於一身的Sora強勢來襲，一方面，壓力傳導至國產「Sora們」，一致性這一核心技術成為突破焦點；另一方面，AIGC改變影視劇制作行業的商業拐點，正在加速到來。

Sora一超國產多強

一致性控制，一直是當前視訊生成領域亟待解決的技術難題。生數科技相關負責人告訴【IT時報】記者，業界解決一致性問題最主流的方案是LoRA（Low-Rank

Adaptation）微調方案。所謂LoRA方案，即在預訓練模型的基礎上，用特定主體的多段視訊進行微調，讓模型理解該主體的特征，從而生成該主體在不同角度、光線和場景下的形象，保證其在若幹次不同生成時的一致性。

簡單理解，比如創作一只卡通狗的形象，想生成連續一致的視訊畫面，但模型在預訓練過程中並沒有學習過該形象，就需要拿卡通狗的多段視訊，讓模型進一步訓練，認識這只卡通狗長什麽樣。

但這一方案通常需要投入20~100段視訊，數據構造煩瑣，耗費數個小時甚至更久的訓練時間，成本是單次視訊生成的成百上千倍。 而且還容易產生過擬合，即在理解主體特征的同時，會遺忘大量原先的知識。所以LoRA主要適用於大多數簡單情形下的主體一致性需求，而對於高復雜的主體或問題場景，需要更多的微調數據和更復雜的模型微調策略。

盡管Sora並未公布其控制一致性的技術，但顯然已經有所突破，並在業界處於領先位置。從大批視訊創作者爭先釋出針對Sora的測評、對比等體驗感受來看，大部份使用者還是被其強大的一致性控制能力所驚艷，尤其是Storyboard功能，能夠透過時間軸中的分鏡幀來引導畫面內容，確保鏡頭的一致性。

緊隨其後的國產視訊生成大模型廠商們在一致性方面也各顯神通。就在Sora上線前不久，中國電信人工智慧研究院（TeleAI）釋出的視訊大模型采用「二階段生成技術（VAST）」，也實作了主體和環境在不同片段中的形象一致性。

這項技術將視訊生成分為兩個過程，第一階段，采用多模態大型模型根據文本輸入生成中間素材，包括視訊構圖、主體目標位置及人物姿態等關鍵資訊的「Storyboard（故事板）」。第二階段，利用基於DiT架構的擴散模型，結合目標物件的文本描述和外觀資訊，生成最終的視訊。

生數科技 Vidu 則透過釘選主體形象的方式開發出「主體參照」功能。無須專門的數據采集、數據標註、微調訓練環節，使用者上傳任意一張圖片，Vidu就能釘選主體形象，透過描述詞任意切換場景也能保證輸出主體一致的視訊。可靈AI打造的運動筆刷功能，能做到主體一致性不變的情況下，對畫面中的元素指定運動軌跡，從而提升視訊可控性。

因此，在國內同行看來，Sora正式版的表現雖好，但也在預期之內。生數科技首席科學家朱軍認為， 相比今年二月的首次釋出，沖擊度已經弱了很多 ；智譜CEO張鵬表示， 如果看技術指標，國內有的視訊生成模型不比Sora差 。

一超多強的局面正在視訊大模型領域形成。

視訊界的「蒸汽機」來了

從生成視訊到編輯視訊，被Sora功能驚艷的不僅有體驗者，還有整個影視劇行業。

Sora上線之前，上海大學溫哥華電影學院副院長陳曉達曾和學生團隊做過一次測試，為了成功生成一個想要的鏡頭畫面，向視訊大模型最多輸入超300條指令，「每生成一幀畫面都是一次‘開盲盒’，無法確保生成內容符合標準，因此只能花費大量時間不斷生成，從中挑選出可用畫面拼湊成一部短劇」。

Sora上線後，針對特定畫面的可控編輯，讓陳曉達看到了專業性，也看到利用AI制作長視訊的希望。

「對於影視制作來說，重混、重新剪輯、混合等是剪輯裏的專業領域。」陳曉達向【IT時報】記者舉例稱，如果想達到主體變化而場景不變的效果，按照傳統方式，需要在前期拍攝兩段場景相似，主體不同的片段，後期還需要多圖層編輯，必要時要將主體從背景中摳出來，才能建立出全新的視覺效果。

而Sora釋出的Demo中，Remix（重混）可以將「奔跑的猛獁象」一鍵替換成「奔跑的機器人」，前期拍攝和後期編輯都變成精準的指令控制，對於視訊制作而言無疑是降本增效。

上海人工智慧研究院演算法工程師黃冠在接受媒體采訪時也表示，在當前情形下，Sora更多是作為輔助工具提高工作效率，但從工具內容上看，Sora帶來了一場「革命」，傳統視訊的制作方法可能完全被顛覆。未來，當理想版Sora以及AIGC成為現實，不僅是視訊行業的「工具革命」，說是媒體行業新一輪的「工業革命」也不為過。

此外，Sora剪輯功能的亮相也為視訊生成大模型和剪輯工具軟體樹立起AI智慧的標桿。

陳曉達認為，Sora的貢獻在於0~1的突破，但1~10的發展一直是國產的優勢所在，「Sora只是打了一個樣，我更期待有更多的套用創新。作為視訊制作者，我們希望可以誕生一種智慧與專業於一體的視訊工具，能在自動生成編輯與手動專業微調中來回切換。」

AIGC

將全面「入侵」影視業

當視訊生成大模型成為生產工具，商業化的拐點也將到來。

視訊大模型有多賺錢？根據Sora Turbo采用的靈活積分制定價策略，【IT時報】記者計算，每積分成本為0.02美元（約人民幣0.145元），在不使用其他功能的前提下， Sora生成一個5秒480P視訊成本為0.5美元，折合人民幣3.63元。生成5秒1080P視訊成本為4美元（約人民幣27.6元）。

快手科技創始人兼執行長程一笑透露，可靈AI使用者已超500萬，累計生成超5100萬個視訊和超1.5億張圖片，且使用者留存還在逐月提升，在9月實作了月活超150萬，商業化單月流水超過千萬元。

視訊大模型有多省錢？陳曉達告訴記者，從前期的布景、美術、服化道，到中期的拍攝、演員，再到後期的特效，如果場面宏大些加點爆破，成本輕松超過百萬元，甚至千萬元。若AI能一步到位，將會讓制作成本「斷崖式」下降，甚至「一鍵勾銷」。

「當AIGC在影視行業真正實作商業化後， 我認為主要成本將只剩下兩個，一是導演和編劇的創意成本，二是AI人才的培養成本。 」陳曉達說。

從Sora釋出到上線的10個月時間，仿佛給影視行業打了一針AI「強心劑」，各大影視行業公司和知名導演紛紛開始擁抱AIGC。

華策影視推出AIGC新套用「影視劇本智慧創作系統」，提供「評估助手」和「編劇助手」工具，評估助手能將一本20萬～50萬字的小說劇本評估時間從3天壓縮為5分鐘。華策影視方面表示，將積極探索文生視訊等新興AI技術在傳媒領域的落地套用與業態創新。

博納影業利用AIGC技術完成了從劇本創作到視訊編輯等多種工作，出品制作的AIGC生成連續性敘事科幻短劇集【三星堆：未來啟示錄】在抖音播出。博納影業表示，AIGC是聯動影視產業上下遊多模態的鑰匙，可實作降本增效並探索突破性變革。

12月6日，中國第一個AIGC導演共創計劃舉辦，由李少紅、賈樟柯、俞白眉等9位導演共同發起，旨在借助AI的力量激發創意潛能。

陳曉達還透露，明年上海電影節計劃開設AIGC板塊，鼓勵創作者利用Sora等視訊生成大模型制作影視劇，加快推動AI在影視行業的套用落地。