影片ChatGPT時代來了？Meta挑戰霸主Sora

2024-10-21心靈

國產生影片百花齊放，Sora仍將是風向標

作者／ IT時報記者賈天榮

編輯／王昕孫妍

近日，Meta釋出Movie Gen，稱其為「最先進的媒體基礎模型」。據悉，Movie Gen可生成1080P、16秒、每秒16幀的高畫質長影片，其不但可以透過文本輸入生成影片，還可以透過文本對現有影片進行編輯修改，據稱逼真程度超越Sora，Movie Gen預計明年正式向公眾開放。

Movie Gen生成的影片

【IT時報】記者註意到，如今幾乎所有新推出的文生影片產品都會與年初亮相的Sora對比，將之視為最強大的競爭者。 不過，Sora一鳴驚人後卻遲遲未上線，被外界調侃為「期貨」，那麽「影片ChatGPT時代」究竟何時來臨？

OpenAI的內憂外患

距離首次亮相已超過半年，Sora為何遲遲未能正式上線？

Logenic AI聯合創始人李博傑向【IT時報】記者表示，Sora未能如期釋出的主要原因可能與其所需的算力資源密切相關。Sora模型本身需要占用大量計算資源， 生成一分鐘影片的時間高達約半小時 ，且並非單台器材完成，而是需要多台並列執行，這

;96t0k-kt9ogpotot\/.t/t/T/FTddddddddft t分鐘影片的成本可能超過100美元。

李博傑指出，如果普通使用者生成一分鐘影片要花費100美元，那麽如此高的成本對於消費級市場來說顯然難以接受。 因此，Sora尚未能大規模推廣。相比之下，一些國內公司選擇了較小規模的模型，雖然生成效果不如Sora，但在當前算力有限的情況下更加實用，能讓使用者立即上手。

Sora如何降低成本？可能需要依賴模型蒸餾這一技術。

模型蒸餾是指透過使用大型、強大的模型(如GPT-4o或o1-preview)的輸出，來微調更小、更具成本效益的模型(如GPT-4o mini)，以在特定任務上接近高級模型的效能，但成本大振幅降低。

如GPT-4o mini，透過模型蒸餾技術將成本降低了30倍，「理論上Sora也可以采取這種方法，將模型能力稍微削弱，但成本卻能大幅下降。」李博傑同時指出，這一過程需要大量資源投入，而資源恰恰是當前OpenAI內部面臨的一個重要問題。

近日，【The Information】報道稱， OpenAI因不滿微軟無法快速提供足夠的伺服器，開始與Oracle洽談，以建立全球最強的AI數據中心。 OpenAI財務長Sarah Friar此前表示，由於微軟提供的算力不夠，OpenAI不得不尋找其他數據中心合作。

另一方面，盡管OpenAI擁有比大多數公司更多的GPU資源，但團隊規模龐大，內部的資源爭奪和職場鬥爭不斷。 OpenAI內部約有3000名員工，不少團隊需要搶占資源，高管的頻繁離職也與此有關。

OpenAI部份團隊專註於商業化，需要快速推向市場，因此占用了大量GPU資源。尤其是GPT-4的免費開放，更加劇了資源消耗。此外，OpenAI還在不斷訓練新模型，如o1推理模型、Sora的最新版本、GPT-4.5以及即將推出的GPT-5，進一步加重了計算資源的負擔。

當地時間10月4日，OpenAI的文生影片大模型Sora團隊研發負責人Tim Brooks宣布離職，加入谷歌 DeepMind。在此之前，9月26日，OpenAI高層也經歷了重大變動，多位高管相繼離職，創始團隊成員僅剩三人。

此外，在美國，生成式AI引起的版權爭議正愈演愈烈。此前，超過4700名藝術家發起集體訴訟，指控Stability AI、Midjourney和其他AI相關公司非法使用版權作品用於訓練AI。相比文本生成，圖片、影片和語音的版權風險更大，影片生成面臨更多的版權問題。

內憂外患之中，Sora終成「期貨」。

國產文生影片百花齊放

對於廣大使用者而言，Sora從「理想」到「現實」的進展緩慢無疑令人失望與焦慮。Sora首次亮相時，業內的討論還聚焦於中美AI技術的差距。如今，短短半年後，國內AI創作領域已然「百花齊放」。相比之下，Meta的入局已經顯得慢了半拍，中國企業迫不及待地開始布局影片生成技術。

今年3月底，字節跳動旗下的剪映團隊推出AI創作平台「即夢AI」並開放內測。8月6日，移動版套用正式上線蘋果商店，具備文生圖、文生影片和圖生影片等功能。

6月13日，美圖釋出了基於大模型的短片創作平台MOKI，創作者只需經過簡單設定，即可生成動畫短片、網文短劇、故事繪本和MV等多種內容，極大降低了創作門檻。

6月21日，快手推出旗下的「可靈」圖生影片功能，7月24日，基礎模型升級，顯著提升了畫面質素與運動表現。

大模型領域的初創公司同樣不甘落後。愛詩科技推出了AI影片生成產品PixVerse，生數科技4月釋出了影片生成模型Vidu，智譜AI7月26日上線清影（Ying），MiniMax則於9月2日推出abab-video-1，其高壓縮率、優良的文本響應能力以及多樣化風格，能夠生成媲美電影質感的高分辨率、高幀率影片。

據德邦證券統計，自Sora首次亮相以來，全球已有十多家公司釋出或更新了影片生成模型。

作為自2023年2月起就開始體驗各種影片創作工具的資深使用者，俞國漢見證了AI影片創作領域快速變化。

「最開始要將影片的每一幀都用影像生成模型Stable-Diffusion進行圖生圖處理，然後再連成影片。」俞國漢回憶道。這種方法雖然能夠生成具有創意效果的影片，但每一幀圖生圖之間存在差別，導致最終的影片效果總是閃爍不定，嚴重影響了觀看體驗。

此後，字節跳動的Animatediff模型出現，憑借免費、本地使用且可操作性強的優點，迅速獲得了技術愛好者們的青睞，成為影片轉影片的主流工具。與此同時，市場上也湧現出了一些高質素的圖生影片工具，如Runway Gen2因其出色的畫質和高分辨率，一度受到短劇領域的青睞。

2024年初Sora的面世給影片創作領域帶來一波新浪潮。「那時候大家對Sora既充滿期待又感到不安，覺得之前花時間研究的影片技術都變得不再重要了。」俞國漢回憶道。

直到2024年6月，快手「可靈」正式釋出，讓俞國漢在內的創作者們直呼「原來真的有那麽好的文生影片工具」。可靈不僅提升了文生影片的表現，還證明了高質素文生影片的可能性。此後，市場上湧現出了多種文生影片工具，如Vidu、Runway、Luma、海螺AI等，每款工具都各有特色。

俞國漢向【IT時報】記者詳細介紹了自己體驗這些文生影片工具的直觀感受，比如海螺AI以其優秀的動畫、鏡頭運用和人物情感表達而著稱；Vidu在語意理解、特效2D動畫、一致性等表現出色；Runway則以其較高的分辨率、優秀的畫面質感成為廣告行業的理想選擇；而可靈則因其平衡的效能而被視為多面手。

商業化「道阻且長」

俞國漢指出，目前使用AI影片制作對於個人使用者而言成本仍然較高，但對於企業來說，這種成本是可以接受的，商用AI影片制作中，畫面一致性、分辨率和語意理解能力是決定影片質素的關鍵因素。

盡管文生影片技術為創意工作開辟了新的空間，但其現有的局限性使得它在商業套用中的價值遠不及圖生影片。目前來看，文生影片大多時候更像是愛好者的「玩具」，難以滿足商業需求。因為在短劇制作中，需要確保人物形象和其他元素的一致性，而文生影片往往只能生成幾秒鐘的內容，且下一秒的內容可能會發生變化，這顯然無法滿足專業制作的要求。

李博傑也指出，在技術層面，文生影片面臨的關鍵挑戰之一是風格一致性的問題。例如，在生成一個10秒的影片時，人物形象是否保持一致，是否會出現前後影片中人物外貌不符的情況。此外，影片中的物理規律是否符合常識也是一個難點。

「Sora的關鍵作用在於它為行業指明了方向。如果它能夠降低成本並進入市場，其他公司將會紛紛跟進，投入資源進行開發。」李博傑表示， 盡管目前Sora的效果未達最佳，但如果它開源影片生成模型，將帶來一場顛覆性的行業變革。

事實上，當前市面上缺乏先進開源的影片生成模型。大多數頭部公司如Meta和Sora都選擇了閉源。雖然Meta近期釋出了一份92頁的技術報告，詳細闡述了技術細節，開放程度已超出其他公司，但模型本身仍未開源。若未來這些模型能實作開源，將極大推動影片生成行業的發展。

盡管如此，李博傑認為，Sora未來能夠在市場上推出，依然具備強大的有利競爭，「OpenAI在數據和算力上的顯著優勢讓其在市場中獨樹一幟，其他公司既沒有那麽多的GPU資源，也缺乏同等規模的高質素數據」。

排版／季嘉穎

圖片／ Movie Gen 即夢AI MOKI 東方IC

來源／【IT時報】公眾號vittimes