當前位置: 華文星空 > 心靈

影片ChatGPT時代來了?Meta挑戰霸主Sora

2024-10-21心靈

國產生影片百花齊放,Sora仍將是風向標

作者/ IT時報記者 賈天榮

編輯/ 王昕 孫妍

近日,Meta釋出Movie Gen,稱其為「最先進的媒體基礎模型」。據悉,Movie Gen可生成1080P、16秒、每秒16幀的高畫質長影片,其不但可以透過文本輸入生成影片,還可以透過文本對現有影片進行編輯修改,據稱逼真程度超越Sora,Movie Gen預計明年正式向公眾開放。

Movie Gen生成的影片

【IT時報】記者註意到,如今幾乎所有新推出的文生影片產品都會與年初亮相的Sora對比,將之視為最強大的競爭者。 不過,Sora一鳴驚人後卻遲遲未上線,被外界調侃為「期貨」,那麽「影片ChatGPT時代」究竟何時來臨?

OpenAI的內憂外患

距離首次亮相已超過半年,Sora為何遲遲未能正式上線?

Logenic AI聯合創始人李博傑向【IT時報】記者表示,Sora未能如期釋出的主要原因可能與其所需的算力資源密切相關。Sora模型本身需要占用大量計算資源, 生成一分鐘影片的時間高達約半小時 ,且並非單台器材完成,而是需要多台並列執行,這

;96t0k-kt9ogpotot\/.t/t/T/FTddddddddft t分鐘影片的成本可能超過100美元。

李博傑指出,如果普通使用者生成一分鐘影片要花費100美元,那麽如此高的成本對於消費級市場來說顯然難以接受。 因此,Sora尚未能大規模推廣。相比之下,一些國內公司選擇了較小規模的模型,雖然生成效果不如Sora,但在當前算力有限的情況下更加實用,能讓使用者立即上手。

Sora如何降低成本?可能需要依賴模型蒸餾這一技術。

模型蒸餾是指透過使用大型、強大的模型(如GPT-4o或o1-preview)的輸出,來微調更小、更具成本效益的模型(如GPT-4o mini),以在特定任務上接近高級模型的效能,但成本大振幅降低。

如GPT-4o mini,透過模型蒸餾技術將成本降低了30倍,「理論上Sora也可以采取這種方法,將模型能力稍微削弱,但成本卻能大幅下降。」李博傑同時指出,這一過程需要大量資源投入,而資源恰恰是當前OpenAI內部面臨的一個重要問題。

近日,【The Information】報道稱, OpenAI因不滿微軟無法快速提供足夠的伺服器,開始與Oracle洽談,以建立全球最強的AI數據中心。 OpenAI財務長Sarah Friar此前表示,由於微軟提供的算力不夠,OpenAI不得不尋找其他數據中心合作。

另一方面,盡管OpenAI擁有比大多數公司更多的GPU資源,但團隊規模龐大,內部的資源爭奪和職場鬥爭不斷。 OpenAI內部約有3000名員工,不少團隊需要搶占資源,高管的頻繁離職也與此有關。

OpenAI部份團隊專註於商業化,需要快速推向市場,因此占用了大量GPU資源。尤其是GPT-4的免費開放,更加劇了資源消耗。此外,OpenAI還在不斷訓練新模型,如o1推理模型、Sora的最新版本、GPT-4.5以及即將推出的GPT-5,進一步加重了計算資源的負擔。

當地時間10月4日,OpenAI的文生影片大模型Sora團隊研發負責人Tim Brooks宣布離職,加入谷歌 DeepMind。在此之前,9月26日,OpenAI高層也經歷了重大變動,多位高管相繼離職,創始團隊成員僅剩三人。

此外,在美國,生成式AI引起的版權爭議正愈演愈烈。此前,超過4700名藝術家發起集體訴訟,指控Stability AI、Midjourney和其他AI相關公司非法使用版權作品用於訓練AI。相比文本生成,圖片、影片和語音的版權風險更大,影片生成面臨更多的版權問題。

內憂外患之中,Sora終成「期貨」。

國產文生影片百花齊放

對於廣大使用者而言,Sora從「理想」到「現實」的進展緩慢無疑令人失望與焦慮。Sora首次亮相時,業內的討論還聚焦於中美AI技術的差距。如今,短短半年後,國內AI創作領域已然「百花齊放」。相比之下,Meta的入局已經顯得慢了半拍,中國企業迫不及待地開始布局影片生成技術。

今年3月底,字節跳動旗下的剪映團隊推出AI創作平台「即夢AI」並開放內測。8月6日,移動版套用正式上線蘋果商店,具備文生圖、文生影片和圖生影片等功能。

6月13日,美圖釋出了基於大模型的短片創作平台MOKI,創作者只需經過簡單設定,即可生成動畫短片、網文短劇、故事繪本和MV等多種內容,極大降低了創作門檻。

6月21日,快手推出旗下的「可靈」圖生影片功能,7月24日,基礎模型升級,顯著提升了畫面質素與運動表現。

大模型領域的初創公司同樣不甘落後。愛詩科技推出了AI影片生成產品PixVerse,生數科技4月釋出了影片生成模型Vidu,智譜AI7月26日上線清影(Ying),MiniMax則於9月2日推出abab-video-1,其高壓縮率、優良的文本響應能力以及多樣化風格,能夠生成媲美電影質感的高分辨率、高幀率影片。

據德邦證券統計,自Sora首次亮相以來,全球已有十多家公司釋出或更新了影片生成模型。

作為自2023年2月起就開始體驗各種影片創作工具的資深使用者,俞國漢見證了AI影片創作領域快速變化。

「最開始要將影片的每一幀都用影像生成模型Stable-Diffusion進行圖生圖處理,然後再連成影片。」俞國漢回憶道。這種方法雖然能夠生成具有創意效果的影片,但每一幀圖生圖之間存在差別,導致最終的影片效果總是閃爍不定,嚴重影響了觀看體驗。

此後,字節跳動的Animatediff模型出現,憑借免費、本地使用且可操作性強的優點,迅速獲得了技術愛好者們的青睞,成為影片轉影片的主流工具。與此同時,市場上也湧現出了一些高質素的圖生影片工具,如Runway Gen2因其出色的畫質和高分辨率,一度受到短劇領域的青睞。

2024年初Sora的面世給影片創作領域帶來一波新浪潮。「那時候大家對Sora既充滿期待又感到不安,覺得之前花時間研究的影片技術都變得不再重要了。」俞國漢回憶道。

直到2024年6月,快手「可靈」正式釋出,讓俞國漢在內的創作者們直呼「原來真的有那麽好的文生影片工具」。可靈不僅提升了文生影片的表現,還證明了高質素文生影片的可能性。此後,市場上湧現出了多種文生影片工具,如Vidu、Runway、Luma、海螺AI等,每款工具都各有特色。

俞國漢向【IT時報】記者詳細介紹了自己體驗這些文生影片工具的直觀感受,比如 海螺AI以其優秀的動畫、鏡頭運用和人物情感表達而著稱;Vidu在語意理解、特效2D動畫、一致性等表現出色;Runway則以其較高的分辨率、優秀的畫面質感成為廣告行業的理想選擇;而可靈則因其平衡的效能而被視為多面手。

商業化「道阻且長」

俞國漢指出,目前使用AI影片制作對於個人使用者而言成本仍然較高,但對於企業來說,這種成本是可以接受的,商用AI影片制作中,畫面一致性、分辨率和語意理解能力是決定影片質素的關鍵因素。

盡管文生影片技術為創意工作開辟了新的空間,但其現有的局限性使得它在商業套用中的價值遠不及圖生影片。目前來看,文生影片大多時候更像是愛好者的「玩具」,難以滿足商業需求。因為在短劇制作中,需要確保人物形象和其他元素的一致性,而文生影片往往只能生成幾秒鐘的內容,且下一秒的內容可能會發生變化,這顯然無法滿足專業制作的要求。

李博傑也指出,在技術層面,文生影片面臨的關鍵挑戰之一是風格一致性的問題。例如,在生成一個10秒的影片時,人物形象是否保持一致,是否會出現前後影片中人物外貌不符的情況。此外,影片中的物理規律是否符合常識也是一個難點。

「Sora的關鍵作用在於它為行業指明了方向。如果它能夠降低成本並進入市場,其他公司將會紛紛跟進,投入資源進行開發。」李博傑表示, 盡管目前Sora的效果未達最佳,但如果它開源影片生成模型,將帶來一場顛覆性的行業變革。

事實上,當前市面上缺乏先進開源的影片生成模型。大多數頭部公司如Meta和Sora都選擇了閉源。雖然Meta近期釋出了一份92頁的技術報告,詳細闡述了技術細節,開放程度已超出其他公司,但模型本身仍未開源。若未來這些模型能實作開源,將極大推動影片生成行業的發展。

盡管如此,李博傑認為,Sora未來能夠在市場上推出,依然具備強大的有利競爭,「OpenAI在數據和算力上的顯著優勢讓其在市場中獨樹一幟,其他公司既沒有那麽多的GPU資源,也缺乏同等規模的高質素數據」。

排版/ 季嘉穎

圖片/ Movie Gen 即夢AI MOKI 東方IC

來源/【IT時報】公眾號vittimes