本報記者 劉 揚 本報特約記者 武 彥
美國人工智能(AI)公司OpenAI近日宣布正式上線「文生影片」大模型Sora,立即引起廣泛關註,蜂擁而來的大量使用者一度導致其官網癱瘓。今年2月Sora首次公開時,不僅展示了從文本到影片的驚人轉化能力,更宣告AI不再只是字元與圖片世界的幻想,而是能夠真實再現或創造出我們所見的世界。時隔10個月,Sora的效能到底有多大程度的提升?這樣一場「影片工具革命」將會帶來哪些深刻影響及潛在風險?對此,【環球時報】記者11日采訪了多位人工智能專家。
圖片說明:Sora與Runway、可靈AI生成的小女孩的對比畫面。
核心優勢是龐大使用者基數
據介紹,這次上線的新版本Sora Turbo能夠透過文本直接生成最多20秒或最高分辨率1080P的影片,成為目前全球生成時長最長的影片模型之一。該模型支持三種模式:「文本到影片」「文本+影像到影片」和「文本+影片到影片」,既可以讓使用者僅透過輸入文本描述就生成完整的影片內容,也可以結合文本和指定的影像/影片,從而更精確地理解並展現創作者的創意意圖,制作出更符合視覺預期的影片內容。不過OpenAI的技術團隊也承認Sora存在不足,「如果認為Sora只需點選按鈕就能生成一部故事片,那麽你可能抱有錯誤的期望」。社交媒體流傳的相關測試影片顯示,Sora生成的影片在遵循物理規律方面存在明顯不足,經常出現物體相互穿過、憑空出現和消失的情況。
清華大學新聞學院、人工智能學院教授沈陽11日對【環球時報】記者表示,Sora是目前AI影片大模型當中的佼佼者,但並未與其他競品拉開代際之上的差距。尤其是可靈AI、Runway兩個頭部大模型,經過小半年的叠代以及與使用者之間的磨合,已經衍生出了一系列的護城河功能,並且模型實作了不斷前進演化,而姍姍來遲的Sora目前表現出的優勢還不夠明顯,尤其是對於確定性創意生成的「圖生影片」能力還很薄弱。Sora本次釋出所帶來的故事板、畫面元素增刪以及風格化預設等功能都不足以成為顛覆其他競品的「殺手鐧」。
不過沈陽認為,Sora的核心產品優勢是背靠OpenAI龐大的使用者基數,以ChatGPT的使用者數量,將會有效地對Sora進行導流,且透過GPT提示詞賦能過的Sora在畫面呈現質素上也應高於其他影片大模型。「在12月10日正式釋出後,Sora伺服器一直處於擠爆狀態,這便說明了OpenAI旗下產品的號召力,Sora很可能在幾個月的時間內在使用者數量上反超其余兩大模型。」
或將打破傳統影視制作技術壁壘
北京郵電大學人機互動與認知工程實驗室主任劉偉11日在接受【環球時報】記者采訪時表示,此次Sora正式釋出不能看作是一場影片工具的革命,因為它沒有Sora首次亮相時那樣震撼全世界。我們應該高度關註並跟蹤包括Sora在內的「文生影片」大模型的最新發展趨勢以及技術進步,並透過了解國際上的技術發展新動向擇其善者而從之,擇其不善者而改之。
談到對幾款主流AI影片大模型的使用體驗,沈陽介紹稱,「我們團隊在8月AI影片大模型賽道百花齊放之際,就對包括可靈、即夢、Vidu、清影、Runway、Luma在內當時主流的6款模型做過測試,在實際的工作中,我們團隊的技術人員也結合各模型相關的優勢進行了工作流的搭建與創意專案的執行。從實際效果來看,國內的影片大模型和國外差距不大。」
沈陽認為,相比AI文學、AI繪畫、AI音樂,現在的AI短影片似乎是一個更加適合普通人登上時代快車的方式,這降低了通向傳媒行業的入門門檻。最早火爆出圈的可靈AI,近半年以來,湧現了復活老照片等一系列或催人淚下或讓人忍俊不禁的網絡爆款影片。許多爆款內容的創作者都是初次接觸短影片創作,而短短十幾秒的作品卻能取得幾百萬的播放量,這其實是在AI賦能下所帶來的「零知識啟動,高知識生產」的一種創作範式。
在談及AI影片生成技術對影視制作、廣告和內容創作等行業的影響時,沈陽表示,現在看到的不僅是技術進步,更是一場行業範式的轉變。Sora等模型的出現意味著傳統的影視制作流程將被重塑。許多電影人已經將AI作為有效的視覺化指令碼呈現工具,甚至在今年3月6日,全球首部完全由AI制作的90分鐘長篇電影【終結者2重制版】已經在好萊塢上映。而AI賦能廣告短片、文旅短片、公益宣傳片的案例不勝列舉。
沈陽認為,Sora等一系列影片大模型的釋出標誌著AI影片生成技術在影視制作、廣告和內容創作領域的套用已經走向了更深階段。過去一年的發展表明,人工智能不再僅僅停留在理論或實驗階段,而是已經深刻影響到創作流程的各個環節。總體來看,過去一年AI影片生成技術的套用已經釋放出實質性的價值,尤其是在提高創作效率和靈活性方面。人工智能正在成為創意策劃、內容制作和後期剪輯等環節的得力助手,打破了傳統影視制作的技術壁壘和時間限制。隨著技術的持續發展,AI將在內容創作中扮演越來越重要的角色,而這種轉型也將引領整個行業邁向更加高效、個人化和智能化的未來。
深度偽造畫面帶來隱患
劉偉表示,Sora等文生影片大模型的釋出,對於普通人來說,一方面降低了人們自主生成創意影片的門檻,提供了依托個人優秀創意制作出爆款影片的高質素工具。另一方面也增加了普通人辨偽的成本,特別是在電信詐騙等場景下,深度偽造的畫面以及影片很可能會增加普通人的風險。
劉偉認為,我們要加大對文生影片大模型發展過程中伴生的深偽技術在社會各個場景下套用的關註。一方面要跟蹤技術發展,另一方面要加強治理,特別是透過技術手段、法律法規限制相關不良內容的傳播與濫用,以保證智能向善。他認為,只要Sora等大模型使用的是多記憶體神經網絡系統,就存在出現機器幻覺的可能,因此有經驗的專業人員可以找到其中不符合常識和與現實世界不相符的漏洞。劉偉強調,還要關註先進的文生影片大模型等技術被濫用於認知戰的情況,這種在國外社交網絡上「帶節奏」的情況可能會對國家安全構成威脅,這種傾向需要高度關註。