智譜入局AI生成影片：30秒生成高畫質影片，瞄準TO C套用市場

2024-07-27新聞

本文來源：時代周報作者：梁春富

繼快手宣布上線自研的視覺生成大模型產品可靈AI後，大模型企業智譜AI也展示了其在 多模態 生成式 AI 模型上的研發實力。

7月26日，智譜AI CEO張鵬在智譜 Open Day上宣布，AI生成影片模型清影（Ying）正式上線。即日起所有C端使用者，都能透過清影（Ying）體驗到AI文生影片、圖生影片能力。

據其介紹，在輸入一段文字後（俗稱Prompt），使用者可以選擇自己想要生成的風格，包括卡通3D、油畫、電影感等，再配上清影內建的音樂，就可以生成充滿AI想象力的影片片段。

除了文本生成影片，也可以到清影上圖片生成影片。圖生影片帶來了更多的新玩法，包括表情包梗圖、廣告制作、劇情創作、短影片創作等。同時，基於清影的照片動起來小程式也會同步上線，只需一步上傳照片，AI就能讓凝練在舊時光中的照片靈動起來。

「本次清影底座的影片生成模型是CogVideoX，它能將文本、時間、空間三個維度融合起來，參考了Sora的演算法設計，它也是一個DiT架構，透過最佳化，CogVideoX 相比前代（CogVideo）推理速度提升了6倍。在後續版本中，將推出更高分辨率、更長時長的生成影片功能。」張鵬稱。

在生成式影片模型的研發中，Scaling Law 繼續在演算法和數據兩方面發揮作用。「我們積極在模型層面探索更高效的scaling方式。」張鵬表示：「隨著演算法、數據不斷叠代，相信Scaling Law將繼續發揮強有力作用。」

相較於OpenAI早前釋出的SORA，智譜的清影已完全面向C端，並提供免費版和付費版兩種選擇。會上，張鵬表示，「為什麽要做多模態這件事，影片生成要放到整個技術和產品發展路線當中來看，我們認為它是AGI必須走的路徑。」

今年年初時，張鵬曾表示，不止ToB，C端智譜也會去做，但目的比較明確，把閉環做起來，給未來也留下一個可能性。他判斷，TO C套用可能未來也是一個要爆發的點。

清影是繼智譜清言APP上線後的又一大To C套用，也意味著智譜正式切入AI影片生成市場。

此前張鵬接受時代周報記者采訪時曾提到Sora的技術力，他指出，Sora的主要技術思路是用視覺塊編碼（Visual Patch）的方式，把不同格式的影片進行統一編碼，然後用Transformer 架構進行訓練，並引入類似 Diffusion的Unet方式做在降維和升維的過程中做加噪和去噪。之前的基於Diffusion的模型，特別是把 Stable Diffusion 微調成影片生成的模型，基本上都有著「閃爍」（幀間細節跳變）的問題，張鵬稱，「Sora 細節設計很合理，解決了這個問題。」

張鵬表示，Sora另一個特點是高分辨率：影片常見的一個問題是H*W*T 長度太長，導致分辨率不夠高或者需要分層，Sora 直接生成了高分辨率（1080p）的影像。 Sora 可以生成語意豐富的長達 60s 的影片，這說明訓練的序列也比較長，訓練時候的視窗至少也得有 5s+。從展示出的較短樣例分析，可能訓練的長度為 7-8s。另外，OpenAI 還使用了基於重要性采樣的生成式訓練以及虛幻引擎生成一些特定的數據來補充一些 OOD 的情況，例如長程關聯等。

智譜AI 一直在多模態領域大力投入，有長期的技術積累，從2021年開始，先後研發了CogView（NeurIPS’21）、CogView2（NeurIPS’22）、CogVideo（ICLR’23）、RelayDiffusion（ICLR’24）和 CogView3（2024）。

「實作全系列產品矩陣對標Open AI 是我們大模型系列產品布局的一貫目標，多模態模型在其中扮演著重要角色，也始終是我們的研究重點。」張鵬稱。