當前位置: 華文星空 > 心靈

火遍小紅書的 AI 視訊神器,這次整出的新活又讓我停不下來

2024-12-19心靈

AI 視訊的內送流量備援容錯機制體一致性,向來是個難題。讓 AI 憑空生成模特和衣服不難,但如果甲方要求,必須要讓馬斯克代言,穿上毛絨大衣,AI 可能就辦不到了。

Pika 最近更新的 2.0 模型,提出了一種很有趣的解決方式——我們上傳多張圖片,Pika 會精準參考圖片中的元素,生成視訊。

集齊人物、商品、場景的照片,一個非常基礎的廣告片就出爐了,而且這些素材在視訊裏長得都和照片裏一樣。

這是否意味著,AI 視訊的一致性難題解決了,廣告行業的朋友們又要焦慮了?其實並沒有,經過實測,Pika 的可玩性很高,但論實用,道行還不夠。

馬斯克和阿特曼看電影,名畫吃薯條,同框從未如此簡單

Pika 上傳多張參考圖片的功能,叫作「Scene Ingredients」(場景成分)。

使用起來很簡單:1.點選「+」上傳圖片,上限 6 張;2.在文字域裏,寫上簡單的提示詞。

接下來就進入實操——讓鬧得水深火熱的馬斯克和阿特曼,化幹戈為玉帛,在一起看電影。

▲提示詞:兩個人坐在漆黑的觀眾席中。他們手捧一桶爆米花,一把放到嘴裏嚼著,全神貫註地看著眼前的場景。他們睜大眼睛的表情傳達出熱切的期待或著迷,仿佛他們完全沈浸在正在展開的戲劇或場景中。周圍的環境表明人群擁擠,但焦點仍然集中在他們的反應上

上傳兩位的照片就夠了,觀眾席可以用提示詞寫出來。

對於馬斯克,AI 的發揮很穩定。但阿特曼看起來是地主家的傻兒子,吃相恐怖就不說了,眼睛大得要掉出來。

Pika 很有趣的一點是,素材可以「復用」。

所以,我們可以讓馬斯克和阿特曼過把模特癮。只上傳一張服裝圖片,然後透過提示詞,讓他們穿著一樣的綠色大衣,拍個時尚大片。

▲提示詞:兩名男子在壯麗的冬日風景中站在一起自拍。兩人都穿著相同的綠色長外套。全身照,從頭到腳展現他們。他們擺出專業模特般的姿勢,臉上掛著自信的微笑。電影燈光突出了他們的臉龐和外套的奢華質感。高端時尚攝影風格,專業相機品質,時尚雜誌美學

兩人的照片都找了現成的,綠色的大衣和冰天雪地的背景是另外用 AI 生成的,衣服上的「AIGC」,算是考驗 Pika 的附加題。

結果,場景和大衣的一致性保持得不錯,「AIGC」的字樣依稀可以辨認,兩位模特的動作也遵循了提示詞。

但最大的問題是,這兩人是誰?視訊的人臉和照片,不能說一模一樣,可以說是毫不相幹。

不信邪,繼續讓 Pika 玩換裝。

這次,我們請出祖克柏,照例先用 AI 圖片工具生成衣服,上面寫著「I was human」(我曾是人類),呼應經典的機器人梗。

然後,再找一張祖克柏的圖片,和一把尤凱瑞裏的圖片,讓小紮玩個音樂。

▲提示詞:一位身穿黑色 T 恤的男子站在溫馨的房間裏,彈奏著尤凱瑞裏琴。鏡頭從中遠景開始,展現他的整個身體,逐漸拉近,最後聚焦在 T 恤上的字跡上

Pika 對提示詞的遵循和鏡頭的運動都挺好,衣服也絲滑地穿上了,但右手,尤其大拇指,還是不完美。

相較 Google Veo、OpenAI Sora 等,Pika 的模型能力不算頂尖,一個問題解決了,還有更多的 bug 被發現。

嘗試了寫實的,再來試試二次元畫風,為了讓阪田銀時和漩渦鳴人同框,我特意挑選了兩張背景都是藍天白雲的圖片。

▲提示詞:動漫風格的場景,鏡頭聚焦在兩個年輕男子的臉上,背景是蔚藍的天空和白雲。他們一邊聊天一邊眼神交流,保留了原有的動漫藝術風格

背景融合得很自然,兩位正面的表情發揮不錯,吹動頭發和衣服的風也恰到好處。然而,轉身實在太可怕了。銀時是死魚眼,不是真的翻白眼啊餵。

次元壁都打破了,當然也可以讓名畫跨年代互動——蒙娜麗莎和戴珍珠耳環的少女在麥當勞餐廳吃薯條。

▲ 提示詞:蒙娜麗莎和戴珍珠耳環的少女正在麥當勞餐廳用餐。她們相對而坐,桌上擺著薯條。她們邊聊天邊品嘗薯條,攝影機從側面捕捉她們,兩位角色偶爾看向鏡頭,營造出一種隨意而友好的氛圍

效果一言難盡,看到蒙娜麗莎,不知道達芬奇想不想掀棺材板。兩位好像貼圖一樣,被放在了視訊裏,頭部也運動得非常詭異。

有時候,回歸簡單,道法自然,結果反而超出預期。

▲提示詞:特寫鏡頭,池塘表面出現氣泡,然後咖啡杯從水中浮出

上傳一張星巴克的圖片,一幅莫奈的睡蓮,就可以得到一個「清水出芙蓉」的咖啡杯。

PK 國產模型,控制 AI 視訊的門檻更低了

一定程度上,Pika 提高了視訊的可控性。話不說滿,因為從實踐看來,Pika 在場景、服裝、物品上的一致性保持地較好,人物的臉容易崩,不管是什麽次元。

同時,模型的基礎能力,Pika 也有待進步,吃東西、彈琴等物體運動,仍然會出現問題。這些問題,能不能透過抽卡緩解呢?

三個字:抽不起。

Pika 2.0 目前僅對 Pro 和 Fancy 使用者開放,如果按月訂閱,每月至少花 35 美元,連免費試用的額度都沒有。

而且,Pro 使用者每月只有 2000 積分,但使用 Scene Ingredients 功能,一個視訊就要花掉 100 積分。

▲vidu 界面

其實,國產 AI 視訊模型 Vidu,比 Pika 更早地實作了「多圖參考」的功能。更拿捏使用者的是,它有免費體驗的積分。

Pika 的幾個案例,我也在 Vidu 跑了一下。蒙娜麗莎和戴珍珠耳環的少女吃薯條,兩位像剛出土,但蒙娜麗莎的還原度比 Pika 高。

馬斯克和阿特曼一起看電影,馬斯克的臉像了七八成,阿特曼的臉依舊災難。

阪田銀時和漩渦鳴人同框,Vidu 居然能基於正臉生成側臉,但畫風和原圖不太一樣。

另外,在功能上,Vidu 有一點不如 Pika——最多只能上傳三張圖片。所以,讓 Vidu 給馬斯克和阿特曼拍時尚大片,我就沒有上傳背景,只上傳了兩位的照片和綠色的大衣。

兩位給人的感覺很陌生。可以看出,人臉的穩定性,仍然是個難題。

和 Pika 相比,Vidu 效果如何,可以見仁見智。Pika 用的是 Pro 版,Vidu 用的是免費版,客觀上也會導致兩者的差異。

但 Pika 和 Vidu 的思路是相似的——僅靠幾個圖片素材、一段簡單的提示詞,就生成相對穩定的物體。

在 AI 視訊生成中,保持主體一致性,目前相對可靠的是 LoRA 方案,用一定數量的、特定主體的素材,對模型進行微調。透過適量的素材和訓練,模型能逐漸掌握這個角色的樣貌特征。

但為了讓 AI 視訊被更多人用起來,有更廣闊的商業價值,門檻就要降低。至少,從 Vidu 和 Pika 身上,我們看到了可能性。

靠 AI 短視訊出圈,在整活的道路上一去不復返

Pika 的 2.0 模型發了沒幾天,海外網友已經玩瘋了。

拿自己的照片,反復生成不同場景的視訊,就可以實作「瞬息全宇宙」。

▲ 圖片來自:X@EladRichardson

透過 AI 一鍵試衣,模特和衣服如流水,場景都不帶換的,實拍的錢省下來了。

▲ 圖片來自:X@martgent

玩著玩著,Pika 給了我一種玩「QQ 秀」和模擬人生的感覺,怎麽打扮視訊裏的角色,我們來決定。

如果讓馬斯克「圓夢」,很容易,先用其他 AI 工具,生成了一件「占領火星」的 T 恤、一個寫著「MAGA」的紅色帽子。

然後,把這些圖片、火星的場景、馬斯克的照片,以及他的擎天柱人形機器人、他特別喜歡的網紅表情包 Doge 原型,全部上傳到 Pika。

▲提示詞:一名男子站在火星表面,身穿黑色T恤,頭戴紅色帽子。他的左邊坐著一只狗,右邊站著一個機器人。鏡頭以廣角鏡頭開始,捕捉男子、狗、機器人的全身。隨著鏡頭平穩拉近,男子朝鏡頭歡快地揮手,表情洋溢著喜悅和冒險精神

最終,一個陽光開朗大男孩出現,左牽黃,右擎蒼,憨厚有余,但就是不像馬斯克。

像不像是一回事,只要思路開闊,玩法無窮無盡。

基於我們自己和名人的照片,可以無痛追星。上傳帽子、衣服、樂器,能把自己從頭打扮到腳。集齊場景、產品、模特,一個 5 毛特效的廣告片子就有了……

照片+AI 圖片+Pika 2.0+提示詞,可以生成很多好玩的畫面。同時,這樣的生成方式也規避了一些視訊模型的短板,比如寫字,在圖片模型就可以解決。

不和 Google 硬剛模型能力,不和 Runway 這種逐夢好萊塢的對手比較,Pika 有自己的彎道超車玩法。

其實一直以來,Pika 在整活和創意方面就是一把好手,之前的一系列 AI 特效功能 Pikaffect 全網爆火,刷屏小紅書和 TikTok,推動 Pika 使用者突破 1100 萬。

▲ AI 捏捏. 圖片來自:Pika

▲AI 切蛋糕. 圖片來自:Pika

Pika 切中了一群對整活短視訊有高需求的使用者,哪怕這些視訊是樣版化的,稍縱即逝的,但只要有趣,人們就會蜂擁而至。

誰說贏者通吃才是勝利?AI 的市場是廣闊的,模擬物理世界固然是個遠大的夢想,先完成讓 AI 短視訊有趣起來的小目標,未嘗不是一種成功的方式。

張成晨
利若秋霜,辟除兇殃。工作信箱:[email protected]
信箱
8

#歡迎關註愛範兒官方微信公眾號:愛範兒(微訊號:ifanr),更多精彩內容第一時間為您奉上。

愛範兒 | 原文連結 · 檢視評論 · 新浪微博