火遍小紅書的 AI 視訊神器，這次整出的新活又讓我停不下來

2024-12-19心靈

AI 視訊的內送流量備援容錯機制體一致性，向來是個難題。讓 AI 憑空生成模特和衣服不難，但如果甲方要求，必須要讓馬斯克代言，穿上毛絨大衣，AI 可能就辦不到了。

Pika 最近更新的 2.0 模型，提出了一種很有趣的解決方式——我們上傳多張圖片，Pika 會精準參考圖片中的元素，生成視訊。

集齊人物、商品、場景的照片，一個非常基礎的廣告片就出爐了，而且這些素材在視訊裏長得都和照片裏一樣。

這是否意味著，AI 視訊的一致性難題解決了，廣告行業的朋友們又要焦慮了？其實並沒有，經過實測，Pika 的可玩性很高，但論實用，道行還不夠。

馬斯克和阿特曼看電影，名畫吃薯條，同框從未如此簡單

Pika 上傳多張參考圖片的功能，叫作「Scene Ingredients」（場景成分）。

使用起來很簡單：1.點選「+」上傳圖片，上限 6 張；2.在文字域裏，寫上簡單的提示詞。

接下來就進入實操——讓鬧得水深火熱的馬斯克和阿特曼，化幹戈為玉帛，在一起看電影。

▲提示詞：兩個人坐在漆黑的觀眾席中。他們手捧一桶爆米花，一把放到嘴裏嚼著，全神貫註地看著眼前的場景。他們睜大眼睛的表情傳達出熱切的期待或著迷，仿佛他們完全沈浸在正在展開的戲劇或場景中。周圍的環境表明人群擁擠，但焦點仍然集中在他們的反應上

上傳兩位的照片就夠了，觀眾席可以用提示詞寫出來。

對於馬斯克，AI 的發揮很穩定。但阿特曼看起來是地主家的傻兒子，吃相恐怖就不說了，眼睛大得要掉出來。

Pika 很有趣的一點是，素材可以「復用」。

所以，我們可以讓馬斯克和阿特曼過把模特癮。只上傳一張服裝圖片，然後透過提示詞，讓他們穿著一樣的綠色大衣，拍個時尚大片。

▲提示詞：兩名男子在壯麗的冬日風景中站在一起自拍。兩人都穿著相同的綠色長外套。全身照，從頭到腳展現他們。他們擺出專業模特般的姿勢，臉上掛著自信的微笑。電影燈光突出了他們的臉龐和外套的奢華質感。高端時尚攝影風格，專業相機品質，時尚雜誌美學

兩人的照片都找了現成的，綠色的大衣和冰天雪地的背景是另外用 AI 生成的，衣服上的「AIGC」，算是考驗 Pika 的附加題。

結果，場景和大衣的一致性保持得不錯，「AIGC」的字樣依稀可以辨認，兩位模特的動作也遵循了提示詞。

但最大的問題是，這兩人是誰？視訊的人臉和照片，不能說一模一樣，可以說是毫不相幹。

不信邪，繼續讓 Pika 玩換裝。

這次，我們請出祖克柏，照例先用 AI 圖片工具生成衣服，上面寫著「I was human」（我曾是人類），呼應經典的機器人梗。

然後，再找一張祖克柏的圖片，和一把尤凱瑞裏的圖片，讓小紮玩個音樂。

▲提示詞：一位身穿黑色 T 恤的男子站在溫馨的房間裏，彈奏著尤凱瑞裏琴。鏡頭從中遠景開始，展現他的整個身體，逐漸拉近，最後聚焦在 T 恤上的字跡上

Pika 對提示詞的遵循和鏡頭的運動都挺好，衣服也絲滑地穿上了，但右手，尤其大拇指，還是不完美。

相較 Google Veo、OpenAI Sora 等，Pika 的模型能力不算頂尖，一個問題解決了，還有更多的 bug 被發現。

嘗試了寫實的，再來試試二次元畫風，為了讓阪田銀時和漩渦鳴人同框，我特意挑選了兩張背景都是藍天白雲的圖片。

▲提示詞：動漫風格的場景，鏡頭聚焦在兩個年輕男子的臉上，背景是蔚藍的天空和白雲。他們一邊聊天一邊眼神交流，保留了原有的動漫藝術風格

背景融合得很自然，兩位正面的表情發揮不錯，吹動頭發和衣服的風也恰到好處。然而，轉身實在太可怕了。銀時是死魚眼，不是真的翻白眼啊餵。

次元壁都打破了，當然也可以讓名畫跨年代互動——蒙娜麗莎和戴珍珠耳環的少女在麥當勞餐廳吃薯條。

▲ 提示詞：蒙娜麗莎和戴珍珠耳環的少女正在麥當勞餐廳用餐。她們相對而坐，桌上擺著薯條。她們邊聊天邊品嘗薯條，攝影機從側面捕捉她們，兩位角色偶爾看向鏡頭，營造出一種隨意而友好的氛圍

效果一言難盡，看到蒙娜麗莎，不知道達芬奇想不想掀棺材板。兩位好像貼圖一樣，被放在了視訊裏，頭部也運動得非常詭異。

有時候，回歸簡單，道法自然，結果反而超出預期。

▲提示詞：特寫鏡頭，池塘表面出現氣泡，然後咖啡杯從水中浮出

上傳一張星巴克的圖片，一幅莫奈的睡蓮，就可以得到一個「清水出芙蓉」的咖啡杯。

PK 國產模型，控制 AI 視訊的門檻更低了

一定程度上，Pika 提高了視訊的可控性。話不說滿，因為從實踐看來，Pika 在場景、服裝、物品上的一致性保持地較好，人物的臉容易崩，不管是什麽次元。

同時，模型的基礎能力，Pika 也有待進步，吃東西、彈琴等物體運動，仍然會出現問題。這些問題，能不能透過抽卡緩解呢？

三個字：抽不起。

Pika 2.0 目前僅對 Pro 和 Fancy 使用者開放，如果按月訂閱，每月至少花 35 美元，連免費試用的額度都沒有。

而且，Pro 使用者每月只有 2000 積分，但使用 Scene Ingredients 功能，一個視訊就要花掉 100 積分。

▲vidu 界面

其實，國產 AI 視訊模型 Vidu，比 Pika 更早地實作了「多圖參考」的功能。更拿捏使用者的是，它有免費體驗的積分。

Pika 的幾個案例，我也在 Vidu 跑了一下。蒙娜麗莎和戴珍珠耳環的少女吃薯條，兩位像剛出土，但蒙娜麗莎的還原度比 Pika 高。

馬斯克和阿特曼一起看電影，馬斯克的臉像了七八成，阿特曼的臉依舊災難。

阪田銀時和漩渦鳴人同框，Vidu 居然能基於正臉生成側臉，但畫風和原圖不太一樣。

另外，在功能上，Vidu 有一點不如 Pika——最多只能上傳三張圖片。所以，讓 Vidu 給馬斯克和阿特曼拍時尚大片，我就沒有上傳背景，只上傳了兩位的照片和綠色的大衣。

兩位給人的感覺很陌生。可以看出，人臉的穩定性，仍然是個難題。

和 Pika 相比，Vidu 效果如何，可以見仁見智。Pika 用的是 Pro 版，Vidu 用的是免費版，客觀上也會導致兩者的差異。

但 Pika 和 Vidu 的思路是相似的——僅靠幾個圖片素材、一段簡單的提示詞，就生成相對穩定的物體。

在 AI 視訊生成中，保持主體一致性，目前相對可靠的是 LoRA 方案，用一定數量的、特定主體的素材，對模型進行微調。透過適量的素材和訓練，模型能逐漸掌握這個角色的樣貌特征。

但為了讓 AI 視訊被更多人用起來，有更廣闊的商業價值，門檻就要降低。至少，從 Vidu 和 Pika 身上，我們看到了可能性。

靠 AI 短視訊出圈，在整活的道路上一去不復返

Pika 的 2.0 模型發了沒幾天，海外網友已經玩瘋了。

拿自己的照片，反復生成不同場景的視訊，就可以實作「瞬息全宇宙」。

▲ 圖片來自：X@EladRichardson

透過 AI 一鍵試衣，模特和衣服如流水，場景都不帶換的，實拍的錢省下來了。

▲ 圖片來自：X@martgent

玩著玩著，Pika 給了我一種玩「QQ 秀」和模擬人生的感覺，怎麽打扮視訊裏的角色，我們來決定。

如果讓馬斯克「圓夢」，很容易，先用其他 AI 工具，生成了一件「占領火星」的 T 恤、一個寫著「MAGA」的紅色帽子。

然後，把這些圖片、火星的場景、馬斯克的照片，以及他的擎天柱人形機器人、他特別喜歡的網紅表情包 Doge 原型，全部上傳到 Pika。

▲提示詞：一名男子站在火星表面，身穿黑色T恤，頭戴紅色帽子。他的左邊坐著一只狗，右邊站著一個機器人。鏡頭以廣角鏡頭開始，捕捉男子、狗、機器人的全身。隨著鏡頭平穩拉近，男子朝鏡頭歡快地揮手，表情洋溢著喜悅和冒險精神

最終，一個陽光開朗大男孩出現，左牽黃，右擎蒼，憨厚有余，但就是不像馬斯克。

像不像是一回事，只要思路開闊，玩法無窮無盡。

基於我們自己和名人的照片，可以無痛追星。上傳帽子、衣服、樂器，能把自己從頭打扮到腳。集齊場景、產品、模特，一個 5 毛特效的廣告片子就有了……

照片+AI 圖片+Pika 2.0+提示詞，可以生成很多好玩的畫面。同時，這樣的生成方式也規避了一些視訊模型的短板，比如寫字，在圖片模型就可以解決。

不和 Google 硬剛模型能力，不和 Runway 這種逐夢好萊塢的對手比較，Pika 有自己的彎道超車玩法。

其實一直以來，Pika 在整活和創意方面就是一把好手，之前的一系列 AI 特效功能 Pikaffect 全網爆火，刷屏小紅書和 TikTok，推動 Pika 使用者突破 1100 萬。

▲ AI 捏捏. 圖片來自：Pika

▲AI 切蛋糕. 圖片來自：Pika

Pika 切中了一群對整活短視訊有高需求的使用者，哪怕這些視訊是樣版化的，稍縱即逝的，但只要有趣，人們就會蜂擁而至。

誰說贏者通吃才是勝利？AI 的市場是廣闊的，模擬物理世界固然是個遠大的夢想，先完成讓 AI 短視訊有趣起來的小目標，未嘗不是一種成功的方式。

張成晨

利若秋霜，辟除兇殃。工作信箱：[email protected]

信箱

#歡迎關註愛範兒官方微信公眾號：愛範兒（微訊號：ifanr），更多精彩內容第一時間為您奉上。

愛範兒 | 原文連結 · 檢視評論 · 新浪微博