題圖由文心大模型4.0 Turbo生成
每年春節前夕,都是互聯網行銷的關鍵陣地。
2025年也不例外。有別於紅包、集福等常規玩法,越來越多的企業開始用AI「花式過年」。
比如百度搜尋的「春節祝福語」活動,只需一張照片和一句文案即可生成一張喜慶的拜年賀卡,吸引無數人在朋友圈中秀創作、送祝福,用一種個人化十足的方式點燃了春節的熱鬧氛圍。
01 「AI拜年」走紅,密碼是沒有「AI味兒」
時間回到2023年初,AIGC的熱潮剛剛被引燃,一些「聰明」的企業順勢抓住了「新春祝福」的流量風口,讓AI幫使用者生成祝福海報。
最終卻未能出圈,沒有在互聯網上留下太深的記憶。
原因很簡單,這樣的海報有一股濃濃的「AI味兒」:文案看似辭藻華麗,但幾乎沒有什麽意義,有些甚至簡單粗暴的復制網絡內容;生成的圖片,無法避免一些常識性錯誤,比如生成的兔子是沒有尾巴的。
為什麽百度的「AI拜年」非但沒有翻車,反而成就了一種新玩法呢?在回答這個問題前,先來體驗下百度的「客製照片賀卡」。
首先在百度APP上搜尋「春節祝福語」,進入到拜年的活動頁面,找到「蛇年專屬祝福」的服務。
進入到客製頁面後,上傳一張正臉照,用於客製專屬照片賀卡。
照片上傳後,輸入一句話作為Prompt,比如畫一個圖中人在太空艙內掛中國結、畫一個圖中人在海底餐廳中與鯊魚共享年夜飯、畫一個圖中人在長城上拉橫幅寫「新年快樂」、畫一個圖中在月球表面上撒紅包……當然,也可以直接使用推薦的描述。
然後靜靜等待奇跡發生。
【我們用不同的提示詞,生成了一組拜年賀卡,祝閱讀本文的各位讀者蛇年大吉大利。】
讓我們驚訝的是,生成圖片中的人物和上傳的正臉照相似度高達90%以上。不僅沒有出現張冠李戴,從整體到細節都可以用「逼真」來形容,幾乎看不到「AI味兒」。
前面的問題,已然有了確切的答案。
一是更有「文化」。
有別於市面上形形色色的文生圖類套用,百度實作了特定人物的影像生成,不僅懂技術,而且有「文化」。在中國的文化習俗裏,春節的寓意絕不是表面上的貼春聯、放鞭炮、吃餃子,而是團圓和祝福。拜年賀卡的「主角」定義為使用者自己時,有著別樣的情感,直接將「年味兒」拉滿。
二是更加真實。
上述六張照片都是AI生成的,可以說毫無違和感,沒有變形的手指,沒有出現詭異的物品,而是完美還原了背景和人物的秒不特征,終於擺脫了「一眼假」的尷尬。(當我們把同一指令測試其他文生圖套用時,生成的圖片幾乎看不到原圖中人物的影子,而且每次生成的人物都不一樣)。
做一個總結的話: AI給出了「拜年」新思路,精髓不在於形式上有多「花哨」,而是用技術彌補缺失的年味兒。看似是比拼創意的行銷戰,背後卻是技術和創新能力的對壘。
02 「好玩」的背後,離不開iRAG技術
一個好的創意能否出圈,存在很大的偶然性;一項新的技術能否流行,在於解決了多少問題。
兩年前ChatGPT橫空出世,生成能力的前進演化重新整理了人們的認知,但「一本正經地胡說八道」時有出現。這種現象被稱作是「幻覺」,如果不能把「幻覺」出現的概率降到足夠低,大模型就無法真正從「好用」變成「有用」。
消除「幻覺」的主流技術,正是RAG(檢索增強生成),基本思想是透過從外部知識庫中檢索相關資訊,並將這些資訊作為額外的上下文提供給大模型,以提高生成內容的準確性和實用性。
文本生成的「幻覺」問題終於有了解題的方向,文生圖的「幻覺」又該從何處著手呢?
2024年11月的百度世界2024大會上,百度創始人李彥宏在主題為【套用來了】的演講中釋出了一項賦能AI的技術——iRAG,摸索出了一條消除影像「幻覺」的可行路徑。
iRAG技術可以看作是一種全新的檢索增強文生圖範式,將百度搜尋的億級圖片資源和文心大模型的生成能力結合,實作了對使用者的需求和真實世界的場景進行對齊,然後生成符合現實的影像。
作為一種緯度上的探索,iRAG透過提升系統復雜度,進一步提升了生成內容的可靠性,並賦予了文生圖更大的實用性。
還是以「拜年賀卡」為例,本身並不是什麽新創意,許多年前就有一些娛樂明星在春節期間給粉絲發祝福賀卡,不乏熱搜級別的話題。然而,這樣的祝福海報,需要一支專業的攝影團隊,需要打光、調色、後期等一系列分工,成本高、耗時長,而且要來回溝通修改。
無幻覺、超真實、沒成本、立即可取的iRAG,讓「技術平權」成為了一種現實: 在春節這樣的傳統節日裏,普通使用者也可以發揮自己的想象力,只需要上傳一張照片,等待幾秒鐘,就能生成一張張有趣的「拜年賀卡」。過去專業團隊才有的能力,「飛進了尋常百姓家」。
也就是說,拜年賀卡之所以沒有「AI味兒」,iRAG技術有著不可或缺的作用,同時也透過一場面向億萬使用者的「大練兵」,驗證了iRAG技術在多模態融合、低門檻互動、場景泛化等方面的能力突破。
以往不少人對iRAG的理解,可能僅僅停留在了概念階段,經過「AI拜年」的行銷杠桿,無疑讓更多人深切感受到了影像生成的另一種可能。
畢竟大模型浪潮已經持續了兩年多,早已從對技術的「好奇心」轉向大規模套用,而「幻覺」正是制約大模型套用落地的一大絆腳石。大眾認知被重新整理的同時,也為AI作為生產力工具鋪平了道路。
03 更大的想象力,在於產業化落地
2024年初的時候,國外就有導演推出了全部素材均由大模型生成的短片,吸引了不少人的眼球。
可一年時間過去後,幾乎看不到大模型參與的影視作品出現,正在上映的院線電影,沒有一幀是大模型生成的。原因並不難解釋,那部由大模型生成的短片,前後花費了3個多月進行制作,進行了大量的剪輯和拼接,成本遠高於傳統生產模式。
原因無他,任何技術和「生產力工具」掛鉤後,準確性和可靠性始終是產業化落地的第一要義。
就現階段而言,市面上比較流行的幾個文生圖套用,在很大程度上偏向「抽象的、超現實主義的藝術家」,對現實世界缺少了解,生成的圖片天馬行空,卻和實用性存在本質矛盾。
iRAG是怎麽降低幻覺的呢?百度CTO王海峰曾在媒體采訪中將技術原理拆分為三步:
第一步是對使用者的需求進行分析理解,自動規劃精確或泛化方案,比如對哪些實體進行增強;
第二步是對需要增強的實體,檢索並選擇相應的參考圖;
第三步是生成影像,使用了百度自研的多模可控生圖大模型,透過註意力計算,在保持實體特征不變的情況下,實作了影像的高泛化生成,比如根據牛頓的肖像,生成繪本風格的牛頓(在實際落地套用中,iRAG也支持使用者上傳參考圖,生成使用者期望的圖片)。
打個比方的話,iRAG將大模型從追求炫酷的藝術家,變成了嚴謹、靠譜的「美工」。追求的是提供可靠的解決方案,瞄準的是產業化落地,讓技術真正能夠服務於生產。
【PS:為了驗證iRAG的「美工」能力,我們使用文心大模型4.0 Turbo生成了一組「惡搞圖片」。】
相較於To C的「意識流」產品,iRAG可能不是最引人註目的選擇,卻抓住了產業化的核心癥結。
比如每天要出具大量效果圖的建築設計企業、處理海量產品圖片的電商企業、面臨大規模創意素材產出壓力廣告企業、批次生成樣板間效果圖的裝修設計企業......他們需要的是標準化的內容生產,而且要穩定輸出、行為可控,恰恰也是iRAG著力解決的問題。
這讓我們想到了電燈的前進演化史:早在19世紀初,戴維·漢弗裏就在課堂上演示了電流透過白金絲發光的現象,20年後誕生了由白金絲制成的熾光燈泡,直到愛迪生1879年研制出碳化纖維作為燈絲的白熾燈,可靠性和成本之間有了最優解,世界才慢慢被照亮。
沿循這樣的邏輯,iRAG可能就是改變行業走向的那根「燈絲」,解決了影像生成的可靠性,同時給出了無法被拒絕的成本優勢: 譬如在品牌宣傳場景中,拍一組汽車在某場景下的宣傳海報,動輒大幾十萬,現在有了iRAG,只需要一句提示詞,創作成本接近於0。
由此可以預見,建築設計、廣告策劃、品牌傳播、影視娛樂......所有涉及到影像制作的行業,都可能在iRAG技術的賦能下降本增效,在產業端釋放出誘人的想象空間。
04 寫在最後
兩年前大模型剛走紅時,沒人想到會改變什麽,現在已經逐步在各行各業落地,持續迸發出新質生產力。
也許兩年後再來審視2025年初的「AI拜年」熱,被記住的將不僅僅是「好玩」,而是iRAG走向千行萬業的標誌,屆時將有50%的視覺設計基礎工作都iRAG參與完成,連煎餅攤的老板都能設計出自己的個人化選單。
在大模型的起始階段,每一個創新都有可能開辟出一條前人未曾涉足的道路,iRAG的探索才剛剛開始。