大家好,臨近春節,這幾天的心理狀態就是「今年的磚就搬到這兒了」,懷揣著「村裏的風景,平淡且耐看」的期許,支撐度(如)日(年)。
但是,來自遠方老媽的關懷,讓我又犯難了。
遇事不決,先找ChatGPT。輸入 prompt 之後等待返回結果。
哇 ,第一眼看過去還不錯,龍的形象很完美又喜慶,但是「春節快樂,龍年大吉」的拜年祝福語沒在圖片裏,不滿足我媽的要求。
又試了一次,這次ChatGPT生成的龍仍然很出彩,但依舊沒有祝福語,仔細看中間的字是什麽??圖片裏的所有的文字好像都沒見過。
萬能的ChatGPT也解決不了,怎麽辦?谷歌一下吧,我接著試下抖音的圖片生成工具Dreamina。
在我輸入對應的prompt之後,Dreamina 返回了下面的結果。
不得不說,生成的效果非常可愛,只可惜生成的影像更像是門畫而不是海報,而且和ChatGPT一樣,也沒有精準地生成我想要的祝福語,圖片不知道是些什麽奇奇怪怪的字。
重新生成了一次,效果還是差不多。
突然想起來這兩天朋友圈裏有人發過拜年AI工具,一頓翻找,原來是阿裏雲魔搭社區裏的拜年海報生成器。
抱著試一試的心態,我開啟了魔搭社區提供的一鍵生成拜年海報的AI功能。首先它支持輸入標題,我把「春節快樂,龍年大吉「輸入到了主標題,輸入簡單的提示詞,只需幾秒鐘就生成了一張海報。
還可以選擇一鍵換個標題和生成風格!
哇!!果然灰常好用,這下能夠完美地給老媽交差了!
還能看到作品廣場裏其他使用者生成的不同風格的拜年海報。
除了以龍為主題的拜年海報之後,還有情人節、元宵節等各種節日海報都可以選擇。
我又在魔搭社區花式DIY「AI年貨」功能區逛了逛,發現還有好多其他好玩有趣的春節AI工具。比如可以一鍵生成年味兒寫真。
(線上試玩連結在這裏哦 https:// modelscope.cn/brand/vie w/SpringFestival )
只需上傳一張照片,就能秒級地生成出大片質感的年味兒寫真。
這個AI寫真功能讓我想起了23年7月份時國內非常火的妙鴨相機,但妙鴨相機要求至少上傳14張照片,實話來講,這麽多照片別說對男生,哪怕對女生來說也很有難度。雖然聽說生成效果還不錯,但據說排隊等待生成時間很長,就有些勸退了。
23年不只是GPT類大模型的元年,文生圖、文生影片、圖生圖、圖生影片也迎來爆火。比如阿裏魔塔社區中的AI年味兒寫真工具背後的技術便是前段時間火出圈的InstantID專案。使用者只需上傳一張照片,就能輕松客製出多種風格的AI寫真,同時擁有高保真度和靈活性。相比妙鴨最大的優勢是只需一張自拍圖,無需微調,不需等待,秒級出圖。
另外,魔搭社區還有好多其他好玩的功能,比如一鍵生成富有中國特色的表情包,可以用來感受表情包自由+開盲盒的雙重快樂,嘿嘿又多了一個哄家人朋友開心的工具。
還可以一鍵生成超萌的春節福娃風格年畫照,出圖超快,我決定回家後給我的外甥女試一下。
再放一次試玩連結:
https:// modelscope.cn/brand/vie w/SpringFestival
對了忘了說了,魔搭社區以上所有功能全都開源免費。
接地氣的阿裏AI套用
在愛不釋手地試玩魔搭社區上好玩有趣的套用之後,咱們冷靜下來,回顧下這一年多來國內的大模型發展,我認為真正火爆出圈的C端套用一共出現過兩次。
第一次就是上文提到的妙鴨相機,當時它的出現雖然仍然有一些產品和技術上的不足之處,但因為出現夠早,生成效果很驚艷,仍然可圈可點。妙鴨相機背後的產品開發團隊正是來自阿裏大文娛。
第二次就是前不久火遍全網的「科目三」跳舞。
好家夥,這個AI功能一出,一下子讓世界上所有人都跳起了科目三,就連兵馬俑都難逃一劫:
這個全民AI套用「通義舞王」套用正是來自阿裏雲開發的「通義千問」app。
我個人認為阿裏又火了背後是有原因的,我發現它們在AI套用上的一個主要打法:
以使用者為中心,接地氣,主打的就是一個讓使用者感覺好玩好用和實用;
但能做到好玩和實用並不簡單,這背後其實都是阿裏長久以來在技術方面的日積月累。
比如「通義舞王」背後的技術其實就是開源於阿裏團隊在擴散模型的基礎之上,提出的一個名為AnimateAnyone的新演算法,早在去年11月底,這項研究就已經備受關註,在推特、Youtube等海外平台上爆火,影片播放量超過1億,僅僅1個月時間,這個專案便在GitHub上斬獲了超1萬個star。
最後,和大家談一談這兩年AIGC生成工具的能力和前景。 提到AIGC生成工具,這背後離不開「多模態能力」的前進演化,在大語言模型通往AGI的道路中,從傳統的單一的「語言模態」擴充套件到「影像」、「語音」、「影片」等「多模態」必然是大模型前進演化的必經之路。
好訊息是,伴隨著大模型本身的飛速前進演化,AIGC生成工具的套用也不斷地產生新的突破。
先說文生圖這塊,隨著StableDiffusion、MidJounery、ChatGPT(Dall.E)等AI不斷升級,文生圖的清晰度越來越高,影像越來越逼真,但不足之處在於它們都對prompt有比較高的要求,在給小白使用者的體驗上來說還是不夠簡單好用,就好比文章開頭提到的生成一張帶字的拜年海報一樣,ChatGPT的指令遵循還差點兒意思,反而是魔搭社區提供的春節AI工具更好用。
接著說下文生影片這塊,23年這個方向沖出了RunWay和Pika這兩家具體代表性的玩家。不難預測,24年文生影片將越來越卷,且在可控性、一致性和時長方面將產生更大的突破。那麽這意味著文生影片的ChatGPT時刻很快就要到來嗎?其實不然,我認為有一個很大的挑戰需要解決,那就是AI對物理規律的掌控,因為只有生成的影片符合物理規律才能滿足人類的「直覺審美」,就像每個大型端遊都得有成熟的物理引擎一樣,否則生成的畫面將會全部亂套(比如蘋果會掉到天上去,剛體會產生形變等),很難套用在日常生活場景。
最後,有挑戰其實是個好事,當這些挑戰都被解決之後,迎接我們的將是一場多模態大爆炸的盛宴。期待阿裏在這場盛宴中做出下一個全民級套用。