我在阿裏雲魔搭上發現了一個非常適合AI從業者過年裝X的神器

2024-02-07新聞

大家好，臨近春節，這幾天的心理狀態就是「今年的磚就搬到這兒了」，懷揣著「村裏的風景，平淡且耐看」的期許，支撐度（如）日（年）。

但是，來自遠方老媽的關懷，讓我又犯難了。

遇事不決，先找ChatGPT。輸入 prompt 之後等待返回結果。

哇，第一眼看過去還不錯，龍的形象很完美又喜慶，但是「春節快樂，龍年大吉」的拜年祝福語沒在圖片裏，不滿足我媽的要求。

又試了一次，這次ChatGPT生成的龍仍然很出彩，但依舊沒有祝福語，仔細看中間的字是什麽？？圖片裏的所有的文字好像都沒見過。

萬能的ChatGPT也解決不了，怎麽辦？谷歌一下吧，我接著試下抖音的圖片生成工具Dreamina。

在我輸入對應的prompt之後，Dreamina 返回了下面的結果。

不得不說，生成的效果非常可愛，只可惜生成的影像更像是門畫而不是海報，而且和ChatGPT一樣，也沒有精準地生成我想要的祝福語，圖片不知道是些什麽奇奇怪怪的字。

重新生成了一次，效果還是差不多。

突然想起來這兩天朋友圈裏有人發過拜年AI工具，一頓翻找，原來是阿裏雲魔搭社區裏的拜年海報生成器。

抱著試一試的心態，我開啟了魔搭社區提供的一鍵生成拜年海報的AI功能。首先它支持輸入標題，我把「春節快樂，龍年大吉「輸入到了主標題，輸入簡單的提示詞，只需幾秒鐘就生成了一張海報。

還可以選擇一鍵換個標題和生成風格！

哇！！果然灰常好用，這下能夠完美地給老媽交差了！

還能看到作品廣場裏其他使用者生成的不同風格的拜年海報。

除了以龍為主題的拜年海報之後，還有情人節、元宵節等各種節日海報都可以選擇。

我又在魔搭社區花式DIY「AI年貨」功能區逛了逛，發現還有好多其他好玩有趣的春節AI工具。比如可以一鍵生成年味兒寫真。

（線上試玩連結在這裏哦 https:// modelscope.cn/brand/vie w/SpringFestival ）

只需上傳一張照片，就能秒級地生成出大片質感的年味兒寫真。

這個AI寫真功能讓我想起了23年7月份時國內非常火的妙鴨相機，但妙鴨相機要求至少上傳14張照片，實話來講，這麽多照片別說對男生，哪怕對女生來說也很有難度。雖然聽說生成效果還不錯，但據說排隊等待生成時間很長，就有些勸退了。

23年不只是GPT類大模型的元年，文生圖、文生影片、圖生圖、圖生影片也迎來爆火。比如阿裏魔塔社區中的AI年味兒寫真工具背後的技術便是前段時間火出圈的InstantID專案。使用者只需上傳一張照片，就能輕松客製出多種風格的AI寫真，同時擁有高保真度和靈活性。相比妙鴨最大的優勢是只需一張自拍圖，無需微調，不需等待，秒級出圖。

另外，魔搭社區還有好多其他好玩的功能，比如一鍵生成富有中國特色的表情包，可以用來感受表情包自由+開盲盒的雙重快樂，嘿嘿又多了一個哄家人朋友開心的工具。

還可以一鍵生成超萌的春節福娃風格年畫照，出圖超快，我決定回家後給我的外甥女試一下。

再放一次試玩連結：

https:// modelscope.cn/brand/vie w/SpringFestival

對了忘了說了，魔搭社區以上所有功能全都開源免費。

接地氣的阿裏AI套用

在愛不釋手地試玩魔搭社區上好玩有趣的套用之後，咱們冷靜下來，回顧下這一年多來國內的大模型發展，我認為真正火爆出圈的C端套用一共出現過兩次。

第一次就是上文提到的妙鴨相機，當時它的出現雖然仍然有一些產品和技術上的不足之處，但因為出現夠早，生成效果很驚艷，仍然可圈可點。妙鴨相機背後的產品開發團隊正是來自阿裏大文娛。

第二次就是前不久火遍全網的「科目三」跳舞。

好家夥，這個AI功能一出，一下子讓世界上所有人都跳起了科目三，就連兵馬俑都難逃一劫：

這個全民AI套用「通義舞王」套用正是來自阿裏雲開發的「通義千問」app。

我個人認為阿裏又火了背後是有原因的，我發現它們在AI套用上的一個主要打法：

以使用者為中心，接地氣，主打的就是一個讓使用者感覺好玩好用和實用；

但能做到好玩和實用並不簡單，這背後其實都是阿裏長久以來在技術方面的日積月累。

比如「通義舞王」背後的技術其實就是開源於阿裏團隊在擴散模型的基礎之上，提出的一個名為AnimateAnyone的新演算法，早在去年11月底，這項研究就已經備受關註，在推特、Youtube等海外平台上爆火，影片播放量超過1億，僅僅1個月時間，這個專案便在GitHub上斬獲了超1萬個star。

最後，和大家談一談這兩年AIGC生成工具的能力和前景。提到AIGC生成工具，這背後離不開「多模態能力」的前進演化，在大語言模型通往AGI的道路中，從傳統的單一的「語言模態」擴充套件到「影像」、「語音」、「影片」等「多模態」必然是大模型前進演化的必經之路。

好訊息是，伴隨著大模型本身的飛速前進演化，AIGC生成工具的套用也不斷地產生新的突破。

先說文生圖這塊，隨著StableDiffusion、MidJounery、ChatGPT（Dall.E）等AI不斷升級，文生圖的清晰度越來越高，影像越來越逼真，但不足之處在於它們都對prompt有比較高的要求，在給小白使用者的體驗上來說還是不夠簡單好用，就好比文章開頭提到的生成一張帶字的拜年海報一樣，ChatGPT的指令遵循還差點兒意思，反而是魔搭社區提供的春節AI工具更好用。

接著說下文生影片這塊，23年這個方向沖出了RunWay和Pika這兩家具體代表性的玩家。不難預測，24年文生影片將越來越卷，且在可控性、一致性和時長方面將產生更大的突破。那麽這意味著文生影片的ChatGPT時刻很快就要到來嗎？其實不然，我認為有一個很大的挑戰需要解決，那就是AI對物理規律的掌控，因為只有生成的影片符合物理規律才能滿足人類的「直覺審美」，就像每個大型端遊都得有成熟的物理引擎一樣，否則生成的畫面將會全部亂套(比如蘋果會掉到天上去，剛體會產生形變等)，很難套用在日常生活場景。

最後，有挑戰其實是個好事，當這些挑戰都被解決之後，迎接我們的將是一場多模態大爆炸的盛宴。期待阿裏在這場盛宴中做出下一個全民級套用。