我在阿里云魔搭上发现了一个非常适合AI从业者过年装X的神器

2024-02-07新闻

大家好，临近春节，这几天的心理状态就是「今年的砖就搬到这儿了」，怀揣着「村里的风景，平淡且耐看」的期许，支撑度（如）日（年）。

但是，来自远方老妈的关怀，让我又犯难了。

遇事不决，先找ChatGPT。输入 prompt 之后等待返回结果。

哇，第一眼看过去还不错，龙的形象很完美又喜庆，但是「春节快乐，龙年大吉」的拜年祝福语没在图片里，不满足我妈的要求。

又试了一次，这次ChatGPT生成的龙仍然很出彩，但依旧没有祝福语，仔细看中间的字是什么？？图片里的所有的文字好像都没见过。

万能的ChatGPT也解决不了，怎么办？谷歌一下吧，我接着试下抖音的图片生成工具Dreamina。

在我输入对应的prompt之后，Dreamina 返回了下面的结果。

不得不说，生成的效果非常可爱，只可惜生成的图像更像是门画而不是海报，而且和ChatGPT一样，也没有精准地生成我想要的祝福语，图片不知道是些什么奇奇怪怪的字。

重新生成了一次，效果还是差不多。

突然想起来这两天朋友圈里有人发过拜年AI工具，一顿翻找，原来是阿里云魔搭社区里的拜年海报生成器。

抱着试一试的心态，我打开了魔搭社区提供的一键生成拜年海报的AI功能。首先它支持输入标题，我把「春节快乐，龙年大吉「输入到了主标题，输入简单的提示词，只需几秒钟就生成了一张海报。

还可以选择一键换个标题和生成风格！

哇！！果然灰常好用，这下能够完美地给老妈交差了！

还能看到作品广场里其他用户生成的不同风格的拜年海报。

除了以龙为主题的拜年海报之后，还有情人节、元宵节等各种节日海报都可以选择。

我又在魔搭社区花式DIY「AI年货」功能区逛了逛，发现还有好多其他好玩有趣的春节AI工具。比如可以一键生成年味儿写真。

（线上试玩链接在这里哦 https:// modelscope.cn/brand/vie w/SpringFestival ）

只需上传一张照片，就能秒级地生成出大片质感的年味儿写真。

这个AI写真功能让我想起了23年7月份时国内非常火的妙鸭相机，但妙鸭相机要求至少上传14张照片，实话来讲，这么多照片别说对男生，哪怕对女生来说也很有难度。虽然听说生成效果还不错，但据说排队等待生成时间很长，就有些劝退了。

23年不只是GPT类大模型的元年，文生图、文生视频、图生图、图生视频也迎来爆火。比如阿里魔塔社区中的AI年味儿写真工具背后的技术便是前段时间火出圈的InstantID项目。用户只需上传一张照片，就能轻松定制出多种风格的AI写真，同时拥有高保真度和灵活性。相比妙鸭最大的优势是只需一张自拍图，无需微调，不需等待，秒级出图。

另外，魔搭社区还有好多其他好玩的功能，比如一键生成富有中国特色的表情包，可以用来感受表情包自由+开盲盒的双重快乐，嘿嘿又多了一个哄家人朋友开心的工具。

还可以一键生成超萌的春节福娃风格年画照，出图超快，我决定回家后给我的外甥女试一下。

再放一次试玩链接：

https:// modelscope.cn/brand/vie w/SpringFestival

对了忘了说了，魔搭社区以上所有功能全都开源免费。

接地气的阿里AI应用

在爱不释手地试玩魔搭社区上好玩有趣的应用之后，咱们冷静下来，回顾下这一年多来国内的大模型发展，我认为真正火爆出圈的C端应用一共出现过两次。

第一次就是上文提到的妙鸭相机，当时它的出现虽然仍然有一些产品和技术上的不足之处，但因为出现够早，生成效果很惊艳，仍然可圈可点。妙鸭相机背后的产品开发团队正是来自阿里大文娱。

第二次就是前不久火遍全网的「科目三」跳舞。

好家伙，这个AI功能一出，一下子让世界上所有人都跳起了科目三，就连兵马俑都难逃一劫：

这个全民AI应用「通义舞王」应用正是来自阿里云开发的「通义千问」app。

我个人认为阿里又火了背后是有原因的，我发现它们在AI应用上的一个主要打法：

以用户为中心，接地气，主打的就是一个让用户感觉好玩好用和实用；

但能做到好玩和实用并不简单，这背后其实都是阿里长久以来在技术方面的日积月累。

比如「通义舞王」背后的技术其实就是开源于阿里团队在扩散模型的基础之上，提出的一个名为AnimateAnyone的新算法，早在去年11月底，这项研究就已经备受关注，在推特、Youtube等海外平台上爆火，视频播放量超过1亿，仅仅1个月时间，这个项目便在GitHub上斩获了超1万个star。

最后，和大家谈一谈这两年AIGC生成工具的能力和前景。提到AIGC生成工具，这背后离不开「多模态能力」的进化，在大语言模型通往AGI的道路中，从传统的单一的「语言模态」扩展到「图像」、「语音」、「视频」等「多模态」必然是大模型进化的必经之路。

好消息是，伴随着大模型本身的飞速进化，AIGC生成工具的应用也不断地产生新的突破。

先说文生图这块，随着StableDiffusion、MidJounery、ChatGPT（Dall.E）等AI不断升级，文生图的清晰度越来越高，图像越来越逼真，但不足之处在于它们都对prompt有比较高的要求，在给小白用户的体验上来说还是不够简单好用，就好比文章开头提到的生成一张带字的拜年海报一样，ChatGPT的指令遵循还差点儿意思，反而是魔搭社区提供的春节AI工具更好用。

接着说下文生视频这块，23年这个方向冲出了RunWay和Pika这两家具体代表性的玩家。不难预测，24年文生视频将越来越卷，且在可控性、一致性和时长方面将产生更大的突破。那么这意味着文生视频的ChatGPT时刻很快就要到来吗？其实不然，我认为有一个很大的挑战需要解决，那就是AI对物理规律的掌控，因为只有生成的视频符合物理规律才能满足人类的「直觉审美」，就像每个大型端游都得有成熟的物理引擎一样，否则生成的画面将会全部乱套(比如苹果会掉到天上去，刚体会产生形变等)，很难应用在日常生活场景。

最后，有挑战其实是个好事，当这些挑战都被解决之后，迎接我们的将是一场多模态大爆炸的盛宴。期待阿里在这场盛宴中做出下一个全民级应用。