大家好,临近春节,这几天的心理状态就是「今年的砖就搬到这儿了」,怀揣着「村里的风景,平淡且耐看」的期许,支撑度(如)日(年)。
但是,来自远方老妈的关怀,让我又犯难了。
遇事不决,先找ChatGPT。输入 prompt 之后等待返回结果。
哇 ,第一眼看过去还不错,龙的形象很完美又喜庆,但是「春节快乐,龙年大吉」的拜年祝福语没在图片里,不满足我妈的要求。
又试了一次,这次ChatGPT生成的龙仍然很出彩,但依旧没有祝福语,仔细看中间的字是什么??图片里的所有的文字好像都没见过。
万能的ChatGPT也解决不了,怎么办?谷歌一下吧,我接着试下抖音的图片生成工具Dreamina。
在我输入对应的prompt之后,Dreamina 返回了下面的结果。
不得不说,生成的效果非常可爱,只可惜生成的图像更像是门画而不是海报,而且和ChatGPT一样,也没有精准地生成我想要的祝福语,图片不知道是些什么奇奇怪怪的字。
重新生成了一次,效果还是差不多。
突然想起来这两天朋友圈里有人发过拜年AI工具,一顿翻找,原来是阿里云魔搭社区里的拜年海报生成器。
抱着试一试的心态,我打开了魔搭社区提供的一键生成拜年海报的AI功能。首先它支持输入标题,我把「春节快乐,龙年大吉「输入到了主标题,输入简单的提示词,只需几秒钟就生成了一张海报。
还可以选择一键换个标题和生成风格!
哇!!果然灰常好用,这下能够完美地给老妈交差了!
还能看到作品广场里其他用户生成的不同风格的拜年海报。
除了以龙为主题的拜年海报之后,还有情人节、元宵节等各种节日海报都可以选择。
我又在魔搭社区花式DIY「AI年货」功能区逛了逛,发现还有好多其他好玩有趣的春节AI工具。比如可以一键生成年味儿写真。
(线上试玩链接在这里哦 https:// modelscope.cn/brand/vie w/SpringFestival )
只需上传一张照片,就能秒级地生成出大片质感的年味儿写真。
这个AI写真功能让我想起了23年7月份时国内非常火的妙鸭相机,但妙鸭相机要求至少上传14张照片,实话来讲,这么多照片别说对男生,哪怕对女生来说也很有难度。虽然听说生成效果还不错,但据说排队等待生成时间很长,就有些劝退了。
23年不只是GPT类大模型的元年,文生图、文生视频、图生图、图生视频也迎来爆火。比如阿里魔塔社区中的AI年味儿写真工具背后的技术便是前段时间火出圈的InstantID项目。用户只需上传一张照片,就能轻松定制出多种风格的AI写真,同时拥有高保真度和灵活性。相比妙鸭最大的优势是只需一张自拍图,无需微调,不需等待,秒级出图。
另外,魔搭社区还有好多其他好玩的功能,比如一键生成富有中国特色的表情包,可以用来感受表情包自由+开盲盒的双重快乐,嘿嘿又多了一个哄家人朋友开心的工具。
还可以一键生成超萌的春节福娃风格年画照,出图超快,我决定回家后给我的外甥女试一下。
再放一次试玩链接:
https:// modelscope.cn/brand/vie w/SpringFestival
对了忘了说了,魔搭社区以上所有功能全都开源免费。
接地气的阿里AI应用
在爱不释手地试玩魔搭社区上好玩有趣的应用之后,咱们冷静下来,回顾下这一年多来国内的大模型发展,我认为真正火爆出圈的C端应用一共出现过两次。
第一次就是上文提到的妙鸭相机,当时它的出现虽然仍然有一些产品和技术上的不足之处,但因为出现够早,生成效果很惊艳,仍然可圈可点。妙鸭相机背后的产品开发团队正是来自阿里大文娱。
第二次就是前不久火遍全网的「科目三」跳舞。
好家伙,这个AI功能一出,一下子让世界上所有人都跳起了科目三,就连兵马俑都难逃一劫:
这个全民AI应用「通义舞王」应用正是来自阿里云开发的「通义千问」app。
我个人认为阿里又火了背后是有原因的,我发现它们在AI应用上的一个主要打法:
以用户为中心,接地气,主打的就是一个让用户感觉好玩好用和实用;
但能做到好玩和实用并不简单,这背后其实都是阿里长久以来在技术方面的日积月累。
比如「通义舞王」背后的技术其实就是开源于阿里团队在扩散模型的基础之上,提出的一个名为AnimateAnyone的新算法,早在去年11月底,这项研究就已经备受关注,在推特、Youtube等海外平台上爆火,视频播放量超过1亿,仅仅1个月时间,这个项目便在GitHub上斩获了超1万个star。
最后,和大家谈一谈这两年AIGC生成工具的能力和前景。 提到AIGC生成工具,这背后离不开「多模态能力」的进化,在大语言模型通往AGI的道路中,从传统的单一的「语言模态」扩展到「图像」、「语音」、「视频」等「多模态」必然是大模型进化的必经之路。
好消息是,伴随着大模型本身的飞速进化,AIGC生成工具的应用也不断地产生新的突破。
先说文生图这块,随着StableDiffusion、MidJounery、ChatGPT(Dall.E)等AI不断升级,文生图的清晰度越来越高,图像越来越逼真,但不足之处在于它们都对prompt有比较高的要求,在给小白用户的体验上来说还是不够简单好用,就好比文章开头提到的生成一张带字的拜年海报一样,ChatGPT的指令遵循还差点儿意思,反而是魔搭社区提供的春节AI工具更好用。
接着说下文生视频这块,23年这个方向冲出了RunWay和Pika这两家具体代表性的玩家。不难预测,24年文生视频将越来越卷,且在可控性、一致性和时长方面将产生更大的突破。那么这意味着文生视频的ChatGPT时刻很快就要到来吗?其实不然,我认为有一个很大的挑战需要解决,那就是AI对物理规律的掌控,因为只有生成的视频符合物理规律才能满足人类的「直觉审美」,就像每个大型端游都得有成熟的物理引擎一样,否则生成的画面将会全部乱套(比如苹果会掉到天上去,刚体会产生形变等),很难应用在日常生活场景。
最后,有挑战其实是个好事,当这些挑战都被解决之后,迎接我们的将是一场多模态大爆炸的盛宴。期待阿里在这场盛宴中做出下一个全民级应用。