IT时报记者 潘少颖 图 壹图网
Grace改名为豆包的时候,字节跳动没少被人笑话。但就是这个接地气的名字,如今站上了字节大模型家族的C位。字节跳动战略和产品副总裁朱骏曾这样解释,一定要拟人化,产品起名的通用原则是简单、好读、好记。
在豆包家族中,有五个垂类模型,分别是角色扮演模型、语音合成模型、声音复刻模型、语音识别模型和文生图模型,基本涵盖了目前模型普遍使用的场景。
在8月中旬举行的火山引擎AI创新巡展—上海站活动上,火山引擎总裁谭待表示,豆包大语言模型最新实现多维度升级,综合性能提升20.3%。
在豆包首页的「对话」中,可以清晰地看到功能分类,包括写作神器、AI图片生成、英语外教、文案助手、工作日报等,从功能上来说,和其他家的大模型功能比较相似。但是豆包的「智商」有多高?不妨来考考它。
AI图片生成:从简至繁的挑战
对于大模型来说,图片生成说难也不难,说不难也难,因为没有固定的正确答案,比较简单的要求,大模型或许都能完成,但是对于一些较为复杂的指令,就要看大模型的「智商」了。豆包大模型支持写一句话即可生成图片,而且多种风格可选。
「一个人在沙滩漫步,脸色忧郁,漫画风」,条件比较简单,半分钟左右,豆包生成了四宫格,四幅画基本都满足条件,背景是蓝天、白云、沙滩和大海,主人公的服饰、步态、方向不一样,供用户选择,如果有满意的图片,可以下载。但是,「忧郁」这个表情并没有很好地刻画出来,第一眼看上去并没有感受到主角的忧郁。
在这幅图的基础上,【IT时报】记者提出了修改要求,「把男性变成女性,表情再忧郁一点」,本意是把主人公换成女性,但豆包似乎没理解,新生成的四张图中,虽然女孩的表情更显忧郁,但背景已经不是海边,而且人物风格也从漫画变成写实,完全和第一张图没有关系。
「背景不变,在海边,依然是漫画风格」,【IT时报】记者继续调整,得到这个指令后,豆包生成的图片是四幅海边的漫画图片,就是第一幅图片的背景,但是主人公不见了。看起来,豆包并没有把这三个要求看成是连续的要求。
此前,【IT时报】记者在「调戏」其他大模型时,发现如果画面中有多人或者不同年龄的人群,生成的图片效果并不理想。「海滩上,外婆、妈妈带着一个小女孩在捡贝壳,漫画风」,这次豆包的表现不错,既展现了三个女性,年龄层次也很容易区分,背景、动作、风格都没有出现失误。
看起来,尽量一次性把图片的条件都说清楚,豆包基本上都能在画面上展现出来,但是在对画面进行微调时,豆包还应该更清晰地把要求串联起来。
AI搜索:从基础到深度
此前,【IT时报】记者曾做过夸克、元宝和天工的AI搜索功能,总体而言,各家AI搜索应用各有各的优势,但也会有「迷糊」的时候。
看看豆包的AI搜索功能如何?
「水由哪些物质构成」,豆包基于8个搜索来源,包括抖音百科、网易、新东方在线等,给出了答案。总体来看,答案还是很详细的,水(化学式:pO)是由氢、氧两种元素组成的无机物,在常温常压下,水为无色无味的透明液体……
豆包还有深入搜索功能,同一个问题,搜索了20个来源,从水的元素组成、分子构成讲到了化学性质以及在生命活动中的作用。虽然很详细,但非常专业,于是被要求「解释得通俗一点」,这时,回答的风格变了:水由氢元素和氧元素组成,就好像用氢原子和氧原子这两种「小积木」 搭成了水这个「大东西」。在我们身体里,水就像一个「小卡车」,把营养物质运送到身体各个部位,又把代谢产生的废物运出去。用了比喻的方法,解释得比较清楚。
在实时新闻搜索方面,豆包的精确度也较高。「最近上海的家电以旧换新政策是什么」,豆包通过9个搜索来源,总结出上海最近的家电以旧换新政策是从2024年9月7日至2024年12月31日,对个人消费者购买冰箱、洗衣机等8类1级能效产品按照销售价格20%予以补贴,2级能效产品按照销售价格的15%予以补贴,每位消费者每类产品可补贴1件,每件补贴不超过2000元。
「适老化产品有哪些可以参加补贴?」,继续追问,豆包也很快给出了详细的答案,分别是按照国家政策补贴的5个品种,如语音手势控制电视机、语音手势控制洗衣机等。此外还有按照本市政策实施补贴的15 个品种,包括烟雾、燃气、水浸报警器、智能摄像头、智能视频门锁等。
再考一下豆包的思辨能力,「现在的儿童智能手表好吗」,这个问题没有标准答案。豆包从优缺点两方面分析了儿童智能手表,优点有保障安全、方便沟通、辅助学习等,缺点有功能冗余、诱导消费、隐私泄露等。以「功能冗余」为例,豆包解释部分儿童智能手表预装了多种应用程序,如聊天、故事、音乐等,可能会分散孩子的注意力,影响学习和生活,一些关键点都点到了。
总体来说,豆包的搜索能力还比较「在线」。
人机交互:从普通话「卷」到方言
大多数时候,用户都是用文字和大模型进行交互,但这并不适用于所有的场景,有时需要和大模型用语言交互。经过升级之后,豆包的语言能力也大大提升。
如果和豆包用语言沟通,和真人之间沟通比较像,可以随时打断,也可以随时转换话题,简单来说,就是支持「边想边说」,让大模型跟着你的思路。
值得一提的是,豆包从普通话「卷」到了方言,可以识别粤语、上海话、四川话、西安话、闽南语等多种方言,但目前豆包仅支持方言输入,暂不支持方言交互,这样可以解决在一些会议或者交谈场合,如果对方讲的是方言,可以通过豆包记录整理。
豆包对方言的识别能力怎么样?【IT时报】记者用上海话和豆包进行了一番对话。
「侬可以帮吾写篇稿子伐」,一开始豆包似乎还没回过神,屏幕上的文本把「写篇稿子」翻译成了「皮果子」,以至于豆包无法理解,还反问一句「侬吃过饭了伐」,看来把「皮果子」当成了一样食物。
当【IT时报】记者纠正「不是吃饭,是写篇稿子」之后,豆包接下去的表现渐入佳境,「今朝上海举行了外滩大会,侬晓得伐」,「吾晓得呀,主题是‘科技,创造可持续未来’,是伐」……
所有这些对话并非在安静的环境中进行,「背景音」是几乎盖过记者声音的聊天声,有普通话、上海话,还有其他方言等,也就是说豆包要从这些声音中精准找到是谁在和它对话。根据文本翻译的内容,它并没有受到杂音的干扰。此外,在豆包「说话」时,记者经常打断它,一听到记者发声,它便立即停止说话。
聊天在停顿了5分钟后继续进行,「侬在做啥?」记者向豆包发问。豆包很快回答:「吾在帮侬写稿子,侬刚刚问我外滩大会的主要内容,是想让帮侬写一篇外滩大会的新闻稿,对伐」,这个回答深得记者的心。豆包是个「严谨」的大模型,「侬告诉我稿子字数、风格、发布渠道,吾现在就帮侬写」。
真是一场愉快的聊天。