对话豆包 一文一图 见「智商」高低

2024-09-30心灵

IT时报记者潘少颖图壹图网

Grace改名为豆包的时候，字节跳动没少被人笑话。但就是这个接地气的名字，如今站上了字节大模型家族的C位。字节跳动战略和产品副总裁朱骏曾这样解释，一定要拟人化，产品起名的通用原则是简单、好读、好记。

在豆包家族中，有五个垂类模型，分别是角色扮演模型、语音合成模型、声音复刻模型、语音识别模型和文生图模型，基本涵盖了目前模型普遍使用的场景。

在8月中旬举行的火山引擎AI创新巡展—上海站活动上，火山引擎总裁谭待表示，豆包大语言模型最新实现多维度升级，综合性能提升20.3%。

在豆包首页的「对话」中，可以清晰地看到功能分类，包括写作神器、AI图片生成、英语外教、文案助手、工作日报等，从功能上来说，和其他家的大模型功能比较相似。但是豆包的「智商」有多高？不妨来考考它。

AI图片生成：从简至繁的挑战

对于大模型来说，图片生成说难也不难，说不难也难，因为没有固定的正确答案，比较简单的要求，大模型或许都能完成，但是对于一些较为复杂的指令，就要看大模型的「智商」了。豆包大模型支持写一句话即可生成图片，而且多种风格可选。

「一个人在沙滩漫步，脸色忧郁，漫画风」，条件比较简单，半分钟左右，豆包生成了四宫格，四幅画基本都满足条件，背景是蓝天、白云、沙滩和大海，主人公的服饰、步态、方向不一样，供用户选择，如果有满意的图片，可以下载。但是，「忧郁」这个表情并没有很好地刻画出来，第一眼看上去并没有感受到主角的忧郁。

在这幅图的基础上，【IT时报】记者提出了修改要求，「把男性变成女性，表情再忧郁一点」，本意是把主人公换成女性，但豆包似乎没理解，新生成的四张图中，虽然女孩的表情更显忧郁，但背景已经不是海边，而且人物风格也从漫画变成写实，完全和第一张图没有关系。

「背景不变，在海边，依然是漫画风格」，【IT时报】记者继续调整，得到这个指令后，豆包生成的图片是四幅海边的漫画图片，就是第一幅图片的背景，但是主人公不见了。看起来，豆包并没有把这三个要求看成是连续的要求。

此前，【IT时报】记者在「调戏」其他大模型时，发现如果画面中有多人或者不同年龄的人群，生成的图片效果并不理想。「海滩上，外婆、妈妈带着一个小女孩在捡贝壳，漫画风」，这次豆包的表现不错，既展现了三个女性，年龄层次也很容易区分，背景、动作、风格都没有出现失误。

看起来，尽量一次性把图片的条件都说清楚，豆包基本上都能在画面上展现出来，但是在对画面进行微调时，豆包还应该更清晰地把要求串联起来。

AI搜索：从基础到深度

此前，【IT时报】记者曾做过夸克、元宝和天工的AI搜索功能，总体而言，各家AI搜索应用各有各的优势，但也会有「迷糊」的时候。

看看豆包的AI搜索功能如何？

「水由哪些物质构成」，豆包基于8个搜索来源，包括抖音百科、网易、新东方在线等，给出了答案。总体来看，答案还是很详细的，水（化学式：pO）是由氢、氧两种元素组成的无机物，在常温常压下，水为无色无味的透明液体……

豆包还有深入搜索功能，同一个问题，搜索了20个来源，从水的元素组成、分子构成讲到了化学性质以及在生命活动中的作用。虽然很详细，但非常专业，于是被要求「解释得通俗一点」，这时，回答的风格变了：水由氢元素和氧元素组成，就好像用氢原子和氧原子这两种「小积木」搭成了水这个「大东西」。在我们身体里，水就像一个「小卡车」，把营养物质运送到身体各个部位，又把代谢产生的废物运出去。用了比喻的方法，解释得比较清楚。

在实时新闻搜索方面，豆包的精确度也较高。「最近上海的家电以旧换新政策是什么」，豆包通过9个搜索来源，总结出上海最近的家电以旧换新政策是从2024年9月7日至2024年12月31日，对个人消费者购买冰箱、洗衣机等8类1级能效产品按照销售价格20%予以补贴，2级能效产品按照销售价格的15%予以补贴，每位消费者每类产品可补贴1件，每件补贴不超过2000元。

「适老化产品有哪些可以参加补贴？」，继续追问，豆包也很快给出了详细的答案，分别是按照国家政策补贴的5个品种，如语音手势控制电视机、语音手势控制洗衣机等。此外还有按照本市政策实施补贴的15 个品种，包括烟雾、燃气、水浸报警器、智能摄像头、智能视频门锁等。

再考一下豆包的思辨能力，「现在的儿童智能手表好吗」，这个问题没有标准答案。豆包从优缺点两方面分析了儿童智能手表，优点有保障安全、方便沟通、辅助学习等，缺点有功能冗余、诱导消费、隐私泄露等。以「功能冗余」为例，豆包解释部分儿童智能手表预装了多种应用程序，如聊天、故事、音乐等，可能会分散孩子的注意力，影响学习和生活，一些关键点都点到了。

总体来说，豆包的搜索能力还比较「在线」。

人机交互：从普通话「卷」到方言

大多数时候，用户都是用文字和大模型进行交互，但这并不适用于所有的场景，有时需要和大模型用语言交互。经过升级之后，豆包的语言能力也大大提升。

如果和豆包用语言沟通，和真人之间沟通比较像，可以随时打断，也可以随时转换话题，简单来说，就是支持「边想边说」，让大模型跟着你的思路。

值得一提的是，豆包从普通话「卷」到了方言，可以识别粤语、上海话、四川话、西安话、闽南语等多种方言，但目前豆包仅支持方言输入，暂不支持方言交互，这样可以解决在一些会议或者交谈场合，如果对方讲的是方言，可以通过豆包记录整理。

豆包对方言的识别能力怎么样？【IT时报】记者用上海话和豆包进行了一番对话。

「侬可以帮吾写篇稿子伐」，一开始豆包似乎还没回过神，屏幕上的文本把「写篇稿子」翻译成了「皮果子」，以至于豆包无法理解，还反问一句「侬吃过饭了伐」，看来把「皮果子」当成了一样食物。

当【IT时报】记者纠正「不是吃饭，是写篇稿子」之后，豆包接下去的表现渐入佳境，「今朝上海举行了外滩大会，侬晓得伐」，「吾晓得呀，主题是‘科技，创造可持续未来’，是伐」……

所有这些对话并非在安静的环境中进行，「背景音」是几乎盖过记者声音的聊天声，有普通话、上海话，还有其他方言等，也就是说豆包要从这些声音中精准找到是谁在和它对话。根据文本翻译的内容，它并没有受到杂音的干扰。此外，在豆包「说话」时，记者经常打断它，一听到记者发声，它便立即停止说话。

聊天在停顿了5分钟后继续进行，「侬在做啥？」记者向豆包发问。豆包很快回答：「吾在帮侬写稿子，侬刚刚问我外滩大会的主要内容，是想让帮侬写一篇外滩大会的新闻稿，对伐」，这个回答深得记者的心。豆包是个「严谨」的大模型，「侬告诉我稿子字数、风格、发布渠道，吾现在就帮侬写」。

真是一场愉快的聊天。

对话豆包 一文一图 见「智商」高低

对话豆包一文一图见「智商」高低