對話豆包 一文一圖 見「智商」高低

2024-09-30心靈

IT時報記者潘少穎圖壹圖網

Grace改名為豆包的時候，字節跳動沒少被人笑話。但就是這個接地氣的名字，如今站上了字節大模型家族的C位。字節跳動戰略和產品副總裁朱駿曾這樣解釋，一定要擬人化，產品起名的通用原則是簡單、好讀、好記。

在豆包家族中，有五個垂類模型，分別是角色扮演模型、語音合成模型、聲音復刻模型、語音辨識模型和文生圖模型，基本涵蓋了目前模型普遍使用的場景。

在8月中旬舉行的火山引擎AI創新巡展—上海站活動上，火山引擎總裁譚待表示，豆包大語言模型最新實作多維度升級，綜合效能提升20.3%。

在豆包首頁的「對話」中，可以清晰地看到功能分類，包括寫作神器、AI圖片生成、英語外教、文案助手、工作日報等，從功能上來說，和其他家的大模型功能比較相似。但是豆包的「智商」有多高？不妨來考考它。

AI圖片生成：從簡至繁的挑戰

對於大模型來說，圖片生成說難也不難，說不難也難，因為沒有固定的正確答案，比較簡單的要求，大模型或許都能完成，但是對於一些較為復雜的指令，就要看大模型的「智商」了。豆包大模型支持寫一句話即可生成圖片，而且多種風格可選。

「一個人在沙灘漫步，臉色憂郁，漫畫風」，條件比較簡單，半分鐘左右，豆包生成了四宮格，四幅畫基本都滿足條件，背景是藍天、白雲、沙灘和大海，主人公的服飾、步態、方向不一樣，供使用者選擇，如果有滿意的圖片，可以下載。但是，「憂郁」這個表情並沒有很好地刻畫出來，第一眼看上去並沒有感受到主角的憂郁。

在這幅圖的基礎上，【IT時報】記者提出了修改要求，「把男性變成女性，表情再憂郁一點」，本意是把主人公換成女性，但豆包似乎沒理解，新生成的四張圖中，雖然女孩的表情更顯憂郁，但背景已經不是海邊，而且人物風格也從漫畫變成寫實，完全和第一張圖沒有關系。

「背景不變，在海邊，依然是漫畫風格」，【IT時報】記者繼續調整，得到這個指令後，豆包生成的圖片是四幅海邊的漫畫圖片，就是第一幅圖片的背景，但是主人公不見了。看起來，豆包並沒有把這三個要求看成是連續的要求。

此前，【IT時報】記者在「調戲」其他大模型時，發現如果畫面中有多人或者不同年齡的人群，生成的圖片效果並不理想。「海灘上，外婆、媽媽帶著一個小女孩在撿貝殼，漫畫風」，這次豆包的表現不錯，既展現了三個女性，年齡層次也很容易區分，背景、動作、風格都沒有出現失誤。

看起來，盡量一次性把圖片的條件都說清楚，豆包基本上都能在畫面上展現出來，但是在對畫面進行微調時，豆包還應該更清晰地把要求串聯起來。

AI搜尋：從基礎到深度

此前，【IT時報】記者曾做過誇克、元寶和天工的AI搜尋功能，總體而言，各家AI搜尋套用各有各的優勢，但也會有「迷糊」的時候。

看看豆包的AI搜尋功能如何？

「水由哪些物質構成」，豆包基於8個搜尋來源，包括抖音百科、網易、新東方線上等，給出了答案。總體來看，答案還是很詳細的，水（化學式：pO）是由氫、氧兩種元素組成的無機物，在常溫常壓下，水為無色無味的透明液體……

豆包還有深入搜尋功能，同一個問題，搜尋了20個來源，從水的元素組成、分子構成講到了化學性質以及在生命活動中的作用。雖然很詳細，但非常專業，於是被要求「解釋得通俗一點」，這時，回答的風格變了：水由氫元素和氧元素組成，就好像用氫原子和氧原子這兩種「小積木」搭成了水這個「大東西」。在我們身體裏，水就像一個「小卡車」，把營養物質運送到身體各個部位，又把代謝產生的廢物運出去。用了比喻的方法，解釋得比較清楚。

在即時新聞搜尋方面，豆包的精確度也較高。「最近上海的家電以舊換新政策是什麽」，豆包透過9個搜尋來源，總結出上海最近的家電以舊換新政策是從2024年9月7日至2024年12月31日，對個人消費者購買冰箱、洗衣機等8類1級能效產品按照銷售價格20%予以補貼，2級能效產品按照銷售價格的15%予以補貼，每位消費者每類產品可補貼1件，每件補貼不超過2000元。

「適老化產品有哪些可以參加補貼？」，繼續追問，豆包也很快給出了詳細的答案，分別是按照國家政策補貼的5個品種，如語音手勢控制電視機、語音手勢控制洗衣機等。此外還有按照本市政策實施補貼的15 個品種，包括煙霧、燃氣、水浸報警器、智慧網路攝影機、智慧視訊門鎖等。

再考一下豆包的思辨能力，「現在的兒童智慧型手錶好嗎」，這個問題沒有標準答案。豆包從優缺點兩方面分析了兒童智慧型手錶，優點有保障安全、方便溝通、輔助學習等，缺點有功能冗余、誘導消費、私密泄露等。以「功能冗余」為例，豆包解釋部份兒童智慧型手錶預裝了多種應用程式，如聊天、故事、音樂等，可能會分散孩子的註意力，影響學習和生活，一些關鍵點都點到了。

總體來說，豆包的搜尋能力還比較「線上」。

人機互動：從普通話「卷」到方言

大多數時候，使用者都是用文字和大模型進行互動，但這並不適用於所有的場景，有時需要和大模型用語言互動。經過升級之後，豆包的語言能力也大大提升。

如果和豆包用語言溝通，和真人之間溝通比較像，可以隨時打斷，也可以隨時轉換話題，簡單來說，就是支持「邊想邊說」，讓大模型跟著你的思路。

值得一提的是，豆包從普通話「卷」到了方言，可以辨識粵語、上海話、四川話、西安話、閩南語等多種方言，但目前豆包僅支持方言輸入，暫不支持方言互動，這樣可以解決在一些會議或者交談場合，如果對方講的是方言，可以透過豆包記錄整理。

豆包對方言的辨識能力怎麽樣？【IT時報】記者用上海話和豆包進行了一番對話。

「儂可以幫吾寫篇稿子伐」，一開始豆包似乎還沒回過神，螢幕上的文本把「寫篇稿子」轉譯成了「皮果子」，以至於豆包無法理解，還反問一句「儂吃過飯了伐」，看來把「皮果子」當成了一樣食物。

當【IT時報】記者糾正「不是吃飯，是寫篇稿子」之後，豆包接下去的表現漸入佳境，「今朝上海舉行了外灘大會，儂曉得伐」，「吾曉得呀，主題是‘科技，創造永續未來’，是伐」……

所有這些對話並非在安靜的環境中進行，「背景音」是幾乎蓋過記者聲音的聊天聲，有普通話、上海話，還有其他方言等，也就是說豆包要從這些聲音中精準找到是誰在和它對話。根據文本轉譯的內容，它並沒有受到雜音的幹擾。此外，在豆包「說話」時，記者經常打斷它，一聽到記者發聲，它便立即停止說話。

聊天在停頓了5分鐘後繼續進行，「儂在做啥？」記者向豆包發問。豆包很快回答：「吾在幫儂寫稿子，儂剛剛問我外灘大會的主要內容，是想讓幫儂寫一篇外灘大會的新聞稿，對伐」，這個回答深得記者的心。豆包是個「嚴謹」的大模型，「儂告訴我稿子字數、風格、釋出渠道，吾現在就幫儂寫」。

真是一場愉快的聊天。

對話豆包 一文一圖 見「智商」高低

對話豆包一文一圖見「智商」高低