IT時報記者 潘少穎 圖 壹圖網
Grace改名為豆包的時候,字節跳動沒少被人笑話。但就是這個接地氣的名字,如今站上了字節大模型家族的C位。字節跳動戰略和產品副總裁朱駿曾這樣解釋,一定要擬人化,產品起名的通用原則是簡單、好讀、好記。
在豆包家族中,有五個垂類模型,分別是角色扮演模型、語音合成模型、聲音復刻模型、語音辨識模型和文生圖模型,基本涵蓋了目前模型普遍使用的場景。
在8月中旬舉行的火山引擎AI創新巡展—上海站活動上,火山引擎總裁譚待表示,豆包大語言模型最新實作多維度升級,綜合效能提升20.3%。
在豆包首頁的「對話」中,可以清晰地看到功能分類,包括寫作神器、AI圖片生成、英語外教、文案助手、工作日報等,從功能上來說,和其他家的大模型功能比較相似。但是豆包的「智商」有多高?不妨來考考它。
AI圖片生成:從簡至繁的挑戰
對於大模型來說,圖片生成說難也不難,說不難也難,因為沒有固定的正確答案,比較簡單的要求,大模型或許都能完成,但是對於一些較為復雜的指令,就要看大模型的「智商」了。豆包大模型支持寫一句話即可生成圖片,而且多種風格可選。
「一個人在沙灘漫步,臉色憂郁,漫畫風」,條件比較簡單,半分鐘左右,豆包生成了四宮格,四幅畫基本都滿足條件,背景是藍天、白雲、沙灘和大海,主人公的服飾、步態、方向不一樣,供使用者選擇,如果有滿意的圖片,可以下載。但是,「憂郁」這個表情並沒有很好地刻畫出來,第一眼看上去並沒有感受到主角的憂郁。
在這幅圖的基礎上,【IT時報】記者提出了修改要求,「把男性變成女性,表情再憂郁一點」,本意是把主人公換成女性,但豆包似乎沒理解,新生成的四張圖中,雖然女孩的表情更顯憂郁,但背景已經不是海邊,而且人物風格也從漫畫變成寫實,完全和第一張圖沒有關系。
「背景不變,在海邊,依然是漫畫風格」,【IT時報】記者繼續調整,得到這個指令後,豆包生成的圖片是四幅海邊的漫畫圖片,就是第一幅圖片的背景,但是主人公不見了。看起來,豆包並沒有把這三個要求看成是連續的要求。
此前,【IT時報】記者在「調戲」其他大模型時,發現如果畫面中有多人或者不同年齡的人群,生成的圖片效果並不理想。「海灘上,外婆、媽媽帶著一個小女孩在撿貝殼,漫畫風」,這次豆包的表現不錯,既展現了三個女性,年齡層次也很容易區分,背景、動作、風格都沒有出現失誤。
看起來,盡量一次性把圖片的條件都說清楚,豆包基本上都能在畫面上展現出來,但是在對畫面進行微調時,豆包還應該更清晰地把要求串聯起來。
AI搜尋:從基礎到深度
此前,【IT時報】記者曾做過誇克、元寶和天工的AI搜尋功能,總體而言,各家AI搜尋套用各有各的優勢,但也會有「迷糊」的時候。
看看豆包的AI搜尋功能如何?
「水由哪些物質構成」,豆包基於8個搜尋來源,包括抖音百科、網易、新東方線上等,給出了答案。總體來看,答案還是很詳細的,水(化學式:pO)是由氫、氧兩種元素組成的無機物,在常溫常壓下,水為無色無味的透明液體……
豆包還有深入搜尋功能,同一個問題,搜尋了20個來源,從水的元素組成、分子構成講到了化學性質以及在生命活動中的作用。雖然很詳細,但非常專業,於是被要求「解釋得通俗一點」,這時,回答的風格變了:水由氫元素和氧元素組成,就好像用氫原子和氧原子這兩種「小積木」 搭成了水這個「大東西」。在我們身體裏,水就像一個「小卡車」,把營養物質運送到身體各個部位,又把代謝產生的廢物運出去。用了比喻的方法,解釋得比較清楚。
在即時新聞搜尋方面,豆包的精確度也較高。「最近上海的家電以舊換新政策是什麽」,豆包透過9個搜尋來源,總結出上海最近的家電以舊換新政策是從2024年9月7日至2024年12月31日,對個人消費者購買冰箱、洗衣機等8類1級能效產品按照銷售價格20%予以補貼,2級能效產品按照銷售價格的15%予以補貼,每位消費者每類產品可補貼1件,每件補貼不超過2000元。
「適老化產品有哪些可以參加補貼?」,繼續追問,豆包也很快給出了詳細的答案,分別是按照國家政策補貼的5個品種,如語音手勢控制電視機、語音手勢控制洗衣機等。此外還有按照本市政策實施補貼的15 個品種,包括煙霧、燃氣、水浸報警器、智慧網路攝影機、智慧視訊門鎖等。
再考一下豆包的思辨能力,「現在的兒童智慧型手錶好嗎」,這個問題沒有標準答案。豆包從優缺點兩方面分析了兒童智慧型手錶,優點有保障安全、方便溝通、輔助學習等,缺點有功能冗余、誘導消費、私密泄露等。以「功能冗余」為例,豆包解釋部份兒童智慧型手錶預裝了多種應用程式,如聊天、故事、音樂等,可能會分散孩子的註意力,影響學習和生活,一些關鍵點都點到了。
總體來說,豆包的搜尋能力還比較「線上」。
人機互動:從普通話「卷」到方言
大多數時候,使用者都是用文字和大模型進行互動,但這並不適用於所有的場景,有時需要和大模型用語言互動。經過升級之後,豆包的語言能力也大大提升。
如果和豆包用語言溝通,和真人之間溝通比較像,可以隨時打斷,也可以隨時轉換話題,簡單來說,就是支持「邊想邊說」,讓大模型跟著你的思路。
值得一提的是,豆包從普通話「卷」到了方言,可以辨識粵語、上海話、四川話、西安話、閩南語等多種方言,但目前豆包僅支持方言輸入,暫不支持方言互動,這樣可以解決在一些會議或者交談場合,如果對方講的是方言,可以透過豆包記錄整理。
豆包對方言的辨識能力怎麽樣?【IT時報】記者用上海話和豆包進行了一番對話。
「儂可以幫吾寫篇稿子伐」,一開始豆包似乎還沒回過神,螢幕上的文本把「寫篇稿子」轉譯成了「皮果子」,以至於豆包無法理解,還反問一句「儂吃過飯了伐」,看來把「皮果子」當成了一樣食物。
當【IT時報】記者糾正「不是吃飯,是寫篇稿子」之後,豆包接下去的表現漸入佳境,「今朝上海舉行了外灘大會,儂曉得伐」,「吾曉得呀,主題是‘科技,創造永續未來’,是伐」……
所有這些對話並非在安靜的環境中進行,「背景音」是幾乎蓋過記者聲音的聊天聲,有普通話、上海話,還有其他方言等,也就是說豆包要從這些聲音中精準找到是誰在和它對話。根據文本轉譯的內容,它並沒有受到雜音的幹擾。此外,在豆包「說話」時,記者經常打斷它,一聽到記者發聲,它便立即停止說話。
聊天在停頓了5分鐘後繼續進行,「儂在做啥?」記者向豆包發問。豆包很快回答:「吾在幫儂寫稿子,儂剛剛問我外灘大會的主要內容,是想讓幫儂寫一篇外灘大會的新聞稿,對伐」,這個回答深得記者的心。豆包是個「嚴謹」的大模型,「儂告訴我稿子字數、風格、釋出渠道,吾現在就幫儂寫」。
真是一場愉快的聊天。