都誇自己能說會道
作者/ IT時報記者 林斐 孫永會
編輯/ 林斐 孫妍
2024年,被稱為AI落地元年。
一方面,電腦、手機的「AI含量」直線上升,無AI不產品;另一方面,對於這些裝有「AI心」的硬件,消費者似乎沒太大感知,只有產業鏈和廠商在狂歡。
究竟什麽是AI 硬件?定義是模糊的。
2024年新款PC大多配置了上遊芯片廠商的AI芯片,算力得到明顯提升。但之前的PC,同樣也能執行絕大多數的通用型AI套用,只是「執行速度」比不過AI PC。
AI手機的情況更為復雜。2024年各家手機廠商的旗艦級新品都采用了高通和聯發科的AI芯片,蘋果iPhone系列的AI芯片引入更早。但早在幾年前,手機廠商便引入了AI概念,比如攝影系統中的成像演算法、OS互動領域的個人化設定、影像處理時的最佳化、多模態資訊的自動化處理等等,消費者對此並不「感冒」。
如今,談起AI PC、AI手機,大多數消費者的第一反應是,它們究竟能幫我解決哪些問題?是取代搜尋引擎更快找到問題答案?還是根據要求寫一篇文章?或快速總結一篇文章的核心觀點?還是給出幾個詞生成圖片、影片等等。
時值新年,【IT時報】記者決定來一次AI大測試,看看這些硬件廠商究竟給自家產品裝了一顆怎樣的「AI之心」。
AI 手機篇
根據Counterpoint釋出的數據,去除尚未在中國市場部署AI大模型的iPhone後,2024年第三季度中國市場AI手機的銷量為800萬台。另外,太平洋科技釋出的【2024年AI手機白皮書】和OPPO聯合IDC釋出的【AI手機白皮書】均估算,2024年中國市場新一代AI手機的出貨量為3700萬台。
目前手機廠商均將AI語音助手作為多模態AI的主要入口,【IT時報】選擇了5家廠商今年最新款旗艦機型的標準版手機, 它們搭載的語音助手分別為小米的小愛同學、OPPO的小布助手、vivo的藍心小V、榮耀的YOYO助理和華為的小藝,看看究竟誰最「聰明」?
Round 1 邏輯分析和數學解題
測試題
你有一個裝滿100個球的袋子,其中99個球是白色的,1個球是黑色的。除了顏色外,這些球其他方面都是相同的。每次從袋子裏隨機取出一個球,取出後不放回。請問取出黑球之前,平均會取出多少個白球?
結果分析
5個AI助手中,YOYO助理和小藝的回答最為準確,找出了李陵打仗失敗後即投降匈奴;與降將衛律一起成為單於左膀右臂;率領大軍追擊漢軍三個關鍵點。
藍心小V、小布助手、小愛同學都只找出兩個關鍵點。但小藝在提問時,對輸入文字有字數限制,文字材料過長需分段輸入。
Round 2 閱讀理解及語言表達
測試題
2024年上海高考語文作文題
「生活中,人們常用認可度判別事物,區分高下。請寫一篇文章,談談你對‘認可度’的認識和思考。」字數不少於800字。先列出文章提綱,再完成作文。
結果分析
5個AI助手均按照要求列出了提綱,並完成了作文。
如果按照滿分100分的標準來看,YOYO助理完成的作文可以打85分、小布助手和小藝得分為80分,小愛同學和藍心小V為 70分。
小愛同學和藍心小V扣分的主要原因是提綱中部份內容脫離題意,作文的套話太多。另外藍心小V完成的作文字數接近2500字,遠超要求。
Round 3 多國語言的互譯
測試題
將以下這段中文轉譯成英語,再將英語結果轉譯為日語,最後從日語轉譯回中文。
「人的心靈就像一面鏡子,你感知到的是什麽樣的世界,取決於你如何看待自己。這面鏡子其實是哈哈鏡,表面的世界是客觀的,客觀的外在對映到我們的內心,就會加上我們的主觀意念,然後變得凹凸不平」。
結果分析
5個AI助手都能順利將中文轉譯成英語,但只有小布助手和小藝支持將英語轉譯為日語,其後日語再轉譯為中文的測試,YOYO助理、藍心小V和小愛同學均無法完成。
從準確度上看,5個AI助手使用單詞和表達略有不同,準確度基本達標,且都使用簡單句式。最後轉譯回中文後,小布助手和小藝的答案,表達意思比較準確,但遣詞造句略有不同,小藝的結果更接近書面用語和原文。
Round 4 文言文閱讀理解
測試題
2024年高考語文新課標Ⅰ卷試題(文言文閱讀)
材料一:李廣有孫陵,為侍中,善騎射。……(節選自【資治通鑒·漢紀】);材料二:李陵之降也,罪較著而不可掩。如謂其孤軍支虜而無援,則以步卒五千出塞,陵自炫其勇,而非武帝命之不獲辭也。……(節選自王夫之【讀通鑒論】卷三)。
問題為:王夫之強調李陵「大節喪,則余無可浣也」,材料一有哪些事實可以支持王夫之的觀點?請簡要概括。
結果分析
5個AI助手中,YOYO助理和小藝的回答最為準確,找出了李陵打仗失敗後即投降匈奴;與降將衛律一起成為單於左膀右臂;率領大軍追擊漢軍三個關鍵點。
藍心小V、小布助手、小愛同學都只找出兩個關鍵點。但小藝在提問時,對輸入文字有字數限制,文字材料過長需分段輸入。
Round 5 資料篩選及整合
測試題
針對一個主題進行三輪提問:
1、人工智能是什麽?
2、不少人工智能的深度學習演算法決策過程類似於「黑箱」操作。在醫療領域,如何讓醫生能夠理解演算法決策給出的診斷或治療建議背後的依據和邏輯?
3、如何避免演算法偏見,確保人工智能在醫療決策中的公平性?
結果分析
除了小愛同學之外,其余4個AI助手均順利回答了三輪問題,並且每個回答都列出要點進行解讀。
其中,YOYO助理和藍心小V的答案較為完善,而小布助手和小藝在回答第三個問題關於「演算法偏見與公平性關系」時,前後說法會有相互矛盾之處。
小愛同學在回答第一個問題時,直接彈出瀏覽器,給出「人工智能」的百度百科頁面。其後反復嘗試仍然無法回答問題。
Round 6 多語言的閱讀理解及歸納
測試題
對以下兩篇中英文新聞報道提煉要點並總結,文章分別來自【中國日報】和【新華網】
【Role in global poverty fight wins praise China sets example by helping other nations through cooperation projects】【財經聚焦丨全國水利建設投資:連續3年破萬億元】
結果分析
小布助手無法完成這項測試,不支持外鏈閱讀,其余4個AI助手中,小藝無法完成該英文頁面文章的解讀。
從最終內容總結來看,YOYO助理答案最為準確,小藝、小愛同學和藍心小V中文頁面的測試結果差不多,英文頁面的閱讀能力,藍心小V明顯優於小愛同學。
綜述
從總體評分來看,榮耀 YOYO表現最佳,文本理解、數學推理、文本寫作等方面都能較為出色地完成任務,但語言轉譯能力較為普通。
藍心小V、小布助手、小藝這3個助手的表現處於第二梯隊,其中小藝在數理方面的優異表現令人印象深刻,小布助手的轉譯能力最強,支持語言類別最多。
「年齡最長」的小愛同學表現讓人失望,整體表現較為平庸,六項測試沒有一項突出。小米寄予厚望的「超級小愛」還處於測試期,希望正式釋出後AI能力會有大幅提升。
AI PC篇
相比手機廠商,電腦廠商「擁抱AI」的積極性更高。
2024年初,微軟宣布新增Copilot鍵,按下就能一鍵呼叫Windows系統中的AI助手Copilot,協助使用者完成畫圖、寫郵件和總結文本等工作。4月,華為釋出了首款AI PC產品——華為MateBook X Pro,定義為套用華為盤古大模型的全場景智慧PC;聯想緊跟其後,釋出搭載個人智能體「聯想小天」的 AI PC 系列新品;惠普在5月份推出面向大型企業的EliteBook系列AI商務本,面向中小型企業的七代高效能輕薄AI商務本等「戰系列」產品;華碩則宣布聯手智譜推出智能助手「小碩知道」,但目前尚未在AI PC中預裝。
如今,這些品牌的多款AI PC均已開售,它們的AI能力究竟如何?【IT時報】記者選擇兩款AI PC筆記電腦: 搭載聯想小天的聯想 ThinkPad X1 Carbon AI和搭載YOYO助理的榮耀Magic Book Art14做了一番測試。
Round 1 閱讀理解及歸納
測試題
最近讀了邱兵的【越過山丘】,幫我寫一份詳細的讀後感。
結果分析
聯想小天的回復有種空洞和「詞窮」之感,僅用「主要內容+體會」的方式概括性地介紹書籍的內容,還有大量重復用詞。如「在書中,既有普通人物陷入失控旋渦後的奮力掙紮與深沈執念,也有他們坦然面對困境的勇氣和智慧」「這本書不僅承載著作者的個人經歷和感悟,更讓我們從中汲取到力量和勇氣,去面對生活中的挑戰」。
相對來說,YOYO助理的回答更接近於真實人類的思維。開頭並不生硬,還列舉了書中提到的職場、愛情、親情等要素,或是人物的某句話,或是某個小片段:「邱兵在回憶母親的文字中寫道,生命的旅途中,我曾經一直以為,母親和我會有一個漫長的告別,我還有大把時間去陪伴、去傾訴、去感恩,然而,事實卻不是如此。這句話深深觸動了我。」 YOYO助理的答案,更像是閱讀了這本書讀者的真情流露。
Round 2 資訊提取及整合
測試題
你最近讀了哪本書?你喜歡這本書的哪些方面?有什麽情節讓你印象深刻?
結果分析
聯想小天圍繞【人類簡史:從動物到上帝】這本書簡短地談起了讀後感,但並未按照提示詞答出具體章節內容,而是具有總結性地概述內容,如「書中關於人類認知革命的部份讓我印象深刻,它闡述了人類如何透過語言和想象構建出復雜的社會和文化」。
YOYO助理以「讀書這種事兒,我更擅長幫你找書、推薦書哦!至於我個人嘛,其實並沒有時間去‘讀’書呢」的說法,「婉拒」了提問。
Round 3 語言轉譯
測試題
將後面這段中文轉譯成英語:「人的心靈就像一面鏡子,你感知到的是什麽樣的世界,取決於你如何看待自己。這面鏡子其實是哈哈鏡,表面的世界是客觀的,客觀的外在對映到我們的內心,就會加上我們的主觀意念,然後變得凹凸不平」。
結果分析
聯想小天和YOYO助理的結果差異性較小。二者在個別表述上有所差異,如「看待」一詞的轉譯,聯想小天使用的是View,YOYO助理使用的是See。作為對比印證,轉譯網站DeepL和有道轉譯使用的皆為「See」。
Round 4 情緒價值
測試題
測試AI助理能否像真人一樣提供朋友般的情緒價值,可以和它說:「今天心情好煩躁啊,做事情不順利。」
結果分析
當把帶有負面情緒的話發給前述兩個智能體時,它們皆會安慰測試者。
聯想小天建議:心情不好時,可嘗試深呼吸和放松。而YOYO助理更像一名傾聽者,除了給出放松建議,也送出「雞湯」——「聽起來你今天確實遇到了小挫折呢,別灰心!有時候心情和運勢就像過山車,有高有低很正常啦。」相比之下,後者更像是真實人類。
Round 5 資訊整合及邏輯規劃
測試題
測試各家AI助理幫助使用者進行生活規劃的能力,比如:春節要到了,請為一家四口,制定一份三亞旅行計劃。
結果分析
聯想小天「中規中矩」地列出了5日遊所去的景點,另附3條簡單的註意事項,如提醒春節是三亞的旅遊旺季,需提前預訂酒店和門票;在進行水上活動時,要註意安全等。
YOYO助理提供的內容更為詳細,「抵達三亞,初探海濱風情;南山寺祈福,感受佛教文化。」它從行程安排、住宿推薦和註意事項三個維度展開,更具參考價值。
綜述
YOYO助理的主要功能包含三個方面:進行智能搜尋,幫助使用者快速找到所需的資訊;總結中英文文件總結,幫助使用者高效處理文件內容;支持文本創作,提供便捷的文本編輯體驗。
聯想小天則強調可以扮演寫作助手和文件助手的角色,還可以和它進行「嗨聊」,同時提供智能搜尋的功能,如推薦幾張動漫風格的桌布、提供近日的新聞熱點等。
兩個AI助理的側重點略有差異,但在文字內容生成方面,YOYO助理有一定優勢。
排版/ 季嘉穎
圖片/ 聯想 榮耀 小米 豆包AI
來源/【IT時報】公眾號vittimes