豆包視覺理解模型正式釋出，比行業價格便宜85%

2024-12-20新聞

繼大語言模型價格以厘計算之後，視覺理解模型也宣告進入「厘時代」。

在12月18日舉辦的火山引擎 Force 大會上，字節跳動正式釋出豆包視覺理解模型，為企業提供極具價效比的多模態大模型能力。豆包視覺理解模型千tokens輸入價格僅為3厘，一元錢就可處理284張720P的圖片，比行業價格便宜85％，以更低成本推動AI技術普惠和套用發展。

豆包大模型全面升級

研究顯示，人類接受的資訊超過80%來自視覺。視覺理解將極大地拓展大模型的能力邊界，同時也會降低人們與大模型互動的門檻，為大模型解鎖更豐富的套用場景。

據火山引擎總裁譚待介紹，豆包視覺理解模型不僅能精準辨識視覺內容，還具備出色的理解和推理能力，可根據影像資訊進行復雜的邏輯計算，完成分析圖表、處理程式碼、解答學科問題等任務。

火山引擎總裁譚待

此前，豆包視覺理解模型已經接入豆包App和PC端產品。豆包戰略研究負責人周昊表示：「豆包一直在努力，讓使用者的輸入更快更方便」。為此，豆包產品非常註重多模態的輸入和打磨，包括語音、視覺等能力，這些模型都已透過火山引擎開放給企業客戶。

會上，豆包3D生成模型也首次亮相。該模型與火山引擎數位孿生平台veOmniverse結合使用，可以高效完成智慧訓練、數據合成和數位資產制作，成為一套支持 AIGC 創作的物理世界仿真模擬器。

豆包大模型多款產品也迎來重要更新：豆包通用模型pro已全面對齊GPT-4o，使用價格僅為後者的1/8；音樂模型從生成60秒的簡單結構，升級到生成3分鐘的完整作品；文生圖模型2.1版本，更是在業界首次實作精準生成漢字和一句話P圖的產品化能力，該模型已接入即夢AI和豆包App。

即夢Dreamina張楠認為，生成式AI技術可以把每個人腦子裏的奇思妙想快速視覺化，「像做夢幻一樣」。即夢希望成為「想象力世界」的相機，記錄每個人的奇思妙想，幫助每個有想法的人輕松表達、自由創作。

即夢Dreamina 張楠

大會正式宣告，2025年春季將推出具備更長視訊生成能力的豆包視訊生成模型1.5版，豆包端到端即時語音模型也將很快上線，從而解鎖多角色演繹、方言轉換等新能力。譚待表示，豆包大模型雖然釋出較晚，但一直在快速叠代前進演化，目前已成為國內最全面、技術最領先的大模型之一。

大模型套用加速落地

數據顯示，截至12月中旬，豆包通用模型的日均tokens使用量已超過4萬億，較七個月前首次釋出時增長了33倍。大模型套用正在向各行各業加速滲透。

據悉，豆包大模型已經與八成主流汽車品牌合作，並接入到多家手機、PC等智慧終端，覆蓋終端裝置約3億台，來自智慧終端的豆包大模型呼叫量在半年時間內增長100倍。

與企業生產力相關的場景，豆包大模型也獲得了眾多企業客戶青睞：最近3個月，豆包大模型在資訊處理場景的呼叫量增長了39倍，客服與銷售場景增長16倍，硬體終端場景增長13倍，AI工具場景增長9倍，學習教育等場景也有大幅增長。

譚待認為，豆包大模型市場份額的爆發，得益於火山引擎「更強模型、更低成本、更易落地」的發展理念，讓AI成為每一家企業都能用得起、用得好的普惠科技。

在公布豆包視覺理解模型超低定價的同時，火山引擎升級了火山方舟、扣子和 HiAgent 三款平台產品，幫助企業構建好自身的 AI 能力中心，高效開發 AI 套用。其中，火山方舟釋出了大模型記憶方案，並推出 prefix cache 和 session cache API，降低延遲和成本。火山方舟還帶來全域 AI 搜尋，具備場景化搜尋推薦一體化、企業私域資訊整合等服務。

雲原生是過去十年最重要的計算範式，大模型時代則推動著雲端運算的變革。火山引擎認為，下一個十年，計算範式應該從雲原生進入到AI雲原生的新時代。

基於AI雲原生的理念，火山引擎推出了新一代計算、網路、儲存和和安全產品。在計算層面，火山引擎GPU例項，透過vRDMA網路，支持大規模平行計算和P/D分離推理架構，顯著提升訓練和推理效率，降低成本；儲存上，新推出的EIC彈性極速緩存，能夠實作GPU直連，使大模型推理時延降低至1/50、成本降低20%；在安全層面，火山將推出PCC私密雲服務，構建大模型的可信套用體系。基於PCC，企業能夠實作使用者數據在雲上推理的端到端加密，而且效能很好，推理時延比明文模式的差異在5%以內。

譚待說：「今年是大模型高速發展的一年。當你看到一列高速行駛的列車，最重要的事就是確保自己要登上這趟列車。透過AI雲原生和豆包大模型家族，火山引擎希望幫助企業做好AI創新，駛向更美好的未來。」

封面新聞記者黃靖茹