繼大語言模型價格以厘計算之後,視覺理解模型也宣告進入「厘時代」。
在12月18日舉辦的火山引擎 Force 大會上,字節跳動正式釋出豆包視覺理解模型,為企業提供極具價效比的多模態大模型能力。豆包視覺理解模型千tokens輸入價格僅為3厘,一元錢就可處理284張720P的圖片,比行業價格便宜85%,以更低成本推動AI技術普惠和套用發展。
豆包大模型全面升級
研究顯示,人類接受的資訊超過80%來自視覺。視覺理解將極大地拓展大模型的能力邊界,同時也會降低人們與大模型互動的門檻,為大模型解鎖更豐富的套用場景。
據火山引擎總裁譚待介紹,豆包視覺理解模型不僅能精準辨識視覺內容,還具備出色的理解和推理能力,可根據影像資訊進行復雜的邏輯計算,完成分析圖表、處理程式碼、解答學科問題等任務。
火山引擎總裁譚待
此前,豆包視覺理解模型已經接入豆包App和PC端產品。豆包戰略研究負責人周昊表示:「豆包一直在努力,讓使用者的輸入更快更方便」。為此,豆包產品非常註重多模態的輸入和打磨,包括語音、視覺等能力,這些模型都已透過火山引擎開放給企業客戶。
會上,豆包3D生成模型也首次亮相。該模型與火山引擎數位孿生平台veOmniverse結合使用,可以高效完成智慧訓練、數據合成和數位資產制作,成為一套支持 AIGC 創作的物理世界仿真模擬器。
豆包大模型多款產品也迎來重要更新:豆包通用模型pro已全面對齊GPT-4o,使用價格僅為後者的1/8;音樂模型從生成60秒的簡單結構,升級到生成3分鐘的完整作品;文生圖模型2.1版本,更是在業界首次實作精準生成漢字和一句話P圖的產品化能力,該模型已接入即夢AI和豆包App。
即夢Dreamina張楠認為,生成式AI技術可以把每個人腦子裏的奇思妙想快速視覺化,「像做夢幻一樣」。即夢希望成為「想象力世界」的相機,記錄每個人的奇思妙想,幫助每個有想法的人輕松表達、自由創作。
即夢Dreamina 張楠
大會正式宣告,2025年春季將推出具備更長視訊生成能力的豆包視訊生成模型1.5版,豆包端到端即時語音模型也將很快上線,從而解鎖多角色演繹、方言轉換等新能力。譚待表示,豆包大模型雖然釋出較晚,但一直在快速叠代前進演化,目前已成為國內最全面、技術最領先的大模型之一。
大模型套用加速落地
數據顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個月前首次釋出時增長了33倍。大模型套用正在向各行各業加速滲透。
據悉,豆包大模型已經與八成主流汽車品牌合作,並接入到多家手機、PC等智慧終端,覆蓋終端裝置約3億台,來自智慧終端的豆包大模型呼叫量在半年時間內增長100倍。
與企業生產力相關的場景,豆包大模型也獲得了眾多企業客戶青睞:最近3個月,豆包大模型在資訊處理場景的呼叫量增長了39倍,客服與銷售場景增長16倍,硬體終端場景增長13倍,AI工具場景增長9倍,學習教育等場景也有大幅增長。
譚待認為,豆包大模型市場份額的爆發,得益於火山引擎「更強模型、更低成本、更易落地」的發展理念,讓AI成為每一家企業都能用得起、用得好的普惠科技。
在公布豆包視覺理解模型超低定價的同時,火山引擎升級了火山方舟、扣子和 HiAgent 三款平台產品,幫助企業構建好自身的 AI 能力中心,高效開發 AI 套用。其中,火山方舟釋出了大模型記憶方案,並推出 prefix cache 和 session cache API,降低延遲和成本。火山方舟還帶來全域 AI 搜尋,具備場景化搜尋推薦一體化、企業私域資訊整合等服務。
雲原生是過去十年最重要的計算範式,大模型時代則推動著雲端運算的變革。火山引擎認為,下一個十年,計算範式應該從雲原生進入到AI雲原生的新時代。
基於AI雲原生的理念,火山引擎推出了新一代計算、網路、儲存和和安全產品。在計算層面,火山引擎GPU例項,透過vRDMA網路,支持大規模平行計算和P/D分離推理架構,顯著提升訓練和推理效率,降低成本;儲存上,新推出的EIC彈性極速緩存,能夠實作GPU直連,使大模型推理時延降低至1/50、成本降低20%;在安全層面,火山將推出PCC私密雲服務,構建大模型的可信套用體系。基於PCC,企業能夠實作使用者數據在雲上推理的端到端加密,而且效能很好,推理時延比明文模式的差異在5%以內。
譚待說:「今年是大模型高速發展的一年。當你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。透過AI雲原生和豆包大模型家族,火山引擎希望幫助企業做好AI創新,駛向更美好的未來。」
封面新聞記者 黃靖茹