當前位置: 華文星空 > 心靈

豆包進擊,字節版Sora「雖遲但到」 火山引擎總裁譚待:一落地就開始考慮商業化

2024-09-27心靈

「字節大模型的發展路徑是,先to C打磨產品,等模型能力具備有利競爭後,再to B拓展市場。」9月25日,火山引擎總裁譚待在接受包含【每日經濟新聞】記者在內的媒體群訪時表示。

基於這一發展路徑,在早期版本今年5月套用於剪映團隊研發的AI創作平台「即夢」後,豆包影片生成模型在9月24日的2024火山引擎AI創新巡展上正式亮相,並面向企業市場開啟邀測。

自Sora開啟了「影片的ChatGPT時代」後,國內快手、智譜AI、MiniMax和阿裏等大模型玩家相繼推出了同類產品,如今字節跳動入局,能否改變影片大模型的現有競爭格局?

透過釋出會現場對兩款影片生成模型的效果演示,譚待認為,無論是語意理解能力、多個主體運動的復雜互動畫面,還是多鏡頭切換的內容一致性,豆包影片生成大模型均已達到業界領先水平。

與此同時,「音樂生成模型」和「同聲傳譯模型」一並在會上釋出,再擴字節AI版圖。

作為業內率先進行大模型降價的選手,火山引擎在商業化上加速明顯。譚待向【每日經濟新聞】記者表示,to B呼叫量增長迅速。「對to C業務沒那麽清楚,但感覺也很順利。我認為AI能實作端到端地解決問題,to B、to C業務邊界沒有那麽明顯。」

【每日經濟新聞】記者從釋出會了解到,截至今年9月,豆包大模型日均Tokens使用量已超1.3萬億,日均生成圖片5000萬張,日均處理語音85萬小時。

字節進軍AI影片,「一落地就開始考慮商業化」

8月31日,「AI六小龍」之一的MiniMax釋出了影片生成模型video-1;9月19日,可靈AI完成第9次叠代,釋出「可靈1.5模型」,同天的雲棲大會上,阿裏雲再推全新的影片生成模型——不到一個月的時間裏,本就硝煙四起的影片生成模型領域又迎來了新玩家。

在9月24日的火山引擎AI創新巡展上,豆包影片生成-PixelDance和豆包影片生成-Seaweed兩款大模型一並釋出。

【每日經濟新聞】記者註意到,這兩款大模型支持的影片內容生成最長時長暫未公布,即夢App顯示支持3秒、6秒、9秒和12秒的影片內容生成。與之相比的是,可靈在6月21日上線了影片續寫功能,可讓影片延續約5秒,最長可生成約3分鐘影片。

釋出會現場 圖片來源:每經記者 楊昕怡 攝

「不同場景對影片時長要求不同,我們更關註針對不同行業的解決方案。」譚待在接受【每日經濟新聞】記者采訪時表示,豆包影片生成大模型在行業中的優勢主要在於指令遵循能力、多鏡頭切換的一致性以及影片生成的泛化能力等方面。

釋出會現場,多條官方影片的演示體現了上述能力:例如,在一條一男一女騎馬馳騁的演示影片中,在長達10秒的畫面裏,兩人表情、動作各異,但都表現得自然流暢。

值得關註的是,豆包影片生成大模型支持生成黑白、3D動畫、2D動畫、國畫、厚塗等多種風格的內容。

「對於影片生成模型來說,(生產內容的)不同風格是很難做的。技術之外,主要看資料來源的豐富程度。」一位大模型技術人員向【每日經濟新聞】記者表示。譚待將其歸因於「全棧能力的優勢、技術突破以及抖音和剪映對影片的理解」。

秉持實用主義原則,譚待表示,新款豆包影片生成模型「從一落地就開始考慮商業化」,使用領域包括電商行銷、動畫教育、城市文旅和微劇本。

在商業化上同樣「著急」的還有可靈。在8月20日晚間的二季度業績電話會上,快手聯合創始人、董事長兼CEO程一笑將可靈的商業化視作當務之急,「力爭盡快實作可觀的商業化變現規模」。

談及定價策略,譚待透露,豆包影片生成模型的價格未定。「影片模型和語言模型套用場景不同,定價邏輯也不同,要透過新體驗、遷移成本等來衡量產品價值,(產品)最終能否廣泛套用也取決於它是否比以前的生產力ROI(投資回報率)提升了很多。」

「價格已不是創新門檻」,雲廠商來到AI時代新戰場?

除了全新的影片生成模型,本次活動還釋出了豆包音樂模型和同聲傳譯模型。截至目前,豆包全模態大模型家族已涵蓋大語言模型、視覺大模型和語音大模型三大品類,共釋出了13個大模型。

但光有模型是不夠的,不乏業內人士稱,目前大模型廠商落地套用是「拿著錘子找釘子」。那麽,如何發現釘子、如何更省力地用合適的錘子釘釘子,這些都可能成為雲廠商在AI時代的新挑戰。

首先是橫亙在大模型廠商和企業之間的成本問題。

在5月的釋出會上,譚待宣布,豆包主力模型的推理輸入價格僅為0.0008元/千Tokens,比行業便宜99.3%,打響了大模型領域的價格戰。

「成本是關鍵,價格降十分之一,量就可能漲十倍。」在譚待看來,模型呼叫量和套用覆蓋是當前關註重點,「我們主要關註套用覆蓋,而不是收入,我們認為新場景的解鎖更有價值,例如聊天、陪伴、生產力等方面的場景升級和企業套用場景的拓展。」

不過,他也堅持,面向B端市場的業務前提一定是要可持續,「不能像to C業務一樣考慮靠廣告盈利」,「to B產品要實作正毛利,我們有能力也有信心做到。」

在豆包大模型率先降價後,阿裏通義千問、百度文心一言等模型也都陸續降價。今年雲棲大會上,阿裏雲百煉平台上的三款通義千問主力模型再次降價,阿裏雲CTO周靖人甚至表示「相比未來龐大的套用,還太貴了。」

對於這一行業現狀,譚待表示,降價後,從呼叫量來看,成本已不再是創新的阻礙,「接下來要做的是在這個價格基礎上,提高模型的質素和效能,質素指的是讓模型能力更強、更多元。」

經過一輪「普降」後,大模型行業將不再一味只「卷」價格,現階段要比拼的是模型效能,這一點也在客戶端的需求上得到了佐證。

據譚待觀察,對於大模型的落地,to B市場的需求變化緩慢,核心需求是降本增效。「企業套用AI時,以前是自上而下規劃,失敗概率大,現在需要自下而上創新。」

【每日經濟新聞】記者註意到,在輔助企業進行數碼化轉型的過程中,火山引擎今年聯合各方成立了智能終端大模型聯盟、汽車大模型生態聯盟、零售大模型生態聯盟,且外部客戶已覆蓋手機、汽車、金融、消費、互娛等30多個行業。

如今,字節手中又多了幾把稱手的「錘子」,怎樣找到各行各業中與之匹配的更多「釘子」,就是接下來對火山引擎的考驗了。

每日經濟新聞