一日連發兩款影片大模型，火山引擎要讓每個人都能用上AI

2024-09-27心靈

9月24日，字節跳動旗下火山引擎在深圳舉辦AI創新巡展，並首次對外釋出豆包影片生成-PixelDance、豆包影片生成-Seaweed兩款AI大模型，並公布了多項AI大模型的全新升級，以一種全新的姿態迎接AI時代的到來。

雷科技此次受邀參與巡展，在活動現場就發現了不一樣的東西，現場設定了四個不同的展示區，用來展示目前AI大模型在C端最受歡迎的四款套用： AI奇遇、AI音樂、AI智能助手和AI Bot ，分別對應娛樂、創作、問答和個人化AI需求四大板塊。

圖源：雷科技

這一系列的AI套用中，AI Bot受到了許多人的關註，這是一個全新的AI套用開發平台，利用AI大模型的強大理解能力，幫助使用者開發專屬於自己的AI套用。 你不需要懂得編程、偵錯、DeBug，只需要按部就班地給出自己的需求，剩下的一切AI都會幫你完成。

此前，雷科技上線的小雷Bot就是基於AI Bot打造，利用雷科技過去十年積累的海量文章與評測數據，為讀者提供購買咨詢、產品問答等多項功能。

而在AI奇遇中，使用者可以扮演一個角色，偶遇某些人或故事，透過使用者給出的反饋，故事也會發生相應的改變，一切均由AI即時生成，讓每個人都有獨屬於自己的故事。 這項技術不僅可以讓使用者創作出屬於自己的故事，同時也能為遊戲廠商提供新的創作思路，真正做到千人千面的故事情節塑造。

至於AI問答，大家估計都不陌生，作為AI大模型最早期的套用，豆包對AI問答進行過多輪升級，如今已經支持最高256K的上下文理解，並且能夠進行復雜的邏輯推理，滿足使用者多樣化的提問需求。

還差個AI音樂？別急，我們待會再來聊聊。

用AI打破影片創作邊界

在影片創作領域，火山引擎及其背後的字節跳動，恐怕是最有發言權的，抖音在全球掀起的全民影片創作熱潮，造就了一個全新的互聯網影片時代。所以，火山引擎的影片生成模型更關註使用者在實際使用時的創作流程和創作效果，而不僅僅是簡單地生成畫面和動作。

圖源：雷科技

火山引擎希望使用者可以在影片生成模型中，得到與實際拍攝幾乎一致的畫面效果。為此他們對影片生成模型進行了大量的最佳化，基於DiT架構結合高效的DiT融合計算單元，讓影片生成模型擁有執行復雜指令的能力，並且能夠根據要求進行大動態和運鏡的切換， 在專業拍攝中常用的變焦、環繞、平搖、縮放、目標跟隨等鏡頭語言效果，大模型都能做到。

借助運鏡切換功能，豆包影片生成模型可以真正提供更真實的拍攝效果，並且讓創作者更好地展示自己的創意想法，這在以往的影片生成大模型中少見的。

而且，火山引擎還攻克了影片主體在運動時，經常會出現的服裝、頭飾、光影、風格突變問題。這類問題此前一直困擾影片生成模型使用者，因為人們對連貫畫面裏的突兀變化會更加敏感，所以即使只有些許的差異，也會讓觀看體驗大打折扣，而AI生成的不確定性，讓AI影片在這方面的問題顯得尤為嚴重。

對此，火山引擎借助DiT架構的多種特性，讓影片生成模型能夠對生成的畫面元素進行標記，並在後續的生成中時刻保持相關元素的存在。雖然並不能保證完全的一致，但是已經能夠 最大程度消除明顯的服裝、配飾、風格變化等問題，確保影片畫面不會出現易察覺的BUG。

圖源：雷科技

此外，火山引擎還解決了多動作指令互動、人物中途插入等痛點，在現場的演示影片中，就有這樣的片段：一個女人生氣地看向側邊，然後轉頭戴上眼鏡，此時一個男人出畫面邊緣進入，擁抱住女人。雖然在傳統拍攝中，這是一個很普通的鏡頭，但是在AI影片裏，卻要求AI在表情神態、多動作執行、新元素插入等方面都不能出錯，才能生成一個合格的影片。

隨後火山引擎還展示了多個由豆包影片生成模型制作的AI影片，從多人互動到運動長鏡頭，都可以在保證影片流暢度的同時確保影片元素的一致和主體風格不變化。在我看來已經完全滿足日常的創作需求，如果願意花更多的時間去打磨，即使是普通人也能坐在家裏用AI制作出一部大片。

為了滿足更多使用者的創作風格需求，火山引擎還引入了深度最佳化的Transformer結構，大振幅提升了豆包影片生成模型的泛化能力， 不僅支持3D動畫、2D動畫、國畫、黑白、厚塗等多種風格，還支持多種比例的影片生成，讓模型能夠被套用到各個領域。

顯然，這也是火山引擎對豆包影片生成模型的期待，成為每一個創作者的助手，讓每個人都能創作出屬於自己的作品。

豆包AI模型Pro升級

豆包影片生成模型並非巡展中唯一的看點，火山引擎同時還宣布了豆包通用模型、音樂模型等多個模型的全面升級，現在，豆包AI大模型可以給大家在更多領域提供更好的體驗。

比如前面提到的AI音樂，在展示區中雷科技就已經體驗到了其強大的創作能力，在極短的時間裏就能生成一首朗朗上口的音樂，根據要求切換不同的曲風並生成歌詞。可以說， 豆包音樂生成模型已經成功打通了整個AI音樂的創作鏈路，普通的創作者不需要再糾結歌詞、曲風和演唱效果，只需要說出要求，然後點選生成即可。

雖然現場試用時感覺創作流程非常簡單，背後卻是火山引擎的「負重前行」，透過對音樂模型的全面升級與最佳化，結合獨特的音樂生成通用架構和全新的解碼模型，豆包音樂生成模型能夠以秒為單位完成音樂生成，並且呈現出更真實的演唱效果。

圖源：雷科技

實話說，在現場聆聽演示音樂時，周圍不少嘉賓都下意識發出感嘆：「這個真的不錯」，如果不提前說是AI創作的話，估計不少人會誤以為是某個新銳歌手的作品。

從影片到音樂，火山引擎已然攻克了AI創作的兩大難關，並且完成了整個AI創作鏈路的整合：豆包通用模型完成故事指令碼、文生圖模型完成前期視覺設定、影片生成模型與音樂模型完成作品素材創作，最後再由剪映提供AI智能剪輯支持，讓影片創作的門檻與難度得到前所未有地降低。

圖源：雷科技

火山引擎還在現場展示了全新的數碼人生成套用，僅需數分鐘即可完成數碼人生成，並在數秒內進行音色複制。簡單的操作就可以讓使用者得到一個專屬數碼人，擬真的神態和語氣，可以滿足直播、線上教學、智能客服對話等多個領域的套用。

此外，豆包的數碼人還能與同聲傳譯模型結合，讓數碼人隨時切換不同的語言進行對話，這項功能在現場也引起了許多關註。近年來，出海、海外直播市場已經成為電商生態的另一個支柱，但是能夠熟練掌握外語的主播數量卻遠無法滿足市場需求，利用數碼人+同聲傳譯模型制作的外語主播，將有望成為市場的新選擇，這也是火山引擎向泛領域進軍的一個重磅專案。

圖源：雷科技

從影片、音樂到數碼人，火山引擎正在構建一個涵蓋多領域的AI創作生態，推動著AI技術走向更加廣泛的行業套用。未來，隨著這些技術的持續最佳化與普及，無論是內容創作者還是企業，都能夠在AI生態中找到更高效的創作方式，開啟全新的智能化創作時代。

讓所有人都能用上AI

為了滿足日益高企的AI模型需求，火山引擎一直在升級大模型的承載能力。目前業內多數大模型最高支持300K甚至100K的TPM（每分鐘token數），而豆包大模型的預設並行流量標準已經提高到800K TPM，是行業普遍標準的2-8倍以上，並且允許使用者靈活擴容。

與業界最高並行流量標準相輔的，還有進一步降低的算力成本。

在會後的采訪中，火山引擎CEO譚待提到，火山引擎是業內最早降低算力成本的大模型團隊之一， 截至目前豆包大模型的算力定價已經低於行業99%，目前定價僅為0.0008元/千Tokens，引領算力成本進入「厘」時代。

譚待認為，只有算力成本降低，才能解鎖更多的套用場景，降低開發者的進入門檻，並且減少營運成本支出，才能形成更好的AI套用生態。而且，降低成本也帶來了更高的呼叫量，讓大模型獲得更好的成長，得以進行快速的叠代升級。

在今年5月份推動降價後， 僅4個月的時間豆包呼叫量就達到每天13000億次，是5月份的10倍 ，市場裏的AI套用覆蓋增長顯著，而且火山引擎在降價的同時還在提升大模型的整體能力，降價提質也讓更多的開發者熱衷於豆包大模型。

作為字節跳動的2B雲平台，火山引擎此前就對企業開放了大量的底座模型，這在大模型團隊中並不多見。針對這個問題，譚待也做了進一步的解讀，火山引擎選擇開放底座大模型的初衷就是推動行業創新，透過對豆包大模型的技術進行整合，為企業端提供更安全、穩定的底座大模型，並非簡單地將豆包大模型丟給企業，而是從企業端的需求出發，提供更多的服務與套用，助力企業進行AI創新。

此外，采訪中還提到了Sora，作為最早的影片生成模型之一，Sora的問世一度引起廣泛關註，但是至今為止Sora仍未公開釋出，以至於被業內稱之為「期貨」。因為對算力的高要求，影片生成大模型的全面開放一直存在不小的阻力，這也讓我們擔心豆包影片生成大模型是否可以在短期內放出。

對此，譚待充滿了信心，因為豆包並非一個獨立的影片生成模型，其本質上是依托於豆包通用模型等一系列技術的成果，所以許多技術挑戰在此之前就已經解決了，同時火山引擎也一直在最佳化影片生成模型的效率，使其能夠更快地進入公開市場，目前在即夢AI等功能裏已經可以申請內測體驗，並且在國慶日後會放出更多的公開API。

譚待在采訪中還特別強調了技術積累和長期規劃的重要性。他指出，火山引擎的目標不僅僅是解決當前的市場需求，更是在為未來的AI發展打下堅實的基礎。透過持續最佳化底層技術架構，火山引擎能夠以更低的成本提供更高質素的服務，從而保持技術領先優勢。

最後，譚待認為隨著AI技術的不斷成熟，擁有龐大使用者和企業支持的火山引擎將繼續保持在行業內的領先地位。未來幾年，火山引擎將持續專註於技術深耕和行業落地，透過更高效、更智能的AI解決方案幫助企業實作數碼化轉型和創新發展。