當前位置: 華文星空 > 心靈

國內大模型原創研發成功!首個全自研 「國家隊Sora」問世

2024-12-19心靈

解讀中國電信AI戰略三大關鍵詞

作者/ IT時報記者 孫妍

編輯/ 錢立富 孫妍

12月10日,Sora正式版終於釋出,其文生影片在一致性上的突破再次震動全球,但並未令國內業界「恐懼」。過去一年,國內大模型文生影片能力在激烈競爭中逐漸拉平與全球第一梯隊的水平,更難得的是,已有國家隊大模型實作全國產化。

12月3日,在2024數碼科技生態大會上,中國電信集團第一次舉行TeleAI開發者大會,釋出了首個由央企全自研的影片生成大模型,標誌著星辰大模型體系完成了全模態、全尺寸、全國產的「三全」能力構建。

國產原創必然是中國基座大模型的命脈。中國電信集團CTO、首席科學家,中國電信人工智能研究院院長李學龍在大會上表示,星辰大模型已經完成基於全國產的萬卡集群的模型訓練,而且訓練、推理和配套工具鏈都基於國產軟硬件平台,實作了從底層架構到上層套用的全面國產化。

與此同時,大模型賽道正來到技術研發和商業化套用的十字路口,AI須更有力為實體經濟發展註入活力,利用大模型解決生產實際問題。作為國家隊,中國電信在加大研發力度的同時,也深刻意識到這點,中國電信董事長柯瑞文在2024數碼科技生態大會上強調,必須堅持套用導向,加快用起來,以用促建、以用促創,加快「技術-產品-產業」的迴圈。

關鍵詞1:國產原創

首個央企全自研影片生成大模型

Sora在今年2月橫空出世後,國產文生影片大模型們都在跟進、比拼,一致性成為衡量文生影片能力的一大要素,即人物可以一直貫穿在整個故事中,保持一致的樣貌。

在2024數碼科技生態大會上, 中國電信人工智能研究院(TeleAI)釋出首個央企全自研影片生成大模型,填補了中國電信全模態的空缺 ,並公布了一段由星辰大模型生成的時長1分36秒的微電影,所有影片、語音、台詞都由AI生成。

故事的主角是四位女孩,她們轉身時保持著衣著、發型的一致性。第一位女孩從懸崖上跳進水裏,動作幹凈、利落,沒有發生扭曲,潛入水底產生的氣泡等基本符合物理規律。第二位女孩騎著摩托車穿越火山,聚焦熔巖流淌畫面過場到頭盔上對映的曲面感非常自然。第三位女孩攀登懸崖,喘氣的聲音真實且與畫面同步。第四位女孩在沙漠中騎駱駝時駝鈴叮當,與怪物打鬥精彩激烈,開啟了動作片的大門。

文生影片大模型可以保證單個或多個主體人物在各影片片段中的外觀一致性,實作對復雜動作和互動式動作的精確控制,並讓角色和目標物體的運動符合物理規律,讓影片與音訊同步生成,達到音畫同步的視聽體驗。

這背後的核心是基於VAST(Video As Storyboard from Text)二階段影片生成技術實作了突破,能根據文本描述精準勾勒出包含影片構圖、主體目標位置及人物姿態等關鍵資訊的故事板(Storyboard),進而生成對應的影片內容。無獨有偶,故事板也是Sora正式版的一大亮點。

每一個人都有一個夢想,可以天馬行空地寫劇本、拍電影。星辰大模型的文生影片不斷推動夢想照進現實,為短劇和影視創作者提供一站式平台,輸入一本小說,就能一鍵生成劇本,不需要請專業演員,不需要昂貴的布景,不需要艱辛地拍攝,不需要漫長的後期,就能自動生成一部電影。此外,基於星辰大模型在語意、語音、文生圖等方面的能力,將更有力幫助短劇和影視行業降本增效。

李學龍還在大會上透露,Sora在今年2月釋出,中國電信是在今年1月部署了文生影片團隊,當時團隊就在Sora釋出後的兩天內,做出了影片配樂的自動生成,速度極快。更難得的是,TeleAI影片生成大模型目前在權威影片生成評測榜單VBench中排名第一。

關鍵詞2:開放合作

攜手開發者打造TeleAI「大艦隊」

開源與閉源是當下大模型業界的一大分岔路口,OpenAI、百度等企業走的是閉源道路,騰訊、阿裏等企業走的是開源道路,而中國電信是率先且唯一開源大模型的央企。

2024年9月,TeleAI成功完成國內首個基於全國產化萬卡集群訓練的萬億參數大模型(萬卡萬參)星辰語意大模型 TeleChat2,並正式對外開源千億參數大模型——星辰語意大模型 TeleChat2-115B,標誌著國產大模型訓練真正實作全國產化替代,在「自主創新、安全可控」上站穩腳跟。

TeleChat2-115B基於中國電信自研的天翼雲「息壤一體化智算服務平台」和「星海AI平台」完成訓練,在保證訓練精度的前提下,實作了GPU同等算力計算效率93%以上,同時模型有效訓練時長占比達到98%以上。目前,TeleChat2這個央企唯一開源大模型實作了十億級、百億級、千億級的全尺寸覆蓋,全網模型的下載數量已超4萬次。

開放合作,建立龐大的朋友圈一直是中國電信所走的道路。 李學龍在大會上表示,TeleAI就像一支「海軍艦隊」,有大船,有小船,有豐富的供給和靈活的平台,和開發者們一起組成「大艦隊」。

TeleAI將自用能力開放,面向不同的開發者推出了不同的平台,星海AI中台面向初級開發者,零程式碼的建模工具讓不具備復雜技術背景的開發者可以低門檻地構建自己的模型。

天翼AI開放平台面向專業使用者級,目前已經全面開放,它提供了黨建公文大模型、百萬表格理解、軟件工廠等垂直模型。 今年中國電信推出全國乃至全球首個支持40種方言的自由混說語音辨識大模型,到2026年將爭取實作全國333種方言的全覆蓋。可以想象,屆時知識的傳遞不再受限於語言的障礙,讓AI技術能夠觸及每一寸土地,去打通鄉村振興的「最後一公裏」。

軟硬件結合的開發者則可使用星辰智能體平台。在2024年數碼科技生態大會AI展區,不僅有穿戴式AI器材,還有各種機器人,如靈巧操作的人形機器人、踏著穩健步伐的四足機器人、精細協作的雙臂機器人、深潛探索的水下機器人,每一個智能體都是與世界對話的承載者,技術不再是遙不可及的程式碼和演算法,而已經融入我們的日常生活。

在大模型異構能力支持下,智能體們會相互協作,當「主人」說「我餓了」,一群機器人會為之服務:機器狗開啟門,無人機出門去取早餐,早餐取回後機械臂會抓取遞給「主人」。

李學龍將這三座平台比作武功秘籍庫,一招一式皆有前人領路,即學即取、即取即用,平台在手功夫我有。 算力的流轉,數據的利用,硬件的適配,效率的提升,就可以一氣呵成。

關鍵詞3:商用加速

大模型「兩手抓兩手硬」

站在燒錢拼技術和商業化回報的十字路口,如何權衡這兩者,成為大模型賽道上所有玩家的必答題。

「兩手都要抓,兩手都要硬。」在中電信人工智能科技(北京)有限公司副總經理劉翼看來,透過技術研發投入打造差異化優勢,才能帶來良好的商業回報;有了良好的商業回報,才能在技術研發投入上具備持續性。

在中國電信內部,TeleAI負責AI技術研發,而中電信人工智能科技(北京)有限公司等專業公司負責商業化落地。

規模套用成為下一階段的主旋律。在2024數碼科技生態大會上,中國電信公布了目前的商業化行程,已面向政務、工業、教育等領域推出50多個場景大模型,重點打造80多個行業大模型和20個行業智能體,提供「算力+平台+數據+模型+套用」的一體化服務。

在深圳、汕頭等地,星辰大模型透過文本檢索缺陷影像的能力打入工業質檢,在檢測場景中精準度超過99.4%;在北汽、長安汽車等智能網聯汽車上,星辰大模型為車主提供沈浸式、智能化的座艙體驗;在清華大學、中山大學等20多所高校及科研機構裏,「息壤-科研助手」為教學輔助、實驗研究等場景提供一站式科研實訓服務;在個人家庭裏,AI+手機、AI+雲電腦、AI+網絡攝影機等智能終端規模普及,AI眼鏡、AI機器人等終端客製將開啟更大的想象空間。

天翼AI手機在此次大會上釋出,在端側植入剪裁過的星辰大模型,可在通話過程中實作語音即時轉譯、AI字幕、AI摘要等功能套用,而且可透過語音方式進行繳話費、訂機票、訂酒店等曹走,並在業內第一個提供AI生成影片的鑒偽能力。

此外,AI+數碼政務正在全國推廣落地,提升政務熱線營運效率和市民感知。比如「AI+12345政務熱線」深度賦能深圳「民意速辦」平台,日均服務量達20萬次,總體滿意率達99.95%。在應急監測、防汛預警等場景,強化星辰視覺大模型套用,辨識多種風險隱患和災害,提升應急安全保障能力。

但是,大模型商業化過程仍充滿挑戰,仍處在早期探索階段,受制於幻覺難消除,訓練數據的質和量不足,交付標準化程度不高導致交付成本較高等原因,大模型還未走出一條規模化發展的道路。

如何加快推進大模型的商業化落地?劉翼在接受【IT時報】記者采訪時提到四個關鍵詞:持續投入、差異化特點、變革性場景創新以及開放合作。

AI是一場長跑,比拼的是誰能堅持跑到終點,作為央企AI國家隊,中國電信毫無疑問會保持研發投入的持續性。差異化特點是商業化過程中避免同質化競爭的關鍵因素,比如國內首個支持40種方言自由混說的語音大模型,國內首個基於全國產化萬卡集群訓練的萬億參數大模型等都是中國電信差異化優勢。中國電信同時聚焦實體經濟與AI的深度結合,以及在C端場景發揮營運商的資源稟賦,試圖找到變革性場景創新。中國電信進一步壯大TeleAI開發者生態,制定涵蓋人才、算力、投資、場地、專案等各個維度的激勵措施,引導、激勵面向各類場景的AI套用開發。

柯瑞文在大會上也提到,要發揮中國超大規模市場優勢、產業體系配套完整優勢,加快推動套用形成產業,用科技創新成果賦能工業智能化的轉型升級、社會的高效治理、生活的智能便捷,解決經濟社會發展中的問題,把科技創新成果切實轉化為現實的生產力。