騰訊雲副總裁吳運聲：大模型全矩陣產品升級 助力產業落地

2024-09-07心靈

9月5日，在2024騰訊全球數位生態大會雲上智慧峰會上，騰訊雲副總裁、騰訊雲智慧負責人、優圖實驗室負責人吳運聲分享了騰訊雲在智慧領域的最新進展，並探討了大模型在產業中的套用和未來發展。

騰訊雲副總裁、騰訊雲智慧負責人、優圖實驗室負責人吳運聲

吳運聲在演講中指出，大模型的發展呈現出兩個明顯趨勢：模型效能不斷提升和落地場景不斷豐富。他強調，面向場景創造價值才是大模型發展的意義。基於全矩陣的大模型產品，騰訊已經服務了眾多客戶，在知識管理、智慧客服、研發提效、智慧行銷、內容生成、辦公協同、風險管控等場景中，幫助企業實作了降本增效和業務創新。

騰訊雲的大模型策略以實用性為核心，滿足不同企業在大模型時代的需求。騰訊已經構建起了全鏈路的大模型產品矩陣，包括底層基礎設施、幫助企業訓練專屬模型的TI平台和行業大模型解決方案，自研的混元大模型，構建套用的平台工具，以及基於大模型的各類智慧套用。

吳運聲介紹，騰訊最新釋出的混元Turbo版本透過自研的萬億級層間異構MoE技術，相比前代模型實作了訓練效率提升108%，推理效率提升100%，推理成本降低 50%。同時，混元Turbo的效果在多個基準測試上對標GPT-4o，且第三方測評居國內第一。

騰訊雲在今年5月還一並推出了三款PaaS產品——大模型知識引擎、影像創作引擎和視訊創作引擎。經過兩個月的叠代，這些產品的能力進一步升級，可以為電商、出海等領域的客服行銷、企業知識社群等眾多業務場景提供效率的助力和創新的支持，也進一步加快了大模型在實際場景中套用落地的速度。

在模型訓練工具方面，為了幫助企業使用者更便捷地打造專屬模型，人工智慧開發平台TI平台也進行了全新升級。在精調數據準備層面，TI平台全新支持面向多模態大模型的數據集管理和數據標註，首創了基於Schema的標註方法，支持使用者自動生成個人化標註工作台，支持文生文、圖生文、圖文覆寫、圖文混合問答等主流場景下的全部細分任務型別。

同時，騰訊雲將2D數智人、3D數智人和聲音復刻管線全面輸出，支持企業私有化部署和靈活客製。管線輸出意味著，客戶可以將訓練數據和訓練模型都部署在自己的環境上，推動數智人在更多場景的普及和落地。

附：演講全文

尊敬的各位嘉賓、媒體朋友們，

大家好！

我是騰訊的吳運聲，很高興在這裏跟大家分享騰訊雲在智慧領域的最新進展和思考。

大模型已經發展了兩年，我們能明顯看到兩個趨勢：一方面，模型效能在不斷提升，圍繞著模型的產品使用門檻也變得更低、更加易用；另一方面，企業和開發者積極探索大模型與自身業務場景的結合，大模型的落地場景不斷豐富、更縱深。我們認為，面向場景創造價值才是大模型發展的意義。

騰訊的大模型策略，從最開始就以實用為目標，我們希望構建起離產業最近的AI產品矩陣。從底層的高效能計算、儲存、網路等AI infra產品，到一站式的人工智慧開發平台TI和行業大模型解決方案，再到自研的混元大模型，以及基於大模型的各類工具和智慧套用，我們提供了全方位的產品，滿足企業在大模型時代的各類需求。無論是做大模型的企業，還是想要搭建AI套用的創業者，還是想利用AI來實作降本增效的企業，都能在騰訊雲上找到好用的工具。

去年的生態大會上，我們正式釋出了全鏈路自研的騰訊混元大模型。經過不斷的叠代創新，混元已經穩居國內大模型第一梯隊。

今天，我們正式推出了更快更強的混元Turbo版本，透過自研的萬億級層間異構MoE結構，混元Turbo用更多的專家數、更少的啟用參數量實作了更好的效果。相比前一代MoE大模型，騰訊混元Turbo的訓練效率提升108%，推理效率提升 1 倍，推理成本降低 50%，僅用一半訓練語料，就實作效果提升14%，中文場景的效果對標GPT-4o。技術創新讓我們可以更多地讓利給客戶，混元Turbo的定價僅為混元Pro版的一半。

在多模態領域，混元的多項能力也在國內保持領先。混元生圖是第一個中文原生的DiT架構文生圖開源模型，目前在全網衍生的模型數量超過2000個。這也充分證明了開發者對於我們模型能力的認可。

近期，混元還推出了基於 MoE 架構的多模態理解大模型混元vision。我們在架構、訓練方法和數據處理方面進行了創新和深度最佳化，顯著提升了效能，能支持最高 7K 分辨率、最大長寬比16:1的圖片的理解。在近期釋出的中文多模態大模型 SuperCLUE-V 基準評測中，騰訊混元斬獲國內排名第一，超越了多個主流閉源模型。

在自研的混元大模型之外，為了幫助企業使用者更便捷地打造專屬模型，我們的人工智慧開發平台TI平台也進行了全新升級。在精調數據準備層面，我們全新支持面向多模態大模型的數據集管理和數據標註，首創了基於Schema的標註方法，支持使用者自動生成個人化標註工作台，支持文生文、圖生文、圖文覆寫、圖文混合問答等主流場景下的全部細分任務型別。

高品質的訓練數據是精調出一個可落地大模型的前提條件。TI 平台的多模態數據集管理和數據標註能力，可提升大模型精調的數據準備效率和訓練數據品質，從而提升大模型訓練效率和最終效果。

大模型訓練之外，針對OCR和工業質檢場景等垂直訓練場景，我們也對產品進行了升級。OCR場景中，可以實作智慧反饋出模糊、反光等場景下的誤辨識，浮水印辨識平均準確率提升至95%。在工業質檢場景下，我們全新支持基於Visual Prompting 的小樣本分割鏈路，並推出缺陷感知通用模型、缺陷自動合成功能，可實作「0」標註或「1」標註下解決質檢問題。

具體到模型工具產品方面，今年5月，我們推出了三個大模型PaaS產品：知識引擎、影像創作引擎和視訊創作引擎，幫助企業快速、輕松打造AI原生套用。

大模型知識引擎聚焦企業知識服務場景。透過該平台，企業用自然語言和簡單配置，5分鐘就可以開發出一款大語言模型套用，服務於客服行銷、企業知識社群等業務場景。經過幾個月的產品叠代，知識引擎產品在使用者需求辨識與理解、企業知識處理、檢索和理解能力上，都有很大的升級。

比如，我們綜合運用向量檢索、摘要檢索、text2sql多種技術手段，顯著提升了復雜大表的檢索及問答準確率。同時，我們升級了升級多模態知識解析、檢索、閱讀理解能力，實作讀懂文中的「數據圖」、「自然場景圖」、「圖文關系」。

同時，我們提供了更靈活的購買方式，支持元件能力的單獨輸出，企業可以按需購買文件解析、文件拆分、向量化等能力，按需部署到自身的套用中去。

在影像創作引擎層面，基於混元生圖能力的升級，我們的影像風格化、AI寫真、商品背景生成、模特換裝等功能也進一步實作了叠代。在AI寫真層面，我們實作了免訓練技術突破，輸入一張照片後可直接跳過訓練環節等待，一鍵生成高畫質寫真藝術照，整體出圖耗時縮短75%。

針對很多電商商家高頻使用的商品背景生成能力，我們大幅提高了背景畫面真實度、商品分割細膩度，以及商品與背景間融合的自然度與互動合理性，實作商品在不同場景中高度逼真的虛擬效果展示。在模特換裝場景下，我們采用3D先驗方案，提升重建人像效果，在高度保持模特臉部、手部細節的同時，精確將服裝版型細節與模特身體特征對齊，確保換裝後的效果逼真自然。

基於混元的DiT架構模型，我們的視訊創作引擎也迎來了全新的升級，新增了圖片跳舞、圖片唱演和視訊轉譯等能力。

首先，我們來看下圖片跳舞能力，目前，我們已經實作了單段舞蹈的生成時間從10分鐘下降至1分鐘級別，同時支持轉身、側身等難例舞蹈動作。人物跳舞的自然度已經有了很大的提升，這背後是我們基於3d-boby重建技術，進一步最佳化了演算法，畫面的真實度和自然度也有了明顯提升。

在圖片唱演層面，我們目前可以支持一張人像圖片生成一段唱演視訊，視訊生成的人物的面部表情和情緒演繹都更加自然靈動。

同時，針對很多客戶有需求的在視訊轉譯能力，我們接入了混元文生文大模型和 TTS 技術，讓轉譯後的視訊能夠保留說話人的音色特征，同時實作說話人口型與目標語種一致的視聽效果。目前視訊轉譯功能支持15+小語種，覆蓋主流外語轉譯，可套用於視訊在地化、跨境電商等場景。

基於騰訊先進的形象驅動、自然語言理解和辨識能力，我們的數智人形象自然度業界領先。目前，騰訊雲智慧數智人已經在業務辦理、使用者營運、行銷獲客以及品牌宣傳等業務場景中落地。

今天，我們也將2D數智人、3D數智人和聲音復刻管線全面輸出，支持企業私有化部署和靈活客製。管線輸出意味著，客戶可以將訓練數據和訓練模型都部署在自己的環境上。我們的合作夥伴也可以基於我們的管線能力批次生成數智人，更好地推動數智人在更多場景的普及和落地。

基於我們全矩陣的大模型產品，我們已經服務了眾多客戶，在知識管理、智慧客服、研發提效、智慧行銷、內容生成、辦公協同、風險管控等場景中，很多客戶利用我們的產品實作了降本增效和業務創新。

在智慧客服與知識管理場景中，基於大模型的生成能力，可以顯著提升復雜問題的解決效率，提升回答品質。比如，汽車售後服務是一個典型的專業客服場景，涉及的知識復雜，汽車說明書包括圖片、表格等眾多形式，傳統客服機器人無法及時準確地回答問詢。我們與長安汽車共創，利用大模型知識引擎整合汽車使用手冊等資料，有效解決了客戶在車輛使用和維護中的疑問，顯著提升了客戶服務體驗。

在智慧行銷場景，大模型可以提升廣告素材的生產效率，提升行銷互動的趣味和互動性。比如，蒙牛在一場行銷活動中，利用圖生圖能力，將使用者上傳的全家福轉化生成為特制的卡通畫風，助力會員拉新、提升使用者活躍。活動期間小程式相對於去年同期提升80%以上。

在內容創意場景，大模型可以讓內容生產的周期大幅縮短，提供更多的創意玩法。比如，人民日報、新華社等媒體結合我們的文生視訊能力，創作了很多視訊作品。過去，視訊內容需要一幀幀進行設計和制作，制作周期短則數天，長則數月。現在借助視訊生成能力，只需一段文字或者幾張圖片，就能在幾分鐘內生成優質視訊內容。

在研發提效領域，我們一方面提供了TI平台等工具，幫助易車、閱文等企業搭建自己的大模型，顯著降低了模型構建的時間和成本；另一方面，透過AI程式碼助手等工具，我們也輔助開發者，提升研發的效率，幫助企業提升整體研發效能。

在辦公協同場景中，騰訊旗下的企業微信、騰訊會議、騰訊文件都已經接入了混元大模型。在大模型的助力下，企業微信可對英文信件進行智慧檢查，輔助英文信件糾錯，騰訊會議可以自動總結會議紀要，騰訊文件能夠自動生成各類文件。這些功能把個體從繁瑣的工作中解放出來，也顯著提升了團隊協同的效率。

在風險管控領域，風控大模型可以解決傳統風控中建模時間長、效率低的難題。透過打包豐富的反欺詐知識，實作「小樣本」訓練，快速構建契合業務需求的風控模型體系。比如，東風日產汽車金融，基於少量提示樣本遷移，就完成了適配自身業務場景的風控模型客製。相比於傳統的建模方式，模型KS效能提升超過20%，在跨場景的泛化性測試上效能提升53%。

今天我們也很榮幸請來了很多客戶來分享他們的落地實踐。未來，我們也希望與更多客戶攜手，推動大模型落地到場景中，真正為企業創造價值！謝謝大家！

騰訊雲副總裁吳運聲：大模型全矩陣產品升級 助力產業落地

騰訊雲副總裁吳運聲：大模型全矩陣產品升級助力產業落地