OpenAI看好的方向，文心智能體技術搶先爆發！

2024-11-22心靈

編輯：編輯部 HYZ

【新智元導讀】 2024年世界互聯網大會領先科技獎揭曉，文心智能體技術獲獎！至此，百度大模型技術已連續兩年獲得該獎。

11月19日，2024年世界互聯網大會領先科技獎揭曉了。

在來自24個國家和地區的270項科技成果中，共有20項成果入選領先科技獎。

作為AI領域的關鍵代表，獲此殊榮的百度文心智能體技術尤為令人矚目。

最近，Scaling Law撞墻論成為熱門話題，大模型是新的科技泡沫嗎？

橫跨互聯網幾個時代的巨頭百度告訴我們：所謂「AI套用難落地」，「商業化沒途徑」，還是因為看得不夠遠。

正如國家卓越工程師、百度技術長王海峰所言，智能體，就是最能激發大模型潛力的套用方向。

隨著智能體技術的突破，更多的創新將得到激發。而智能體給社會經濟發展帶來的巨大價值，也將近在眼前了。

AI智能體，像人一樣「慢思考」

百度的智能體，背後究竟是怎樣的技術原理？這就要從人類的認知系統講起了。

在心理學研究中，將人類的認知系統分為兩種：系統1和系統2。

系統1代反應快，但容易出錯；而系統2思考慢一些，但更準確、理性。

基於這一認知特點，百度開發出了突破性的慢思考機制——系統2，其核心就是「思考模型」。

「思考模型」包含了四個關鍵要素：理解、規劃、反思和前進演化。

在這四個環節緊密配合之下，AI系統便能夠可靠地執行任務、持續自我前進演化，並在一定程度上將思考過程白盒化。

為了實作真正的智能思考，百度在基礎大模型之上開展了三個層面突破性的增強訓練。

首先是，思考過程的有監督精調，讓模型像人類一樣進行任務拆解、自主規劃。

假設你要計劃一次蘇州園林之旅，「思考模型」不僅能理解你的需求，還會像人類導遊一樣，考慮到景點分布、開放時間等因素，為你規劃出最優路線。

其次是，行為決策的偏好學習，讓模型學會運用工具和決策。

比如統計【師說】中，「師」字出現的頻率，模型會主動呼叫搜尋工具獲取全文，再呼叫程式碼直譯器，對其出現的次數進行精確的計算。

最後是結果反思的增強學習，讓模型學會檢查工具的結果，並動態調整行為。

這一過程就像人類對資訊真實性會產生質疑一樣，AI也學會了審視數據的準確性。

舉個栗子，在統計國慶檔電影票房排行數據時，出現了兩個不同來源的差異數據：一個是2.15億元，另一個是2.35億元。

這時，模型會主動分析可能的原因（數據更新的不同時間、不同統計來源等等），然後進一步檢索尋求驗證，最終確保資訊的可靠性。

那麽，訓練「思考模型」的數據從何而來？畢竟人類思考過程，往往只會發生在每個人腦海中，很難外顯數碼化，因此急難獲取相應的數據。

對此，百度創造性構建了「數據合成」的虛擬環境。

在提示構建階段，基於領域知識自動合成業務邏輯，透過工具模擬器靈活模擬業務所需的工具，透過使用者模擬器生成使用者可能的問題或指令，並與智能體互動。

然後，根據輸入的提示，思考模型自動探索思考和行動的不同路徑，並透過分步執行來模擬智能體的行動過程，最終生成高質素的合成數據。

更進一步地，基於這些合成數據，再利用RL對「思考模型」進行最佳化。

最終，讓機器實作像人一樣的思考和行動，自主完成復雜任務，同時在環境中持續學習、自主前進演化。

智能體的工作流

史丹佛電腦系客座教授曾指出，AI智能體工作流將會在今年取得巨大的進步，甚至還會超越下一代基礎模型。

我們都有過這樣的經歷，詢問ChatGPT/Claude等模型後，卻得不到滿意的輸出。

但智能體的關鍵作用之一，便是提供反饋幫LLM去改進輸出，最後獲得更好的響應。

其實，一個基礎的智能體架構，應該包含了記憶、規劃、工具、行動四大方面。

前OpenAI研究員Lilian Weng——LLM Powered Autonomous Agents

而且，在具體工作流中，智能體又有四種不同的設計模式。

首先是反思（reflection），大模型能夠自己檢查工作，並提出改進方法。

其次是工具使用（tool use)，能夠主動利用網絡搜尋、函數呼叫等任何功能，完成資訊收集數據處理，或采取行動。

緊接著是規劃（planning），提出一個多步計劃並實作目標。

最後是多智能體協作（multi-agent collaboration），多個AI智能體一同協作，分配任務並討論想法。

總結來說，AI智能體的出現並非讓LLM直接生成最終輸出，而且多次提示大模型，最終構建出更高質素的輸出。

始於模型，但不止於模型

百度智能體背靠著的文心大模型技術，讓它在落地套用上有了堅實的基礎。

自去年3月16日釋出文心一言以來，百度文心大模型不斷升級，知識增強、檢索增強以及智能體等技術也在不斷前進演化。

今年9月以來，百度文心大模型的日均API呼叫量，已經暴增至15億水平，短短半年增長7.5倍。

究其原因在於，它極大地改善了幻覺問題。

憑借搜尋引擎的技術積累，百度引入了檢索增強機制。透過搜尋互聯網上已有的知識，讓大模型給出更準確的回答。

百度研發的「理解-檢索-生成」協同最佳化的檢索增強技術，極大提升了大模型技術及套用效果。

在文本生成領域，檢索增強的套用已經成熟。下一步，就解決文生圖的幻覺問題了。

為此，百度的研究團隊將百度搜尋的億級圖片資源，跟強大的基礎模型能力結合了起來，開發出了基於檢索增強的文生圖技術iRAG，讓圖片生成的效果更加真實。

現在，iRAG既可以生成精確的圖片，也可以進行泛化生圖。

具體來說，大模型會首先對使用者需求進行分析理解，自動規劃精確或泛化方案，比如對哪些實體進行增強；接著在增強階段，對需要增強的實體，檢索並選擇相應的參考圖。

最後在生成階段，自研的多模可控生圖大模型，就透過局部註意力實作影像的高泛化生成，另外還能透過整體註意力計算，進行高精確的影像生成。

正如李彥宏所說——

過去24個月，AI行業的最大變化是什麽？是大模型基本消除了幻覺。

從此，AI大模型可以快速走向智能體，迎接原生套用大爆發了。

智能體，開啟AI套用新紀元

如今，憑借著門檻低、天花板高，既能讓人人都上手，又能做出復雜強大套用的特點，智能體正在成為AI套用最主流的形態。

就連OpenAI的CEO Sam Altman也表示，「下一個關鍵突破，就是AI智能體」。

放眼全世界，各大科技巨頭、獨角獸在AI領域裏掀起了一波智能體技術競賽的高潮。

然而，鮮為人知的是，在這波智能體熱潮之前，百度就已經完成了關鍵的布局。

百度，已然領先

互聯網時代，百度搜尋為核心的套用，實作了人類發展史上第一次知識普惠。

進入下一個周期——大模型時代，AI將讓無數普通人都有望成為超級個體。這個賦能者，無疑就是智能體。

李彥宏表示，現在大模型戰中所謂的「領先12個月」，「落後18個月」，其實都沒那麽重要。在這個完全競爭的市場環境中，無論選擇什麽方向，都會有很多競爭對手。

大模型熱到了第三年，我們已經經歷了大模型套用發展必經的幾個階段。

過去一年許多目光都聚焦在多模態，但其實，智能體才是目前最能激發大模型潛力的套用方向。

原因就在於，它的門檻確實很低。

大模型變成套用有很多不確定性，但智能體卻是非常直接、高效、簡單的方式。基礎模型需要靠套用才能顯現出價值，而智能體是一個幾乎「放之四海而皆準」的大模型套用。

因為門檻足夠低，甚至都不需要編程，只要用「人話」把工作流說清楚即可，比互聯網時代制作一個網頁還簡單。

智能體正在爆發，只是現在基數還比較小，大家的體感沒有那麽強烈。讓更多人進來、發揮聰明才智，指不定哪條路跑通了，就是一個Super APP。

打造全新智能體生態

如今，百度已經構建了一個強大的智能體生態系。

百度的智能體技術充分釋放了文心大模型的潛力，成為引領行業變革的新引擎。

IDC、沙利文、中國軟件評測中心等多家權威評測顯示，文心大模型超過國際領先大模型平均表現，位居中國第一、國際第一梯隊。

來源：IDC【中國大模型市場主流產品評估，2024】

如今，在行銷、客戶服務、企業辦公、程式碼編程等領域中，智能體正重塑各行各業升級的新範式。

另一方面，百度基於智能體技術構建的「文心智能體平台」，進一步降低了開發門檻，讓AI賦能變得觸手可及。

開發者們可以基於自身行業特點和套用場景需求，利用平台提供的多樣化能力、工具，打造出大模型時代的AI原生套用。

基於易開發、能分發、有錢賺三大特點，讓這個平台實作了價值閉環。

百度搜尋AI問答

比如，38歲失業女性答主自建立了「情感咨詢導師曉曉」智能體，不僅有了意外的收入，還獲得了新的職業機會。

從小到9歲的學生，到50歲退休阿姨，任何人都能在開發套用中，找到一席之地。

目前，文心智能體平台已吸引超過80萬開發者、15萬家企業。

不寫程式碼，就能實作任意想法了

目前，百度的智能體技術正在加速LLM深度融入社會各行業的各個環節，助力企業與社會服務智能化升級。

在政務領域，AI法律咨詢助手能為勞動者提供及時準確的法律指導。

在農業領域，「農民院士智能體」讓科技助農變得更加便捷高效。

在教育領域，它能為師生帶來更智能化、個人化的教學新體驗。

在輔助編程開發中，智能體降低了普通人開發套用門檻，也提升了專業程式設計師的編碼效率。

這裏，尤為值得一提的是百度在「多智能體協作」領域的最新成果——無程式碼開發工具「秒噠」。

用李彥宏的話說，它是「迄今為止人類歷史最復雜的多智能體協作工具」。

多智能體協作，是基於文心大模型的思考和規劃能力，實作了對不同智能體的排程和編排。

在策劃、內容、開發等工作中，有小組長、策劃、小編、程式設計師和質檢員五個智能體相互協作，甚至還能自動辨識bug，呼叫各種工具。

在演講現場，李彥宏曾以蘿蔔快跑新技術釋出會為例，直接搭建了一個活動報名系統。

用中文描述需求，補充帶有大會時間地點主題的文件，就可以指揮秒噠中的多個智能體協作了。

其中，小組長智能體會進行規劃排程，會將任務拆解並召喚各智能體來完成任務。

策劃智能體負責將策劃設計解決方案拆分成i核心需求、內容結構、開發需求、數據收集四個子任務。

小編智能體會編輯邀請函中的所有文字和媒體內容，包括釋出展望、時間地點資訊、封面圖等。

程式設計師智能體透過寫程式碼，制作和部署網頁。

這個過程中，透過場景知識的增強，提升了復雜程式碼生成的質素與穩定性，能高效實作使用者所需的功能。

最後，質檢員智能體會檢查程式碼bug，修復，進行程式碼測試。

一套流程下來，活動邀請函立馬就生成了。

同時，百度的另一個多智能體套用——程式碼助手「文心快碼」則升級到了3.0版本，全面進入智能體時代。

具體來說就是，在開發全流程中，會有多個智能體進行流水線協同，進而大幅提升程式設計師的工作質素和效率。

在推動傳統產業轉型升級的同時，百度智能體技術還催生了在智能家居、智能電商等新興產業發展。

更重要的是，它還創造出智能體工程師、訓練師等全新職業，推動人才培養模式創新，為產業結構升級提供源源不斷人才支持。

站在新的歷史節點上，百度文心智能體正重新定義AI的發展方向。

在全球科技巨頭還在為智能體技術摩拳擦掌之時，他們已用紮實的技術積累，以及豐富的實踐經驗，驗證了智能體技術的巨大潛力。

多次獲獎，是全行業的肯定

仔細回看，其實不止在今年，此前百度就曾五次在世界互聯網大會烏鎮峰會上獲此殊榮，得獎理由分別是百度大腦、小度助手、Apollo、飛槳、知識增強大語言模型技術。

今年的百度文心智能體，已經是第六次獲獎。

不僅如此，百度大模型相關技術還曾獲國家技術發明二等獎、中國專利金獎、吳文俊人工智能科技進步特等獎、中國電子學會科技進步一等獎等多個獎項。

從第一屆世界互聯網大會到現在的整整11年間，百度率先預判出下一步技術的突破方向，同時也不忘將技術與實踐緊密結合，迅速抓住當下市場的痛點。

百度大腦、小度助手（DuerOS）、Apollo自動駕駛平台、飛槳開源深度學習平台等，都是百度在行業內先行一步的探索，全部取得了成功。

這些領域內的前沿技術，帶動的不僅是百度的發展，也以引領者的姿態，推動了全行業的技術進步，讓全行業的技術發展坐上了快車。

更關鍵的是，百度並非只局限於發展單一的技術，而是將格局放得更大，致力於建立一個包含硬件、軟件、服務和平台的完整生態系。

AI的未來究竟在何方？這個答案，或許就藏在百度智能體技術的一個個突破裏。

從去年10月的前瞻布局，到如今智能體的蓬勃生長；從系統2思考模型創新，到智能體賦能萬千企業的實踐。

百度正用不斷創新的技術力量，為每個領域帶去智能化的蝶變。