2025 年，AI Agent 將如何變革？

2024-12-26心靈

頭圖來源：極客公園

整理｜連冉

編輯｜靖宇

2024年被業界視作 AI 套用之年，在即將到來的2025年， Agent 則被廣泛看好。上周，谷歌正式釋出其最新版大模型Gemini 2.0系列，並表示這是他們迄今為止最強大的人工智能模型，「專為Agent時代設計」。如何將「智能體」打破傳統人機互動的局限，成為業界熱議的核心問題。

在極客公園 IF2025 創新大會上，無界方舟（AutoArk）創始人兼 CEO 曾曉東在【除了找 AI 做「情侶」，AI還能做什麽？】主題演講中，深入探討了 AI Agent 的未來發展方向，尤其是如何透過基礎智能體（Foundation Agent）推動 AI 從單一任務助手向個人化、情感化的智能夥伴邁進。

從最初的 AlphaGo 到如今的大型語言模型，再到垂直領域的專業化智能體，AI Agent 的功能和套用範圍正在迅速擴充套件。然而，隨著 AI 技術進入個人生活領域，智能體不再僅僅是完成任務的工具，也越來越成為理解使用者情感、滿足個人化需求的核心夥伴。

在互動、記憶和技能等關鍵領域，如何實作低延遲、帶視覺理解、高情感互動的即時反饋，如何構建個人化的記憶系統，如何在虛擬與物理環境都具備魯棒的執行能力，成為智能體前進演化的重要挑戰。

曾曉東介紹的「個人基礎智能體」概念，正是基於此背景而提出。他強調個人領域的AI Agent不僅是解決單點問題的助手，更是使用者的長期夥伴，個人化滿足生產力和情感陪伴的需求，使 AI 能夠真正理解和融入使用者的生活與工作。

同時，曾曉東指出，個人領域的AI Agent，將不止存在於現有的手機、電腦，還會存在於越來越多的新型硬件終端。所以，無界方舟的探索不僅涵蓋了技術方面的突破，也孵化了基於自研技術優勢的硬件產品，將於明年釋出的智能機器人「阿奇」，也是這一理念的體現。

在這一全新的 AI 智能體藍圖下，曾曉東和無界方舟團隊的技術探索正加速落地，未來的 AI 產品或許將成為每個人生活中不可或缺的個人化夥伴，進一步推動人機互動邁向更高的智能化、情感化層次。

在曾曉東眼中，無界方舟的專業領域智能體方案，也將為企業級市場帶來前所未有的機遇。AI Agent 可謂應運而生，透過與行業專家的互動逐漸學習和最佳化，從而為企業業務流程的數智化轉型鋪平道路。

新的一年即將到來，AI產業的下一個階段也將拉開序幕。預計到2025年，AI Agent 的套用市場將達到數百億美元規模，2025 年有望成為 AI Agent 商業爆發元年。

以下為曾曉東在極客公園 IF2025 創新大會的演講實錄，由極客公園整理。

AI Agent 是如何發展的？

曾曉東：大家下午好！我是無界方舟的創始人曾曉東。

在過去兩年多的時間裏面，我跟我的團隊一直在堅持一個方向——AI Agent，我們目前正在從傳統的 AI Agent 邁向基礎智能體（Foundation Agent）。

我們可以先從實踐的路徑看一下 AI Agent 的發展路線。

AI Agent的發展路線｜圖片來源：無界方舟

其實 Agent 在近 20 年來，第一次出現在人類視野的是 AlphaGo，在強化學習方面，用 Agent 在大量棋局中跟環境做互動，學會下圍棋這個任務。但這些 Agent 都只會處理單一任務，所以在 AlphaGo 之後，Agent 在很長一段時間沒有受到更多關註，直到大模型的出現。

以語言基礎模型舉例，它可以處理許多工，包括中長尾的任務。在LLM上很快長出了不少基礎 Agent 框架，我們也看到很多 Prompt Agent 的出現，也就是透過寫 Prompt 給 Agent 一定的角色，包括給它配置一些可呼叫的工具。據不完全統計，目前全球有超過 70 多萬 Prompt Agent 套用。現在只要大家開啟任何一個大模型的 App，一定會有一個 Tab 是關於智能體的。這些 Agent 我們統稱為Prompt Agent 或者 Baby Agent，因為它們本質上依然是大語言模型的某些通用能力，只是透過寫Prompt的方式將其功能具象化。

我認為 AI Agent 在未來會有兩個深水區：專家 Agent 和個人 Agent。

當 Agent 進入第一個深水區，垂直領域，就需要專業度更高的 Agent。直接套用通用模型的 Prompt Agent 無法滿足垂直領域要求的專業度，在以往的專業案例中，通用模型在垂直領域的任務透過率往往不足50%。所以我們需要專家 Agent，將模型與垂直領域數據、專業業務流程做深度耦合，形成專業度極高的 AI Agent。

針對高度復雜的任務，我們甚至可以組建一個多智能體團隊，去解決特別難的命題。這裏舉一個產品案例，是我們在上半年推出的產品，來攻克醫藥研發領域的難題。在該產品中，我們有 18 個專業化的 Agent，每個 Agent 背後的模型是不一樣的，18個 Agent 可以相互進行自然語言溝通、寫程式碼、呼叫醫學工具和模型、自動糾錯等，去處理高度復雜的問題。

對於專家 Agent 這個層面來說，能夠產生商業模式的關鍵，是 Agent 在該垂直領域的專業度。無論采用的是單智能體方案，還是多智能體方案，都要有效起到理想的降本提效作用。

無界方舟多專家智能體產品 AgentStudio ｜圖片來源：無界方舟

當Agent進入第二個深水區，個人領域，它除了能幫助使用者提升生產效率，還會提供更多情緒價值。個人領域 Agent 不只存在於手機或電腦，還會搭載於更多終端，比如眼鏡、智能音箱、未來的人形機器人，還有更多新型的智能硬件。這其中存在著非常大的 GAP，無論是硬件AI產品，還是軟件AI套用，基礎模型與套用之間仍存在著許多核心問題待解決，比如說互動體驗、個人化的記憶、執行能力等等。

我們團隊在過去很長時間，都在探索個人領域到底需要怎樣的 Agent？我們認為，個人領域需要的絕不是傳統意義的 Agent，而是基礎智能體，我們給它一個新的名詞叫作 Personal Foundation Agent（個人基礎智能體）。

基礎模型與 AI 套用之間的 GAP，需要透過個人基礎智能體來解決｜圖片來源：極客公園

基礎智能體三要素：互動、記憶、技能

個人基礎智能體的背後有三個基礎能力，我們要把它做到高水位，這樣個人化套用的落地才會變得更加快捷。

個人基礎智能體三要素｜圖片來源：無界方舟

第一個維度是互動，不只是文本的互動，還包括語音、視覺理解的即時互動。

第二個維度是記憶，個人化的記憶，基礎模型之外的記憶系統應該如何去搭建。

第三個維度是技能，也就是 AI Agent 的執行能力。

如果我們把這三個要素畫在同一個座標系中，我們剛才所看到的不管是 AlphaGo 、Prompt Agent，還是專家型的 Agent，它們都處於座標系的左下角，而我們的目標是要做一個位於座標系右上角的個人基礎智能體，難度極高。我們在過去兩年多的時間，在每個維度都取得了一些階段性成果。接下來我會一一為大家介紹。

我們先看互動這個維度。在做一款個人 AI 套用時，不管是軟件類的，還是硬件類的，在許多場景，需要的不僅僅是 LLM 純文本互動能力，而是擬人且即時的語音、視覺理解互動能力，也就是下圖中間部份的互動能力。

傳統方法一般是用「三段式」的序列鏈路來實作音影片互動，也就是先接一個語音辨識 ASR、再接一個大模型 LLM、最後銜接一個語音合成服務 TTS，但這種方式有三個致命問題：1）延遲很高；2）互動僵硬；3）沒有情緒。

傳統語音 Agent 互動鏈路｜圖片來源：無界方舟

我們舉幾個常見的Case，比如市面上的各種語音互動玩具，它的反饋延遲大概是 6 秒，這是用傳統的「三段式」鏈路通常會遇到的問題。它的互動不是開放式的，不能隨時透過語音打斷，許多產品都需要按住物理按鈕才能對話，這些都導致了產品體驗不佳，退貨率極高。

除了「三段式」鏈路，還有一種方式——端智能，為了降低互動的延遲，把模型壓縮部署到端側。但它會有兩個很嚴重的問題：一是耗電，哪怕把模型壓縮到 2B 或者 0.5B，對話幾輪就會掉一格電，顯然無法滿足商業需求；二是偏小的模型，它的智力水平會下降非常多。雖然端側模型是一個很好的方向，但短時間之內如果要做商業化產品，這並不是一個很好的選擇。

那麽，Agent 的互動能力到底需要達到什麽水平呢？我們需要的是完全開放式的、延遲非常低、帶視覺理解能力、情緒表達很豐滿、可以驅動軟硬件載體的 AI Agent。

個人 Agent 的互動能力需求｜圖片來源：無界方舟

由於市面上沒有現成模型能夠直接套用，我們自研摸索出一套理想的解決方案。

第一，它是雲端的，還是比較大的模型，但這個模型一定是端到端、多模態的模型，這樣它的延遲才會降到很低，情緒也會非常飽滿，容易控制。

無界方舟自研探索出來的理想解決方案｜圖片來源：無界方舟

第二，我們需要一條傳輸鏈路 WebRTC，相當於我跟 AI 做影片聊天，影片流、音訊流會不斷往雲上傳輸。這裏最難的是模型，本質上多模態的端到端模型，它的演算法架構不會很難，難點在於它的數據來源。因為需要用音訊到音訊、音訊圖片到音訊的數據，如果找人打標或做錄制，成本會非常高，所以我們前期花了很多功夫在合成數據上。

無界方舟多模態基礎模型架構｜圖片來源：無界方舟

透過以下影片，我們可以看到目前模型的效果。在即時音影片下，可做到 400 毫秒極低延遲反饋，展現出較高的智商、情商，有豐富的情緒表達，有 21 種多語言能力，可驅動虛擬形象和硬件的動作。

無界方舟在極客公園 IF2025 展會現場的實拍錄像｜影片來源：無界方舟

我們認為套用多模態、端到端的模型，是做好 AI即時互動的必經之路。除了剛才介紹的特性以外，還有更多延展性。

這是我們目前正在做的兩個探索型專案，對齊的是其他模態。比如左手邊這個對齊的是寵物語言，當然不是真正的寵物語言，是訓練師對狗狗叫聲的理解；右側是我們跟腦機介面的廠商正在做的探索專案，目前有一些初步的結果，腦訊號可以跟文字進行 Alignment。

無界方舟多模態基礎模型的潛在擴充套件性｜圖片來源：無界方舟

我們再來看個人基礎智能體的第二個維度，個人化記憶。傳統大模型的記憶是比較簡單的，或者是用簡單的向量數據庫把上下文儲存下來。我們認為 AI 與人的很多互動片段需要一個完整的記憶系統去構建，業界目前正在往這塊做深耕，有很多記憶型的產品。

對我們來說，我們希望去構建一個單獨的記憶層——AutoMind。在這個記憶層裏，我們分兩種格式記錄記憶，其中一種是儲存型的，比如用知識圖譜、參數化記憶。

AutoMind個人化記憶系統｜圖片來源：無界方舟

這個產品界面，展示了我同事過去三個月跟 AI 互動的所有資訊和記憶片段。這個模型會為每個使用者構建AutoMind記憶系統，結合我們的大模型，它的回答會高度個人化。在我們開源的工作中，我們甚至可以將記憶系統放在端側，這樣它可以實作完全的私密保護。

AutoMind個人化記憶層｜圖片來源：無界方舟

第三個是整個Personal Foundation Agent 中最難的維度，Agent的技能。

我們嘗試去找到一條路徑，可以讓 Agent 在少量的樣本數據或事例中，學會虛擬操作或硬件操作的技能。

Agent Q，學習虛擬世界與現實世界的技能｜圖片來源：無界方舟

我們最近有一份工作成果很快就會開源，叫作 Action Q。我們本質上是希望讓 Agent 學會寫一段程式碼，這個程式碼是跟技能相關的，會有很多路徑的探索、試錯，不管是操作網頁、玩遊戲，還是具身智能的硬件驅動，它都可以學會正確的路徑。

Action Q，一種讓Agent學各種「技能」的通用方法｜圖片來源：無界方舟

基礎智能體的產品與套用

我們目前距達成個人基礎智能體（Personal Foundation Agent）還有一段路要走。在未來，我們除了持續深耕互動、記憶、技能這三個維度的技術能力外，還會孵化一系列搭載個人基礎智能體的新型硬件產品，牽引個人基礎智能體技術的套用叠代。

無界方舟透過硬件「阿奇」展示其卓越的自研模型能力｜圖片來源：極客公園

這裏我想特別介紹一款硬件產品，它叫「阿奇（Arki）」，非常可愛。它有兩種 AI Agent 形態，一種是透過手機 App 直接體驗，我可以讓它幫我解決工作、生活上的問題；另一種是把手機放到底座上，它就會變成一個具象的機器人，可以有各種硬件動作的互動。目前「阿奇」還沒有量產上架，我們透過它向大家展示我們自研的模型技術能力。

此外，我們也正積極尋求與行業優秀夥伴的合作機會，在更多實際套用場景中，融入並行揮我們個人基礎智能體的優勢。

個人基礎智能體的套用場景拓展｜圖片來源：無界方舟

最後，我想表達的是，隨著AI技術不斷融入我們的生活，智能體的角色正在發生深刻的變化。它們不再只是冷冰冰的任務執行者，而是逐漸成為能夠理解我們情感、提供個人化服務的溫暖夥伴。

「個人基礎智能體」這個概念，正是基於這樣的背景而誕生的。它強調AI不僅要解決實際問題，更要透過陪伴提供情緒價值，使 AI 真正成為理解和融入使用者生活的夥伴。無論是我們將在明年推出的智能機器人「阿奇」系列，還是與合作夥伴們共同孵化的產品，都是在踐行這一理念。

曾曉東在極客公園 IF2025 創新大會｜圖片來源：極客公園

與之對應的，「企業專家智能體」也不再是一個遙不可及的概念，而是一個正在被積極套用的技術解決方案。AI Agent 助力醫藥、醫療、金融等專業領域降本增效，重塑企業內外部的互動方式，賦予千行百業新的生存和發展空間。

隨著技術的不斷進步和套用的持續深化，我們期待著 AI 邁向更高的智能化、情感化層次，這也將為商業領域帶來前所未有的機遇和挑戰。我們有理由相信，AI Agent 的市場規模將在 2025 年後迅速增長，引領我們進入一個更加智能、人性化的商業新時代。