頭圖來源:極客公園
整理|連冉
編輯|靖宇
2024年被業界視作 AI 套用之年,在即將到來的2025年, Agent 則被廣泛看好。上周,谷歌正式釋出其最新版大模型Gemini 2.0系列,並表示這是他們迄今為止最強大的人工智慧模型,「專為Agent時代設計」。如何將「智慧體」打破傳統人機互動的局限,成為業界熱議的核心問題。
在極客公園 IF2025 創新大會上,無界方舟(AutoArk)創始人兼 CEO 曾曉東在【除了找 AI 做「情侶」,AI還能做什麽?】主題演講中,深入探討了 AI Agent 的未來發展方向,尤其是如何透過基礎智慧體(Foundation Agent)推動 AI 從單一任務助手向個人化、情感化的智慧夥伴邁進。
從最初的 AlphaGo 到如今的大型語言模型,再到垂直領域的專業化智慧體,AI Agent 的功能和套用範圍正在迅速擴充套件。然而,隨著 AI 技術進入個人生活領域,智慧體不再僅僅是完成任務的工具,也越來越成為理解使用者情感、滿足個人化需求的核心夥伴。
在互動、記憶和技能等關鍵領域,如何實作低延遲、帶視覺理解、高情感互動的即時反饋,如何構建個人化的記憶系統, 如何在虛擬與物理環境都具備魯棒的執行能力 ,成為智慧體前進演化的重要挑戰。
曾曉東介紹的「個人基礎智慧體」概念,正是基於此背景而提出。他強調個人領域的AI Agent不僅是解決單點問題的助手,更是使用者的長期夥伴,個人化滿足生產力和情感陪伴的需求,使 AI 能夠真正理解和融入使用者的生活與工作。
同時,曾曉東指出, 個人領域的AI Agent,將不止存在於現有的手機、電腦,還會存在於越來越多的新型硬體終端 。所以,無界方舟的探索不僅涵蓋了技術方面的突破,也孵化了基於自研技術優勢的硬體產品,將於明年釋出的智慧機器人「阿奇」,也是這一理念的體現。
在這一全新的 AI 智慧體藍圖下,曾曉東和無界方舟團隊的技術探索正加速落地,未來的 AI 產品或許將成為每個人生活中不可或缺的個人化夥伴,進一步推動人機互動邁向更高的智慧化、情感化層次。
在曾曉東眼中,無界方舟的專業領域智慧體方案,也將為企業級市場帶來前所未有的機遇。AI Agent 可謂應運而生,透過與行業專家的互動逐漸學習和最佳化,從而為企業業務流程的數智化轉型鋪平道路。
新的一年即將到來,AI產業的下一個階段也將拉開序幕。預計到2025年,AI Agent 的套用市場將達到數百億美元規模,2025 年有望成為 AI Agent 商業爆發元年。
以下為曾曉東在極客公園 IF2025 創新大會的演講實錄,由極客公園整理。
AI Agent 是如何發展的?
曾曉東:大家下午好!我是無界方舟的創始人曾曉東。
在過去兩年多的時間裏面,我跟我的團隊一直在堅持一個方向——AI Agent, 我們目前正在從傳統的 AI Agent 邁向基礎智慧體(Foundation Agent)。
我們可以先從實踐的路徑看一下 AI Agent 的發展路線。
AI Agent的發展路線 |圖片來源:無界方舟
其實 Agent 在近 20 年來,第一次出現在人類視野的是 AlphaGo,在強化學習方面,用 Agent 在大量棋局中跟環境做互動,學會下圍棋這個任務。但這些 Agent 都只會處理單一任務,所以在 AlphaGo 之後,Agent 在很長一段時間沒有受到更多關註,直到大模型的出現。
以語言基礎模型舉例,它可以處理許多工,包括中長尾的任務。在LLM上很快長出了不少基礎 Agent 框架,我們也看到很多 Prompt Agent 的出現,也就是透過寫 Prompt 給 Agent 一定的角色,包括給它配置一些可呼叫的工具。據不完全統計,目前全球有超過 70 多萬 Prompt Agent 套用。現在只要大家開啟任何一個大模型的 App,一定會有一個 Tab 是關於智慧體的。這些 Agent 我們統稱為Prompt Agent 或者 Baby Agent,因為它們本質上依然是大語言模型的某些通用能力,只是透過寫Prompt的方式將其功能具象化。
我認為 AI Agent 在未來會有兩個深水區:專家 Agent 和 個人 Agent。
當 Agent 進入第一個深水區,垂直領域,就需要專業度更高的 Agent。 直接套用通用模型的 Prompt Agent 無法滿足垂直領域要求的專業度,在以往的專業案例中,通用模型在垂直領域的任務透過率往往不足50%。所以我們需要專家 Agent,將模型與垂直領域數據、專業業務流程做深度耦合,形成專業度極高的 AI Agent。
針對高度復雜的任務,我們甚至可以組建一個多智慧體團隊,去解決特別難的命題。這裏舉一個產品案例,是我們在上半年推出的產品,來攻克醫藥研發領域的難題。在該產品中,我們有 18 個專業化的 Agent,每個 Agent 背後的模型是不一樣的,18個 Agent 可以相互進行自然語言溝通、寫程式碼、呼叫醫學工具和模型、自動糾錯等,去處理高度復雜的問題。
對於專家 Agent 這個層面來說,能夠產生商業模式的關鍵,是 Agent 在該垂直領域的專業度。無論采用的是單智慧體方案,還是多智慧體方案,都要有效起到理想的降本提效作用。
無界方舟多專家智慧體產品 AgentStudio |圖片來源:無界方舟
當Agent進入第二個深水區,個人領域,它除了 能幫助使用者提升生產效率 ,還會 提供 更多情緒價值 。 個人領域 Agent 不只存在於手機或電腦,還會搭載於更多終端,比如眼鏡、智慧音箱、未來的人形機器人,還有更多新型的智慧硬體。這其中存在著非常大的 GAP,無論是硬體AI產品,還是軟體AI套用,基礎模型與套用之間仍存在著許多核心問題待解決,比如說互動體驗、個人化的記憶、執行能力等等。
我們團隊在過去很長時間,都在探索個人領域到底需要怎樣的 Agent?我們認為,個人領域需要的絕不是傳統意義的 Agent,而是基礎智慧體,我們給它一個新的名詞叫作 Personal Foundation Agent(個人基礎智慧體) 。
基礎模型與 AI 套用之間的 GAP,需要透過個人基礎智慧體來解決|圖片來源:極客公園
基礎智慧體三要素:互動、記憶、技能
個人基礎智慧體的背後有三個基礎能力,我們要把它做到高水位,這樣個人化套用的落地才會變得更加快捷。
個人基礎智慧體三要素|圖片來源:無界方舟
第一個維度是互動 ,不只是文本的互動,還包括語音、視覺理解的即時互動。
第二個維度是記憶 ,個人化的記憶,基礎模型之外的記憶系統應該如何去搭建。
第三個維度是技能 ,也就是 AI Agent 的執行能力。
如果我們把這三個要素畫在同一個座標系中,我們剛才所看到的不管是 AlphaGo 、Prompt Agent,還是專家型的 Agent,它們都處於座標系的左下角,而我們的目標是要做一個位於座標系右上角的個人基礎智慧體,難度極高。我們在過去兩年多的時間,在每個維度都取得了一些階段性成果。接下來我會一一為大家介紹。
我們先看互動這個 維度。 在做一款個人 AI 套用時,不管是軟體類的,還是硬體類的,在許多場景,需要的不僅僅是 LLM 純文本互動能力,而是 擬人 且 即時的 語音 、視覺理解 互動 能力, 也就是下圖中間部份的互動能力。
傳統方法一般是用「三段式」的序列鏈路來實作音視訊互動,也就是先接一個語音辨識 ASR、再接一個大模型 LLM、最後銜接一個語音合成服務 TTS, 但這種方式有三個致命問題:1)延遲很高;2)互動僵硬;3)沒有情緒。
傳統語音 Agent 互動鏈路|圖片來源:無界方舟
我們舉幾個常見的Case,比如市面上的各種語音互動玩具,它的反饋延遲大概是 6 秒,這是用傳統的「三段式」鏈路通常會遇到的問題。它的互動不是開放式的,不能隨時透過語音打斷,許多產品都需要按住物理按鈕才能對話,這些都導致了產品體驗不佳,退貨率極高。
除了「三段式」鏈路,還有一種方式——端智慧,為了降低互動的延遲,把模型壓縮部署到端側。但它會有兩個很嚴重的問題:一是耗電,哪怕把模型壓縮到 2B 或者 0.5B,對話幾輪就會掉一格電,顯然無法滿足商業需求;二是偏小的模型,它的智力水平會下降非常多。雖然端側模型是一個很好的方向,但短時間之內如果要做商業化產品,這並不是一個很好的選擇。
那麽,Agent 的互動能力到底需要達到什麽水平呢? 我們需要的是完全開放式的、延遲非常低、帶視覺理解能力、情緒表達很豐滿 、可以驅動軟硬體載體 的 AI Agent。
個人 Agent 的互動能力需求|圖片來源:無界方舟
由於市面上沒有現成模型能夠直接套用, 我們 自研 摸索出 一套理想的解決方案。
第一,它是雲端的,還是比較大的模型,但這個模型一定是端到端、多模態的模型,這樣它的延遲才會降到很低,情緒 也 會非常飽滿,容易控制。
無界方舟自研探索出來的理想解決方案|圖片來源:無界方舟
第二,我們需要一條傳輸鏈路 WebRTC,相當於我跟 AI 做視訊聊天,視訊流 、 音訊流會不斷往雲上 傳輸 。 這裏最難的是模型,本質上多模態的端到端模型,它的演算法架構不會很難,難點在於它的數據來源。因為需要用音訊到音訊、音訊圖片到音訊的數據,如果找人打標或做錄制,成本會非常高,所以我們前期花了很多功夫在合成數據上。
無界方舟多模態基礎模型架構|圖片來源:無界方舟
透過以下視訊,我們可以看到目前模型的效果。在即時音視訊下,可做到 400 毫秒極低延遲反饋,展現出較高的智商、情商,有豐富的情緒表達,有 21 種多語言能力,可驅動虛擬形象和硬體的動作。
無界方舟在極客公園 IF2025 展會現場的實拍錄像|視訊來源:無界方舟
我們認為 套用 多模態、端到端的模型 , 是 做好 AI即時互動的 必經之路 。 除了剛才介紹的特性以外,還有更多延展性。
這是我們目前正在做的兩個探索型計畫,對齊的是其他模態。比如左手邊這個對齊的是寵物語言,當然不是真正的寵物語言,是訓練師對狗狗叫聲的理解;右側是我們跟腦機介面的廠商正在做的探索計畫,目前有一些初步的結果,腦訊號可以跟文字進行 Alignment。
無界方舟多模態基礎模型的潛在擴充套件性|圖片來源:無界方舟
我們再來看個人基礎智慧體 的 第二個維度,個人化記憶 。傳統大模型的記憶是比較簡單的,或者是用簡單的向量資料庫把上下文儲存下來。我們認為 AI 與人的很多互動片段需要一個完整的記憶系統去構建,業界目前正在往這塊做深耕,有很多記憶型的產品。
對我們來說,我們希望去構建一個單獨的記憶層——AutoMind。在這個記憶層裏,我們分兩種格式記錄記憶,其中一種是儲存型的,比如用知識圖譜、參數化記憶。
AutoMind個人化記憶系統|圖片來源:無界方舟
這個產品界面,展示了我同事過去三個月跟 AI 互動的所有資訊和記憶片段。這個模型會為每個使用者構建AutoMind記憶系統,結合我們的大模型,它的回答會高度個人化。在我們開源的工作中,我們甚至可以將記憶系統放在端側,這樣它可以實作完全的私密保護。
AutoMind個人化記憶層|圖片來源:無界方舟
第三個是整個Personal Foundation Agent 中 最難的 維度 ,Agent的技能。
我們嘗試去找到一條路徑,可以讓 Agent 在少量的樣本數據或事例中,學會虛擬操作或硬體操作的技能。
Agent Q,學習虛擬世界與現實世界的技能|圖片來源:無界方舟
我們最近有一份工作成果很快就會開源,叫作 Action Q。我們本質上是希望讓 Agent 學會寫一段程式碼,這個程式碼是跟技能相關的,會有很多路徑的探索、試錯,不管是操作網頁、玩遊戲,還是具身智慧的硬體驅動,它都可以學會正確的路徑。
Action Q,一種讓Agent學各種「技能」的通用方法|圖片來源:無界方舟
基礎智慧體的產品與套用
我們目前距達成個人基礎智慧體(Personal Foundation Agent) 還有一段路要走。在未來,我們除了持續深耕互動、記憶、技能這三個維度的技術能力外,還會孵化一系列搭載個人基礎智慧體的新型硬體產品,牽引個人基礎智慧體技術的套用叠代。
無界方舟透過硬體「阿奇」展示其卓越的自研模型能力|圖片來源:極客公園
這裏我想特別介紹一款硬體產品,它叫「阿奇(Arki)」,非常可愛。它有兩種 AI Agent 形態,一種是透過手機 App 直接體驗,我可以讓它幫我解決工作、生活上的問題;另一種是把手機放到底座上,它就會變成一個具象的機器人,可以有各種硬體動作的互動。目前「阿奇」還沒有量產上架,我們透過它向大家展示我們自研的模型技術能力。
此外,我們也正積極尋求與行業優秀夥伴的合作機會,在更多實際套用場景中,融入並行揮我們個人基礎智慧體的優勢。
個人基礎智慧體的套用場景拓展|圖片來源:無界方舟
最後,我想表達的是,隨著AI技術不斷融入我們的生活,智慧體的角色正在發生深刻的變化。它們不再只是冷冰冰的任務執行者,而是逐漸成為能夠理解我們情感、提供個人化服務的溫暖夥伴。
「個人基礎智慧體」這個概念,正是基於這樣的背景而誕生的。它強調AI不僅要解決實際問題,更要透過陪伴提供情緒價值,使 AI 真正成為理解和融入使用者生活的夥伴。無論是我們將在明年推出的智慧機器人「阿奇」系列,還是與合作夥伴們共同孵化的產品,都是在踐行這一理念。
曾曉東在極客公園 IF2025 創新大會|圖片來源:極客公園
與之對應的,「企業專家智慧體」也不再是一個遙不可及的概念,而是一個正在被積極套用的技術解決方案。AI Agent 助力醫藥、醫療、金融等專業領域降本增效,重塑企業內外部的互動方式,賦予千行百業新的生存和發展空間。
隨著技術的不斷進步和套用的持續深化,我們期待著 AI 邁向更高的智慧化、情感化層次,這也將為商業領域帶來前所未有的機遇和挑戰。我們有理由相信,AI Agent 的市場規模將在 2025 年後迅速增長,引領我們進入一個更加智慧、人性化的商業新時代。