玩LLM和agent有一段時間了,目前覺得AI agent落地是一個很尷尬的階段。學術上是一個富礦,有點當年專家系統火起來的感覺了。
agent work嗎,他work,很多bert無法做好的任務,LLM能有不錯的效果,在agent框架加持下,針對特定任務效果會好,不得不承認,不管是LLM還是agent在效果上都是實打實的進步。
那agent足夠work嗎,這個答案顯然是否的。如果說以前深度學習大家是煉丹師,那現在做agent套用是真的木匠手藝人了。不同的記憶庫,不同的prompt方法,用不同的LLM 拼起來效果差別都蠻大的。
那這些局限性是怎麽產生的呢,有一個很核心的問題我稱之為shallow reasoning,也即是說那怕是年初的GPT4,他的推理都是比較淺層的。GPT5可以解決嗎,也許。但是這也有可能是decoder-only transformer架構的固有缺陷。所以目前看來agent的神經中樞還是很原始的階段。
其實agent四大模組除了tool use都存在類似的問題。
記憶模組,目前的RAG也十分原始。僅僅透過文本相似性來搜尋是不是也太簡單粗暴了?比如說,我的目標是從A地到C地,但是我必須加油,中間只有B地有加油站,那麽顯然我需要完成A-B-C的路徑。那如果我現在是A我想認識C,有中間人B。那我完全可以回想之前加油的例子,來完成我的目標。之前加油的例子雖然和當前任務是共通的,但是文本相似性很低。所以個人看法是我們需要更高級的記憶模組。
邏輯推理模組現在有很多比如,COT, TOT,GOT,類比相似的例子等等。這些模組一定程度上解決了淺層推理的問題,但是依然,目前agent的推理深度是不夠。所以大部份論文還是在簡單的數據集上測試(這裏的簡單數據集相對於之前的NLP方法也很難了)。那隨之而來的問題是,對於不同的任務,我要選擇哪種方法去推理呢,我需要花多少算力去推理是合適的呢?目前即使是最高級的prompt技巧,也需要很多手工調整。所以推理模組也依然是十分原始的。
如果不說那麽遠,如果基於目前agent已經有的能力去落地呢?依然還有很多問題。
從需求上,比方說現在agent可以幫你訂個外賣,酒店,機票。問題是他真的比用APP順手嗎?我想我們不要小看了十多年來行動網際網路開發中,對APP的最佳化程度。再比如說像characterAI這樣,真的比刷抖音和看短劇有意思嗎?
目前覺得幾個比較好的套用方向是,醫療多模態大模型+agent,如果醫療影像可以對於新任務可以直接few-shot,而且效果能夠商用,會是一個很好的突破。還有做遊戲也是很好的方向,agent可以產生很多很有趣的遊戲內容,我想這類遊戲已經在路上了。還有社交領域,當然這裏不是真人社交,是虛擬伴侶,虛擬偶像,這些需求肯定是存在的,但是產品開發也需要摸著石頭過河。
至於軟體開發,現在用GPT4的能力,完全是扯蛋的。
最後是算力的問題,serving cost真的太高了。現在能做agent的LLM,只有GPT4,3.5水平同樣的模型做agent很勉強。一個使用者單次互動,也許要花好幾毛人民幣。什麽樣的產品,滿足什麽樣的需求才能賣得起這個價錢呢?
所以說目前落地是個尷尬的階段,要麽等算力,推理框架,蒸餾技術發展,讓服務成本足夠便宜。要麽等agent這套框架發展處更好的記憶,和推理能力。