当前位置: 华文星空 > 新闻

AI Agent目前应用落地有哪些局限性?

2023-10-18新闻

玩LLM和agent有一段时间了,目前觉得AI agent落地是一个很尴尬的阶段。学术上是一个富矿,有点当年专家系统火起来的感觉了。

agent work吗,他work,很多bert无法做好的任务,LLM能有不错的效果,在agent框架加持下,针对特定任务效果会好,不得不承认,不管是LLM还是agent在效果上都是实打实的进步。

那agent足够work吗,这个答案显然是否的。如果说以前深度学习大家是炼丹师,那现在做agent应用是真的木匠手艺人了。不同的记忆库,不同的prompt方法,用不同的LLM 拼起来效果差别都蛮大的。

那这些局限性是怎么产生的呢,有一个很核心的问题我称之为shallow reasoning,也即是说那怕是年初的GPT4,他的推理都是比较浅层的。GPT5可以解决吗,也许。但是这也有可能是decoder-only transformer架构的固有缺陷。所以目前看来agent的神经中枢还是很原始的阶段。

其实agent四大模块除了tool use都存在类似的问题。

记忆模块,目前的RAG也十分原始。仅仅通过文本相似性来搜索是不是也太简单粗暴了?比如说,我的目标是从A地到C地,但是我必须加油,中间只有B地有加油站,那么显然我需要完成A-B-C的路径。那如果我现在是A我想认识C,有中间人B。那我完全可以回想之前加油的例子,来完成我的目标。之前加油的例子虽然和当前任务是共通的,但是文本相似性很低。所以个人看法是我们需要更高级的记忆模块。

逻辑推理模块现在有很多比如,COT, TOT,GOT,类比相似的例子等等。这些模块一定程度上解决了浅层推理的问题,但是依然,目前agent的推理深度是不够。所以大部分论文还是在简单的数据集上测试(这里的简单数据集相对于之前的NLP方法也很难了)。那随之而来的问题是,对于不同的任务,我要选择哪种方法去推理呢,我需要花多少算力去推理是合适的呢?目前即使是最高级的prompt技巧,也需要很多手工调整。所以推理模块也依然是十分原始的。

如果不说那么远,如果基于目前agent已经有的能力去落地呢?依然还有很多问题。

从需求上,比方说现在agent可以帮你订个外卖,酒店,机票。问题是他真的比用APP顺手吗?我想我们不要小看了十多年来移动互联网发展中,对APP的优化程度。再比如说像characterAI这样,真的比刷抖音和看短剧有意思吗?

目前觉得几个比较好的应用方向是,医疗多模态大模型+agent,如果医疗影像可以对于新任务可以直接few-shot,而且效果能够商用,会是一个很好的突破。还有做游戏也是很好的方向,agent可以产生很多很有趣的游戏内容,我想这类游戏已经在路上了。还有社交领域,当然这里不是真人社交,是虚拟伴侣,虚拟偶像,这些需求肯定是存在的,但是产品开发也需要摸着石头过河。

至于软件开发,现在用GPT4的能力,完全是扯蛋的。

最后是算力的问题,serving cost真的太高了。现在能做agent的LLM,只有GPT4,3.5水平同样的模型做agent很勉强。一个用户单次交互,也许要花好几毛人民币。什么样的产品,满足什么样的需求才能卖得起这个价钱呢?

所以说目前落地是个尴尬的阶段,要么等算力,推理框架,蒸馏技术发展,让服务成本足够便宜。要么等agent这套框架发展处更好的记忆,和推理能力。