没有刷不了的榜,只有还没 over-fitting 的数据集;
没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。
尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗?
去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波【Pretraining on the Test Set Is All You Need】,(别搞大模型了),你只需要在测试集上预训练就够了。
吐槽了市面上层出不穷的各种大模型测试榜单之外,这篇论文,直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。
比如,使用测试集中数据提问 phi-1.5,模型会立刻给出一个精准的回复,但只要改变一个数字或者改变一下数据格式,回答立刻变得牛头不对马嘴幻觉频出。
原因很简单,为了刷榜,模型对 MMLU、GSM8K、Big-Bench、AGIEval 等公开数据集,做了针对性训练。
过拟合的 A 面,是让模型在打榜过程中取得了人人都是大模型第一的地位,B 面则是,模型的泛化能力被极大削弱,失去了大模型应有的创造与思考的能力。
大模型落地,苦「第一」久矣。尽管,这已经成为大模型产业心照不宣的秘密。
那么,「第一」真的代表更强的能力吗?所谓的最强大模型真的存在?行业落地,又到底需要怎样的标准?
或许,前赴后继的刷榜本质,是独属于大模型产业的强者傲慢。
01
最佳大模型的傲慢与偏见
一定程度上,基准测试失真,于大模型而言,表面上看是标准问题,实际上是宣传问题,本质上则是如何落地的商业模式难题。
Scaling law 的主导下,进入万亿参数时代的大模型强者恒强成为唯一的生存密码:根据公开信息披露,仅 GPT4 就有约 1.8 万亿参数,其训练过程,需要消耗约 2.15e25 FLOPS 算力,更直观来说,需要约 25,000 个 A100 GPU,马力全开,训练足足 100 天。以云上每个 A100 GPU 每小时 1 美元来算,理想情况下,一次训练的成本就需要花费至少 6000 万美元。
与此同时,头部大模型玩家,平均两个月左右,就会迎来一次技术或产品的迭代;而形成鲜明对比的是,国内的大模型六小龙,即使如今估值最高的智谱,算上最新一轮融资,其总融资额,也不过 55 亿。
一边是不断膨胀的参数,不断增加的成本;一边是盲盒黑箱式的技术原理,与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值,打榜自然也就成了最直观的捷径。
但这一切的前提是,大模型落地,真的存在所谓的最强大模型吗?
答案或许是否定的。
技术落地与研究不同,具体到场景之中,强如 Open AI、谷歌与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求,往往对应着不同的最优解法:其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku;GPT 4o 分为标准版与 mini 版;谷歌 Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。
而一个违背直觉的数据是,各大模型的增强版与 mini 版,在实际部署中,往往是拥有更低时延与低成本优势的 mini 版本,会更受欢迎。
即使单纯聚焦到技术的单一维度,「最强模型」也同样是个伪命题。在相对客观的物理、化学和生物学、数学、天文等科目中,各家大模型评分往往各有千秋;而一旦将视角转为写作、绘画、视频生成,那么如何评定最优大模型,1000 个读者有 1000 个哈姆莱特。
作为全球最大的云服务平台,亚马逊云科技,就曾注意到:在亚马逊云上,不同开发者往往会关注不同性能,比如,有人会关注更低的延迟、更低的成本,有人更关注模型是否具备微调能力、能更好地协调不同知识库以固定数据,还有团队更关注模型的多模态能力,或者知识扩散迁移能力。
也是因此,什么才是所谓的最强大模型,在一轮轮热潮中,这个话题被反复讨论、被热议、被反思,但从来未被解决。
但可以肯定的是,任何单一维度的「第一」「最强」叙事,都是对复杂场景的简单化。
02
Choice is All You Need
「最强」=无敌,只是技术至上者的傲慢,以及对用户真实需求的偏见,这一点已经在无数行业中被反复证实。
二十一世纪初期,许多经济学家、产业学家,在观察了日本一众历史优势产业的发展之后都发现了一个怪状:
无论电视机,亦或半导体,乃至汽车,日本无疑是「最强」叙事的顶级推崇者,以及最佳实践案例,但最终的解决却无一例外,集体走向没落。
比如,日本的电视,在显像管时期做到画质最高,却在短短几年被更轻薄的液晶打败;日本面向大型机时代研发的存储芯片,一度做到保质期 30 年,却在消费电子浪潮中被韩国三星质量参差不齐的低价「次品」打败;日本的汽车,在燃油车时代无疑是最耐用、最保值的代名词,甚至是新能源时代,也一步到位发展了最清洁的氢能源燃料电池,却唯独错过了近十年来最大的汽车产业变革热潮——电动化。
为什么「强者」最先被淘汰?生物学家给出了解答——日本产业,陷入了加拉帕戈斯陷阱,一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」,往往在面对复杂的真实场景与需求会显得格格不入,乃至不堪一击。
相比「最佳」,行业更需要的是,需求被看见,过程有的选,结果更适合。
就像数据库领域,即使传统的 SQL 数据库已经常年占据统治地位,依然会有各种各样的 noSQL 数据库冒出,甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。
AI 框架,也是个最好的例子,TensorFlow 之前,cafe 就足以满足市场的需求,但此后 TensorFlow 出现,一统天下,然而,没几年后,PyTorch 就横空出现,从学术领域出发逆袭,成为一代新的框架之王,但与此同时,TensorFlow 以及其他小众 AI 框架,依旧在工业领域占据相当的市场份额。
套用大模型 er 们的经典句式——Choice is All You Need。
亚马逊 CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上,就分享了这样一个观察:
「在亚马逊内部,所有开发者都有自主选择的权利,原本以为大家都会选用 Anthropic 的 Claude 模型,毕竟过去一年多它在全球属于性能顶尖的模型,确实有很多内部开发者在使用 Claude 模型,但他们也会采用 Llama 模型、Mistral 模型,还会运用自己开发的一些模型,甚至会使用自行研发的模型。」
比如,金融行业更需要内容生成的绝对准确性;大部分企业,则需要在性能与成本之间,做反复的平衡。甚至,同样是绘画,在诸如还原山海经之类场景中,大模型幻觉就是产生想象力的最佳礼物;而在绘制写实风漫画或人物建模,任何的幻觉都会带来最终结果的灾难性失控。
既然评判的标准五花八门,那么与其替用户选择,不如给足用户选择。
03
亚马逊云科技的 Choice matters
事实上,让客户有的选,是各大公有云厂商都在宣传的口号。但何谓有的选,选择的范围如何,背后的定义却往往各有千秋。亚马逊云科技无疑是其中,最开放、最激进的一个。
在亚马逊云科技,有的选,可以被解读出三重含义。
第一重,性能还是成本,用户有的选。
re:Invent 期间,亚马逊云科技推出全新发布的自研 Nova 基础模型,一共包括 Micro、Lite、Pro、Premier 四个版本。其中,可以做到 210 tokens/s 的 Amazon Nova Micro 是纯文本模型,主打高效级;其余三大多模态大模型中,Lite 主打轻量级,Pro 主打平衡,旗舰模型 Amazon Nova Premier,则主要用于应对复杂任务。
第二重,亚马逊云科技 or 其他,用户有的选是最高原则。
相比自研的 Nova 基础模型,如何支持更多的模型上架亚马逊云科技,才是这场大会真正的主角。
通过将电商中的货架概念用在了云服务与大模型,亚马逊云科技的大模型货架 Amazon Bedrock 不仅上架自家的 Nova 系列,同时还上线了亚马逊投资的 Anthropic 的 Claude 系列。
此外,Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英伟达 NIM 微服务等 100 多种业内一流的大模型。
不仅是通用大模型,金融领域的 Palmyra-Fin,翻译明星 Solar Pro,多模态方向的 Stable Diffusion 、音频生成方向的 Camb.ai,生物学方向的 ESM3 生成式生物学模型,也全部在 Amazon Bedrock 上架。
主打一个从自研到第三方,从文本到多模态,从通用到垂直,只要用户需要,Amazon Bedrock 应上尽上。
当然,不只是有的选,最重要的也就是第三层,亚马逊云科技不仅要让客户有的选,更能低成本的选。
如果只是上架第三方模型,那么行业内大部分公有云企业都能做到。
但如何避免云服务企业又做选手又做裁判还当发令员,能够真正做到不偏心自研产品,以用户需求为导向,还需要观察云服务公司究竟如何设计用户选择的门槛。
首先是定价,如何在亚马逊云科技销售模型,定价由模型提供商自行设置。
与此同时,为了降低用户使用大模型的成本以及选择难度,Amazon Bedrock 还提供了自定义微调和 模型蒸馏 (Model Distillation)功能以及多智能体协作工具(Multi-agent collaboration)、自动推理检查(Automated Reasoning checks)等功能。
一方面,帮助企业更好的选择合适的模型,另一方面,加速不同的模型与智能体之间的高效协同。
当然,这种有的选,不止体现在模型侧,在算力、数据库领域同样如此。
比如,在算力上,亚马逊云科技会提供不同层级的 EC2 实例,用户可以根据自身的计算需求选择标准服务器或者更强大的 UltraServer,不必受限于单一芯片平台或算力方案。
数据库方向,亚马逊云科技打破 CAP「困境」,推出无服务器分布式 SQL 的数据库 Amazon Aurora DSQL 以及完全托管的无服务器 NoSQL 数据库 Amazon DynamoDB global tables,尊重客户真正的需求。
从模型到算力再到数据库,一切决策的最高原则都是「Choice matters」,让用户去自由决策。
04
尾声
在经济学中,有一个有趣的悖论叫古德哈特定律。
其提出背景是,一旦我们过度关注乃至管理一个经济指标时,往往会为了达成这一指标而扭曲真实目的,以至于牺牲其他方面的利益,以至于指标本身失效。
AI 领域同理,当参数与性能变成唯一指标,其强大的扭曲力场会让真实的用户需求被忽略。
尽管,用 AI 替代客服所以更关注成本,用 AI 帮助手残画出想要的画面所以更关注多模态能力,用 AI 帮助企业完成质检优化所以更关注效率这样无数的细小变革,才是 AI 改变世界的真正组成。
而在这一过程中,用户的真实需求被看见,被尊重,有选择,正是一切进步发生的基础。