沒有刷不了的榜,只有還沒 over-fitting 的數據集;
沒有搞不定的第一,只有還沒加夠 XX 領域,XX 尺寸,XX 語言的限定詞。
盡管自 2012 年深度學習復蘇之日起,AI 打榜就成為了行業預設慣例,但歷來如此,就是真的正確嗎?
去年 9 月,一篇 LLM 味爆棚的反諷文章,在 arXiv 引起軒然大波【Pretraining on the Test Set Is All You Need】,(別搞大模型了),你只需要在測試集上預訓練就夠了。
吐槽了市面上層出不窮的各種大模型測試榜單之外,這篇論文,直白點名了 phi-1、TinyStories 和 phi-1.5 幾個大模型在明目張膽搞榜單造假。
比如,使用測試集中數據提問 phi-1.5,模型會立刻給出一個精準的回復,但只要改變一個數位或者改變一下數據格式,回答立刻變得牛頭不對馬嘴幻覺頻出。
原因很簡單,為了刷榜,模型對 MMLU、GSM8K、Big-Bench、AGIEval 等公開數據集,做了針對性訓練。
過擬合的 A 面,是讓模型在打榜過程中取得了人人都是大模型第一的地位,B 面則是,模型的泛化能力被極大削弱,失去了大模型應有的創造與思考的能力。
大模型落地,苦「第一」久矣。盡管,這已經成為大模型產業心照不宣的秘密。
那麽,「第一」真的代表更強的能力嗎?所謂的最強大模型真的存在?行業落地,又到底需要怎樣的標準?
或許,前赴後繼的刷榜本質,是獨屬於大模型產業的強者傲慢。
01
最佳大模型的傲慢與偏見
一定程度上,基準測試失真,於大模型而言,表面上看是標準問題,實際上是宣傳問題,本質上則是如何落地的商業模式難題。
Scaling law 的主導下,進入萬億參數時代的大模型強者恒強成為唯一的生存密碼:根據公開資訊披露,僅 GPT4 就有約 1.8 萬億參數,其訓練過程,需要消耗約 2.15e25 FLOPS 算力,更直觀來說,需要約 25,000 個 A100 GPU,馬力全開,訓練足足 100 天。以雲上每個 A100 GPU 每小時 1 美元來算,理想情況下,一次訓練的成本就需要花費至少 6000 萬美元。
與此同時,頭部大模型玩家,平均兩個月左右,就會迎來一次技術或產品的叠代;而形成鮮明對比的是,國內的大模型六小龍,即使如今估值最高的智譜,算上最新一輪融資,其總融資額,也不過 55 億。
一邊是不斷膨脹的參數,不斷增加的成本;一邊是盲盒黑箱式的技術原理,與使用者之間的不斷加深的認知壁壘。如何在這場強者恒強的生存競賽中證明自己的價值,打榜自然也就成了最直觀的捷徑。
但這一切的前提是,大模型落地,真的存在所謂的最強大模型嗎?
答案或許是否定的。
技術落地與研究不同,具體到場景之中,強如 Open AI、谷歌與 Anthropic 也不得不面臨技術、時延和成本之間的不可能三角。因此面對不同需求,往往對應著不同的最優解法:其中 Anthropic 的 Claude 分為增強版 Sonnet 與輕量版 Haiku;GPT 4o 分為標準版與 mini 版;谷歌 Gemini 則分為增強的 Pro 版與嘗鮮的 Flash 版。
而一個違背直覺的數據是,各大模型的增強版與 mini 版,在實際部署中,往往是擁有更低時延與低成本優勢的 mini 版本,會更受歡迎。
即使單純聚焦到技術的單一維度,「最強模型」也同樣是個偽命題。在相對客觀的物理、化學和生物學、數學、天文等科目中,各家大模型評分往往各有千秋;而一旦將視角轉為寫作、繪畫、視訊生成,那麽如何評定最優大模型,1000 個讀者有 1000 個哈姆萊特。
作為全球最大的雲服務平台,亞馬遜雲科技,就曾註意到:在亞馬遜雲上,不同開發者往往會關註不同效能,比如,有人會關註更低的延遲、更低的成本,有人更關註模型是否具備微調能力、能更好地協調不同知識庫以固定數據,還有團隊更關註模型的多模態能力,或者知識擴散遷移能力。
也是因此,什麽才是所謂的最強大模型,在一輪輪熱潮中,這個話題被反復討論、被熱議、被反思,但從來未被解決。
但可以肯定的是,任何單一維度的「第一」「最強」敘事,都是對復雜場景的簡單化。
02
Choice is All You Need
「最強」=無敵,只是技術至上者的傲慢,以及對使用者真實需求的偏見,這一點已經在無數行業中被反復證實。
二十一世紀初期,許多經濟學家、產業學家,在觀察了日本一眾歷史優勢產業的發展之後都發現了一個怪狀:
無論電視機,亦或半導體,乃至汽車,日本無疑是「最強」敘事的頂級推崇者,以及最佳實踐案例,但最終的解決卻無一例外,集體走向沒落。
比如,日本的電視,在映像管時期做到畫質最高,卻在短短幾年被更輕薄的液晶打敗;日本面向大型電腦時代研發的儲存芯片,一度做到保質期 30 年,卻在消費電子浪潮中被南韓三星品質參差不齊的低價「次品」打敗;日本的汽車,在燃油車時代無疑是最耐用、最保值的代名詞,甚至是新能源時代,也一步到位發展了最清潔的氫能源燃料電池,卻唯獨錯過了近十年來最大的汽車產業變革熱潮——電動化。
為什麽「強者」最先被淘汰?生物學家給出了解答——日本產業,陷入了加拉帕戈斯陷阱,一個在如加拉帕戈斯群島般單一的環境中前進演化出的「最佳」,往往在面對復雜的真實場景與需求會顯得格格不入,乃至不堪一擊。
相比「最佳」,行業更需要的是,需求被看見,過程有的選,結果更適合。
就像資料庫領域,即使傳統的 SQL 資料庫已經常年占據統治地位,依然會有各種各樣的 noSQL 資料庫冒出,甚至在 noSQL 資料庫還會區分出圖資料庫、文件資料庫等不同型別。
AI 框架,也是個最好的例子,TensorFlow 之前,cafe 就足以滿足市場的需求,但此後 TensorFlow 出現,一統天下,然而,沒幾年後,PyTorch 就橫空出現,從學術領域出發逆襲,成為一代新的框架之王,但與此同時,TensorFlow 以及其他小眾 AI 框架,依舊在工業領域占據相當的市場份額。
套用大模型 er 們的經典句式——Choice is All You Need。
亞馬遜 CEO Andy Jassy 在不久前的舉辦的一年一度的雲服務 re:Invent 大會上,就分享了這樣一個觀察:
「在亞馬遜內部,所有開發者都有自主選擇的權利,原本以為大家都會選用 Anthropic 的 Claude 模型,畢竟過去一年多它在全球屬於效能頂尖的模型,確實有很多內部開發者在使用 Claude 模型,但他們也會采用 Llama 模型、Mistral 模型,還會運用自己開發的一些模型,甚至會使用自行研發的模型。」
比如,金融行業更需要內容生成的絕對準確性;大部份企業,則需要在效能與成本之間,做反復的平衡。甚至,同樣是繪畫,在諸如還原山海經之類場景中,大模型幻覺就是產生想象力的最佳禮物;而在繪制寫實風漫畫或人物建模,任何的幻覺都會帶來最終結果的災難性失控。
既然評判的標準五花八門,那麽與其替使用者選擇,不如給足使用者選擇。
03
亞馬遜雲科技的 Choice matters
事實上,讓客戶有的選,是各大公有雲廠商都在宣傳的口號。但何謂有的選,選擇的範圍如何,背後的定義卻往往各有千秋。亞馬遜雲科技無疑是其中,最開放、最激進的一個。
在亞馬遜雲科技,有的選,可以被解讀出三重含義。
第一重,效能還是成本,使用者有的選。
re:Invent 期間,亞馬遜雲科技推出全新釋出的自研 Nova 基礎模型,一共包括 Micro、Lite、Pro、Premier 四個版本。其中,可以做到 210 tokens/s 的 Amazon Nova Micro 是純文本模型,主打高效級;其余三大多模態大模型中,Lite 主打輕量級,Pro 主打平衡,旗艦模型 Amazon Nova Premier,則主要用於應對復雜任務。
第二重,亞馬遜雲科技 or 其他,使用者有的選是最高原則。
相比自研的 Nova 基礎模型,如何支持更多的模型上架亞馬遜雲科技,才是這場大會真正的主角。
透過將電商中的貨架概念用在了雲服務與大模型,亞馬遜雲科技的大模型貨架 Amazon Bedrock 不僅上架自家的 Nova 系列,同時還上線了亞馬遜投資的 Anthropic 的 Claude 系列。
此外,Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和輝達 NIM 微服務等 100 多種業內一流的大模型。
不僅是通用大模型,金融領域的 Palmyra-Fin,轉譯明星 Solar Pro,多模態方向的 Stable Diffusion 、音訊生成方向的 Camb.ai,生物學方向的 ESM3 生成式生物學模型,也全部在 Amazon Bedrock 上架。
主打一個從自研到第三方,從文本到多模態,從通用到垂直,只要使用者需要,Amazon Bedrock 應上盡上。
當然,不只是有的選,最重要的也就是第三層,亞馬遜雲科技不僅要讓客戶有的選,更能低成本的選。
如果只是上架第三方模型,那麽行業內大部份公有雲企業都能做到。
但如何避免雲服務企業又做選手又做裁判還當發令員,能夠真正做到不偏心自研產品,以使用者需求為導向,還需要觀察雲服務公司究竟如何設計使用者選擇的門檻。
首先是定價,如何在亞馬遜雲科技銷售模型,定價由模型提供商自行設定。
與此同時,為了降低使用者使用大模型的成本以及選擇難度,Amazon Bedrock 還提供了自訂微調和 模型蒸餾 (Model Distillation)功能以及多智慧體協作工具(Multi-agent collaboration)、自動推理檢查(Automated Reasoning checks)等功能。
一方面,幫助企業更好的選擇合適的模型,另一方面,加速不同的模型與智慧體之間的高效協同。
當然,這種有的選,不止體現在模型側,在算力、資料庫領域同樣如此。
比如,在算力上,亞馬遜雲科技會提供不同層級的 EC2 例項,使用者可以根據自身的計算需求選擇標準伺服器或者更強大的 UltraServer,不必受限於單一芯片平台或算力方案。
資料庫方向,亞馬遜雲科技打破 CAP「困境」,推出無伺服器分布式 SQL 的資料庫 Amazon Aurora DSQL 以及完全托管的無伺服器 NoSQL 資料庫 Amazon DynamoDB global tables,尊重客戶真正的需求。
從模型到算力再到資料庫,一切決策的最高原則都是「Choice matters」,讓使用者去自由決策。
04
尾聲
在經濟學中,有一個有趣的悖論叫古德哈特定律。
其提出背景是,一旦我們過度關註乃至管理一個經濟指標時,往往會為了達成這一指標而扭曲真實目的,以至於犧牲其他方面的利益,以至於指標本身失效。
AI 領域同理,當參數與效能變成唯一指標,其強大的扭曲力場會讓真實的使用者需求被忽略。
盡管,用 AI 替代客服所以更關註成本,用 AI 幫助手殘畫出想要的畫面所以更關註多模態能力,用 AI 幫助企業完成質檢最佳化所以更關註效率這樣無數的細小變革,才是 AI 改變世界的真正組成。
而在這一過程中,使用者的真實需求被看見,被尊重,有選擇,正是一切進步發生的基礎。