大模型落地，苦「最強」久矣

2024-12-21心靈

沒有刷不了的榜，只有還沒 over-fitting 的數據集；

沒有搞不定的第一，只有還沒加夠 XX 領域，XX 尺寸，XX 語言的限定詞。

盡管自 2012 年深度學習復蘇之日起，AI 打榜就成為了行業預設慣例，但歷來如此，就是真的正確嗎？

去年 9 月，一篇 LLM 味爆棚的反諷文章，在 arXiv 引起軒然大波【Pretraining on the Test Set Is All You Need】，（別搞大模型了），你只需要在測試集上預訓練就夠了。

吐槽了市面上層出不窮的各種大模型測試榜單之外，這篇論文，直白點名了 phi-1、TinyStories 和 phi-1.5 幾個大模型在明目張膽搞榜單造假。

比如，使用測試集中數據提問 phi-1.5，模型會立刻給出一個精準的回復，但只要改變一個數位或者改變一下數據格式，回答立刻變得牛頭不對馬嘴幻覺頻出。

原因很簡單，為了刷榜，模型對 MMLU、GSM8K、Big-Bench、AGIEval 等公開數據集，做了針對性訓練。

過擬合的 A 面，是讓模型在打榜過程中取得了人人都是大模型第一的地位，B 面則是，模型的泛化能力被極大削弱，失去了大模型應有的創造與思考的能力。

大模型落地，苦「第一」久矣。盡管，這已經成為大模型產業心照不宣的秘密。

那麽，「第一」真的代表更強的能力嗎？所謂的最強大模型真的存在？行業落地，又到底需要怎樣的標準？

或許，前赴後繼的刷榜本質，是獨屬於大模型產業的強者傲慢。

最佳大模型的傲慢與偏見

一定程度上，基準測試失真，於大模型而言，表面上看是標準問題，實際上是宣傳問題，本質上則是如何落地的商業模式難題。

Scaling law 的主導下，進入萬億參數時代的大模型強者恒強成為唯一的生存密碼：根據公開資訊披露，僅 GPT4 就有約 1.8 萬億參數，其訓練過程，需要消耗約 2.15e25 FLOPS 算力，更直觀來說，需要約 25,000 個 A100 GPU，馬力全開，訓練足足 100 天。以雲上每個 A100 GPU 每小時 1 美元來算，理想情況下，一次訓練的成本就需要花費至少 6000 萬美元。

與此同時，頭部大模型玩家，平均兩個月左右，就會迎來一次技術或產品的叠代；而形成鮮明對比的是，國內的大模型六小龍，即使如今估值最高的智譜，算上最新一輪融資，其總融資額，也不過 55 億。

一邊是不斷膨脹的參數，不斷增加的成本；一邊是盲盒黑箱式的技術原理，與使用者之間的不斷加深的認知壁壘。如何在這場強者恒強的生存競賽中證明自己的價值，打榜自然也就成了最直觀的捷徑。

但這一切的前提是，大模型落地，真的存在所謂的最強大模型嗎？

答案或許是否定的。

技術落地與研究不同，具體到場景之中，強如 Open AI、谷歌與 Anthropic 也不得不面臨技術、時延和成本之間的不可能三角。因此面對不同需求，往往對應著不同的最優解法：其中 Anthropic 的 Claude 分為增強版 Sonnet 與輕量版 Haiku；GPT 4o 分為標準版與 mini 版；谷歌 Gemini 則分為增強的 Pro 版與嘗鮮的 Flash 版。

而一個違背直覺的數據是，各大模型的增強版與 mini 版，在實際部署中，往往是擁有更低時延與低成本優勢的 mini 版本，會更受歡迎。

即使單純聚焦到技術的單一維度，「最強模型」也同樣是個偽命題。在相對客觀的物理、化學和生物學、數學、天文等科目中，各家大模型評分往往各有千秋；而一旦將視角轉為寫作、繪畫、視訊生成，那麽如何評定最優大模型，1000 個讀者有 1000 個哈姆萊特。

作為全球最大的雲服務平台，亞馬遜雲科技，就曾註意到：在亞馬遜雲上，不同開發者往往會關註不同效能，比如，有人會關註更低的延遲、更低的成本，有人更關註模型是否具備微調能力、能更好地協調不同知識庫以固定數據，還有團隊更關註模型的多模態能力，或者知識擴散遷移能力。

也是因此，什麽才是所謂的最強大模型，在一輪輪熱潮中，這個話題被反復討論、被熱議、被反思，但從來未被解決。

但可以肯定的是，任何單一維度的「第一」「最強」敘事，都是對復雜場景的簡單化。

Choice is All You Need

「最強」=無敵，只是技術至上者的傲慢，以及對使用者真實需求的偏見，這一點已經在無數行業中被反復證實。

二十一世紀初期，許多經濟學家、產業學家，在觀察了日本一眾歷史優勢產業的發展之後都發現了一個怪狀：

無論電視機，亦或半導體，乃至汽車，日本無疑是「最強」敘事的頂級推崇者，以及最佳實踐案例，但最終的解決卻無一例外，集體走向沒落。

比如，日本的電視，在映像管時期做到畫質最高，卻在短短幾年被更輕薄的液晶打敗；日本面向大型電腦時代研發的儲存芯片，一度做到保質期 30 年，卻在消費電子浪潮中被南韓三星品質參差不齊的低價「次品」打敗；日本的汽車，在燃油車時代無疑是最耐用、最保值的代名詞，甚至是新能源時代，也一步到位發展了最清潔的氫能源燃料電池，卻唯獨錯過了近十年來最大的汽車產業變革熱潮——電動化。

為什麽「強者」最先被淘汰？生物學家給出了解答——日本產業，陷入了加拉帕戈斯陷阱，一個在如加拉帕戈斯群島般單一的環境中前進演化出的「最佳」，往往在面對復雜的真實場景與需求會顯得格格不入，乃至不堪一擊。

相比「最佳」，行業更需要的是，需求被看見，過程有的選，結果更適合。

就像資料庫領域，即使傳統的 SQL 資料庫已經常年占據統治地位，依然會有各種各樣的 noSQL 資料庫冒出，甚至在 noSQL 資料庫還會區分出圖資料庫、文件資料庫等不同型別。

AI 框架，也是個最好的例子，TensorFlow 之前，cafe 就足以滿足市場的需求，但此後 TensorFlow 出現，一統天下，然而，沒幾年後，PyTorch 就橫空出現，從學術領域出發逆襲，成為一代新的框架之王，但與此同時，TensorFlow 以及其他小眾 AI 框架，依舊在工業領域占據相當的市場份額。

套用大模型 er 們的經典句式——Choice is All You Need。

亞馬遜 CEO Andy Jassy 在不久前的舉辦的一年一度的雲服務 re:Invent 大會上，就分享了這樣一個觀察：

「在亞馬遜內部，所有開發者都有自主選擇的權利，原本以為大家都會選用 Anthropic 的 Claude 模型，畢竟過去一年多它在全球屬於效能頂尖的模型，確實有很多內部開發者在使用 Claude 模型，但他們也會采用 Llama 模型、Mistral 模型，還會運用自己開發的一些模型，甚至會使用自行研發的模型。」

比如，金融行業更需要內容生成的絕對準確性；大部份企業，則需要在效能與成本之間，做反復的平衡。甚至，同樣是繪畫，在諸如還原山海經之類場景中，大模型幻覺就是產生想象力的最佳禮物；而在繪制寫實風漫畫或人物建模，任何的幻覺都會帶來最終結果的災難性失控。

既然評判的標準五花八門，那麽與其替使用者選擇，不如給足使用者選擇。

亞馬遜雲科技的 Choice matters

事實上，讓客戶有的選，是各大公有雲廠商都在宣傳的口號。但何謂有的選，選擇的範圍如何，背後的定義卻往往各有千秋。亞馬遜雲科技無疑是其中，最開放、最激進的一個。

在亞馬遜雲科技，有的選，可以被解讀出三重含義。

第一重，效能還是成本，使用者有的選。

re:Invent 期間，亞馬遜雲科技推出全新釋出的自研 Nova 基礎模型，一共包括 Micro、Lite、Pro、Premier 四個版本。其中，可以做到 210 tokens/s 的 Amazon Nova Micro 是純文本模型，主打高效級；其余三大多模態大模型中，Lite 主打輕量級，Pro 主打平衡，旗艦模型 Amazon Nova Premier，則主要用於應對復雜任務。

第二重，亞馬遜雲科技 or 其他，使用者有的選是最高原則。

相比自研的 Nova 基礎模型，如何支持更多的模型上架亞馬遜雲科技，才是這場大會真正的主角。

透過將電商中的貨架概念用在了雲服務與大模型，亞馬遜雲科技的大模型貨架 Amazon Bedrock 不僅上架自家的 Nova 系列，同時還上線了亞馬遜投資的 Anthropic 的 Claude 系列。

此外，Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和輝達 NIM 微服務等 100 多種業內一流的大模型。

不僅是通用大模型，金融領域的 Palmyra-Fin，轉譯明星 Solar Pro，多模態方向的 Stable Diffusion 、音訊生成方向的 Camb.ai，生物學方向的 ESM3 生成式生物學模型，也全部在 Amazon Bedrock 上架。

主打一個從自研到第三方，從文本到多模態，從通用到垂直，只要使用者需要，Amazon Bedrock 應上盡上。

當然，不只是有的選，最重要的也就是第三層，亞馬遜雲科技不僅要讓客戶有的選，更能低成本的選。

如果只是上架第三方模型，那麽行業內大部份公有雲企業都能做到。

但如何避免雲服務企業又做選手又做裁判還當發令員，能夠真正做到不偏心自研產品，以使用者需求為導向，還需要觀察雲服務公司究竟如何設計使用者選擇的門檻。

首先是定價，如何在亞馬遜雲科技銷售模型，定價由模型提供商自行設定。

與此同時，為了降低使用者使用大模型的成本以及選擇難度，Amazon Bedrock 還提供了自訂微調和模型蒸餾（Model Distillation）功能以及多智慧體協作工具（Multi-agent collaboration）、自動推理檢查（Automated Reasoning checks）等功能。