谷歌逆風翻盤暴擊OpenAI！44頁報告押註25年三大技術前沿

2024-12-18心靈

編輯：編輯部

【新智元導讀】在這場如火如荼的AI軍備競賽中，谷歌在年底徹底打響翻身仗，成功逆襲！Google Cloud於近日也釋出了一份44頁「2024 數據和AI趨勢報告」，直指AI智能體、多模態AI，企業搜尋將成為2025年三大主導技術。

逆襲之戰開啟，谷歌用90天重回巔峰！

短短90天，谷歌就從業內笑柄，逆襲成突破最大、產品最顛覆的科技大公司。

用AI初創創始人Ole Lehmann的話說，「我們正在見證2024年最大的科技轉變」。

如今，前方是捷報頻傳。

根據OpenRouterAI的數據，Google Gemini在開發者中的市場份額從9月份的約5%，上升到了上周的>50%市場份額。

Google Gemini系列在OpenRouterAI的趨勢排行中獨占鰲頭，遠超其他模型。

在被公認是下一個AI前沿的智能體領域，谷歌的Project Mariner，可以直接讓Gemini控制我們的瀏覽器，自行執行任務！直接一步跨越到人機互動的未來。

驚人之處在於，Mariner是一個真正可以在瀏覽器上完成復雜任務而不會失敗的AI。預定航班、定餐館，它都可以透過在螢幕上看到的內容完成操作。

此外，谷歌的Project Astra的早期測試報告結果也令人興奮不已。

受邀參加專案測試的Linus Ekenstam表示，這一天很快就會到來：人手一個AI私人助理，而且它們無所不在。

我們會嚴重依賴這些AI助手，甚至在2025年，人類發展格局都會被帶來重大改變。

更不用說，就在昨天放出的AI影片模型Veo 2.0，無論是在物理學、質素還是指令遵循上，效果都妥妥吊打Sora，全網測試，為之瘋狂。

有人實測Veo 2和Sora後直言：這是單車和宇宙飛船的區別

現在，市場已經給出了反應，在過去一個月內，谷歌的市值直接上漲了14%。

不再追逐頭條，而是集中精力做產品、註重實用性的谷歌，已經成為了OpenAI真正的可怕對手。

突然逆襲，重拳反擊OpenAI

曾被認為遙遙領先的OpenAI，正面臨著來自谷歌的迎頭痛擊。

網友Chubby做了一篇長文分析，指出兩個AI巨頭的對戰潮流正在轉向。

聲明：目前一切都還未定論，我的分析僅是對現狀的一瞥

早在2017年，Sam Altman在一次郵件交流中就明確表示，谷歌DeepMind是在AGI競爭中最大的對手。

當時，他還未能預見其他玩家會加入這場競爭。不過，估值180億美金Anthropic的崛起，證明了新玩家也能翻身成巨頭。

Meta透過「開源」（雖然並非真正的開源）另辟蹊徑，避免了與谷歌占據主導地位路線的直接競爭。

ChatGPT如同一匹黑馬，自2022年橫空出世以來，OpenAI一直牢牢掌握著AI的話語權。與此同時，ChatGPT成為了「AI」的代名詞。

憑借此，柯曼帶領著團隊迅速征服消費市場，甚至直接帶飛了微軟。

然而，谷歌卻在這場競賽中措手不及，連連敗北。

最初的幾輪交鋒中，谷歌試圖透過Gemini去挽救落下的成績，並期望以此獲得市場青睞，但總是未能如意。

此前，AI Overview總結能力大翻車，遭到網友連連的吐槽。

比如，建議孕婦吸煙、建議自殺跳橋、建議用膠水將膠水和披薩固定在一起....

各種荒謬的建議，簡直震碎三觀。

上半場的比賽中，谷歌徹底輸掉了。

更耐人尋味的是，OpenAI幾乎毫不費力，每次都能在谷歌釋出新產品前後搶盡風頭。即便在模型推理能力上，到目前為止，OpenAI也一直是遙遙領先。

人們不理解的是，谷歌DeepMind擁有世界上最好的資源，為什麽會在這場競爭中略顯得倉促和被動？

與OpenAI不同，他們有大量用於訓練推理的TPU、更多的訓練數據（比如YouTube），以及DeepMind這個世界級研究機構和頂尖人才。

DeepMind團隊也在努力用實力，去證明這一切。在科學領域，AlphaFold、GenCast等等，取得了難以置信的成就。

但這些研究成果，在消費市場上並沒有給谷歌帶去任何實質性的幫助。

甚至，就連Anthropic這樣後來者，也贏得了AI社區更多關註和支持。

然而，這種局勢在12月發生了戲劇性的逆轉。突然間，谷歌發力給OpenAI來了當頭一棒。

就在OpenAI接連獻上12天產品秀之際，谷歌推出了兩款驚艷的模型——Gemini 2.0 Flash和Veo 2。

Gemini 2.0 Flash在所有基準測試中，超越了GPT-4。

AI影片模型Veo 2直接吊打Sora，展現出令人驚嘆的物理世界理解能力。

它還能根據提示中的方程式式2x-1=0，直接生成出得到解答x=1/2的影片。

相較之下，Sora的生成簡直一言難盡。

關於新模型的亮相，谷歌並沒有做任何事先的炒作和預熱，用低調有力的方式做出了反擊。

而對於，過去一年總結，和未來一年技術預測，谷歌也有話要說。

谷歌AI年，2025年三大技術向

今天，Google Cloud釋出的一份44頁「2024 數據和AI趨勢報告」，直指AI智能體、多模態AI，企業搜尋將成為2025年三大主導技術。

報告地址：https://services.google.com/fh/files/misc/data_ai_trends_report.pdf

多智能體將催生出一個巨大的市場機會

當前，智能體已經能夠獨立完成多步驟任務，而只有約10%的大公司已經采用，另外82%公司計劃三年內將智能體整合到工作流中。

谷歌雲全球GenAI副總Oliver Parker表示，「不久的將來，你會看到不同智能體之間相互頻繁地交流協作」。

在谷歌，他們將智能體劃分為六個類：

- 面向客戶的智能體：用於了解客戶需求、回答與解決問題並推薦相應的產品和服務。它們支持跨多模態工作，可以分析語音與影片內容

- 員工智能體：有助於簡化流程、管理重復性任務、解答問題和文件編輯與轉譯。

- 創意智能體：生成有助於設計、行銷、文案等專案的內容、影像，提供靈感

- 數據智能體：可以在確保準確性的基礎上，透過檢索與數據處理來協助研究和數據分析。

- 程式碼智能體：支持程式碼生成與提供輔助編碼

- 安全智能體：降低網絡攻擊的危害，或者加快安全漏洞的篩查速度

然而，Parker指出，過多的智能體同時處理多個流程，可能會導致系統的混亂。

他看到了這一現象背後蘊藏著巨大的機遇，這將催生出全新的平台——智能體治理。

「我們認為一個巨大的機會即將到來，那就是一個能夠管理協調你各種智能體的平台」，他講道，這將會催動「智能體管理」或者需要一個支持「在不同系統中的任何地方都能提供不同服務的智能體層」。

人工智能發展的五大趨勢

多模態AI將會帶來千億美元市場

全球多模態人工智能市場在2025年估值為24億美元，預計到2037年底將達到989億美元。

多模態人工智能將人工智能的理解能力提升到一個新的水平，使模型能夠解讀和處理一系列資料來源，不僅包括文本，還包括影像、影片和音訊。

目前一些主要的供應商和前沿的初創公司已經釋出了許多功能強大的多模態工具，例如谷歌自己的Gemini 2.0 Flash、Mistral的Pixtral 12B或Cohere的Embed 3。谷歌預測，多模態人工智能的爆發將支持復雜的數據分析，並為人們帶來對於事物更深刻的基本認識和更個人化的見解。

Parker指出，在過去的12個月裏，企業已經從單一模型轉變為針對不同的場景去部署多個模型，如Gemini、Anthropic、Mistral、Cohere、Llama等，而不僅僅是OpenAI模型。

雖然當前谷歌雲的重點依然大多在開發上，但2025年的目標則是讓企業級使用者自己掌握生成式人工智能能力。

目前企業已經不僅僅只是關註模型本身，而且開始分析不同的部署平台並制定人工智能和智能體的規劃發展路線圖。Parker對此表示，這些通常是幾年內才能看到的趨勢，但在12個月內就快速呈現了，令人驚嘆。

企業級搜尋大幅提高資訊獲取效率

你是否還在苦惱於查詢工作文件卻因忘記對應關鍵詞而無法入手專案？

現在結合了生成式人工智能的企業搜尋，再也不用局限於僅基於關鍵詞的查詢了。

你可以使用影像、音訊、影片或者是對話提示來快速查詢存取企業內部數據。毫無疑問，這將讓搜尋變得極其絲滑。

在實際工作中，人們往往是搜尋到相應資訊並將其整合以獲得見解，做出相應決策，進而采取行動。由於許多組織的不同資訊通常分散在不同的應用程式中，而人工智能搜尋可以快速跨越這些應用程式將數據整合在一起，這就彰顯了結合生成式人工智能的企業搜尋的巨大優勢。

Gemini 2.0加持編碼助手，一鍵打通軟件開發全流程

上周，谷歌釋出的Gemini 2.0 Flash在編程基準SWE-bench Verified上，重新整理了SOTA。

它的效能完全碾壓滿血版o1、Claude 3.5 Sonnet，成為公認的最強編碼AI。

就在今天，谷歌宣布在Gemini Code Assist中，整合最新模型Gemini 2.0 Flash，並推出了一系列工具。

由此，開發者們可以將外部系統加入IDE，直接與GitHub、GitLab、Sentry、Google Chrome和Atlassian互動。

在此之前，Gemini Code Assist已經接入了VS Code和JetBrains。

谷歌雲產品管理高級總監Ryan J. Salva表示，這個想法是為編碼任務擴充套件更多的上下文，而不中斷工作流程。

開發者只需進入Code Assist聊天頁面，說明需要處理的數據，然後LLM可以自動從資料來源查詢並對其分析。

為了給開發者們提供便捷，谷歌計劃未來還將更多工具，直接整合到Gemini Code Assist中，比如可觀察性工具、保安軟件以及數據庫。

從ChatGPT可以協助編碼之後，人工智能編碼助手是GenAI的首批重要用例。GitHub、甲骨文、Harness紛紛推出了以企業為重點的編碼助手。

與此同時，OpenAI和Anthropic對外提供API介面，讓程式設計師直接在聊天平台上編程。

比如，我們可以直接在ChatGPT中的Canvas執行Python程式碼，還能進行互動性的編輯生成。

Anthropic推出的Claude Artifacts，與Canvas產品理念相同，皆是便於開發者們生成、編輯和執行程式碼。

另外，OpenAI還在ChatGPT MacOS桌面應用程式中添加了與VS Code、XCode、Terminal和iTerm 2等工具的整合。

據Gartner估計，「截止2028年，90%的企業軟件工程師將使用AI編碼助手，這一比例在2024年初還不到14%」。

谷歌宣稱，Gemini Code Assist企業版已超越了IDE中的AI編碼輔助功能，不僅可以理解本地程式碼庫，還可以客製程式碼，提供程式碼建議。

它的客製功能可索引來自GitHub和GitLab的repos，並將於2025年初支持其他源碼控制系統和自托管的內部repos。

同時，它還能完成復雜的任務，如在整個軟件包中升級Java版本。此外，企業版提供了企業級安全以及法律賠償條款。

在推出Gemini 2.0時，谷歌同步釋出了編碼工具 Jules。

Salva表示Code Assist與其完全隔離，Code Assist仍是唯一由Gemini支持的通用企業級編碼工具。

參考資料：

https://venturebeat.com/ai/google-ai-agents-multimodal-ai-enterprise-search-will-dominate-in-2025/

https://venturebeat.com/ai/google-upgrades-its-programming-agent-code-assist-with-gemini-2-0-adds-source-integrations/

https://x.com/kimmonismus/status/1869111765700853779