當前位置：華文星空 > 心靈

27億刀天價員工第一個成果，谷歌版o1算出最難高考數學題！難題秒解

2024-12-20心靈

編輯：編輯部 HYZh

【新智元導讀】谷歌版o1震撼登場，一誕生直接屠榜了Chatbot Arena，橫掃所有類別。復雜數學、物理、程式碼難題都能解決，思考速度快如閃電。更勁爆的是，此模型似乎是谷歌天價請回沙哥Noam Shazeer後，他的第一個成果，27億美元花得值了。

OpenAI十二天直播，殺瘋了的竟然是谷歌。

就在深夜，「谷歌版o1」Gemini 2.0 Flash Thinking突然釋出。

跟o1的策略類似，它同樣是將更多計算能力投入「推理時計算」——即模型實際解決問題的時長。

但不一樣的是，Flash Thinking能清晰地展示思考過程。

一經釋出，它就直接屠榜Chatbot Arena。

從戰績來看，新模型在總榜位列第一，數學榜單第一，創意寫作第一，Hard Promt第一，視覺榜單第一！

舉一個比較復雜的機率問題的例子。

如果一直擲硬幣，直到得到「正正正」或「正反正」，得到其中一個的機率和另一個的機率之比是多少？

這種水平的機率題，絕大多數LLM都會折戟。

但模型展示出了詳細完備的思考過程，並列雲流水般地在34.7秒內就給出了最終答案——2:3。

點選「展開檢視模型思維」，即可觀察推理過程

現在，Gemini 2.0 Flash Thinking已經在Google AI Studio和Vertex AI中上線了，開發者可以去免費測試。

對此，網友紛紛表示，明明是OpenAI的聖誕特別活動，怎麽發出炸裂成果的全是谷歌？

現在都是谷歌每天欺負OpenAI

谷歌版o1徹底殺瘋了，全是第一

在LLM競技場上，Gemini 2.0 Flash Thinking連同Gemini-Exp-1206一起，「橫掃所有類別，榮登榜首」。

無論是復雜提示、程式碼、數學、創意寫作、指令跟隨、長QA等等。

不過，這些排名並未包含OpenAI的完整o1模型。

但無論如何，Flash Thinking打了相當漂亮的一仗。

這個模型，大機率就是谷歌對打OpenAI o1系列的武器，而且，它很可能不是最強版本，或許還有Pro或Ultra Thinking的存在。

據外媒THE DECODER報道，Flash Thinking似乎是著名AI研究員Noam Shazeer進入谷歌後的第一個工作成果。

如果果真如此，谷歌27億美元天價請回天才老員工的這筆買賣，也算值了。

Shazeer是著名論文「Attention is All You Need」的作者之一

在80百分位的情況下，Flash Thinking的響應速度幾乎是o1-mini的2倍！

比如下面這道題，OpenAI的o1和o1 Pro分別用了102秒和138秒，而Gemini 2.0 Flash Thinking只花了14秒。

上下滑動檢視

一舉沖頂成為最強理科生，最難高考題也不在話下

有人嘗試把號稱「史上最難」的高考數學題扔給Flash Thinking，它居然也給出了準確的回答。

這種表現，震驚了所有網友。

要知道，這道題連o1都做不出來。

而且更為厲害的是，這道題是中文題。

上下滑動檢視

能做出數學高考題的含金量，不用詳細解釋了。

畢竟，中國的高考可是被Erudera評為地球上最難的考試。

而在Chatbot Arena的數學領域中，Flash Thinking對比Flash同樣也有著顯著性進步。

演示中的題目為：一個電子被限制在一個一維無限深勢阱中，勢阱壁位於x=- 0.15nm和x=+0.15nm處。求出電子在勢阱中能階躍遷時發射的四種最長波長的光子。

Flash Thinking首先會將問題本身復述清晰，接著就開始進行逐步思考問題的求解步驟。

經過16.9s的計算分析後，Flash Thinking給出了最終答案，即為98.9nm，59.3nm，42.4nm ，37.1nm。

下面這個演示，則展示了Flash Thinking如何處理涉及涉及視覺和文本線索的挑戰性難題。

演示中使用者首先上傳了一張有四個撞球的圖片，並提問道「我能怎麽使用這其中的三個數位使其總和為30？」

在這個演示中，有一個很有趣的地方就在於中間第二個撞球既可以辨識為9，也可以顛倒一下，辨識為6。

Flash Thinking在首次嘗試中先是將其辨識為正常觀察的9，但是發現並不能實作問題的求解。

於是，他很聰明的做出了一個判斷：「在題目中並沒有清楚的說明每個數位只能出現一次」。

於是它開始嘗試將數位進行重復利用，但是還是無法實作問題的求解。

接著，有趣的地方便來了，它出奇地想到了可以把9辨識為顛倒的6，這說明它成功地察覺到了這不僅僅只是一個數位遊戲，而是實際上可以翻滾的撞球。

最終得到了問題的正確答案：利用11、13、6三個數位即可實作總和為30。

整個思考過程清清楚楚，一目了然。

從解題過程中可以看出，Gemini 2.0 Flash Thinking不僅能夠實作處理多模態資訊，在求解實際的問題方面，它不再是曾經的大模型那種較為機械死板的智慧水平，而是像人一樣能夠學會去多視角地變通看待問題，最終靈活地得到問題的解決方案。

谷歌DeepMind研究者讓Thinking模型嘗試用不同方法，求解普特南2024的一到數學題，然後自我驗證答案是否正確。

35.9秒內，模型給出了答案。

網友實測

手快的網友們，已經紛紛甩給了Gemini 2.0 Flash Thinking一堆難題。

網友們給出的題目，難度都不小。

比如這道數列問題，要求寫出一個數列的前六個數位，其中每個數位都是前一個數位的三倍，且第一個數位是2。

最終，模型給出了正確答案——E。

這位網友實測後發現，新模型的推理能力實在強大，不光破解了單詞網格難題，甚至連復雜的經濟學問題都做得出來。

設想太陽能和模組化核子反應爐的廣泛套用帶來了巨大的能源供應，從經濟學的角度深入思考未來十年可能出現的經濟變化。請詳盡地分析可能產生的影響。

模型給出的答案是：通貨膨脹率會下降，經濟環境會發生重大變化。

結論：變革的十年如果太陽能和模組化核子反應爐（SMR）電力的充足性和可負擔性得以實作，未來十年將見證一場深刻的經濟變革。我們可以預期通貨膨脹率下降，經濟環境發生重大變化。

Hallid.ai聯創indigo給了它一道填數題，Thinking只需要20秒就做出來了。

而且給出了正確答案。

相比之下，o1就花了40秒，而且還錯了。

不過，不知道是不是測試版的原因，Flash Thinking能不能數清楚「草莓」裏的r，似乎完全取決於你給了啥prompt……

相比之下，我們在本地跑的QWQ，可以輕松解決這個問題。

Copyright © 2025 www.atoomu.net NO.1 華文星空

商務合作：xingwausa#gmail.com（傳送郵件請將#換成@）