當前位置: 華文星空 > 心靈

27億刀天價員工首個成果,谷歌版o1算出最難高考數學題!難題秒解

2024-12-20心靈

編輯:編輯部 HYZh

【新智元導讀】谷歌版o1震撼登場,一誕生直接屠榜了Chatbot Arena,橫掃所有類別。復雜數學、物理、程式碼難題都能解決,思考速度快如閃電。更勁爆的是,此模型似乎是谷歌天價請回沙哥Noam Shazeer後,他的首個成果,27億美元花得值了。

OpenAI十二天直播,殺瘋了的竟然是谷歌。

就在深夜,「谷歌版o1」Gemini 2.0 Flash Thinking突然釋出。

跟o1的策略類似,它同樣是將更多計算能力投入「推理時計算」——即模型實際解決問題的時長。

但不一樣的是,Flash Thinking能清晰地展示思考過程。

一經釋出,它就直接屠榜Chatbot Arena。

從戰績來看,新模型在總榜位列第一,數學榜單第一,創意寫作第一,Hard Promt第一,視覺榜單第一!

舉一個比較復雜的概率問題的例子。

如果一直擲硬幣,直到得到「正正正」或「正反正」,得到其中一個的機率和另一個的機率之比是多少?

這種水平的概率題,絕大多數LLM都會折戟。

但模型展示出了詳細完備的思考過程,並列雲流水般地在34.7秒內就給出了最終答案——2:3。

點選「展開檢視模型思維」,即可觀察推理過程

現在,Gemini 2.0 Flash Thinking已經在Google AI Studio和Vertex AI中上線了,開發者可以去免費測試。

對此,網友紛紛表示,明明是OpenAI的聖誕特別活動,怎麽發出炸裂成果的全是谷歌?

現在都是谷歌每天欺負OpenAI

谷歌版o1徹底殺瘋了,全是第一

在LLM競技場上,Gemini 2.0 Flash Thinking連同Gemini-Exp-1206一起,「橫掃所有類別,榮登榜首」。

無論是復雜提示、程式碼、數學、創意寫作、指令跟隨、長QA等等。

不過,這些排名並未包含OpenAI的完整o1模型。

但無論如何,Flash Thinking打了相當漂亮的一仗。

這個模型,大概率就是谷歌對打OpenAI o1系列的武器,而且,它很可能不是最強版本,或許還有Pro或Ultra Thinking的存在。

據外媒THE DECODER報道,Flash Thinking似乎是著名AI研究員Noam Shazeer進入谷歌後的首個工作成果。

如果果真如此,谷歌27億美元天價請回天才老員工的這筆買賣,也算值了。

Shazeer是著名論文「Attention is All You Need」的作者之一

在80百分位的情況下,Flash Thinking的響應速度幾乎是o1-mini的2倍!

比如下面這道題,OpenAI的o1和o1 Pro分別用了102秒和138秒,而Gemini 2.0 Flash Thinking只花了14秒。

上下滑動檢視

一舉沖頂成為最強理科生,最難高考題也不在話下

有人嘗試把號稱「史上最難」的高考數學題扔給Flash Thinking,它居然也給出了準確的回答。

這種表現,震驚了所有網友。

要知道,這道題連o1都做不出來。

而且更為厲害的是,這道題是中文題。

上下滑動檢視

能做出數學高考題的含金量,不用詳細解釋了。

畢竟,中國的高考可是被Erudera評為地球上最難的考試。

而在Chatbot Arena的數學領域中,Flash Thinking對比Flash同樣也有著顯著性進步。

演示中的題目為:一個電子被限制在一個一維無限深勢阱中,勢阱壁位於x=- 0.15nm和x=+0.15nm處。求出電子在勢阱中能階躍遷時發射的四種最長波長的光子。

Flash Thinking首先會將問題本身復述清晰,接著就開始進行逐步思考問題的求解步驟。

經過16.9s的計算分析後,Flash Thinking給出了最終答案,即為98.9nm,59.3nm,42.4nm ,37.1nm。

下面這個演示,則展示了Flash Thinking如何處理涉及涉及視覺和文本線索的挑戰性難題。

演示中使用者首先上傳了一張有四個撞球的圖片,並提問道「我能怎麽使用這其中的三個數碼使其總和為30?」

在這個演示中,有一個很有趣的地方就在於中間第二個撞球既可以辨識為9,也可以顛倒一下,辨識為6。

Flash Thinking在首次嘗試中先是將其辨識為正常觀察的9,但是發現並不能實作問題的求解。

於是,他很聰明的做出了一個判斷:「在題目中並沒有清楚的說明每個數碼只能出現一次」。

於是它開始嘗試將數碼進行重復利用,但是還是無法實作問題的求解。

接著,有趣的地方便來了,它出奇地想到了可以把9辨識為顛倒的6,這說明它成功地察覺到了這不僅僅只是一個數碼遊戲,而是實際上可以翻滾的撞球。

最終得到了問題的正確答案:利用11、13、6三個數碼即可實作總和為30。

整個思考過程清清楚楚,一目了然。

從解題過程中可以看出,Gemini 2.0 Flash Thinking不僅能夠實作處理多模態資訊,在求解實際的問題方面,它不再是曾經的大模型那種較為機械死板的智能水平,而是像人一樣能夠學會去多視角地變通看待問題,最終靈活地得到問題的解決方案。

谷歌DeepMind研究者讓Thinking模型嘗試用不同方法,求解普特南2024的一到數學題,然後自我驗證答案是否正確。

35.9秒內,模型給出了答案。

網友實測

手快的網友們,已經紛紛甩給了Gemini 2.0 Flash Thinking一堆難題。

網友們給出的題目,難度都不小。

比如這道數列問題,要求寫出一個數列的前六個數碼,其中每個數碼都是前一個數碼的三倍,且第一個數碼是2。

最終,模型給出了正確答案——E。

這位網友實測後發現,新模型的推理能力實在強大,不光破解了單詞網格難題,甚至連復雜的經濟學問題都做得出來。

設想太陽能和模組化核反應堆的廣泛套用帶來了巨大的能源供應,從經濟學的角度深入思考未來十年可能出現的經濟變化。請詳盡地分析可能產生的影響。

模型給出的答案是:通貨膨脹率會下降,經濟環境會發生重大變化。

結論:變革的十年如果太陽能和模組化核反應堆(SMR)電力的充足性和可負擔性得以實作,未來十年將見證一場深刻的經濟變革。我們可以預期通貨膨脹率下降,經濟環境發生重大變化。

Hallid.ai聯創indigo給了它一道填數題,Thinking只需要20秒就做出來了。

而且給出了正確答案。

相比之下,o1就花了40秒,而且還錯了。

不過,不知道是不是測試版的原因,Flash Thinking能不能數清楚「草莓」裏的r,似乎完全取決於你給了啥prompt……

相比之下,我們在本地跑的QWQ,可以輕松解決這個問題。