當前位置: 華文星空 > 心靈

人類文明中有哪些無比悲壯的場面?

2019-12-17心靈

最完美的失敗——三年前,人類與AlphaGo的最後一戰

(本文先發於微信公眾號:奇略研究所)

1.

2017年5月25日,中國烏鎮。柯潔對戰AlphaGo三番棋的第二局。

這局棋前一年,AlphaGo以4比1的總比分將十四次世界冠軍得主、南韓傳奇名將李世乭挑落馬下。李世乭首局落敗之時,曾有中國少年放出豪言壯語:「就算Alpha狗戰勝了李世石,但它贏不了我。」

一石激起千層浪。互聯網上最初對那位少年的質疑,迅速被更響亮的驚嘆與贊譽淹沒。圍棋界冉冉升起的超新星、戰勝李世乭獲得夢百合杯冠軍、世界排名第一的柯潔九段,當然有資格說那句話。當李世乭九段遺憾落敗之後,柯潔順理成章地被捧為「人類的最後一道防線」。

然而,AlphaGo不會蹲在原地靜等柯潔的挑戰。既然與李世乭的決戰暴露了AlphaGo的弱點,DeepMind團隊馬不停蹄,全身心投入AlphaGo的升級工作。2016年春季開始,DeepMind並列開發AlphaGo的兩個升級版本——AlphaGo Master和AlphaGo Zero.

2016年末AlphaGo Master在網路對弈平台上對人類職業高手取得60勝0敗的戰績,其中包括戰勝柯潔的兩局。AlphaGo不僅曾經的弱點不復存在,還改編了人類習慣的定式,棋藝境界深不可測。

2017年初,坊間傳出柯潔將在年內正式挑戰AlphaGo的訊息。只是,因為AlphaGo Master的強勢,幾乎沒有人認為柯潔還有機會獲勝——哪怕是贏下系列賽中的一局。

即使全世界都不認為他會獲勝,柯潔仍然相信自己有機會。2017年3月18日,柯潔做客央視訪談節目【朗讀者】,朗讀【哈利波特與死亡聖器】選段,獻給「來自未來的對手」。「伏地魔死了」,在主持人董卿的請求下,柯潔以充沛的感情將這五個字重復了一遍。顯而易見,柯潔希望能像哈利波特一樣,戰勝他即將面對的那個「伏地魔」。

2.

哈利在與伏地魔血戰之前,至少已經摧毀了伏地魔的所有魂器,找到了伏地魔的弱點。相比之下,AlphaGo Master沒有弱點,因此所有人都覺得她不可戰勝。

面前是一條用先進科技武裝到牙齒的巨龍,屠龍勇士仍然主動挑戰。五百多年前,羅馬帝國皇帝君士坦丁十一世做出了同樣的選擇。

1451年,年僅21歲的穆罕默德二世正式繼承鄂圖曼蘇丹之位。彼時,鄂圖曼帝國幅員遼闊,地跨歐亞,國力日盛。相形之下,曾經輝煌的羅馬帝國,如今只剩下君士坦丁堡一座城池。鑒於懸殊的實力對比,羅馬帝國的前任皇帝權且臣服於鄂圖曼,成為後者實質上的附庸。

然而,正如【六國論】所言,「以地事秦,猶抱薪救火」,暫時的臣服不可能滿足強敵雄心勃勃的征服欲。對於羅馬皇帝君士坦丁來說,逆轉乾坤的唯一希望,在於送給敵人一場失敗。鄂圖曼帝國的上一次危機,正是源自軍事失敗引發的內亂。如今鄂圖曼新君即位、主少國疑,這或許是戰勝敵人的良機。

可是,君士坦丁手裏缺少能與土耳其人對抗的力量。帝國的財政狀況每況愈下,甚至都供養不起一支像樣的常備軍。兩千年的羅馬帝國,手上最後的籌碼只剩下「世界渴望之城」君士坦丁堡,以及這座城市的守護者——狄奧多西城墻。

千年以來,狄奧多西城墻經匈人、阿瓦爾人、阿拉伯人、羅斯人、保加利亞人圍攻而屹立不倒。盡管這一次的敵人空前強大,但城墻多少能抹平實力上的差距。只要鄂圖曼人的圍城陷入僵局,西方的同宗兄弟就有時間組織援軍。屆時,鄂圖曼人將腹背受敵,穆罕默德二世的失敗也就近在眼前了。

這是君士坦丁計劃中的一場豪賭。以君士坦丁堡為籌碼,引誘穆罕默德率大軍前來近身肉搏。成功機率不高,卻已經是最好的方案了。

3.

成功機率不高,卻已經是最好的方案了。

首局挑戰AlphaGo的失利,讓柯潔更堅信自己的判斷。5月23日的第一局,執黑的柯潔嘗試與AlphaGo比拼內功。而AlphaGo Master超凡的形勢判斷能力,把棋局早早帶入她的掌控之下。棋局的差距始終沒有拉開,到最後AlphaGo甚至只贏了1/4子——中國規則下棋局的最小差距。但柯潔心中已明了,與AlphaGo較量功力,甚至都不能算是對抗,而更像一場貓鼠遊戲。只有像前輩李世乭那樣,在實戰中逼出AlphaGo的漏洞,才有一線勝機。

胡耀宇八段接受澎湃新聞采訪時,提出了相同的方案。他解釋說,要想找出AlphaGo的軟肋,就是要將自己和對手一同推到懸崖邊上,只有這樣才能讓接近最優下法的AI出現失誤。

問題是,即使目標是「將自己和對手一同推到懸崖邊」,已是非常困難的任務。人類高手與AlphaGo Master的60盤網路對局,無一例外在開局五十手內就不知不覺落入明顯下風,到一百手時局面幾無挽回余地。雖然有幾位棋手嘗試挑釁AlphaGo,以期在近身搏鬥中打敗對手。但AlphaGo憑借早早建立起的優勢,輕飄飄地避開,安全運轉,令人類無計可施。

要想實施懸崖邊決鬥的計劃,就不能在布局階段被AlphaGo拉開差距。第二局柯潔將執白棋。執白的柯潔曾在2015年譜寫一段不敗傳說,秘訣是他對白布局超越同時代棋手的獨到理解。這一次,面對來自未來的對手,柯潔還能贏嗎?

4.

5月25日上午,柯潔入座。坐在棋盤對面、代表AlphaGo落子的,是AlphaGo Master計畫的負責人黃士傑博士。相比於AlphaGo在棋盤上的天馬行空,棋盤前的黃士傑更像一尊機器人。在代表AlphaGo執子對戰李世乭、柯潔的八局棋期間,黃博士始終保持著平靜的神情,甚至沒有去過一次洗手間。棋手們習慣透過觀察對手情緒變化來判斷局勢,或制定策略。而現在對面是一位「機器人」,柯潔只能靠自己了。

AlphaGo執黑棋,第一手落在右下角,小目。後台的分析模式顯示,黑方勝率47%。中國規則下,黑方終局結算時須貼還白方3又3/4子,以平衡先手優勢。此規則實際上對白方稍微有利,因此AlphaGo給出黑白開局勝率47對53的判斷。3個百分點的初始優勢,這是柯潔手上唯一的籌碼。

3個百分點,無比脆弱的優勢。人類棋手布局階段一個不起眼的失誤被AlphaGo抓到,這3個百分點就會隨風而去。網路對戰AlphaGo的六十盤棋,人類的勝率總是在前五十手就跌破35%。不僅勝利遙不可及,就算是在前半盤抗衡AlphaGo,也變成一種奢望。

然而,柯潔以一種不可思議的方式,打破了AlphaGo Master前五十手大優勢的神話。當棋局進行到五十余手時,DeepMind執行長戴密斯·哈薩比斯(Demis Hassabis)釋出推文稱「不可思議!根據AlphaGo的判斷,柯潔目前表現完美。」

哈薩比斯在「完美」前面沒有加「幾乎」之類的形容詞,直白地贊美柯潔的表現。當時只有DeepMind團隊能看到後台數據,而今天,我們能透過AlphaGo 官方的布局教學工具,直觀地感受「完美」的具體含義。

棋譜中的青色虛線圓圈表示AlphaGo推薦的選項,藍色實線圓圈表示人類棋手常下的其他選項。從圖中可以看到,棋局的前三十手,執黑的AlphaGo都有幾手棋在兩可選項中,並沒有選擇自己推薦的那一項。這是因為AlphaGo的演算法在前三十手引入了少許隨機性。但執白的柯潔,每一手棋都與AlphaGo的推薦完全一致。是的,每一手棋。唯一不同的第30手斜拆三,AlphaGo教學工具經過評估後給出了更高的評價—— 白方勝率56.5%,相比AlphaGo推薦的著法,勝率額外增加了0.4個百分點!

更不可思議的是,右上角第九手開始的大型變化,在圍棋史上是第一次出現。而柯潔的著法與AlphaGo的下法完全一致。換句話說,如果把執白的柯潔換成AlphaGo,棋局到第28手為止不會有任何區別。最強人類棋士和最強人工智慧在棋盤上共同發現的這一變化,被命名為「AlphaGo – 柯潔定式」。

關於AlphaGo – 柯潔定式,其他圍棋AI,如星陣、LeelaZero、KataGo等有不同意見,比如認為第30手白棋應該在P14長定型。但AlphaGo堅持認為柯潔是對的,此處白棋保留變化略好於定型。

第32手開始,柯潔的著法開始偏離AlphaGo的選擇。不過,由於著法穩健,白方的勝率下跌不多。至第55手時,AlphaGo評估,白方勝率51%. 黑棋第55手碰,本身並不難對付。白棋只需連回一子,放黑棋二路渡過,專心經營中腹,仍可保持51%的勝率。

柯潔拒絕了這條四平八穩的大路,選擇劍走偏鋒。

這是計劃的一部份。

5.

白棋第56手,左下角,碰。

從開局到現在,柯潔的勝率僅僅從53%變為51%,下降兩個百分點。而56碰一手棋,AlphaGo評估白方的勝率就下降了九個百分點。在AlphaGo眼中,這是本局白方墮入深淵的起點。而在柯潔眼中,這步棋則是把局面匯入預定軌域的良機。

白方這一著碰,好比金毛獅王的「七傷拳」,雖然先傷到自己,卻令對手也不得脫身。AlphaGo在此處不能退縮,只能與柯潔近身搏鬥。

第57手至106手,二十五個回合之後,棋盤上滄海桑田。黑棋、白棋圈註的九塊棋子,漂浮在空中,都有受攻擊的危險。九龍共舞,難得一見的奇景。

讓局面更顯混亂的,則是左下角A位價值近百目的大劫。早在AlphaGo與李世乭對戰時,棋界就有傳言「AlphaGo不會打劫」。雖然事後證實這是謠言,但劫爭確實會占用人工智慧的搜尋深度,從而增加AI處理復雜局面的難度。而且,白方對於左下劫爭的處理可采取「引而不發」的策略。這處劫爭對於黑方好比一枚不定時炸彈,引爆的主動權在白方手裏。

九龍共舞+天下大劫,柯潔成功將AlphaGo拖到了懸崖邊。而柯潔付出的代價是,他比AlphaGo離懸崖更近一步。

6.

第106手,AlphaGo評估柯潔勝率29%. 在AlphaGo眼中,29%的勝率尚不能稱絕望,但已離失敗不遠。而柯潔則沈浸在實作預定計劃的興奮中,在懸崖邊上與AlphaGo殺紅了眼,渾然不覺身後就是萬丈深淵。

柯潔看到了棋局勝利的曙光,甚至聽到了自己「砰砰」的心跳聲。捂住胸口,稍微平復心情之後,柯潔堅定地落下第114手,斷。

柯潔眼中的這局棋,已經進入了他的掌控之中。白棋將右邊兩條黑棋大龍切斷之後,黑方難以兩全。在此基礎上,白方只需要一個合適的時機引爆左下劫爭,即可走向勝利。

擔任現場解說的古力九段,興奮地宣稱「或許今天能見證歷史」。圍棋人太需要一場勝利,在時代的滾滾車輪前贏得一些緩沖的時間。樂觀的情緒由柯潔傳遞給古力,隨後擴散到現場觀眾之間。幾秒鐘之後,收看網路直播的觀眾也受到感染,「柯潔勝利在望」一時成為熱門網路社群議題。

人類虛幻的希望沒能維持太久。 第119手冷酷的一並,AlphaGo擊碎了人類最後的幻想。

此手同時窺視A位圍殲白中央大龍、B位上下會師兩處好點,必得其一。黑棋這一手,補全自身棋形的弱點,為接下來的發力創造了條件。這一著並,恰似拳擊手縮回拳頭蓄積力量,觀察對手破綻再出拳,隨即一擊制勝。

目睹這著妙手之後,柯潔冷靜了下來。棋盤上混戰如舊,九龍共舞和天下大劫的格局未變。但AlphaGo似乎率先理清頭緒,找到了通往勝利之門的鑰匙。

短短幾個回合,柯潔從天堂到地獄。或許他已經隱隱預感到失敗的結局,但柯潔決定寧為玉碎,不為瓦全。第122手以下,柯潔拼著右下大龍死活不顧,強行沖出切斷黑棋。隨後的第128手,柯潔終於引爆了左下的百目大劫。

劫爭的勝負,全在於劫材。而AlphaGo第133手找劫材的好手,憑空多出一枚劫材。黑方借此贏得劫爭,釘選勝局。之後,柯潔草草抵抗了數回合,在第155手時投子認輸。

7.

賽後總結復盤時,部份職業棋手認為柯潔曾有機會獲勝。中國國家圍棋隊總教練俞斌九段更提出從棋局中間復盤與AlphaGo重下的設想,研究柯潔是否確實有勝機。

他們把柯潔本局的失敗視作一種偶然,這在當時的狀況下是合理的想法。畢竟,棋局的戰鬥極其眼花繚亂,而柯潔看上去一度距離勝利不遠。

茨威格在【人類群星閃耀時】中,同樣認為君士坦丁十一世最終的失敗是偶然的。

在茨威格的故事裏,八千君士坦丁堡守軍在兩個月內多次擊退了鄂圖曼十五萬精銳的沖擊,土耳其人幾乎就要放棄。穆罕默德二世決心在5月29日發動最後一次總攻,這將決定羅馬帝國的最後命運。

5月29日,筋疲力盡的羅馬守軍仍奮力擊退蘇丹近衛軍的沖擊。但一扇忘記關閉的小門決定了君士坦丁堡的失敗。一小支蘇丹近衛軍意外發現,狄奧多西內墻的凱爾卡門竟敞開著。土耳其軍隊蜂擁湧入凱爾卡門,而羅馬人再也沒有可供抽調的預備隊去堵上缺口。千年名城君士坦丁堡就此陷落,千年的羅馬帝國最終亡於「征服者」穆罕默德二世之手。

一個芝麻綠豆般的意外,一扇遭人遺忘的凱爾卡門,竟然陰差陽錯地成了改變世界歷史的始作俑者。茨威格是這樣寫的,但羅馬帝國的滅亡,當真是偶然嗎?

即使羅馬守軍沒有忘記關閉凱爾卡門,即使5月29日當天鄂圖曼人的進攻再度被擊退,不過只能為羅馬帝國延長幾天或幾周的國祚而已。以穆罕默德二世之雄才大略、心狠手辣,即使圍城戰一時陷入僵局,君士坦丁所期望的鄂圖曼內戰恐怕一時也不會出現。

二十倍的軍力差距,五十倍的領土面積差距,軍事科技上的代差,鄂圖曼人攻克君士坦丁堡只是時間問題。

與之相似,柯潔的失利並非因為一著棋的失誤。即使再給柯潔機會,從第106手開始重新挑戰AlphaGo,他也很難逆轉乾坤。以事後諸葛亮的視角來看AlphaGo處理復雜對攻局面同樣穩妥,幾乎不會犯錯。

8.

1453年君士坦丁堡之戰的雙方,沒有明顯的正義與邪惡之分。這既是君士坦丁十一世為了拯救垂暮的羅馬帝國的最後努力,也是穆罕默德二世帶領鄂圖曼帝國崛起的重要一戰。

君士坦丁代表舊時代,是羅馬尚武精神的傳承者、羅馬榮耀最後的捍衛者。而穆罕默德代表崛起的新勢力,憑借先進的科技與軍事實力,征服舊帝國最後的堡壘。

柯潔在當時年僅二十歲,卻主動承擔起捍衛人類心智最後榮耀的重任。很多人贊美柯潔的勇氣,不過如果世界第一不是柯潔,換成其他年輕棋士,也會做出同樣的選擇。這是千年棋士精神的傳承。

君士坦丁十一世在羅馬帝國的最後時刻英勇戰死沙場,沒有辱沒他尊號裏「奧古斯都」、「凱撒」兩位羅馬帝國創始人的威名。君士坦丁將鄂圖曼拖入君士坦丁堡城下決戰的計劃,在戰略上無懈可擊。 可惜,在絕對的實力面前,再完美的戰略,能爭取到的至多是虛無縹緲的成功機會。

柯潔同樣制定了漂亮的戰略規劃,並且在極端困難的情況下,成功推進規劃的執行。在戰術層面上,柯潔前半盤接近完美的布局,為懸崖邊的決鬥創造了條件。決鬥開打之後,柯潔在前幾十個回合也沒有明顯落入下風,甚至一度產生了勝利在望的錯覺。

只是,實力的差距最終決定了一切。柯潔生在互聯網時代,二十歲就經歷數萬盤實戰對局的訓練,已經超越大多數棋界前輩一生的對局數。然而,這與AlphaGo Master在兩千多塊GPU上的三千萬盤對局相比,只是九牛一毛。天才少年的大腦結構再精巧,也敵不過每秒能運算1000萬億次的谷歌TPU.

柯潔做到了近乎完美,結局則是一場完美的失敗。