會陷入局部最優解.
有限的棋局下去做對弈, 其實是得不到那麽精確的解.
我們就需要借助外界的力量, 外界是什麽力量, 就是要讓機器和機器去做對弈, 讓棋局足夠多的時候你才知道, 我和另外一個人下棋, 我下在這個位置能夠得到怎麽樣的, 對對中局產生的影響是怎麽樣的,其實是在蒙地卡羅模擬
就是模擬這樣的對弈的情況下得到的, 我下每一步棋對終局產生的影響的, 量化刻畫,
當然他有弊端, 就是棋局都是機器下, 很容易陷入局部最優而跳不出來.
那跳不出來是什麽意思? 就是你發現你都往這個方向去想, 大家都會往這個方向去想, 而跳不出局部最優來, 那麽因為兩個棋局, 他的兩個棋手本質都是AlphaGO, 所以他的思路和想法都是一樣的, 那跳不出局部作用, 就會造成了這個電腦, 所下的下棋的這個能力, 他是有有上限的
這時候DeepMind聰明, 他怎麽樣去寫跳出局部最優, 他幹了這樣的一件事情, 就是他找世界冠軍, 比如說找柯潔, 找李世石, 找這樣的世界冠軍去下棋, 然後去test一下這個機器到底能不能戰勝頂尖的世界冠軍,
他跟不同風格的人下棋, 能夠把他原來的那些思路給拓寬, 能夠從他的局部最優的這樣的解空間裏跳出來
跟頂尖高手去下棋的過程中, 把自己從局部最優的這個窄門裏面跳出來, 然後能達到往那個更優解方面去逼近, 所以, 整個AlphaGO他本身這套演算法像低空飛行在水面的一個反繪函式, 源於無數次蒙地卡羅的模擬, 然後與人對弈跳出局部最優
效果保證了AlphaGO能夠99.99%戰勝人類.
他就是一個在低空飛行的這樣的一個蜻蜓
其實他這個反饋函式, 就是保證自己贏的目數不需要足夠多, 但是他只要贏的機率足夠高就行了.
那有的同學會有疑問, 為什麽不能保證贏的目數足夠高,同事贏的機率足夠高?
這兩者其實是同很難同時滿足的, 因為你下的棋越險, 就是你的那個盈利的機率就沒法保證, 所以他是一個返回函式, 他一直保持的勝率是要足夠高, 但是他的目數並不足夠高, 就是他的目數可能是一點點, 比如說贏了半目或者一目, 這樣的一個過程.
核心觀點來自金總在論壇的分享.