会陷入局部最优解.
有限的棋局下去做对弈, 其实是得不到那么精确的解.
我们就需要借助外界的力量, 外界是什么力量, 就是要让机器和机器去做对弈, 让棋局足够多的时候你才知道, 我和另外一个人下棋, 我下在这个位置能够得到怎么样的, 对对中局产生的影响是怎么样的,其实是在蒙特卡洛模拟
就是模拟这样的对弈的情况下得到的, 我下每一步棋对终局产生的影响的, 量化刻画,
当然他有弊端, 就是棋局都是机器下, 很容易陷入局部最优而跳不出来.
那跳不出来是什么意思? 就是你发现你都往这个方向去想, 大家都会往这个方向去想, 而跳不出局部最优来, 那么因为两个棋局, 他的两个棋手本质都是阿尔法GO, 所以他的思路和想法都是一样的, 那跳不出局部作用, 就会造成了这个计算机, 所下的下棋的这个能力, 他是有有上限的
这时候DeepMind聪明, 他怎么样去写跳出局部最优, 他干了这样的一件事情, 就是他找世界冠军, 比如说找柯洁, 找李世石, 找这样的世界冠军去下棋, 然后去test一下这个机器到底能不能战胜顶尖的世界冠军,
他跟不同风格的人下棋, 能够把他原来的那些思路给拓宽, 能够从他的局部最优的这样的解空间里跳出来
跟顶尖高手去下棋的过程中, 把自己从局部最优的这个窄门里面跳出来, 然后能达到往那个更优解方面去逼近, 所以, 整个阿尔法GO他本身这套算法像低空飞行在水面的一个反绘函数, 源于无数次蒙特卡洛的模拟, 然后与人对弈跳出局部最优
效果保证了阿尔法GO能够99.99%战胜人类.
他就是一个在低空飞行的这样的一个蜻蜓
其实他这个反馈函数, 就是保证自己赢的目数不需要足够多, 但是他只要赢的概率足够高就行了.
那有的同学会有疑问, 为什么不能保证赢的目数足够高,同事赢的概率足够高?
这两者其实是同很难同时满足的, 因为你下的棋越险, 就是你的那个盈利的概率就没法保证, 所以他是一个返回函数, 他一直保持的胜率是要足够高, 但是他的目数并不足够高, 就是他的目数可能是一点点, 比如说赢了半目或者一目, 这样的一个过程.
核心观点来自金总在论坛的分享.