当前位置: 华文星空 > 体育

一个不懂围棋的人乱走走赢AlphaGo的概率是多少?

2024-04-17体育

给个平凡的下界。

假设禁全同并且贴目数不是整数的话,按策梅洛定理一定有一方有必胜策略。让不懂围棋的人走必胜方。定义「乱走」如下:每一步随机从策略的集合 \{下(1,1), ..., 下(19, 19), \text{pass}\} 选一个。如果选到的策略合法,就直接使用该策略。如果不合法就直接认负。

记事件 A_n 为乱走方在做第 n 次决策之前就已经获胜,或做第 n 次决策后处于必胜局面。下面用数学归纳法证明 \mathrm{Pr}[A_n]\geq 362^{-n} : n=1 时,因为乱走方是必胜方,所以一定存在一个必胜决策使乱走方决策后处于必胜局面,即 \mathrm{Pr}[A_1] \geq 1/362 。设 n=k-1 时,有 \mathrm{Pr}[A_{k-1}] \geq 362^{-(k-1)} 。这样当 n=k 时,

\begin{align} \mathrm{Pr}[A_k] &= \mathrm{Pr}[第k次决策前获胜] + \mathrm{Pr}[第k次决策后处于必胜局面]\\ &\geq (\mathrm{Pr}[第k-1次决策前获胜] + \mathrm{Pr}[做第k-1次决策时获胜]) + \mathrm{Pr}[第k-1次决策后处于必胜局面]\times 1/362 \\ &\geq (\mathrm{Pr}[第k-1次决策前获胜] + \mathrm{Pr}[第k-1次决策后处于必胜局面])\times 1/362 \\ &= \mathrm{Pr}[A_{k-1}]\times 1/362 \geq 362^{-k} \end{align}

因为禁全同,所以乱走方至多需要做 3^{361} 次决策游戏就会结束。所以

\mathrm{Pr}[乱走方获胜] \geq \mathrm{Pr}[A_{3^{361}}]\geq 362^{-3^{361}} 。