當前位置: 華文星空 > 體育

一個不懂圍棋的人亂走走贏AlphaGo的概率是多少?

2024-04-17體育

給個平凡的下界。

假設禁全同並且貼目數不是整數的話,按策梅洛定理一定有一方有必勝策略。讓不懂圍棋的人走必勝方。定義「亂走」如下:每一步隨機從策略的集合 \{下(1,1), ..., 下(19, 19), \text{pass}\} 選一個。如果選到的策略合法,就直接使用該策略。如果不合法就直接認負。

記事件 A_n 為亂走方在做第 n 次決策之前就已經獲勝,或做第 n 次決策後處於必勝局面。下面用數學歸納法證明 \mathrm{Pr}[A_n]\geq 362^{-n} : n=1 時,因為亂走方是必勝方,所以一定存在一個必勝決策使亂走方決策後處於必勝局面,即 \mathrm{Pr}[A_1] \geq 1/362 。設 n=k-1 時,有 \mathrm{Pr}[A_{k-1}] \geq 362^{-(k-1)} 。這樣當 n=k 時,

\begin{align} \mathrm{Pr}[A_k] &= \mathrm{Pr}[第k次決策前獲勝] + \mathrm{Pr}[第k次決策後處於必勝局面]\\ &\geq (\mathrm{Pr}[第k-1次決策前獲勝] + \mathrm{Pr}[做第k-1次決策時獲勝]) + \mathrm{Pr}[第k-1次決策後處於必勝局面]\times 1/362 \\ &\geq (\mathrm{Pr}[第k-1次決策前獲勝] + \mathrm{Pr}[第k-1次決策後處於必勝局面])\times 1/362 \\ &= \mathrm{Pr}[A_{k-1}]\times 1/362 \geq 362^{-k} \end{align}

因為禁全同,所以亂走方至多需要做 3^{361} 次決策遊戲就會結束。所以

\mathrm{Pr}[亂走方獲勝] \geq \mathrm{Pr}[A_{3^{361}}]\geq 362^{-3^{361}} 。