其他人說的隨機性強等特點根本難不倒AI,只要有一個可學習的有明確數學定義的效用函式(i.e. 獎勵函式,價值函式,損失函式或適應度函式),甚至有時候根本不需要機器學習,只用各種求解器(Gurobi,Z3-solver,反向傳播最佳化器等)就可以直接找到比人類手算強的多的近似解
什麽樣的遊戲能難倒AI呢?當然是那些效用函式很難定義,就算定義好了也很難在各種搜尋演算法中找到一個解使效用函式不為0的遊戲(稀疏獎勵問題)
比如說推翻數學猜想或給程式找bug,如果你讓AI去推翻一個著名的數學猜想(比如黎曼猜想)或給一個時間復雜度巨高的屎山程式碼找bug,你會發現:
有時候你連效用函式都不知道怎麽定義(比如數學猜想之前還沒發現過反例,或者不知道什麽樣的程式才算好程式)
就算定義了效用函式,有時候因為復雜度過高,甚至根本沒法對它進行求值(比如執行一次屎山程式需要幾天才能跑完,這樣效用函式求值一次就要花幾天)
就算定義了效用函式也剛好能求值,由於AI的搜尋空間過大導致效用一直為0(比如說生成的例子全都符合黎曼猜想,或者程式一直沒出bug),這樣AI就等於一直什麽也沒學到,自然也不知道怎麽改進策略