人類棋手如柯潔是如何下圍棋的？

2017-05-31體育

這是一個非常難的問題，如果能回答這個問題，那就能根據對人的理解，做出真正的人工智慧了。

我既不懂強化學習也不懂圍棋，但是這個問題挺有意思的。我大概從哪篇論文裏面看到過大概的解釋：在剛開局的時候，可能性太多了，你是算不過來的。但是根據經驗，人們大概有感覺哪個地方價值高（也就是下那裏容易贏），然後就根據定式下棋，這在強化學習裏面叫model-free learning，就是你只記住棋盤不同位置或者不同模式下，哪個地方價值高。然後到了中盤，就開始算了，無論是人還是alphago，都會「硬背」一些中盤模式，根據這些對模式的理解進行推演計算來下子，這在強化學習裏面叫model-based learning。