Lee Sedol vs AlphaGo(続き)

最終的にコンピュータの4勝1敗となりました。

・序盤の一見価値のないように見える手が、何十手か先になって効いてくる。

プロの打ち手は、互角の状態から、一手一手「この手は何目くらいの損得」
というのを経験的に知っていて、実際に地の数を数えなくても、その損得の
積算で優劣を判断できるようになっているのでしょうが、かえってそれが
仇となって、序盤から中盤にかけて楽観してしまうようです。


・コンピュータはコウ争いを避ける傾向がある?

避けているというより、人間ほどこだわらないということなのかもしれません。
有効な手が沢山あるうちで、コウ争いする手はもともとそれほど多くない。
「分子 / 分母」はもともと小さいのではないでしょうか。必然的に必要な
場合は、ちゃんと対応するようですし。


・専用の死活判定ルーチンは使っていない?

第4局で、すでに死が確定している石を助けようとして、無駄に一線に打つ
場面がありました。専用の死活判定ルーチンは使っていないのではないかと
思います。CPU をそのような目的に特別に確保すると、メインストリームに
使える CPUが減ってしまいます。統計的に考えると、かえって損なのかも
しれません。また、対局の目的が勝敗よりむしろデータ採りならば、余分な
ロジックで条件を複雑にするのは避けたいでしょう。論文をもとにして作った
AlphaGoのクローンが、https://github.com/Rochester-NRT/AlphaGo にあり
ますが、とくに特別なことはしてないようです。


・長手順の争いに弱い?

ディープラーニングと強化学習で作り上げた「大局観」で打つので、手順の
長い読みは苦手のようです。モンテカルロ法は、とにかく“ランダム”に打つ
わけですが、どのような確率密度関数に基づいて“ランダム”にするか工夫の
余地があるかもしれません。
将棋の場合、最大のブレークスルーは Bonanza の「評価関数の自動学習」で
したが、その少し前に「実現確率探索」というブレークスルーがありました。
これで、一定手数で先読みを打ち切るのではなく、争いが一段落するところまで
読めるようになった。もちろん局面評価と先読みでは使いどころは違いますが、
“ランダム”さの基準となる確率密度関数の調整をオーダー(1)の計算量で実現
できるならばメリットがあるように思います。


・大差がついている場合(特に形勢不利の場合)、手がランダムになる?

強化学習の指標として勝敗を使うかぎり、しかたがないことかもしれません。
特に形勢不利の場合は、そもそも「最善手」を定義できないのでなおさらです。
「盤面何目差か」をうまく指標として取り入れないと改善できないでしょう。
最強のコンピュータと人間との対局で、最後に人間が勝った棋譜が歴史に残る
とするなら、その棋譜は人間からみても美しい棋譜であってほしいのですが…

[関連記事]
2016-03-09 Lee Sedol vs AlphaGo
2016-03-10 神にとってコミは何目?
2016-03-11 棋力診断
2016-03-13 マネ碁

[追記] このスレッド面白いです
http://tamae.2ch.net/test/read.cgi/gamestones/1457511046/

この記事へのコメント

この記事へのトラックバック