引き続き、AIの話題で、僕がよく考えていること。
昨日のエントリの(※)で「期待値」という言葉を使ったんですがたぶんこれはかなり重要なキーワードで、いわゆる「アブストラクトゲーム」である将棋や囲碁にはない概念です。
AIの進化、という文脈で将棋がよく引き合いに出されるようになって久しいわけですが、将棋は理論上必ず解があるゲームなので、ある局面の勝率を期待値で表すということはできません。
実際にはイメージで「先手が55%ぐらい勝てそう」などと表現されることがよくあります。
これは局面ごとに固有の期待勝率があるわけではなく、あくまで自分ならこう考える、という類のもので棋士によって意見が異なることが普通です。
ついでに言うと、そのように自分なりに「考える」「判断する」ということはとても大切です。
将棋世界の「イメージと読みの大局観」というコーナーを思い浮かべると分かりやすいと思います。
将棋ソフトにおける「評価値」もこの類のもので、簡単に言えば、そのソフト自身の形勢判断を示しています。
すこし難しく定義づけすると「それをなるべく高める手を選び続けると結果として勝てることが多い数値」という感じでしょうか。
なぜそうなるのか、理由は人間には不明です。
たぶんAI自身にも不明なのではないかと思います。
そしてこの評価値というのは常に揺れていて、一定ではありません。
読みの深さを変えれば数字は変化するし、AI自身の進歩によっても変動します。
いまある「評価値」はその局面に固有のものではなく、むしろ将来的には必ず変わる(+1か0か-1になる)ことが約束されているものです。
叡王戦とかの放映のとき、評価値グラフが動き続けている絵をイメージすると分かりやすいと思います。
いっぽうバックギャモンにおける「期待値」というのは基本的には変動しないものです。
もちろんAIの進歩によってはじき出される数値に微妙な変化は生じるはずですが、ゲームの本質として、その局面ごとに固有の期待値が存在する、という点において。
バックギャモンの世界では、この局面の勝率は○%、という数字をソフトが示してくれます。
そして、ソフトとの指し手の乖離がトータルで小さいほど、強いプレイヤーであると判断されることが一般的です。
これはゲームの性質上、局面ごとに固有の期待値が存在し、なるべくその数値を高くするようにプレーすることが合理的だからです。
(もちろん実戦ではそれ以外にもいろんな要素・駆け引きが存在します)
将棋の場合、評価値の高い手が良い手である「場合が多い」のですが、これは実はゲームの本質からはかけ離れています。
局面ごとに固有に存在しているのは本来「解」であって「評価値」や「期待値」ではないからです。
以上、ちょっとややこしい話だったかもしれませんが、できるだけ平易に書いたつもりなので、ご質問やご指摘があればコメントいただければ幸いです。
ところで、なぜ評価値を高める手を選び続けると最終的に勝てるのか?
ブラックボックスではあるんですが、それを考え続けることで将棋の真理に近づいていける可能性は高いので、これからの棋士は評価値と(も)向き合っていかないといけないでしょうね。