読み筋が合流するのに評価値が違う件

投稿日時: 2020年10月27日投稿者: やねうらお

AbemaTVの放送で、AIの出力する候補手1と2の読み筋が途中で合流して同じ局面になるはずなのに評価値が1と2で異なるという状況があったらしく、それを解説していたプロの先生が「これはおかしいですね」とか何とかおっしゃっていたそうなのですが、これについて解説します。

やねうら王を始めとするいまどきの将棋ソフトの思考エンジンは、複数の候補手を出力するMultiPVという機能があります。AbemaTVの思考エンジンもこのMultiPVを用いて出力しているのだと思われます。

予測される状況１

ところが、AbemaTVのSHOGI AIでは、複数エンジンの評価値を組み合わせて期待勝率を出しているようです。

なので、
・エンジン1が、候補手A,B,C
・エンジン2が、候補手A,C,D
・エンジン3が、候補手A,C,D
のように候補手を出力した場合、候補手Aは、3つのエンジン(が候補手Aを指した時)の評価値の平均ですが、候補手Bはエンジン1のみの評価値となるのではないかと思います。

この場合、候補手AとBでそのあと同じ局面に合流するとしても、AとBとでは異なる評価値になることはありえます。(エンジン1は候補手AとBとで同じ評価値を出力しているとして)

予測される状況２

AbemaTVのSHOGI AI、候補手が変わるタイミングが早すぎます。やねうら王系の将棋ソフトは普通、反復深化法を用いて探索しているので、1手ずつ深くしながら読んでいきます。ConsiderationModeがtrueのときは、この1手深くするタイミングで読み筋を出力します。読むべき局面数は2のdepth(読みの深さ)乗ぐらいで増えていくので読み筋を出力する間隔は指数関数的に増えます。

これが指数関数的に増えないということは、「1手深くするタイミング」で読みを出力しているのではなく、反復深化の途中の読みも出力しているのだと思われます。

ところが反復深化の途中ではfail high/lowしていると読み筋はそこで途切れてしまいますので、それを回避するために置換表から読み筋をかき集めてこなくてはなりません。

置換表から読み筋をかき集めてくる途中であれ、他のスレッドは依然探索途中であり、1つ目の候補手の読み筋を出力したのちに2つ目の候補手を出力するまでの間にも置換表は更新され、(合流したあとの)読み筋が変わることがあります。このため、1と2の指し手が合流するにも関わらず、それぞれが異なる評価値を出力することは(このへんの作りによっては)ありえます。

予測される状況３

やねうら王などは、LMR(Late Move Reduction)という枝刈りをしていますが、これは、その局面のよさげな指し手順に並び替えて、あとのほうの指し手は指される確率が低いだろうから調べない(枝刈りする)という手法です。

ざっくり言うと、思考開始した局面から1手目は全部の指し手、2手目は上位の10手だけ、3手目は上位の8手だけ…みたいな感じで先の局面にいくほど絞っていきます。あるいは逆に王手は1手延長する、良さげな指し手のあとはreductionを甘めにする、みたいなものもあります。

要するに、2つの候補手の読み筋が同一局面に合流するとしてもそこまでの経路によってその局面の実現確率が異なるので、そのあとの枝刈り具合が違うということは(探索部によっては)ありえます。

枝刈り具合が異なるので、それぞれ異なる読み筋になることもあり、評価値とはleaf node(読みの末端局面)で評価関数から返ってきた値なので、読み筋が異なると異なる評価値になってしまいます。

結論

そんなわけで、MultiPVモードで2つの候補手が途中で合流するのにそれぞれが異なる評価値になることは、時々ならあるのでは？ということで。