Aperyの不可解なミスの件

投稿日時: 2015年3月17日投稿者: やねうらお

遠山五段がApeyと斎藤五段との対局について詳しく書かれています。

第４回電王戦第１局　Aperyの不可解なミスと斎藤五段の完璧な準備
http://toyamayusuke.hatenablog.com/entries/2015/03/16

解説の切れ味は、さすが、遠山先生です。

Aperyの不可解なミスの件は私もよくわかりません。これは平岡さんでなければわからないかも…。

それとは別に、今回のAperyのことについて少し私の考えを書きます。

序盤の指し手をバラけさせるために、Aperyが今回採用したのは序盤では上位5手(?)のなかから、ベストの評価値とさほど離れていないものを採用するという方法でした。

αβ法型の探索では、ベストの指し手以外は求まりませんので、ベストの指し手が求まったあと、ベストの指し手を探索開始局面の可能な指し手集合から取り除いて、またベストの指し手を求めるという手順を繰り返して上位5手を求めます。これをMultiPVと言います。

上位5手を求めるためには5倍近い探索時間が必要になります。はっきり言って思考時間の無駄です。しかし事前貸出という条件下では、序盤で全体時間の1/3ぐらい(?)を無駄にしても、それと引き換えに指し手のランダムネスが得られるならば割に合うというのが平岡さんの考えでした。

ただ、私はこの手法、そんなに悪くはないと思うものの、少し疑問があります。

例えばベストの指し手のスコアが30点だとして、次善手は20点だとします。このときベストの指し手と次善手は10点しか離れていないように見えます。歩1枚が100点ですから、歩の1/10の価値です。ところが、序盤の10点の差は極めて大きな意味を持つことがあります。

序盤では手駒がないことが多いですから、絶対値の大きな評価値はつきませんが、それゆえ、1点の差がすこぶる大きな意味を持つのです。ですので、ベストの指し手と10点差の指し手まで許容するとした場合、すこぶる悪い手が指されてしまうことはあるのです。

次に思考時間の問題です。

MultiPVで候補手を5つ挙げるのに5倍の思考時間が必要になります。Aperyは今回、序盤のランダムネスのために5倍の思考時間を使っていたでしょうか？使っていないですね。(たぶん) 使っていないとしたら、つまり、本来の1/5の時間しか思考できていないことになります。(MultiPVで候補手を5つ挙げるなら、そのときの1手当たりの考慮時間は5倍にしたほうが良かったように思います。これをする代わりに今回のAperyでは序盤の思考時間の重みを増やしてあったのかも知れませんが…。)

1/5の思考時間で、しかもベストの指し手を指さないのでは、運悪くひどい指し手を選んでしまう可能性は極めて高くなります。

そういう理由により本局ではAperyはババを掴まされたのかなと感じます。

「じゃあどうすれば良かったんだよ？」

と言われそうですが、うーん。例えば、「1手の思考時間をランダムで追加する」というのはどうでしょう？

思考時間を増やすと指し手が変化することがありますよね。それに期待するわけです。ランダムで追加するので、追加される局面は毎局異なるので前局とは違う変化になりやすいはずです。また、思考時間を増やしているわけですから、悪い手が選ばれるというよりは、むしろ改善された指し手が選ばれる可能性が高いです。

そんなわけで、MultiPVで指し手をバラけさせるより思考時間をランダムに増やすほうが副作用が小さく、また効果的だと私は考えます。(いま考えました！)

もう来年の電王戦がないのであれば、この素晴らしい(?)アイデアを使えるチャンスは来ないかも知れませんが、とりあえずここに書き残しておきます。

【追記 2015/3/18 6:20】

コメント欄で指摘をいただきましたが今回のAperyは40手目まではMultiPV = 3で、上位3手のうちベストの指し手と評価値の差が小さいもののなかからランダムに選ぶ設定になっていたようです。遠山先生の解説によりますと、44角〜55角〜同角〜同歩の交換が疑問視されていますが、この44角は36手目なので、ベストではない指し手が選ばれてしまった可能性もなきにしもあらず…。