自己対戦の結果が安定しない件

投稿日時: 2016年8月4日投稿者: やねうらお

やねうら王の連続自己対戦フレームワークを用いて勝率を計測しているのですが、計測するごとにばらつきがあったりして、安定した結果とは言いがたいです。

この新しいApery評価関数、前回から強くなってない可能性が微レ存。詳しくはメールしますた。(｀･ω･´)ゞ https://t.co/H49x1zfb7n

— やねうら王 (@yaneuraou) August 4, 2016

Apery20160730 vs Apery20160803 1万対局

1手0.1秒 , 5464 – 83 – 4453(55.1% R35.54)
1手0.3秒 , 5409 – 115 – 4476(54.72% R32.89)

— やねうら王 (@yaneuraou) August 4, 2016

いくつかの原因はわかったので、それについては修正済みです。自己対戦で勝率を見る上でつまずきそうなところを、私の知る限りをざっと書いておきます。(なお、自己対戦自体は、3千局〜1万局こなしているものとします。)

1) 定跡、あまり長い手数まで採用すると、優劣がかなりのレベルでついていることがある。

例えば、32手目まで定跡を採用すると、駒得だけの評価関数であってもApery(WCSC26)に対して3%ぐらい勝てるようです。激しい戦いになっていると、ひたすら駒得だけ考えてもそれなりに正解手が指せるんでしょうね。

形勢が微妙に傾いているものなども考慮すると、勝率に対して3〜5%ぐらいのノイズが載っていると考えるべきでしょう。(勝率5割に引き寄せられる。)

それだと計測自体かなりいい加減なものとなってしまうので、定跡は早い段階で打ち切りたいのですが、そうすると今度は同じような進行になってしまい、今度は勝率が一方向に偏ります。(勝率が0%か100%のほうに引き寄せられる。)

2) 1手あたりの思考時間をランダム化する弊害

1手あたりの思考時間を設定値から1〜1.5倍ぐらいにランダム化することで、指し手をばらつかせて、同じ試合運びになるのを回避していたのですが、これだと終盤で1.5倍を与えられたときに相手より先に詰みを見つけたりして、やはり勝率が5割に引き寄せられるようです。

そこで、序盤はランダム化を強くして、終盤はランダム化を小さく(終盤ではすでに異なる局面になっているだろうから)することでこの問題を緩和できます。

具体的には、やねうら王では、
t = t * min(1.5f , 1.0f + 10.0f/ply);
のようにして対局させています。

また、定跡でばらけさせるために、定跡の終端で何らかの評価値をつける方法もありますが、その評価値をつけるための探索資源がもったいないだとか、手間が馬鹿にならないだとか、そのソフトが好む展開ばかりが高い点になるだとか、これはこれで悩ましいです。

なので、上記のように1手の指し手に与える持ち時間をランダム化するほうがお手軽で、そこそこうまくいくアイデアのような気はしています。(両者の比較データは持ちあわせていないです。)

3) 短い秒数だと終盤の特徴を高く評価しているほうが勝ちやすい

短い秒数での計測だと詰みに絡む特徴(玉の上空に敵の金・銀がいるかなど)を高く評価しているほうが、詰みそうな局面に高い点数をつけるので、そちらを優先して探索するようになり、詰みを見つけやすくなるというのはあります。ところが、序盤でそんな局面を探しても結局は詰まないので、無駄に探索していることになります。

そんなわけで、短い秒数と長い秒数とでは勝率の高い評価関数の性質がやや異なるようです。

ただし、現実的には長い秒数で十分にテストすることは出来ないので、短い秒数で勝率が上がっていれば、強くなっているとせざるを得ない意味はあります。

4) 置換表のサイズが小さいとまずいかも

私の実験環境では自己対戦は、1PC 80論理コアでやっているので、1PC内で160個の思考エンジンが起動しています。メモリがもったいないので評価関数バイナリは共有メモリに配置しています。置換表はメモリがもったいないので16MBだけ確保するようにしています。これでも0.1秒ならそんなに問題はないのですが、1秒以上になってくるとおそらく探索効率が悪化するので、結局、本来より短い持ち時間で対局させているときと同じような結果になります。(十分なデータがなくてどれくらい悪化するのかはわかりませんが…)

5) 論理コアの数だけ思考エンジンを立ち上げるのは難しい

思考時間がほとんど与えられないプロセス(Windows OSのprocessの意味)が出てきたりして、それが勝率計測上、ノイズとして作用しかねないだとか。(勝率が5割に引き寄せられる)

探索を時間で打ち切るより、探索node数で打ち切るほうが、実験環境のCPU差などに左右されなくて良い可能性があります。(ただ、探索部の調整のときはそれだとうまくいかない…)

6) 自己対戦サーバー側に何かバグがある可能性が微レ存

スミマセン、スミマセン(´ω｀)人バグを発見された方は報告ください。

7) 思考エンジン側に何かバグがある可能性が微レ存

スミマセン、スミマセン(´ω｀)人バグを発見された方は報告ください。

8) 短い思考時間だと時間制御のアルゴリズム上の問題で、より短い時間で指してしまうだとか。

スミマセン、スミマセン(´ω｀)人バグを発見された方は報告ください。

まとめ)

他にも「この計測方法はおかしいのでは？」というのがあればコメント欄などで教えてください。