将棋AIの棋力計測、こんな方法は駄目だぞ

投稿日時: 2020年7月4日投稿者: やねうらお

ちょっと目についたのですが誰も返答しないようなので軽く私見を書いておきます。

A1vsA2のレート差をΔa1、A2vsA3のレート差をΔa2としたとき、A1vsA2 A2vsA3 A3vsA4 … An-1 vs Anとして計測し、累積したΣΔaと、A1vsAnのレート差Δ(1 vs n)ではΣΔaのほうでレートインフレが起こり、どうやらΣΔa >> Δ(1 vs n)となるらしいことがわかりました。
— 将棋ソフト「mEssiah」公式 (@messiah_ai) July 4, 2020

そこで数学有識者のみなさんのお知恵をお貸しいただきたいのですが、ΣΔa ≒ Δ(1 vs n)となるようにΣΔaのインフレを補正できる方法が何かないでしょうか？
— 将棋ソフト「mEssiah」公式 (@messiah_ai) July 4, 2020

要するに、将棋ソフトAとBでは、BのほうがR50強かった。BとCではCのほうがR30強かった。AとCとではR50+R30=R80の差があるはずなのにそうならない。なんで？ということですね。

駄目1. 自己対戦のみに頼っている

基準となる異種の複数のソフトと対局させて計測しましょう。自己対局ですと同じような読み筋なのでわずかに読みが上回ったほうが勝ちやすく、適切な計測にならないことが多いです。(本来のレート差より拡大されて見えやすいです)

また特定のソフト(1つ)に対してチューニングし続けるのも、そのソフトとの相性を上げるだけのチューニングになってしまうので、よろしくないです。自分のソフトの改良のときには、異種の複数のソフトと対戦させるのが基本です。

駄目2. 互角局面集のようなものを使っていない

平手の初期局面から対局を同一のソフトで開始させる場合、特定の戦型ばかりになりやすく、その戦型の勝ち方を知っているほうの勝率が高くなりすぎるということがあります。また、例えばAとBでは必ずAは横歩を取られる変化になるので負けやすいがAとCではその変化にはならないので勝率はそこまでではない、ということもありえます。

平手の初期局面からの序盤のうまさも棋力には違いないでしょうけども、相性が出やすいのでそうやって計測したレーティングではR50+R30=R80みたいな計算式は成り立たないことは容易に想像がつきますね。

駄目3. レーティング計測時の誤差を考慮していない

ソフトAとBの真の勝率がxとして(確率xで表がでるコインのコイントスを想像して)、このN回の試行を観測すると勝率rであったとき、真の勝率xの存在する区間は解析的に求まります。(意味がわからなければ以下にPythonのコードを貼り付けておくのでそのまま使ってくだされ)

Ayaneのレーティング計測のコード
https://github.com/yaneurao/Ayane/blob/5d6cdf51773eb3996bf030ace099d60c5242ee75/source/shogi/Ayane.py#L1349

これにより、計測された勝率rとNから、(有意水準の範囲内である)レーティング差の上限値、下限値が求まります。レーティング差の足し算をするときは、この上限値同士、下限値同士を足していくと良いでしょう。

駄目4. 終盤を強化している

例えば、駒得だけしか考慮しない評価関数の将棋ソフトでは定跡を活用してもR2300あたりが限界です。(2倍の探索量になっても本当にわずかしかレーティングが伸びないです)

これは、序盤で作戦負けになるのが大きく、いくら探索量を増やして終盤を強化したところで上位のソフトには全く歯が立たないからです。しかし、自己対局ですと片側だけ探索量を2倍にするとそこそこ勝率に差が生じます。

これは将棋ソフトの開発初心者がよく陥る罠で、終盤を強化すると自己対局などで勝率は上がるのでそれを信用して終盤力強化のチューニングをひたすらやるのですが、結局、強いソフトとやらせると序盤で差がつくので、全く歯が立ちません。終盤力の強化は主に同系統のソフトの間でしか意味をなさないです。

駄目5. 強いソフトを低depthにして対戦相手に使っている

将棋は終盤の悪手一発で逆転するゲームなので、人間でも弱い者同士の対局ですと、「最後に悪手を出したほうが負け(になるゲームである)」と言われることがあります。なので、弱いソフトが弱いソフト同士でレーティングを計測したところで、最後に間違えないほうが圧倒的に勝ちやすく、すなわち詰み周りの探索を頑張っているほうが勝率は高いです。

しかしそのようなチューニングをしても強いソフトに対しては何の意味もないので、結局のところR1500や2000ぐらいのソフトが特定の弱いソフトに対して勝率が上がるようなチューニングをしてもあまり意味がありません。

もう少し具体的に言いますと、適度に弱いソフトがないので、やねうら王の探索深さを下げて、depth 5とかで対局させてそれを目安にチューニングする開発者の方が時々いらっしゃいますが、depth 5みたいな低depthだと終盤で頓死しまくるので、終盤をきちんと読んでいるほうが勝つとしか言えないです。そういう状況で計測されたレーティング差にはあまり意味がないです。これは、計測の手法がおかしいと言わざるを得ないです。

もし自分のソフトが弱くて基準ソフトがないというのであれば、やねうら王のほうは1秒か2秒に固定して、自分のソフトのほうを思考時間だけを32倍するなどして、自分のソフトを長時間で戦わせてチューニングすべきです。そうしないと終盤力だけを強化する間違ったチューニングをしてしまいます。

まとめ

以上の5点に気をつけていれば、経験的には、レーティング差の足し算自体はわりと成り立つように思っていますが、それでもいくつもレート差を足し合わせると多少のズレは生じるかもしれませんね。

そもそもeloレーティングの計算式は将棋のゲーム性に合致しているのでしょうか？

つまり、Aに対して勝率76%(R200差)のBに、勝率76%のCがいたとしてCはAに91%(R400差)勝てるのでしょうか？そして、これは将棋の棋力R500からR4500のどの区間においても成り立つのでしょうか？

例えば、将棋においてR1000以下のプレイヤーは初心者で、しょっちゅう1手詰めを見落としたり、王手飛車取りに遭ったりするので、R1000以下の区間では、R400の差があっても上位のプレイヤーが91%も勝たないことは容易に想像がつきます。(見落として負けるので..)

そこから外挿するとR1500かR2000ぐらいまでは、それと同様の理屈で、R400差があっても上位のプレイヤーの勝率は91%ほどには高くないことが予想されます。

そんなわけでして、弱い棋力のプレイヤーに対してeloレーティングの式は、補正が必要だという話になるのですが、まあ、それを言い出すとこの記事が終われなくなるので、このへんで筆を置きたいと思います。

追記 2020/7/8 18:00

駄目3. で紹介した方法以外として、eloレーティングに代わるものとしてグリコレーティング(Glicko rating)というのがあるらしいです。