レーティングサイトの上位の将棋ソフトが何も強くなっていない件

『将棋神やねうら王』に収録されているtanuki-(2018年度版)がelmo(WCSC27)からR230ほど強くなっている。

Qhapaqさんのレーティングサイトによると、現在elmo(WCSC27)がR3984なので、tanuki-(2018年度版)は、このサイトに記入するとしたらR4200程度だろうか。

それに対して、例えば、YO4.83/orqha(探索部 = やねうら王 4.83 , 評価関数 = orqha)は、R4312、dolphin1/orqha (探索部 = dolphin1 , 評価関数 = orqha)は、R4339もあるのだと言う。

本当か確かめるために対局させてみた。T8,b1000と書いてあるのは、8スレッド1秒の意味。dolphin側はdolphin1.01に同梱されていた実行ファイルをそのまま用いている。こちらはトーナメント用のビルドらしく、速度差から言ってR30程度強いのでそれを差し引いて考える必要がある。また、tanuki2018_nnue-bestと書いてあるのは、tanuki-(2018年度版)とほぼ同じぐらいの棋力の評価関数。

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = tanuki2018_nnue-best
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = orqha
T8,b1000,491 – 38 – 471(51.04% R7.22) win black : white = 52.49% : 47.51%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = orqha
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = tanuki2018_nnue-best
T8,b1000,505 – 48 – 447(53.05% R21.19) win black : white = 54.2% : 45.8%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = orqha
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = orqha
T8,b1000,533 – 50 – 417(56.11% R42.64) win black : white = 51.47% : 48.53%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = tanuki2018_nnue-best
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = tanuki2018_nnue-best
T8,b1000,331 – 47 – 272(54.89% R34.1) win black : white = 53.07% : 46.93%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = tanuki2018_nnue-best
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = orqha
T8,b2000,158 – 16 – 146(51.97% R13.72) win black : white = 49.67% : 50.33%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = orqha
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = tanuki2018_nnue-best
T8,b2000,161 – 17 – 142(53.14% R21.82) win black : white = 56.77% : 43.23%

強さ、さほど変わらない。むしろ弱い意味すらある。

レーティングサイトの計測が定跡オフでの計測で、短い持ち時間のときに定跡オフにしたときにハマるような横歩取りなどを回避するために定跡なし時の勝率は上がっているのだと思う。

それに対して上の計測はやねうら王の互角局面集の局面から対局を開始させているのでそういうのが反映しないのだと思う。

どちらがより適切な計測手法なのかはここで議論するつもりはないが、定跡ありのときの棋力はさほど上がっていないのでは?(むしろ下がっているのでは?)という疑念が湧くし、定跡オフのときの棋力を上げることを目標としてしまうと、本当の棋力(現実的に起こりうるような局面が与えられた時に正着にたどり着くか)が上がらなくなってしまう。

あらちを立てればこちらが立たずで難しいところではある。

レーティングサイトの上位の将棋ソフトが何も強くなっていない件」への7件のフィードバック

  1. http://qhapaq.hatenablog.com/entry/2019/07/23/221409
    にて、30手目までをorqha、それ以降を白ビールにした
    関数をつくったとあるのですが、この様に、
    何手目までを評価関数Aに、何手目から何手目まではまた別の評価関数Bに、そこからはまた別の評価関数Cに・・・・・、といったような具合の評価関数の作り方を教えて頂きたいです。

やねうらお へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です