レーティングサイトの上位の将棋ソフトが何も強くなっていない件

『将棋神やねうら王』に収録されているtanuki-(2018年度版)がelmo(WCSC27)からR230ほど強くなっている。

Qhapaqさんのレーティングサイトによると、現在elmo(WCSC27)がR3984なので、tanuki-(2018年度版)は、このサイトに記入するとしたらR4200程度だろうか。

それに対して、例えば、YO4.83/orqha(探索部 = やねうら王 4.83 , 評価関数 = orqha)は、R4312、dolphin1/orqha (探索部 = dolphin1 , 評価関数 = orqha)は、R4339もあるのだと言う。

本当か確かめるために対局させてみた。T8,b1000と書いてあるのは、8スレッド1秒の意味。dolphin側はdolphin1.01に同梱されていた実行ファイルをそのまま用いている。こちらはトーナメント用のビルドらしく、速度差から言ってR30程度強いのでそれを差し引いて考える必要がある。また、tanuki2018_nnue-bestと書いてあるのは、tanuki-(2018年度版)とほぼ同じぐらいの棋力の評価関数。

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = tanuki2018_nnue-best
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = orqha
T8,b1000,491 – 38 – 471(51.04% R7.22) win black : white = 52.49% : 47.51%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = orqha
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = tanuki2018_nnue-best
T8,b1000,505 – 48 – 447(53.05% R21.19) win black : white = 54.2% : 45.8%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = orqha
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = orqha
T8,b1000,533 – 50 – 417(56.11% R42.64) win black : white = 51.47% : 48.53%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = tanuki2018_nnue-best
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = tanuki2018_nnue-best
T8,b1000,331 – 47 – 272(54.89% R34.1) win black : white = 53.07% : 46.93%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = tanuki2018_nnue-best
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = orqha
T8,b2000,158 – 16 – 146(51.97% R13.72) win black : white = 49.67% : 50.33%

engine1 = YaneuraOu-dolphin1.01-by-clang-tournament-avx2.exe , eval = orqha
engine2 = YaneuraOu2018NNUE_gcc_learnHalfKP256.exe , eval = tanuki2018_nnue-best
T8,b2000,161 – 17 – 142(53.14% R21.82) win black : white = 56.77% : 43.23%

強さ、さほど変わらない。むしろ弱い意味すらある。

レーティングサイトの計測が定跡オフでの計測で、短い持ち時間のときに定跡オフにしたときにハマるような横歩取りなどを回避するために定跡なし時の勝率は上がっているのだと思う。

それに対して上の計測はやねうら王の互角局面集の局面から対局を開始させているのでそういうのが反映しないのだと思う。

どちらがより適切な計測手法なのかはここで議論するつもりはないが、定跡ありのときの棋力はさほど上がっていないのでは？(むしろ下がっているのでは？)という疑念が湧くし、定跡オフのときの棋力を上げることを目標としてしまうと、本当の棋力(現実的に起こりうるような局面が与えられた時に正着にたどり着くか)が上がらなくなってしまう。

あらちを立てればこちらが立たずで難しいところではある。

それにしても、やねうらおさんの計測データは、秘密にしておけば競争においてめちゃくちゃ有利になりそうであるにもかかわらず、公開するところに凄みを感じます。
そもそも、将棋プログラムのオープンソース化がその最たるものですが、素晴らしすぎますね。

— たややん＠NNUEkai (@tayayan_ts) February 20, 2019

「レーティングサイトの上位の将棋ソフトが何も強くなっていない件」への7件のフィードバック

http://qhapaq.hatenablog.com/entry/2019/07/23/221409
にて、30手目までをorqha、それ以降を白ビールにした
関数をつくったとあるのですが、この様に、
何手目までを評価関数Aに、何手目から何手目まではまた別の評価関数Bに、そこからはまた別の評価関数Cに・・・・・、といったような具合の評価関数の作り方を教えて頂きたいです。

返信 ↓

やねうらお 2019年9月8日 12:33 より:

プログラム自体を切り替えるほうが簡単なのでは…。
Ayaneを使えば、proxy(≒中継)みたいなこと、簡単にできますし。

返信 ↓

http://qhapaq.hatenablog.com/entry/2019/07/23/221409
突然申し訳ありません。
やねうら王の探索部に、リレー対局を実装する予定はありますか？
（実装して欲しいです！！！！）

返信 ↓

やねうらお 2019年9月8日 12:33 より:

ないです(´ω｀)
Ayane使いましょう…。

返信 ↓
- hjik 2019年9月9日 10:06 より:
  
  昨日、上の方がコメントしてもした事にならなかったので、ニ個コメント付けてました、すみません・・・・
  上の方も含めてお返事いただきありがとうございます。
  
  返信 ↓
  - やねうらお 2019年9月9日 15:52 より:
    
    Ayaneを使ったリレー将棋用のスクリプトはそのうち公開するかもです。(｀･ω･´)ｂ
    
    返信 ↓
    - P.T. 2019年9月14日 21:37 より:
      
      ありがたやぁ～・・・ｷﾀ━(ﾟ∀ﾟ)━!

やねうら王公式サイト

コンピューター将棋やねうら王公式サイト

レーティングサイトの上位の将棋ソフトが何も強くなっていない件

「レーティングサイトの上位の将棋ソフトが何も強くなっていない件」への7件のフィードバック

コメントを残すコメントをキャンセル

「レーティングサイトの上位の将棋ソフトが何も強くなっていない件」への7件のフィードバック

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル