relmoの世界

Q.relmo(リルモ)とは何ですか？
A.リゼロ評価関数とelmo(WCSC27)の評価関数を1:1でブレンドしたものです。rezero + elmo = relmo。

Q.ブレンドとは何ですか？
A.やねうら王のキメラ化コマンド”test evalmerge”で2つの評価関数を合成することです。ダビスタの世界観からするとブリード(交配)と言うほうがそれっぽいかも…。

Q.relmoはelmo(WCSC27)より強いのですか？
A.relmo8ですでにelmo(WCSC27)より強いです。

Q.relmo8とは？
A.リゼロ評価関数epoch8とelmo(WCSC27)を1:1でブレンドしたものをrelmo8と呼んでいます。

Q.何故強いのですか？
A.リゼロ評価関数はeval_limitが大きいため終盤に出現する形はたくさん学習していますが、序盤は定跡を用いず、かつランダムムーブを多用してあるため、あまり序盤に出てくる形(実戦において実現確率の高い形)を知りません。elmoは逆にeval_limitが小さいため終盤の形をあまり知りません。その二つが合わさった結果でしょう。

Q.どれくらい強いのですか？
A.2スレ1秒、2秒、4スレ2秒、8スレ2秒では以下のようになっています。

engine1 = YaneuraOuV471.exe , eval = elmo_WCSC27
engine2 = YaneuraOuV471.exe , eval = relmo8

T2,b1000,403 – 34 – 563(41.72% R-58.08) win black : white = 50.72% : 49.28% T2,b2000,355 – 26 – 619(36.45% R-96.58) win black : white = 49.18% : 50.82%
T4,b2000,360 – 30 – 610(37.11% R-91.61) win black : white = 50.1% : 49.9% T8,b2000,351 – 51 – 598(36.99% R-92.56) win black : white = 52.58% : 47.42%

Q. 特定の定跡の局面に対して強いだけでは？
A. 上記の対局はやねうら王の互角局面からスタートさせています。リゼロ評価関数もelmoも、この局面集を学習に用いているわけではないので、特定の定跡に対して強いというわけではないと思います。

Q. relmo8と、SDT4(昨年の将棋電王トーナメント)のPonanzaとではどちらが強いのですか？
A. SDT4のPonanzaよりWCSC27時点でのPonanzaのほうが強いはずで、そのPonanzaとelmo(WCSC27)は「Ponanza173勝 elmo89勝 4引分勝率65.8%」というデータがあります。このときのelmoに使われていたやねうら王の思考エンジンはその後の改良もあってR20〜30上がっているはずなので、最新のやねうら王 + relmo8なら、SDT4のときのPonanzaにはほぼ並んでいるのではないかと推測します。

Q. SDT5(次回の将棋電王トーナメント)ではライブラリ勢はrelmo8を使うことが出来て、それはSDT4の時のPonanza相当ということですか？
A. はい。SDT5で予選を確実に突破しようと思うとSDT4のPonanzaでも厳しいのではないかと…。

Q. relmo8はどこからダウンロード出来ますか？
A. やねうら王の最新版を用いて、
elmo(WCSC27)の評価関数ファイルを eval/
リゼロ評価関数epoch8の評価関数ファイルを rezero8/
に配置して、やねうら王の実行ファイル(YaneuraOu-2017-early.exe トーナメントモード用はNG)をダブルクリックして起動して、以下のコマンドを入力すると、relmo8/ にrelmo8の評価関数ファイルが出来ます。
test evalmerge eval rezero8 relmo8

※　評価関数の合成コマンドについて詳しくは評価関数のキメラ化コマンド公開しましたと根岸さんの記事も参考に。

「relmoの世界」への2件のフィードバック

ネタ書こうと思ったのですが下ネタしか思いつきませんでした。Orz
さて、また妙な手法を思いつきましたね。
合成って一口に言って色々ありますけど、将棋でうまくいくもんなんですね。
じゃぁ、序盤特化、中盤特化、終盤特化を作って三角合成したらそれはそれはすごそうに思いますね。
序盤中盤終盤スキがないってあれですか？
安直ですが。
意外とやればできるもんですねぇ。
素直に賞賛いたします。

返信 ↓

キメラでこんなに強くなるとは。
リアルタイム合議みたいなことになっているんですかね。
序盤特化、終盤特化があるなら評価関数切り替え型の方が強くできる気もしますが。
中盤はハーフを使えば切り替えもなだらかになるはず。

返信 ↓

やねうら王公式サイト

コンピューター将棋やねうら王公式サイト

「relmoの世界」への2件のフィードバック

コメントを残すコメントをキャンセル

「relmoの世界」への2件のフィードバック

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル