本大会で最強の評価関数はAperyのものだと私はくどいほど言い続けたが、それを確認しておく。
投稿者「やねうらお」のアーカイブ
評価値がオーバーフローするとどうなりますか?
今年の6月ごろ、色んな人から、やねうら王だと教師局面の生成が終わらないことがあるという報告を受けた。
評価関数をゼロから学習させるときに駒割りも学習させる話
リゼロ評価関数では、評価関数をゼロから学習させているが、駒割り(駒の点数)は、Aperyのソースコードで定義されている点数を初期値として用いてある。実際のところ、これがすべてゼロであってもきちんと学習できることは確かめた。
何故、SDT5までにやねうら王は強くならなかったのか
今回、やねうら王は公開しているバージョンからほとんど強くすることが出来なかった。(KPP_KKPT型 評価関数でelmo+R170、探索部で+R20程度。elmo+rezero8 = relmo8がelmo+R120程度なので+R70ぐらいしか強くなっていない。) 私の本業のほうが忙しかったこともあるが、それを差し引くとしても、課題に対する取り組み方とか、方針の立て方とか、色々反省すべき点は多い。他の開発者が同じ轍を踏まぬよう、その原因をざっと書いておきたいと思う。
freeze_kkは何のためにあるのですか?
やねうら王のlearnコマンドのfreeze_kk/kkp/kppは何のためにあるのか、説明を書いておく。
256手ルールが前大会から改変されていた件
今回の電王トーナメントで256手ルールが問題になった。
定跡をdepth 34で掘るときに知っておくべきこと
今回の大会(第5回 将棋電王トーナメント)でのやねうら王は、定跡をdepth 34で掘った。
本大会のやねうら王は究極のリゼロ系
今回のやねうら王は、学習時に人間の棋譜を用いていない。いわゆるリゼロ系である。学習時に人間の定跡も用いていない。初期局面から何手かランダムムーブさせた局面からdepth 10で対局させたものを教師局面として用いている。
評価関数のブレンドに関する知られざること
今回の大会、決勝に進出した12チームのうち、Ponanza、Apery、Seleneを除く9チームがやねうら王チルドレン。
KKPPに関する知られざること
第5回 将棋電王トーナメント決勝日の朝にこの記事を書いています。
KKPP型評価関数について、あまり知られていないこと、知っていると有利なことをざっと書いておきます。