やねうら王の学習ルーチンを使っている開発者の方へ

投稿日時: 2016年8月28日投稿者: やねうらお

やねうら王の学習ルーチンを使っている開発者の方へ大切なお知らせ。

やねうら王の学習ルーチンで、SGDで学習させるときにw[0](非手番)とw[1](手番)の値を更新するのに、w[0]側はeta、w[1]側はeta2という学習率の係数を掛けているのですが、etaをepochが進むにつれて減衰する値に修正したときに、etaをconstからglobal変数に変更していて、eta2はconst float eta2 = eta/4;のように定義してあるので、eta2が0のままになっていました。つまりは手番側の値を変動できなくなっていました。この変更してから、なんかおかしいと思ってたんだよ！そんなわけで#define eta2 (eta/4)　のように修正するなどしてください。

その他、学習で困ったことがあればコメント欄で質問などどうぞ。

学習に関するありがちなQ & A (2016/08/29 24:00追記)

SGDでの学習に関して

Q) SGDは普通countみたいな変数は用意せずにw = w – η ∂J / ∂w で更新していくと思うのですが、やねうら王のように、この∂J / ∂wの項をcountで割ったほうが良いのですか？

A) mini-batchで学習させるときにmini-batchの量に応じてηを調整するのが面倒だったのでそうしてあります。また、比較的sparseで、あまり出現しない特徴因子もありますから、そういう特徴因子に対しても値はそれなりに変動して欲しいのでこのようにしてあります。

教師生成のdepth関して

Q) 教師局面を生成するときのdepthはいくらがベストなのですか？

A) depthが深いほうが雑巾が絞りやすい(1回のイテレーションにおける棋力の向上が大きい)と言われていますが、本当のところよくわかりません。depthが深いと教師局面の生成に時間がかかりますので、最初のうちはdepth3で回して、サチって(飽和して)から、depthを徐々に上げていくのが良いでしょう。

教師生成時のEVAL_LIMITに関して

Q) 教師局面を生成するときのEVAL_LIMITはいくらがベストなんですか？

A) 最初イテレーションでは大きめの値(VALUE_MAX_EVALなど)に設定したほうが早く強くなるようです。しかし勾配が大きくなりがちなので単に目的の値に早く収束しただけで学習率を大きくしたときのような効果しかない可能性があります。イテレーションが進むにつれて都度調整したほうが良いでしょう。

教師局面の数について

Q) 1回に生成する教師局面はどれくらいがベストなのですか？やはり80億局面ですか？

A) 最初のうちは数億局面程度でも問題ないようです。サチってから増やしていきましょう。

教師局面生成のときの優等局面/劣等局面の扱いについて

Q) 教師局面の生成のときに優等局面/劣等局面の値(VALUE_KNOWN_WIN)は局面の教師値として好ましくないと思うのですが、これは避けたほうが良いのではないですか？

A) 教師局面を生成するときのEVAL_LIMITを2000ぐらいに設定していれば、VALUE_KNOWN_WINが返ってきた時点でその対局はそこで打ち切られますから、実際にそのような局面の値を教師値として使うことはないのでは。

Q) EVAL_LIMIT = VALUE_INFINITEにしていると、VALUE_INFINITE ≫ VALUE_KNOWN_WINなので、生成されてしまいます。

A) それは確かにそうです。その動作が気持ち悪ければEVAL_LIMITをVALUE_KNOWN_WINより大きな値にはしないほうが良いです。

Q) 詰み寸前の形を学習させたいのでEVAL_LIMIT = VALUE_INFINITEにしたいです。

A) なるほど。であれば、教師生成のときには探索部の以下のように改造しましょう。(この改造をした思考エンジンは、通常の対局には向きません。)

	auto draw_type = pos.is_repetition();
-	if (draw_type != REPETITION_NONE)
+	if (draw_type != REPETITION_NONE
+		&& draw_type != REPETITION_SUPERIOR && draw_type != REPETITION_INFERIOR)
		return value_from_tt(draw_value(draw_type, pos.side_to_move()), ss->ply);

auto draw_type = pos.is_repetition();

- if (draw_type != REPETITION_NONE)

+ if (draw_type != REPETITION_NONE

+ && draw_type != REPETITION_SUPERIOR && draw_type != REPETITION_INFERIOR)

return value_from_tt(draw_value(draw_type, pos.side_to_move()), ss->ply);

教師局面からの学習に関して

Q) 3億局面を生成して5周学習させていますが、何周ぐらいさせるのがベストなのですか？

A) SGDの場合、eta(学習率η)で収束の速さが変わります。うまく調整すれば(最初のほうのイテレーションでは)3億×3周ぐらいで収束します。(自己対戦させてもそれ以上は強くならないという意味で) 学習を開始して数分間のrmseなどを見ながらetaを調整してみてください。

Q) rmseが下がらなくなったところで学習を打ち切っても大丈夫ですか？

A) rmseが下がらなくなってもしばらく学習を回していると強くなることがあります。評価関数を定期的に保存してそれぞれを対局させてみると良いでしょう。

Q) 学習のときにqsearch()を呼び出して、その得られたpv通りにleaf nodeまで進めてもevaluate()がqsearch()の返し値とは異なるときがありますが、何故ですか？

A) qsearch()では置換表の値で枝刈りするため、pvでleaf nodeまで進めてもそこのevaluate()の値がqsearch()の返し値とは限りません。その局面のより適切な評価としてはそれで正しいと私は思うのですが、この動作が気持ち悪ければ、やねうら王ではDISABLE_TT_PROBEをdefineすれば置換表のprobeをしないようになります。(このとき、通常の思考エンジンとしては使えなくなります。学習のとき用にお使いください。)