従来手法に基づくプロの棋譜を用いない評価関数の学習

先日、elmo絞りを用いればプロの棋譜から学習をスタートさせなくともプロレベルの将棋ソフトになることを実証したが、実はelmo絞りを用いず、従来手法でも同じことが出来ることをここに手短に示す。

続きを読む

人間の棋譜を用いずに評価関数の学習に成功

今回、新たに評価関数をゼロベクトルから学習させた。elmo絞りを使うと意外と簡単にApery(WCSC26)相当の棋力を持つ評価関数にまで出来るようだ。追試できるように記事の前半に手順を記しておく。また、記事の後半には何回目のelmo絞りでどの程度の強さであったかも示す。

続きを読む

将棋ソフトの機械学習の成否を判定するための資料

やねうら王の学習部を刷新したときに、この学習部にバグがないかを以下の手順で判定した。将棋ソフトの学習部をフルスクラッチで書いている他の開発者の参考になると思うので、その手順やデータを公開する。

続きを読む

強化学習の途中でのアーキテクチャーの変更

強化学習を用いて機械学習をさせているときに、エージェントのアーキテクチャーを途中で変更したいことが多々あります。将棋ソフトで言うと評価関数の形を途中で変更したいということですね。

続きを読む