リゼロ評価関数のほう、ようやくepoch11にしてelmo(WCSC27)と並んだのだが、穴熊に全然囲わない。穴熊超嫌い。どうやっても穴熊に囲わない。
「機械学習」カテゴリーアーカイブ
6
従来手法に基づくプロの棋譜を用いない評価関数の学習
続2) 人間の棋譜を用いずに評価関数の学習
続) 人間の棋譜を用いずに評価関数の学習
人間の棋譜を用いずに評価関数の学習に成功
elmo絞りで半年を4時間半に
昨年のAperyであるApery(WCSC26)。そのおおよそ半年後のバージョンである「浮かむ瀬」。多くの協力者に教師局面の生成を手伝ってもらうことで飛躍的に進化したことは記憶に新しいですね。
Half Float Library作りました
機械学習で使う用にhalf float(16-bit float)の演算ライブラリ作りました。と言ってもfloat型がIEEE 754の形式であることを仮定して、符号bitと指数部、小数部をそのままとってきてuint16_tに変換する、みたいな感じのお手軽実装ですが。
elmoは何故2周目の雑巾を絞れないのか
将棋ソフトの機械学習の成否を判定するための資料
やねうら王の学習部を刷新したときに、この学習部にバグがないかを以下の手順で判定した。将棋ソフトの学習部をフルスクラッチで書いている他の開発者の参考になると思うので、その手順やデータを公開する。
強化学習の途中でのアーキテクチャーの変更
強化学習を用いて機械学習をさせているときに、エージェントのアーキテクチャーを途中で変更したいことが多々あります。将棋ソフトで言うと評価関数の形を途中で変更したいということですね。