強化学習を用いて機械学習をさせているときに、エージェントのアーキテクチャーを途中で変更したいことが多々あります。将棋ソフトで言うと評価関数の形を途中で変更したいということですね。
強化学習の途中でのアーキテクチャーの変更
返信
強化学習を用いて機械学習をさせているときに、エージェントのアーキテクチャーを途中で変更したいことが多々あります。将棋ソフトで言うと評価関数の形を途中で変更したいということですね。
とりあえず、55将棋に絞って話を進める。55将棋では駒は12枚しかない。K(King)を除くと、10枚しかない。
前回からさらにR200ほど強くした。
王手将棋用の評価関数ファイルV2を公開して、わずか数時間で必勝法を見つけてこのブログにコメントをくださった人がいた。本当、インターネットは凄い人博覧会である。これには参った。
王手将棋用評価関数ファイルV1で真やねうら王の評価関数からR300上がった時は驚きだっだったが、王手将棋用評価関数ファイルV1からさらにR340ほど上げることに成功したので、ここに公開する。
昨日の記事のコメント欄で教えてもらった手順が、やねうら王の王手将棋エディションで回避できない。
やねうら王 王手将棋エディションで使える、王手将棋専用評価関数ファイルV1を作ってみたので王手将棋に詳しい人たちはちょっと試して欲しい。
王手将棋専用評価関数ファイルV1
https://drive.google.com/file/d/0Bzbi5rbfN85NOEF6QWFienZrSDg/view
4スレ1秒,3秒で真やねうら王からR300ぐらい向上している…ようだ。自分でもにわかに信じられないが、囲い方が全く違うので、本当に強くなっているのかも知れない。検証求む!
王手将棋は本将棋の評価関数など搭載するぐらいなら計算力に任せてひたすら読みに徹するほうが強いのではないかというコメントを頂戴したが、決してそんなことはない。
やねうら王のほう、王手将棋に対応させた。王手をするとその時点で勝ちという変則ルールの将棋である。