強化学習の途中でのアーキテクチャーの変更

投稿日時: 2016年11月25日投稿者: やねうらお

返信

強化学習を用いて機械学習をさせているときに、エージェントのアーキテクチャーを途中で変更したいことが多々あります。将棋ソフトで言うと評価関数の形を途中で変更したいということですね。

コンピュータ将棋の新しい用語「雑巾絞り」「リセマラ」

投稿日時: 2016年11月7日投稿者: やねうらお

コンピュータ将棋界に新しく誕生した用語「雑巾絞り」。大規模学習(強化学習)によって、少しずつ評価関数を強くしていく手法。元はponanzaチームのインタビュー記事から生まれた言葉でした。

投稿日時: 2016年11月6日投稿者: やねうらお

やねうら王ライブラリを用いて、雑巾絞りがうまく出来ているときは、概ね以下のようなグラフになります。(使用教師局面数 = 20億)

投稿日時: 2016年11月5日投稿者: やねうらお

Bonanzaメソッドが公開されたとき(2006年〜)、棋譜さえあれば将棋ソフトは自動的に強くなるのではないかと人々は思った。

投稿日時: 2016年11月2日投稿者: やねうらお

Ponanza開発者の山本くんがASCII.jpに記事を書いていて、これがまためちゃくちゃ面白い記事なので紹介しておきます。

投稿日時: 2016年11月1日投稿者: やねうらお

いくつか書いてなかった機械学習関係の話を書いていきます。

投稿日時: 2016年11月1日投稿者: やねうらお

オッス！オラ、オライリー！(挨拶)

高校生程度の数学の知識でも、Pythonでニューラルネットのコードが書けるようになっちゃうと評判のDeep Learningの入門書籍なんですけど、amazonでは絶賛売り切れ中です。