人間の棋譜を用いずに評価関数の学習に成功

投稿日時: 2017年6月12日投稿者: やねうらお

今回、新たに評価関数をゼロベクトルから学習させた。elmo絞りを使うと意外と簡単にApery(WCSC26)相当の棋力を持つ評価関数にまで出来るようだ。追試できるように記事の前半に手順を記しておく。また、記事の後半には何回目のelmo絞りでどの程度の強さであったかも示す。

続きを読む →

elmo絞りで半年を4時間半に

投稿日時: 2017年6月11日投稿者: やねうらお

昨年のAperyであるApery(WCSC26)。そのおおよそ半年後のバージョンである「浮かむ瀬」。多くの協力者に教師局面の生成を手伝ってもらうことで飛躍的に進化したことは記憶に新しいですね。

続きを読む →

Half Float Library作りました

投稿日時: 2017年5月29日投稿者: やねうらお

機械学習で使う用にhalf float(16-bit float)の演算ライブラリ作りました。と言ってもfloat型がIEEE 754の形式であることを仮定して、符号bitと指数部、小数部をそのままとってきてuint16_tに変換する、みたいな感じのお手軽実装ですが。

続きを読む →

elmoは何故2周目の雑巾を絞れないのか

投稿日時: 2017年5月27日投稿者: やねうらお

WCSC27のelmoのアピール文書より。

続きを読む →

将棋ソフトの機械学習の成否を判定するための資料

投稿日時: 2017年5月26日投稿者: やねうらお

やねうら王の学習部を刷新したときに、この学習部にバグがないかを以下の手順で判定した。将棋ソフトの学習部をフルスクラッチで書いている他の開発者の参考になると思うので、その手順やデータを公開する。

続きを読む →

強化学習の途中でのアーキテクチャーの変更

投稿日時: 2016年11月25日投稿者: やねうらお

返信

強化学習を用いて機械学習をさせているときに、エージェントのアーキテクチャーを途中で変更したいことが多々あります。将棋ソフトで言うと評価関数の形を途中で変更したいということですね。

続きを読む →

コンピュータ将棋の新しい用語「雑巾絞り」「リセマラ」

投稿日時: 2016年11月7日投稿者: やねうらお

コンピュータ将棋界に新しく誕生した用語「雑巾絞り」。大規模学習(強化学習)によって、少しずつ評価関数を強くしていく手法。元はponanzaチームのインタビュー記事から生まれた言葉でした。

続きを読む →

学習時のrmseについて

投稿日時: 2016年11月6日投稿者: やねうらお

やねうら王ライブラリを用いて、雑巾絞りがうまく出来ているときは、概ね以下のようなグラフになります。(使用教師局面数 = 20億)

続きを読む →

ポストビッグデータとしての強化学習が将棋ソフトを変えた

投稿日時: 2016年11月5日投稿者: やねうらお

Bonanzaメソッドが公開されたとき(2006年〜)、棋譜さえあれば将棋ソフトは自動的に強くなるのではないかと人々は思った。

続きを読む →

DeepLearningの解釈性の悪さについて

投稿日時: 2016年11月2日投稿者: やねうらお

Ponanza開発者の山本くんがASCII.jpに記事を書いていて、これがまためちゃくちゃ面白い記事なので紹介しておきます。

続きを読む →

やねうら王公式サイト

コンピューター将棋やねうら王公式サイト

「機械学習」カテゴリーアーカイブ

人間の棋譜を用いずに評価関数の学習に成功

elmo絞りで半年を4時間半に

Half Float Library作りました

elmoは何故2周目の雑巾を絞れないのか

将棋ソフトの機械学習の成否を判定するための資料

強化学習の途中でのアーキテクチャーの変更

コンピュータ将棋の新しい用語「雑巾絞り」「リセマラ」

学習時のrmseについて

ポストビッグデータとしての強化学習が将棋ソフトを変えた

DeepLearningの解釈性の悪さについて