コンピュータ将棋の新しい用語「雑巾絞り」「リセマラ」

コンピュータ将棋界に新しく誕生した用語「雑巾絞り」。大規模学習(強化学習)によって、少しずつ評価関数を強くしていく手法。元はponanzaチームのインタビュー記事から生まれた言葉でした。

プロ棋士に連勝!将棋ソフト「Ponanza」はなぜここまで強いのか
http://ascii.jp/elem/000/001/171/1171630/

雑巾絞りを繰り返していくと1回で絞れる(強くなり)量が次第に減っていきます。さながらドモホルンリンクルのように…。

電王トーナメントのときにPonanzaの山本君は、「雑巾、カッチカッチやで」(雑巾を絞ってもわずかにしか強くならない)と言ってました。

そこで、たぬきチームのように、雑巾絞りを繰り返したあとだと、(機械学習の)学習率を調整してもわずかにしか棋力が変化しないので計測しにくく、まだ雑巾を絞っていないころの評価関数を持ってきて、学習率を調整して学習をしなおすという手法が採られました。この手法にちょうどいい名前がなかったので「リセマラ」と私が命名しました。言うまでもなく「リセマラ」というのは、スマホのゲームなどでレアカードが出るまでリセットしてゲームをやりなおすリセットマラソンのことです。

コンピュータ将棋以外の分野でも、強化学習系の機械学習をしているとこの「雑巾絞り」と「リセマラ」に遭遇することがあります。機械学習に取り組んでおられる皆さん、便利な用語なので是非使ってみてください。

コンピュータ将棋の新しい用語「雑巾絞り」「リセマラ」」への7件のフィードバック

    • そこで出たレアカード(学習率等のハイパーパラメーター)が雑巾絞りの高次ラウンドで通用するのかどうか…。私にもよくわかりません。

    • 1回目の学習でRが100強くなりました。
      学習率を変えて再度学習スタートです。Rが101強くなりました。

      みたいに、学習率だけ変えても学習結果は大差ないイメージなんですが、たまにRが150強くなりましたみたいな結果になるのでしょうか?

      • ローカルミニマムに収束するまで無限の時間を使って回すわけではなく、実際は80億局面を1回学習させるだとか、そんな感じで学習させますので、学習率で全く棋力の異なるものが出来上がります。

Ta(ry へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です