コンピュータ将棋界に新しく誕生した用語「雑巾絞り」。大規模学習(強化学習)によって、少しずつ評価関数を強くしていく手法。元はponanzaチームのインタビュー記事から生まれた言葉でした。
プロ棋士に連勝!将棋ソフト「Ponanza」はなぜここまで強いのか
http://ascii.jp/elem/000/001/171/1171630/
雑巾絞りを繰り返していくと1回で絞れる(強くなり)量が次第に減っていきます。さながらドモホルンリンクルのように…。
Ponanzaに一発当てて満面の笑みで写真を撮ってた姿が印象的なやねさんですが、今回個人的に一番ダメージを受けたのは雑巾絞りの手法を説明する際に「ドモホルンリンクルみたいに少しずつレートが滴ってくるねん」と言ってたことです。もうドモホルンリンクルのcmを直視できない……
— Qhapaq (@Qhapaq_49) October 10, 2016
電王トーナメントのときにPonanzaの山本君は、「雑巾、カッチカッチやで」(雑巾を絞ってもわずかにしか強くならない)と言ってました。
そこで、たぬきチームのように、雑巾絞りを繰り返したあとだと、(機械学習の)学習率を調整してもわずかにしか棋力が変化しないので計測しにくく、まだ雑巾を絞っていないころの評価関数を持ってきて、学習率を調整して学習をしなおすという手法が採られました。この手法にちょうどいい名前がなかったので「リセマラ」と私が命名しました。言うまでもなく「リセマラ」というのは、スマホのゲームなどでレアカードが出るまでリセットしてゲームをやりなおすリセットマラソンのことです。
コンピュータ将棋以外の分野でも、強化学習系の機械学習をしているとこの「雑巾絞り」と「リセマラ」に遭遇することがあります。機械学習に取り組んでおられる皆さん、便利な用語なので是非使ってみてください。
学習率を調整して学習をしなおすと、まれにレアカードが出るのでしょうか?
そこで出たレアカード(学習率等のハイパーパラメーター)が雑巾絞りの高次ラウンドで通用するのかどうか…。私にもよくわかりません。
波のように揺り返しながら風が止まるのを待つ感じになりそうですね。
1回目の学習でRが100強くなりました。
学習率を変えて再度学習スタートです。Rが101強くなりました。
みたいに、学習率だけ変えても学習結果は大差ないイメージなんですが、たまにRが150強くなりましたみたいな結果になるのでしょうか?
ローカルミニマムに収束するまで無限の時間を使って回すわけではなく、実際は80億局面を1回学習させるだとか、そんな感じで学習させますので、学習率で全く棋力の異なるものが出来上がります。
あれ?これってひょっとしたらとてつもない凄い事なのでは?
リゼマラ(同人誌)