ポストビッグデータとしての強化学習が将棋ソフトを変えた

Bonanzaメソッドが公開されたとき(2006年〜)、棋譜さえあれば将棋ソフトは自動的に強くなるのではないかと人々は思った。

その考えは概ね正しかった。評価関数の表現の限界までは棋譜さえあれば、理論上は強くなる。

しかしその肝心の棋譜が圧倒的に足りていなかった。3駒関係(KPP)には1億次元以上のパラメーターがあったからだ。

1億の未知数を決定するためには、(N元一次連立方程式だとして)少なくとも1億個の方程式が必要だ。実際には、未知数の10〜100倍の方程式(≒教師局面)が必要だ。

オンラインで入手可能なプロの棋譜は3万棋譜ほどしかなかった。局面数で言っても300万局面程度。300万局面で1億個のパラメーターが調整できるのか?できない。全くと言っていいほど足りていない。

そして、我々は、全く足りていないことにもあまりに無自覚であった。当時は「入玉のときの評価値が少しおかしいな。入玉の棋譜が少し足りてないかなー」ぐらいの認識であった。足りてないのは入玉棋譜のみではなかった。何もかもが足りてなかったのだ。

当時、機械学習を用いて作ったソフト(Bonanza 2007年〜)とそうでないソフト(当時の激指、YSSなど)とくらべて、「機械学習で評価関数を作っても同じぐらいの棋力になるんだね、不思議だねー」などと言っていた。

いまにしてみれば、「んなわけあるかい」であって、それだけ計算のしやすい、差分計算にも向いているような評価関数(KPP)を用いて、きちんとチューニングして、機械学習を用いていないソフトと同じぐらいの強さにしかならないだなんて、まさに異常事態だ。だが、当時は誰もそうは思わなかった。牧歌的な時代であった。

そのあと、この学習局面の不足を次元下げで補おうとした。NDF(2013年)の相対KPP、AWAKE(2014年)のKPE次元下げである。いまにして思うと、それは全く間違ったアプローチであった。そんなことをしてもデータが足りないことには変わりなく、学習部はとても複雑なプログラムと化して、評価関数の形を変更することが容易でなくなった。

それでは駄目だと言うことで、自らの深い探索の結果を教師として与えることにした。それが、今回の大規模学習だ。

思うに、ビッグデータが持て囃される時代は終わった。

猫画像ならいざ知らず、大抵の分野においてビッグデータなんてどこにも転がってなんていないのだ。

そういう分野においてデータ自体を自己生成しなければならない。優秀な教師データをいかにして自己生成するか。分野によりその手法は異なるだろう。そして、その優秀な教師データを教師として学習をさせなければならない。それこそが、強化学習なのだ。

だからビッグデータのブームは早々に終焉を迎え、強化学習全盛の時代が来るのはもはや必然なのである。将棋ソフトの世界にもその波が押し寄せてきたのだ。

ポストビッグデータとしての強化学習が将棋ソフトを変えた」への6件のフィードバック

  1. アルファ碁のグーグルさんは応用の話よくしてるけど、コンピュータ将棋も少しは金になる応用もあるんですかね?

    • 応用が金になるかという議論以前に、将棋ソフト自体、うまくやれば将棋ウォーズの棋神のように、直接的に収益につながるんじゃないですか?

    • 人類の知識と経験の集積になって、いずれ他の分野の誰かに使われます。

      それでいいのでは?

      直近では自動運転かも?

    • 学校のバスケットボール部で「どういう位置に移動すべきか」をコーチするソフトなんて、あと3年くらいしたら出てきそうだ。

      バスケットボール部なんて世界の国にあるので、当たれば1億円くらいもうかるのか?知らんけど

  2. 非常に興味深いお話しです。ビックデータが無いような経験と勘に基づいた世界がAIの登場でシミュレーションによる大規模学習によって進化できるという意味でこの話はもっと広まっても良いと思います。一般向けにどっかの雑誌に書いて下さい

  3. ビッグデータを処理してサジェストするだけの簡単なお仕事です。
    リアルでもそうですよね。
    変な人が多いのは規範になる良いデータがないから、それを生成するために野放しにされる感じで。最近は色々形骸化して収束する方向なんじゃないかと思います。
    昭和なんかは良い実験の時代だったかもしれません。最初のなんていうか、花形文化だったわけですから。今は昭和を見てあれが良かったあれがダメだったって言ってれば収束しますもん。
    でも、未知の局面ではまだズッコケてますよね。ブラック企業とか。
    問題が山積した文化というのもカオスで面白いんですけど、しばらくなさそうで退屈です。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です