昨年のAperyであるApery(WCSC26)。そのおおよそ半年後のバージョンである「浮かむ瀬」。多くの協力者に教師局面の生成を手伝ってもらうことで飛躍的に進化したことは記憶に新しいですね。
その差、レーティングで言うとおおよそR200。
さて、elmo絞りを知った我々が、これと同じことをするとどれくらいの時間がかかるでしょうか?
やねうら王の教師局面の生成部と学習部を色々改良したのでテストしてみました。
まず、Apery(WCSC26)からdepth 6で教師局面10億生成。これは、私の環境(5PC、200c400t)で2時間です。
ここからelmo絞りで10億局面を学習。(1周のみ)
これは1台のPC(40c80t)で行い、2時間半程度です。
合わせて4時間半。
これで、浮かむ瀬とほぼ同等の棋力になりました。わずか4時間半。
これが機械学習の進歩という奴なのでしょうか。
雑巾絞りの終焉と言えそうです。
今後は、マシンパワー任せに雑巾を何回絞るかという勝負ではなく、いかに緻密に雑巾を絞るかという戦いになるでしょう。学習手法の洗練と教師局面の生成・学習部の精巧さが求められます。
おーすごいですね。
今までのノウハウとやってきたオーパーツで絞るべきパラメータが見えてきた感じなのでしょうか。
それともまだゆるふわな感じなのでしょうか。
限界かと思われたものも意外と何とかなりますね。まだまだ。
ナチュラルに煽っていくスタイル…
さておき、そのelmo絞りは発散するオリジナル版でしょうか?
それとも理論的に修正した版?
> elmo絞りは発散するオリジナル版でしょうか?
オリジナル版ですね。
elmo絞りで弱くなるのは、短い時間(depth 6)では元の評価関数より弱くなりプレイアウトの質が下がるからで、元の式が悪いわけではないですしね。