前の記事で、期間限定で「depth10で作った110億局面の教師データ」を公開したのだが、WCSC28のルールによると、大会終了(?)まで入手可能ではない教師データはライブラリとして使えないらしい。仕方がないな…この教師データをWCSC28のライブラリ申請するとともに、WCSC28終了まで公開しておくことをここに約束しよう。
なるほど、事情は理解しました。先日コウカイした300GBの教師データ、私の方でWCSCのライブラリ申請をするとともに、WCSC28終了まで公開しておきますね(`・ω・´)b
— やねうら王 (@yaneuraou) November 25, 2017
しかし、このデータはWCSC29、WCSC30、…といつまで公開し続ければ良いのであろうか…。なにせ今回のデータだけでも300GBある。新しいデータを公開するごとに、どんどん追加で300GBものデータをホスティングしていかなければならないのであろうか。誰得なのかは知らないが、なかなか大変なルールであるな…。
それはともかく、この教師局面から学習させるとどれくらいの強さになるのか詳しく書いておく。
うちの家の機械学習用のPCは6台ある。教師局面を生成するときはPC並列で行なうが、教師局面からの学習を行なうときはPC並列で行えない。なので、1台を学習に使っている間、他のPCは自己対局してレーティングの計測をしたりするのだが、それでもうまく活用できなくてもったいないので、異なる学習条件で学習させたりしている。
今回、KPPT型、KPP_KKPT型、両方のrezero評価関数をこの教師で学習させた。どちらもelmo+R170ぐらいになった。SDT5には、やねうら王は後者で出場した。同じぐらいの強さなら、ファイルが小さいほうが転送したりする手間が少なくて済むはずだし、コア数が増えたときにアクセスするメモリ領域が少ないほうがCPU cacheの汚染が少なくて、パフォーマンスが良いかもという理由である。
そんなわけで、SDT5のやねうら王は、KPPT型をKPP_KKPT型に変換したものではない。(たぶんその変換をするとR50〜R100ぐらい弱いものが出来上がる。)
あと、3つ前の記事でAperyの評価関数と強さを比較するときに、KPPT型のrezeroを用いたのは、AperyがKPPT型なので、それと合わせるためである。(型が違うと、長い持ち時間になったときに差が開いたりする可能性がなくはないし、nps自体が違うので評価関数自体の公平な比較とは言い難いからだ。)
追記 2017/12/07 16:45
WCSC28のルールが発表になりました。教師データに関しては、公開期間が1ヶ月であれ、WCSC28のライブラリ扱いされるらしいので、WCSC28までずっと公開しておくのではなく、1ヶ月ごとぐらいに新しいデータを公開していけたらと思います。
googleが将棋の論文出したとか言ってますけど、内輪ではすでに札束でのはたき合いになってる現状スーパーマンが出てこられたらどうしようもないような気がします。
それともgoogleの方法はブレークスルーになりえるのでしょうか??
ちなみに英語できないので論文は詠んでません。Orz
その話題はこの記事のコメントにぶら下げるべきものではないぞよ。ヽ(`ω´)ノ
あぁ、ごめんなさい。