第31回世界コンピュータ将棋選手権は前年の優勝ソフトに9割勝つソフトがスタートライン

来る5月のゴールデンウィークに第31回世界コンピュータ将棋選手権が開催されます。COVID-19の感染拡大状況を考慮し、オンライン開催であることが決定しています。

// WCSC31 : http://www2.computer-shogi.org/wcsc31/

さて、今年は前年に比べてどれくらい強くなっているのでしょうか？

昨年の大会は開催されず、代わりにオンラインで親善試合のようなものが開催され、その優勝ソフトは水匠でした。

// WCSC30 : http://www2.computer-shogi.org/wcsc30/

そして同年の11月には第一回電竜戦というオンライン大会が開催され、GCTという将棋ソフトが優勝しました。

// 電竜戦 : https://denryu-sen.jp/

GCTは、Deep Learningを採用した将棋ソフトであるdlshogiを思考エンジンとして用いています。model(≒評価関数のパラメーター)は、独自に機械学習されたものです。

本番スペック(AWSのA100×8)において、おそらく、水匠(Ryzen Threadripper 3990X)より+R100ぐらい強いのではないかと思います。

そして、GCTの開発者の加納さんは電竜戦の大会終了後にその学習に用いたデータセット(教師局面≒棋譜)を公開されました。

// dlshogi-DenryuSen-resnet10_swish-amp.ipynb : https://colab.research.google.com/drive/1beq7ncmE16lIvOhGTHLzxOwaQNzAcUqh?usp=sharing

つまり、これにより、(プログラミングのことが全くわからなくとも)誰でもGCTと同じ強さのmodel(評価関数)を作成できるようになったわけです。

GeForce RTX 3090で0からスタートして上のデータセットを用いてGCT相当の強さにするのに要する時間は2週間程度のようです。思考エンジンであるdlshogi本体はオープンソースでありGitHubで公開されてますから、RTX 3090搭載PCを買って2週間あれば誰でもGCT相当の強さで出場できるわけです。

// dlshogi GitHub : https://github.com/TadaoYamaoka/DeepLearningShogi

さらに、上のデータセット、AobaZeroとdlshogiの教師局面で1周しか学習させていませんが、これを2周、3周と繰り返し学習させるだけで、さらに+R100程度強くなることがわかっています。

また、前回の電竜戦では、GCTはGPUは1/3程度しか使えていませんでした。これはCPU側がボトルネック(足かせ)になっていたのですが、それなら、3倍大きなmodel(これによりGPU側の処理時間が3倍)を使えば良いのです。学習時間も3倍近くなりますが、大きなmodelのほうが学習能力が高いので、同じ探索ノード数であってもより正確な局面の評価ができます。それゆえ、同じノード数比較では強くなります。これで、+R100は稼げます。

あと、AWSはA100×8というインスタンスが一番GPUのスペックが高いので、前回の電竜戦ではGCTチームはこれを利用していたのですが、GCP(Google Cloud Platform)でA100×16というインスタンスが使えるようになったそうです。つまりは、電竜戦の時の2倍のスペックです。このGPUを使い切るには、modelの大きさをさらに2倍にするか、探索部を高速化するかですが、まあ、何も考えずに2倍のmodelを使えばどうでしょうか。(学習時間が2倍になるので本番までに間に合わないかもしれませんが) これで、さらに+R100は稼げます。

まとめますと、水匠 + R100 = GCTで、GCT + R100(教師を2,3周させる) + R200(GCPを使う、modelを6倍にする)で、水匠より+R400強いソフトが誕生するわけです。(プログラミングを何もわからない人であってもRTX 3090搭載PCが1台あれば)

// そんな大きなモデルの学習が当日までに間に合うかどうかは知りませんが、間に合わなければGCPでA100×1のインスタンスで借りられるらしいのでそれを用いるなり何なりすればよろしいかと思います。

つまり、ここが今回のDeep Learning勢のスタートラインなんです。前大会の優勝ソフト(水匠)に+R400の(≒9割勝つ)ソフトが。

プログラムを何も知らない人が前大会の優勝ソフトに9割勝つソフトで参加してきちゃうの、ヤバくないですか？

無論、プログラミングが書けるか、機械学習に精通しているかすれば、もっと色んな改良ができちゃいます。今回、水匠+R600とか+R800とかのソフトが出てきてもおかしくはないです。

コンピュータ将棋の歴史上、1年でこんなに強くなったことはありませんでしたが、Deep Learningと、それを取り巻く環境(ハイエンドなGPUがクラウドで借りられる)、そして機械学習界隈の技術の進歩がそれを可能にしました。

観る側としてはとても楽しみな大会ですが、私は参加する側なので非常に胃が痛いです。😥