第33回世界コンピュータ将棋選手権準優勝記

WCSC33(第33回世界コンピュータ将棋選手権)ではやねうら王が準優勝となった。

やねうら王チームは本大会では探索エンジンとしてDeep Learning(以下DLと略す)を用いるふかうら王を用いた。優勝したdlshogiチームももちろんDL型であり、本大会は1,2位がDL系のソフトであったということを最初に書いておくべきだろう。WCSCでも上位入賞ソフトをDL系のソフトが占めるようになってきたというのは、(将棋AIにとって)時代の転換期に突入していると言える。

今回優勝したdlshogiチームはA100×8の9台構成。すなわち、A100が72基あるということだ。AWSで借りれば、1時間4万円ぐらいかかる。それに対して、やねうら王チームは、vast.aiという個人間でGPUを貸し借りするサイトで借りて、1時間たったの$4.8。決勝日に限って言うと、私が深夜0時に目が覚めてしまったので、それから安いインスタンスが出てくるのをずっと待ってたらさらに安くで借りれて、1時間たったの$3.6であった。

決勝日に借りられたのは9x RTX4090(二次予選では8x RTX4090)。ゴールデンウィーク中は利用者が増えるらしく、(料金にかかわらず)この日9x RTX4090が借りられるタイミングは一瞬しかなかった。つまり、深夜0時に起きて、その一瞬を私は制したわけである。これだけで大勝利だ。

ともかく、1時間500円ぐらいのPCで、1時間4万円のPCに奮闘したと言うと聞こえは良いのだが、GPUに詳しい人には言うまでもなく、やねうら王チームの方がdlshogiチームよりハードウェアスペックは上なのだ。

dlshogiチームの名誉のためにも、これについてはきちんと書いておかなければならない。

まず、dlshogiチームの9台構成というのは、疎結合クラスターのためである。もともと将棋AIにはponderと言って自分がbestmove(指し手)を返した時に、相手の次の一手を予測しておき、相手の手番において相手がその指し手を指した次の局面について思考する機能がある。これにより、ponderの指し手が当たると(これをponderhitと呼ぶ)、瞬時に指し手を返せたりする。

このponderを拡張したのがmulti ponderという技術で、WCSC28(第28回世界コンピュータ将棋選手権/2018年)で白ビールチーム(ソフト名:Hefeweizen)の優勝の原動力となった手法である。ちなみに、その翌年に開催されたWCSC29では、その(multi ponderを使ってきた)白ビールを打ち破って(multi ponderを使わない)本大会初出場のやねうら王チームが優勝している。

私はmulti ponderについても実際に実装して棋力の計測はしたのだが、即指しして相手の持ち時間を削ることはあるものの、言うほど強くならないことを確認している。要するに私に言わせると計算資源の無駄である。また、dlshogiの開発者である山岡さん自身も、multi ponderであまり強くならないことは認めている。

つまり、A100×8の9台構成とは言っても、実質的にA100×8なのだ。

それで、A100とRTX 4090とではどちらが性能が上なのかということだが、A100はRTX 3090と同じ世代で、(Deep Learningの)「推論」に用いるならばA100はRTX3090と同じぐらいの性能しかでない。将棋AIで対局時に用いるのは、(学習ではなく)「推論」だから、この推論性能が問題となる。

言うまでもなくRTX 4090はRTX 3090の後継で世代が一つ違うし、倍ぐらいの性能がある。

ということで、A100×8 より、9x RTX 4090の方が2倍以上性能が上なのだ。

そもそもで言うと、A100はGPUのメモリをたくさん搭載しているので(Deep Learningの)学習に適したGPUであり、(GPUメモリのさほど必要のない)推論で使うぐらいなら、RTX 3090使っておけと言うことなのだ。dlshogiチームがなぜA100を使うのかと言うと、それはHEROZ(将棋ウォーズの会社)の社内のデータセンターにA100がいっぱいあるので、HEROZの社長の林さんが「WCSCで勝つためになら使ってヨシ!」とか言って(← 私の想像です)タダで使わせてもらっているからなのだ。

そんなわけで、やねうら王チームがdlshogiチームの2倍以上いいマシンを用意したけど準優勝にしかならなかったのは、評価関数モデルの学習で圧倒的に負けているからである。私の試算によるとこの格安でGPUを借りられるvast.aiで、年間数百万は使わないとモデル性能において敵いそうにない。大会だけいいハードウェアを持ってきて頑張っても仕方ないわけである。

つまり、大会で優勝するためには(運の要素も絡むがモデル性能だけで言うと)毎年それぐらいの金額を捻出し続けなければならない。将棋AIは札束での殴り合いの時代に突入したのである。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です