AlphaZero Shogi弱すぎクソワロタ

投稿日時: 2019年1月18日投稿者: やねうらお

AlphaZeroのShogi版は、あっという間に従来の将棋ソフトを抜き去ったかのように喧伝されているので今回はここで少しばかり反論したい。

AlphaZero(の手法)が、将棋のドメイン知識(ゲーム固有の知識)を用いずに、汎用性の高い方法でゼロから機械学習をして、囲碁・将棋・チェスのAIにおいて成功を収めた。ここに異論はないし、素晴らしい業績だと思う。この点は、惜しみなく称賛すべきであると思う。

しかし、従来の将棋ソフトを圧倒的に追い抜いたのかについては若干の疑念がある。今回は、それについてざっと書いておきたい。

AlphaZeroの論文では、aperypaqとも対局させたと書いてある。aperypaqは最新のやねうら王エンジンと組み合わせるとおそらくR4300相当である。AlphaZeroはそれよりR150か200ほど強いことになっている。正確な数値はよくわからないが、まあ仮にR200強くて、R4500であるとして話を進めよう。

AlphaZeroが採用しているMCTS(モンテカルロ木探索)の手法は、Stockfishややねうら王が用いている並列化手法であるLazySMPに較べてスケールアウトしやすいと言われている。この意味がわかるだろうか？

LazySMPの場合、コア数をN倍にしたとき、その平方根ぐらいの実効がある。(実際にはもう少し良いとも言われている)
つまり、4倍にすると√4 = nps(1秒あたりに読む局面数) 2倍相当である。npsが2倍になるといまどきの将棋ソフトでは+R200。

ここまでは異論ないはずである。

そうすると、おかしいことに気づきません？

LazySMPよりMCTSのほうが効率が良いわけであるから、今回のAlphaZeroの論文(※)にあるようにTPUv2を4基使って対局させた場合、TPUv2 1基のときより+R200以上上がる計算になるわけですよ。

※　http://science.sciencemag.org/content/362/6419/1140

そうするとTPUv2 1基だとAlphaZeroは、R4300未満なわけで、要するにaperypaqのほうが強いということですよ。

もしかして、TPUv2 1基だとaperypaqより弱かったので、4基にしたんじゃねぇの…。

まあ、2年前の論文(※)の時点で、TPU 4基と書いてあるので別にそういうわけでもないのだろうけど、これ、aperypaqに負けてたら、圧勝するまでTPUどんどん増やしていたのではなかろうか…。

※　https://arxiv.org/abs/1712.01815

そもそも、なんで4基使ってるの？1基でGeForce RTX 2080 Tiの10倍以上の性能があるのに(※)、わざわざ4基使うのずるくない？

※　TPU v2 = 180TFLOPS , GeForce RTX 2080 Ti = 13.4TFLOPS である。実際はこの1/10ぐらいの演算性能にしかならないけども、まあ、アバウトな性能比較にはなるかと…。

あと、再現実験できるようにGeForce RTX 2080 Tiとかでやってくれないかなぁ…。まあ、2080 TiだとTPUv2に較べてnpsが1/10以下になって(同じネットワーク構成の場合の話)、つまりは、-R800ぐらい下がるんだろうけども。

そう考えると、GeForce RTX 2080 Ti 1基でAlphaZeroを動かした場合、-R1000ぐらいになってR3500ぐらいしか出ないことになる。なんとかちゃんねるの書き込みでそう試算している人がいたんだけど、それはわりと正しいのではないかと私は思っている。

それからすると、gpsfish(R3000相当)にGeForce 1080で勝ち越せるようになっている山岡さんのdlshogi(※)、かなり凄いのでは？と思うわけである。

※　http://tadaoyamaoka.hatenablog.com/entry/2018/12/13/001953

山岡さんは、1年近く学習を回されていて(※)、まだ強くなり続けているとおっしゃっているわけだけども、上の計算が正しいなら、まあ、GeForce 1080(2080 Tiの7割ぐらいの性能？)だと、だいたいR3300～R3500あたりに落ち着くのかなぁと私は思いながら傍観している。

※　http://tadaoyamaoka.hatenablog.com/entry/2018/10/18/003726

そんなわけで、AlphaZeroを家庭用PC(GeForce 1080程度)で動作させたときはR3500程度だと推定されるわけであるから、家庭用PCでR4000オーバーのいまどきの将棋ソフト(『将棋神やねうら王』も含めて)には全然届いてないのではないかというのが私の試算である。

まあ、Deep Learning界隈は、ニューラルネットの構成をちょっといじくりました(e.g. ResNet)程度で、圧倒的にパフォーマンスが上がることがざらにあるので、半年後にはどうなっているかはわからないが、現状はそんな感じであるな。

追記 2019/1/18 12:00

AlphaZeroがテスト対局に用いたのはTPUv2ではなくTPUv1(初代TPU)ではないかとの指摘がありました。最新の論文を確認したところ、教師生成がTPUv1、学習がTPUv2、対局はTPUv1のようです。(最初にarxivで発表されたほうの論文には、その記述がなくて勝手にTPUv2だと私は解釈してました。) TPUv1自体はTitan V相当だと言われています。だとすると、家庭用PC(GeForce 1080程度)で動かした場合、上の本文の見積りよりは強いことになります。) この点、修正してお詫びいたします。

追記 2019/1/18 13:00

上の本文中にRTX 2080 Tiの性能として書いた13.4TFLOPSはFP32(32bitの浮動小数点数の計算)の性能で、FP16の場合、110TFLOPSだそうです。あれ？TPU v2とFLOPS上はそんなに差が無いのかな…。むむむむむ。詳しい人、コメント欄で教えてください。

追記2019/1/19 16:30

この記事の計算、ざっくりしすぎだったので、LeelaChessZeroのbenchmarksの値から正確な値を計算しなおしました。

AlphaZero Shogiの学習にかかるコストを試算してみた