今年のWCSC29の上位ソフトはAlphaZeroを超えたのですか?

囲碁ソフトのように人間による評価関数の設計が難しいとされてきた分野ではAlphaZero型の手法を採用したソフトの圧勝なのですが、将棋やチェスのソフトは比較的シンプルな評価関数(2駒関係、3駒関係やNNUEなど)でもそこそこの精度で盤面の評価ができるため、事情が異なるようです。

WCSC29でもAlphaZero型の手法を採用したソフトで決勝に残れたソフトはありませんでした。これはAlphaZero方式ですと学習が完了するまでにかなりの計算資源が必要になり、それを個人では負担できないという事情もあるのでしょう。

では、本家AlphaZeroとWCSC29の上位ソフト(選手権決勝日の棋力)とではどちらが強いのでしょうか?簡単に試算してみましょう。

AlphaZeroの論文ではAlphaZero側はTPU×2、従来型のソフトとして、YaneuraOu 2017 Early KPPT 4.79をXeon Broadwell(2 CPUs × 22cores , 44threads)で動作させていました。

WCSC29の決勝日にAWS勢が使っていたのはm5.metal(96vCPU)なので、スペック的にはAlphaZeroの論文の時より少し上。また、スレッド数を論理コア数に設定しているので、こちらのほうが+R50ぐらい得なはずです。

また、MultiPonderを採用しているソフトはそれだけでR50~100程度のアドバンテージがあります。またQhapaqさんのレーティングサイトによると上位ソフトはR4400程度。そう考えるとレーティングの計算上は、TPU×2のAlphaZeroとは互角以上ではないかと思うのですが、これに関して私は今ひとつ自信がありません。

というのも、上位ソフトは中盤以降が強くなっていないのではないかという疑念が私には拭えないからです。例えば、WCSC29の白ビールの評価関数と狸王の評価関数ですと白ビールのほうが定跡なしでの計測だとQhapaqさんのレーティングサイト上は+R70程度らしいのですが、プロの棋譜の24手目から開始させた場合、狸王の評価関数のほうが少し強いようです。(やねうら王の互角局面の24手目から開始する場合も同様の傾向があります。またこれは持ち時間の問題ではなく、持ち時間を1手16秒に増やしてもこの傾向はほぼ変わらず。)

book_filename : pro_45825.sfen
engine1 = YaneuraOu2018NNUE_V483.exe , eval = tanuki_WCSC29
engine2 = YaneuraOu2018NNUE_V483.exe , eval = 白ビール_WCSC29
T2,b1000,502 – 42 – 456(52.4% R16.7) win black : white = 57.2% : 42.8%

私は定跡なしという計測自体が計測手法として怪しいのではないかと思っています。仮に、定跡なしでの計測に何らかの意味が見いだせるとしても、大会ではテラショック定跡のような巨大定跡を用いる場合、24手目ぐらいまでは定跡で進行してしまいます。つまりは、24手目までに差はつきません。それなら大会では24手目から開始したときに強い評価関数のほうが有利であるというのが私の考えです。

何にせよ、定跡の有無だけで勝率がここまで変わるとなると公平な比較が難しいのですが、まだ我々はTPU×2のAlphaZeroにすら追いついていない可能性も十分あって、「俺たちの戦いはまだ始まったばかりだ(完)」と言ったところです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です