来るゴールデンウィークに開催されるWCSC32(第32回世界コンピュータ将棋選手権)を間近に控え、AWSにすごいインスタンスタイプが登場した。今回はその性能評価を行ったのでレポートしておく。
まず、hpc6a.metalである。96 vCPUという凄いやつである。
オンデマンドなのに1時間 2.88 USDで使える。ZEN3アーキテクチャらしく、シングルコア性能もわりと高い。
やねうら王(V7.10 128-bit Edition)でのベンチマークを掲載しておく。
clang++14 , zen3用 NNUE , bench 262144 96 ← USI_Hash = 256GB , 96スレッド
1 2 3 4 5 6 |
Total time (ms) : 60016 Nodes searched : 4364663714 Nodes_searched/second : 72725001 Nodes searched (main thread) : 44923299 Nodes searched/second(main thread) : 748522 ← 1回目 Nodes searched/second(main thread) : 800608 ← 2回目 |
また比較のため、AMD Ryzen Threadripper 3990X(64C128T)での同ベンチの結果も掲載しておく。
// この計測は、たややんさんに協力していただいた。
全体NPSは同じぐらいなのだが、3990Xのほうは、1スレッド当たりのNPSが低いため、どちらで動かしたほうが強いかと言うと、間違いなくhpc6aのほうである。こんな凄いマシンが1時間たったの2.88 USDで使えるとあっては、もはや将棋AIの大会のために3990Xを購入する時代は終わったのかも知れない。
clang++14 , MSYS2 , ZEN2用 NNUE , 3990X , bench 16384 128 ← USI_Hash = 16GB , 128スレッド
1 2 3 4 5 |
Total time (ms) : 60021 Nodes searched : 4476187757 Nodes_searched/second : 74577027 Nodes searched (main thread) : 35999395 Nodes searched/second(main thread) : 599779 |
hpc6aは、オハイオリージョンでしか使えないので注意な。
次に、c6a.metalである。こちらはvCPU 192という化け物である。1時間、7.344 USD。hpc6aと比較するとコスパちょっと悪い感じはある。しかしvCPU 192だけあって、NPSは1億3千万ほど出ているのは圧巻である。
clang++14 , zen3用 NNUE , bench 262144 192 ← USI_Hash = 256GB , 96スレッド
1 2 3 4 5 6 |
Total time (ms) : 60004 Nodes searched : 7897525056 Nodes_searched/second : 131616643 Nodes searched (main thread) : 41302978 Nodes searched/second(main thread) : 688337 ← 一回目 Nodes searched/second(main thread) : 689656 ← 二回目 |
ちなみにc6a.metalは、オレゴンリージョンでしか使えないようなので注意な。
ここ近年、やねうら王チルドレンはdlshogiに押され気味であるが、今回はこれで巻き返しなるか…?
いつも為になる記事ありがとうございます。「全体NPSは同じぐらいなのだが」の部分なのですが、やねうら王探索部は単純に読んだぶんのNPSが正義だと思っていました。NPS以外で強さに関係するのはどのあたりなのでしょうか?
以前、少ないThreadで深読みさせるのが良い的なことは聞いたことがあるようなないような。
スレッド数が増えた時の実効は、その平方根程度と言われておりまする。つまりは、スレッド数m , 1スレッドのNPSがn だとするとその実効は n√m だす。
今回のケースでは、合計NPS = nm は同じですが、mの数が96と128 で違います。
このとき、1スレッドのNPSである n = 合計NPS / m。この実効は 合計NPS / m ×√m = 合計NPS / √m となって、同じ合計NPSならmが大きいほうが実効値が低いので弱いことになるっすな。
NPSの実効の話初めて知りました。そこで気になるのは、ノード数はNPSに時間を掛け合せて決まりますが、時間に関しては実効のような話はありますか?(30秒検討するとして前半は10秒と比べて後半10秒は効率が落ちる的な…)
個人で局面の研究をへっぽこPCで読ませて検討しているのですが、仮に3990xのような高スペックPCで30秒検討したものと同等の成果を4スレッドのPCで得るにはどの程度の時間を要しますか?
> 時間に関しては実効
やねうら王だと一度調べた局面は置換表(USI_Hashで確保するメモリ量を指定できる)に記録するのですが、置換表が有限であるため、古い情報から上書きされてlostしていきますので、lostする分だけ実効は落ちますね。あとは、思考時間を2倍にし続けても同じレートずつは上がらなくなってきますね。まあ理由は色々あるのですが。
> 仮に3990xのような高スペックPCで30秒検討したものと同等の成果を4スレッドのPCで得るにはどの程度の時間を要しますか?
√128/√4 ≒ 5.7 なので5.7倍思考させればだいたい同じぐらいなのではないでしょうか。
// 実際は実効は平方根よりは少し良いので、もうちょっと要るかもです。