WCSC31(第31回 世界コンピュータ将棋選手権)で、2位に輝いたDeep Learning系の将棋ソフトであるPAL。その学習のためにHEROZの社内のマシンが使われているといる話がありましたが、その具体的な分量については不明でした。今回、Wantedlyのインタビュー記事でその情報が公開されました。
強化学習: V100 40基 x 500時間 = 20000GPU時間程度
だそうです。
性能的には今月発売されるRTX 3080Ti≒V100ですので、3080Ti×1GPU×833.3日相当です。4GPUだと、3080Ti×4GPU×208.3日(7ヶ月弱)。4GPUで7ヶ月というのは、個人(趣味)でも十分手の届く範囲ですね。
// 3080Tiが15万円程度だとすると4基で60万円なので、お値段的には高級スリッパ(3990X)とさほど変わりませんが、7ヶ月はわりと長い気もします。
PALの評価関数がサチっているかについては情報がありません。まだまだ計算資源を費やすことで強くなり続けるのか、それとも20ブロックではここらへんが限界なのか…。
添おう言えば、どーでもいい話なんですが、たややんさんの公開してるToSfenpackで解析済みのkifをtxtにし、キズナ合いでbin化したやつを学習させると以前からエラーが出で学習できないのを解決できません…