続2) 人間の棋譜を用いずに評価関数の学習

前回の続き。

epoch 7

教師局面をepoch 6から30億局面を用意して、10億×3周、15億×2周、30億×1周学習させた。ここでは、それぞれをepoch 7-10,7-15,7-30と呼ぶ。

浮かむ瀬 vs epoch 7-10

2スレ1秒と2スレ2秒。(今回から計測の都合、2スレでやっている。2スレ1秒は1スレ2秒相当だと考えて欲しい。)

T2,b1000,606 – 9 – 385(61.15% R78.8) win black : white = 49.55% : 50.45%
T2,b2000,567 – 21 – 412(57.92% R55.47) win black : white = 53.52% : 46.48%

浮かむ瀬 vs epoch 7-15
T2,b1000,560 – 19 – 421(57.08% R49.56) win black : white = 52.09% : 47.91% T2,b2000,565 – 14 – 421(57.3% R51.11) win black : white = 51.83% : 48.17%

浮かむ瀬 vs epoch 7-30
T2,b1000,513 – 20 – 467(52.35% R16.32) win black : white = 51.12% : 48.88% T2,b2000,534 – 14 – 452(54.16% R28.96) win black : white = 49.7% : 50.3%

浮かむ瀬にほぼ追いついたか、あるいは、もう一歩と言うところだが、対局回数が1000局程度だと計測誤差もあってR10や20の差をどうこう言っても始まらない。

浮かむ瀬は前回のSDT4(第4回 将棋電王トーナメント)で2位のソフト。同大会3位は真やねうら王。ようやく半年前の2位、3位のソフトと並んだのかも知れない。

epoch 7を公開

やねうら王のGitHubでepoch 7-30を公開しておいた。私はどんな将棋を指すのか確認すらしていないが、将棋に詳しい人は、浮かむ瀬やelmoと比較するなどしてコメント欄にコメントをもらえると嬉しい。

次回予定

epoch 7-30からまた30億局面ほど生成して学習を回すことにする。

このあとelmoと同程度の棋力になるところまではそこまでの手順と評価関数ファイルを公開する予定である。そこ以降を公開するかは、次回の将棋電王トーナメントが終わってから考えることにする。(いま公開すると大会への影響が大きすぎるので)

続2) 人間の棋譜を用いずに評価関数の学習” への1件のコメント

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です