評価関数のブレンドに関する知られざること

今回の大会、決勝に進出した12チームのうち、Ponanza、Apery、Seleneを除く9チームがやねうら王チルドレン。

また私(やねうら王)以外のやねうら王系は、KPPT型で評価関数のブレンドありだと思います。

私は、本大会では、KPP_KKPT型(KPPの手番なし)の評価関数で、ブレンドは使っていません。評価関数のブレンド技術自体、まやかしだと思っています。何故ブレンドで強くなるのかについて、ざっと私の仮説を書いておきます。

ブレンドで強くなるのは、Apery系で学習された評価関数と混ぜたときに顕著なのですが、長らくこの理由がわかっていませんでした。

elmoの瀧澤さんと議論する機会が幾度かあり、elmoはうかむ瀬から教師を作るときに、roots.hcpを利用したということを聞きました。このファイルは、floodgateの棋譜から集めた、ランダムな局面集だそうです。そこからランダムムーブを6手入れた局面を開始局面として、そこからdepth 6で対局させてそれを教師としているわけです。

やねうら王の学習部では、定跡で局面を進めることは出来ますが、ランダムムーブの条件によっては、主に初期局面付近を使うことになります。初期局面付近だと、偶然ランダムムーブにより穴熊や銀冠に囲ったところで、それを狙い撃ちされてしまい、むしろマイナスになってしまいます。なので、やねうら王方式だと序盤でそれをやると狙い撃ちされる形を学習できないのです。

ブレンドで強くなるのは、主にこのへんの理由だと私は想像していますが、これを実証するためには、色んな方法で100億局面生成して、そこから学習させて比較するというような作業が必要になり、実験だけで膨大な時間を要します。そのため、あまり公平な方法で検証することが出来ていません。AWSを使って、お金をじゃぶじゃぶ使えば、すぐにでも検証できたはずなのですが、つい先月ぐらいまではAWSを使うのはもったいないかと思っていたので、それはしませんでした。

いずれにせよ、ブレンドで強くなること自体がおかしく、ブレンドする必要のないAperyが評価関数の伸びが顕著なのは、そのへんにも理由がありそうです。

評価関数のブレンドに関する知られざること」への1件のフィードバック

Ta(ry へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です