前回記事の続きをやっていきましょう。
前回、入力をK(玉のある升 81通り) + P(玉以外の駒の種類・升を表現した通し番号 1548通り)として、1つのニューロンで穴熊に囲えるということを説明しました。
育毛剤最新比較極
ミュゼ 口コミ 特徴 まとめ
コンピュータ将棋に機械学習が導入されたBonanza以降、私はずっと思っているのだが、3駒関係にしても他の駒の配置を暗黙的に仮定しているフシがある。
やねうら王チーム、WCSC29(第29回 世界コンピュータ将棋選手権)の参加申し込みしました。
AlphaZeroのShogi版は、あっという間に従来の将棋ソフトを抜き去ったかのように喧伝されているので今回はここで少しばかり反論したい。
NNUE評価関数は、ネットワーク構成を簡単にカスタマイズできるようになっている。
そこで、入力をK(玉のいる升)とP(どの升にどの駒がいるかに対応する値)だけにして(81升 + 1629通り = 1710)、hidden層の1層目を256×2、2層目・3層目を32にして学習させた。(K-P-256-32-32) NNUEを知らない人のために書くと、各層は全結合。
コンピュータ囲碁の世界では、長きに亘り良い評価関数を設計できずに苦心していました。評価関数というのは、人間で言うと大局観に当たる部分です。この部分をうまく設計するのが強い囲碁ソフトを作る上で必要不可欠なのですが、それは職人のような作業だと言われていました。
2つ前の記事で、「将棋ソフトでは、2倍の思考時間を使うとR200程度上がります。R200は勝率で言うと約76%。」というのを人間にも当てはめたのですが、それは人間では成り立たないのでは?という意見が散見されるのでこれに対して私の考えを書いておきます。
将棋ソフト『PAL』の山口さんからWCSC28のときに、やねうら王およびStockfishのLazy SMPの部分のコードだと、コア数が増えてきた時に同じdepthを探索しているスレッドが増えすぎて良くないのではないかという指摘があった。