PolicyNetworkだけの将棋ソフトの強さは?

いまのDeep Learning系の上位の将棋ソフトは、AlphaZeroのアーキテクチャに倣っていて、局面を入力し、Policy(次のよさげな一手が最大値になる)とValue(期待勝率)を出力している。では、Policyだけで1手も先の局面を調べない場合、どれくらいの強さになるのだろうか?

続きを読む