PolicyNetworkだけの将棋ソフトの強さは？

いまのDeep Learning系の上位の将棋ソフトは、AlphaZeroのアーキテクチャに倣っていて、局面を入力し、Policy(次のよさげな一手が最大値になる)とValue(期待勝率)を出力している。では、Policyだけで1手も先の局面を調べない場合、どれくらいの強さになるのだろうか？

将棋ソフトPonanzaが2017年にAlphaGoを参考に、Deep Learning(以下DLと略す)を取り入れた時、「Policyだけでアマ初段か二段ぐらいある」と作者が言っていた。周りの開発者はほんまかいな…と半信半疑であった。Ponanzaはソースコードも実行ファイルも何も公開されておらず、追試もできない状況だったので、つい最近まで私も半信半疑であった。

まず、当時のDLを取り入れたPonanzaについては、以下の資料でそのアーキテクチャについて触れられている。
https://www.slideshare.net/HEROZ-JAPAN/ponanza-83900718

CNN 12層×256フィルターのようである。

いまdlshogiやDL水匠などはResNet 15b(bはブロックの意味)とか20bが主流である。フィルター数は192か224か256だと思う。

参考記事 : 誰もdlshogiには敵わなくなって将棋AIの世界が終わってしまった件 : https://yaneuraou.yaneu.com/2022/06/27/nobody-could-compete-with-dlshogi-anymore/

最近、15bのDL水匠をPolicyだけでどれくらいの強さになるのかを調べるためにDL水匠の開発者のたややんさんがfloodgateに放流した。

// DL水匠は、公開されているdlshogi(dr2_exhi版)よりは+R50ぐらい強い。ただ、dlshogiの最新版(20b、非公開)は、DL水匠からさらに+R100ぐらいらしいのだが…。

この15bのDL水匠、floodgateでR2169であった。将棋ウォーズで言うと四、五段と言ったところのようである。(将棋ウォーズの段位は、世間のアマの段位より少し厳し目ではあるので、公平に見てもアマ五段ぐらいの棋力はある)

このfloodgateに放流したDL水匠は、root(探索開始局面)で即詰みがないかのチェックはしている。df-pnによる詰将棋ルーチンを上限100ノードで呼び出している。これは5手～7手詰めが解けるか解けないか程度の読みである。詰将棋ルーチンを呼び出さなくてもDL水匠はある程度寄せるのだけど、floodgateでは256手で引き分け(0.5勝扱い)になってしまうので、それを回避する意味だ。

いずれにせよ、2017年当時のPonanzaが「Policyだけでアマ初段か二段」というのは嘘ではなさそうというのがようやくいまになってわかったわけである。

あと、DL水匠の方は計算資源があればまだ学習させることで強くなりそうだし、もっと大きなブロック数のResNetなら、Policyだけでプロレベルまで行くんじゃないかというのがなんとなく見えてきた。

そもそも、プロ棋士は直感だけで(1手も読まない時に)アマ五段に勝てるのかという問題はある。もし勝つのが難しいのだとしたら、15bのResNetですでに(将棋に関しては)人間の認知能力を超えているということになる。(15bの方は、まだ伸び代があるのでそのへんも考慮するものとする)

人間の脳は、もしかするとResNetで言うと5～10b程度なのだろうか。最近、AIが様々な分野で人間の平均スコアを超えつつあるが、人間がResNet 10b程度の性能しかないのに、それとは桁違いにdeepなネットワーク持ってきたらそりゃ勝てないわな…。

■　2022/07/23 追記

48さんが二番絞り(40b)をPolicyだけにしてfloodgateに放流したそうで、DLSuishoから+R146ほど強い模様。(将棋倶楽部24換算でR2200(四段)。将棋ウォーズだと五段付近。アマの県大会の代表争いぐらいのレベル。アマ高段と言って良いと思う。)

ResNetのブロック数を増やしていくとPolicyだけでもプロレベルの棋力に到達できそうではあるが、この伸び方だと数年以内にそこまで行くかは怪しい。

■　2022/07/25 追記

↑の二番絞り、現在floodgateで R2355。DLSuisho0より+R195ほど強い模様。

「PolicyNetworkだけの将棋ソフトの強さは？」への7件のフィードバック

【訂正】
たややんさんによると、floodgateに放流したDL水匠は、df-pnの詰将棋は呼び出していないものだそうです。それでfloodgateでR2169。

df-pnの詰将棋を呼び出すようにしたものを別途放流してRがいくらになるか調べてもらいます。

返信 ↓

人間の脳みその細胞数を考えたらもっと馬鹿でかいネットワークになりそうなもんなんですけどね。それほど人間の脳みそは勉強がうまくできないのか？人間はまだまだ進化（本当の意味の生物学的進化）できそうですね。

返信 ↓

やねうらお 2022年7月20日 07:23 より:

まあ、将棋のためだけに脳を全部使うわけにはいかないでしょうから…。

返信 ↓

人間の脳って、バスだの何だのの物理層部分が案外雑過ぎるような気がするｗ
頭にUSB2.0のレセプタクルを付けるだけで取り出し口を作れるような簡単なものでもないんだろうけどｗ

返信 ↓

GPUは１GHzで１秒間で10億回計算するから、これを人間レベルまで落としたらResNet5～10b程度じゃ無理だと思います。

人間の脳は極めたら「女神が公式を置いていった」レベルになりますからね。（『四国めたんがラマヌジャンについて解説してくれるようです【なんとなくわかる数学史】』参照）

返信 ↓

以前このブログの錯覚起こすようにするにはにこうすればできるかもって私コメントした気がする。予想は当たらずも遠からずって感じですかね。

返信 ↓

やねうらお 2022年7月25日 09:24 より:

人間と同じ程度の探索ノード数にしないと、終盤が人間よりはるかに優れていることになりがちなので、そういう意味ではDL系でノード数制限すると自ずと人間の指し手に近くなる意味はありますなー。Policyだけだとさすがにやりすぎのようですが。

返信 ↓

やねうら王公式サイト

コンピューター将棋やねうら王公式サイト

PolicyNetworkだけの将棋ソフトの強さは？

■　2022/07/23 追記

■　2022/07/25 追記