今回は、WCSC26(世界コンピューター将棋選手権)の出場ソフトのうち、やねうら王を使用ライブラリとして採用しているソフトのうち、おそらく最強であろう、読み太のことについて書きます。
私が、やねうら王classicを持ち時間制御に対応させたのがつい先日。もう少し調整したら、やねうら王classic-tce(time control enabled)版として正式公開しようと思っています。
このclassic-tce版をHaswell 6コアのPCでfloodgateに投入したところR3140~R3190程度。強いソフトにたまたま勝った直後はレーティングが少し高めに出るわけですが、いまのところ平均的にはR3160ぐらいだと思います。
これに対して、読み太は、R3400を記録しています。やねうら王classicと同じ評価関数を使っているはずなのに…。用いている評価関数が全く同じであることは、評価値グラフからも明らかです。
読み太のPCのスペックはわかりませんが、16コアとかでないとしたら、探索部の差だということで、かなり負けている感じがします。同じようにStockfish7をベースとしていて、私のほうも、かなり慎重に探索のハイパーパラメーターのチューニングをしているのに、こんなに負けるとは驚きです。
逆に同じ評価関数を使っているから直接対決のときにわずかなハイパーパラメーターの差が利いてくるというのはあると思いますが、読み太はApery系にも堅実に勝利していて、やねうら王系にだけ強いというわけでもなさそうです。
プロ棋士に将棋ソフトが圧倒的に勝利しはじめた昨今、コンピューター将棋は興行としてオワコンだと言う人がいるなか、機械学習の興隆や、Apery・やねうら王などの上位ソフトのオープンソース化により、凄い人が次々と登場するコンピューター将棋界隈、まだまだ賑やかになりそうですね。
探索部の調整だけでR3400は不可能じゃありませんか?
やねうら評価関数のままで探索部を調整しようが、ハイスペックPCを使おうが
R3200あたりが限界に思えます。
なにか隠された秘術でもあるんですかねぇ
Aperyが6コア→24コアPCで+R200ぐらい上がるのは間違いないので、それぐらいのスペックのPCなら、やねうら王classic-tceでもR3400は出るはずです…。
とりあえず、最新版のclassic-tceを
floodgateに投入してますが、どうもR3300は超えてそうです。(いまR3350ですが対局数が少ないのでまだ何とも…)
まだ探索部は改良の余地が大いにあるので、いまのままの評価関数でもR3400ぐらいまでは頑張ればいくと思いますよ。
結構前から気になっているのですが、depthの3乗ボーナスがやり過ぎということはないでしょうか?Stockfishと同じ2乗ボーナスにすると5%ぐらい勝率があがる気がします。あくまで短時間の話なので長時間だと別かもしれませんが・・・
うおー!!!Stockfishのコード、普通に勘違いして3乗に見えてました。修正したところ、1.4%ほど勝率が上がりました。357-79-337(R10.0) ありがとうございます。
floodgateに投入されたやねうら王classic-tceは去年の電王戦トーナメントに出場したやねうら王と比較した場合どれくらいのR差があるのですか?
去年の電王トーナメント版のやねうら王より強いはずです。去年のやねうら王1手0.1秒で思考させられないので(そういうコード書いていない)、直接的な比較はしていないですが…。あと、今回使ってる定跡は選定していないのでそのへんでちょっと損している可能性はあります。
読み太の作者の方の名前で
検索したら奨励会1級の所に同じ名前がありました。
同一人物ですかねえ。
floodgateに常駐させ、定跡を作るための棋譜を集めています。と言っているからおそらくCorei7 6700HQじゃないのかなぁ。
とにかくすごいなぁ
floodgateに参加させているPCは、ご本人いわく、Corei 7 5820K 6coreだそうです。やねうら王classic-tceのほうもR3300ぐらいまでは伸ばせる見込みが立ってきたのでしばしお待ちを..
やねうら王classic-tce付属の定跡ファイルは不必要
だと思います。初手から定跡にない手をやたら指す
ので定跡ファイルを削除してみましたら初手に20秒ほど思考しますが後は特別長考せず、ほぼ定跡に近い手を指すようになりました。試しに削除しないバージョンと10分切れ秒読み10秒で20戦させましたら削除したバージョンが12勝8敗で勝ち越しました。思考時間も少し短くなったようです。
面白いですね。ひようら王問題ですかね。
ヘタな定跡なら載せないほうがマシっていう。
やねうら王の伸びしろにも期待です。
棋譜自作したのはひまうら王か。失礼しました。
定跡入れておかないと同じような局面に行って、勝率が偏るので、散らすために入れています。
NarrowBookのオプションを有効にすると確率の低い指し手は選ばないのでそこまで悪い進行にはならないと思いますよ。あとは定跡の指し手の手数をMaxBookMoveオプションで設定できるので、16手ぐらいに制限してみては。
それから、自己対戦は、20局では少なすぎて参考にはならないです。(私は何かパラメーターを変えるごとに500〜3000局ぐらいやってます)
20戦の対戦では1%有意水準が16勝、5%が14勝ですね。
12勝では12%の確率で偶然でも起こりえます。
スクリーニング水準としては5%は確保したい所。
従って、20戦の場合は14勝以上でないと、その提案は弱いかと。
ちなみに30戦の場合は1%有意水準が21~22勝、5%が19勝あたりです。
まあ、やねうら王classic-tceの使っている定跡が質が大変悪くてこれを使うと勝率が下がるという点については別に異存はないのですけど、もう少し対局数は見て欲しいと思っただけでして。
30対局の計算が違っていましたので訂正します。
1%有意水準が22勝以上、5%が20勝以上です。
ちなみに以下50局、100局、500局の場合ですが、、、
50局
1%有意水準が34勝以上、5%が31勝以上。
100局
1%有意水準が59勝以上、5%が57勝以上。
500局
1%有意水準が277勝以上、5%が269勝以上。
以上のように、対局数を増やせばそれだけ検出力が上がる、、、ということであります。
100局、タイプミスしました。
100局の正解は、、、
1%有意水準が62勝以上、5%が59勝以上。
ちなみに1000局の場合
1%有意水準が537勝以上、5%が527勝以上でした。
https://twitter.com/yaneuraou/status/723702153789874177/photo/1?ref_src=twsrc%5Etfw
なるほど、なかなか有効な因子は出てこないものなのですね。
そうしてこの状況、なにやらビットコインの採掘現場を見ているような印象でもあります。
https://twitter.com/yaneuraou/status/725327594892095489?ref_src=twsrc%5Etfw
さて、この話の落ちはどうなったのか?
友達は希望がかなったのか?それともかなわなかったのか?
気になるところであります。
「お金を貸した」→ 「友達にでもお金なんて貸すものではないよ」という批判および、「やねさんお金貸してくれるのか。俺も頼もう。」という便乗。
「お金を貸していない」 → 「やねさんってお金もってるはずなのに友達にもお金貸さないだなんて案外ケチなのね」という批判。
どっちに転んでも批判は免れないから、そういう部分はあえて書かないのだ…。
借り手の方は、まずもって希望額が楽に融通できそうな、そして頼みやすい人に頼むのが合理的でありましょう。
一方頼まれた方は、「友達とはお金の貸し借りはしない。」という信条をお持ちの方を除けば、そのたびごとに判断をしなくては、悩まなくてはいけません。
そこには「必ず断らねばならない理由」もなければ「必ず貸さねばならない理由」もないからであります。
そうして、「物の貸し借り」に比較してなぜだか友達との間の「お金の貸し借り」には抵抗感があるのであります。
つまるところ、友達関係にお金の貸し借りが入り込むと、どうしてもそれまでの友達関係が変化してしまう、違うものになってしまいそうなのが、いやなのでありますね。
https://twitter.com/yaneuraou/status/726387798769434625?ref_src=twsrc%5Etfw
やっぱり時代はグーグルさんを筆頭にして「大量の学習過程をクラスター化する」という第二次クラスター戦争の時代に突入していくのでありました。
ちなみに第一次クラスター戦争は、(これも現在進行形ではありますが、)GPS(670)やプエラαのような実戦時の能力向上の為のものであります。
https://twitter.com/yaneuraou/status/726381215406645248?ref_src=twsrc%5Etfw
将棋AIもプログラムして、教師あり学習を一回させれば(パラメータが収束すれば)それで完成、、、という時代は終わった様であります。
今後はプログラムしたAIをどうやって強いものに育て上げるのか、、、ということまでを含めた、総合戦略の時代に入っていくのでありました。
https://twitter.com/yaneuraou/status/725657726659878912?ref_src=twsrc%5Etfw
プログラムするという行為は明示的ではあるが、学習によって育て上げるという行為はそれほど明示的ではない。
それゆえに親の期待通りに育たないのは、人間でもAIでも同じように起きるものと思われる。
追伸
選手権、うさ親さんもきふわらべさんも活躍しておられ、なによりであります。
平岡さんも初日からご出勤のようで、お疲れ様であります。