取る一手将棋が強化学習でほとんど強くならない件

取る一手将棋は初手96歩に後手が94歩と受けた時点で先手必勝らしい。蛇のように連なる駒の末端に齧りついたが最後、死するか、すべてを飲み込むまで自分の意志で中断することは出来ない。このように長手数の一直線の手順が問題となるようなゲームにおいて、3駒関係はあまり役には立たない。

しかし取る一手将棋では駒の価値自体が本将棋のそれとは大きく異る。角や飛車が使いにくい。王手をかけても歩で合駒をされるとその歩を取らざるを得ない。両取りをかけてもその駒を取ったあとその駒の利きに歩を打たれるとその歩を取らざるを得ない。いいように誘導されて大駒を回収されてしまう。

なので3駒関係は役に立たないものの、駒の価値の学習ぐらいは意味があるはずだ。

まずは、ゼロベクトルの評価関数と真やねうら王の評価関数との差を調べてみた。+R400であった。

王手将棋のときとは事情がずいぶんと違い、本将棋に近いゲーム性を持つことが窺える。ここから、雑巾を絞ってみたのだが、王手将棋のときと違って、なかなか雑巾が絞れない。+R70程度強くなったが、そのあとほとんど強くならない。やはり3駒関係には不向きなのだろう。

もう少しやってみるが、効果はあまり期待できそうにない。

「取る一手将棋が強化学習でほとんど強くならない件」への13件のフィードバック

意思によってコントロールできるということは、まさに先手必勝なのでしょうね。
強制力で構想をふいにされる感じかもしれないですね。
受け気質なら責め気質へ変えるべきかもしれません。
そのへん、よくわかってないですが。

詰め将棋のように専用のルーチンを用意しないと無理な気がする
詰め将棋が強化学習で早く解けるようになるのかは知らないけど

静止探索を通常の将棋と変えないとダメ、とか？

やねうらお 2016年12月3日 14:37 より:

まあ、qsearch()は、captureがある限り延長したほうが良いような気はしますね…。

返信 ↓

どの当たりも相手に対応を強いるということで，王手王手で対応を強いる詰将棋に似ているということですね。

すると，強化学習で学習すべきは，切りあいが始まる前の静止局面について，今から仕掛けて切りあったらどうなるか，30-50手くらい取って取ってが続いた結果の評価値で評価するということになるんですかね。

持ち駒があると，仕掛け側の枝はいっぱいありますね…