ひまうら王の実験はじめました

部屋が寒すぎて死にそう。なんでもいいからPCを動かさないと死んでしまいます。

そんなわけでひまうら王の実験を開始しました。人間の指した棋譜を使わずにどこまで強くなるのかという実験です。

手法は技巧が以前やっていたBishopLearningです。評価関数はAperyと同じくKPP/KKP。KPEでの次元下げあり。学習手法はSGD+α。探索エンジンは超やねうら王。

局面を生成するのも面倒だったので学習に使っている棋譜をそのまま食わせて、棋譜の指し手ではなく、その局面で深さ7で探索したベストの指し手、および、そのときのPV終端での評価値を棋譜の指し手および棋譜の指し手で進めたときの評価値扱いにするというコードにしました。…5行ほどの変更で済み、1分で書けました。

1分で済むことを1年も伸ばしていたのか!などいうお叱りはごもっともです。

PCが余ってない&1年間、モチベーションが下がりっぱなしだったもので…。

さて、ひまうら王がひようら王(旧ひよこ将棋)より強くなるのか、そうでもないのか、どんな戦型を指すのか、指さないのか、玉は囲うのか囲わないのか。

(とりあえず)明日、発表!!

強くなっていたら(ある程度学習を回してから)バイナリを公開!!

強くなってるといいなぁ~。

ひまうら王の実験はじめました」への10件のフィードバック

  1. 現在のソフトは検索ソフトとして棋士を超えましたが、人類を超えたかと言われると微妙なのかなあ、と思います。
    コンピュータ将棋は最強を目指しに行ってるソフトばかりで、人間の棋譜(floodgateの棋譜)を使わないとそこに行くのは難しいため、どうしても人間の棋譜無しで、という研究は進んでいないように思います。
    ひまうら王がどんな将棋を指すのか、非常に楽しみです。

    P.S.
    入玉模様になってしまうと、ひまうら王は対応できるのでしょうか?

  2. これも全てPC暖房器のご購入と寒気さんのおかげですなあ、、、。
    ありがたや、ありがたや。

  3. 読解力が足りなくてすみません。局面を生成するかわりに棋譜に現れた局面を使うというのは、厳密に言えば人間の指し手を利用していることになるような……。
    ともあれ、実験結果を楽しみにしております。

    • 厳密解を求めるのは、部屋が暖まってからでも良いのでは?
      とにかく、風邪などひいてしまってはいけませんからね。

    • > 局面を生成するかわりに棋譜に現れた局面を使うというのは、

      まあ、局面は何でもいいので、うまい値に収束したらひようら王(ひよこ将棋)の自己対戦棋譜でも使う予定です。

      プロの棋譜を使うのは、学習させていくときに棋譜との指し手一致率を参考のために表示させていて、これが増えていくかどうかを見るためもあります。これが増えていかないと手法が間違っている可能性があるということで…。残念ながら、いまのところ、増えていかないのですが…。

  4. まー副作用でしょうけど、うまく場合が揃ってよかったですね。
    さらっと次のやねうら王の実験にもなってるようで少しワクワクしています。

masa へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です