連載やねうら王miniで遊ぼう！11日目

投稿日時: 2015年12月22日投稿者: やねうらお

今回は、評価関数を呼び出して1手読みのAIを作ってみます。

評価関数の呼び出し方

評価関数はEval::eval(Position&)を呼び出すと評価値が返ってくる。

ここで注意すべきことは、現在の手番側から見た評価値が返ってくるということだ。昔のソフトでは(将棋ソフト以外でも)先手から見た評価値を返すような評価関数がよく使われていたが[要出典]、現代では、手番側から見た評価値が返るのが普通である。

つまり、評価関数のなかで、後手番なら計算した値の符号を反転してから返すようになっている。

return pos.side_to_move() == BLACK ? score : -score;

こうすることで、先手と後手との非対称性を無くして、先手用のコードを後手でも使えるようになる。そうすると、minmaxのコードがminを求めるコードとmaxを求めるコードが一本化できる。これがNegamaxである。そしてNegamaxからαβ探索に発展していく。詳しくはggrks。

要するに、手番側から見た評価値を返すことによって、コードの簡略化できるようになるから、いまどきはそうするということだ。

1手読みAI

void MainThread::think()
{
  auto& pos = rootPos;

  Move bestMove = MOVE_RESIGN;
  Value maxValue = -VALUE_INFINITE;
  StateInfo si;
  for (auto m : MoveList<LEGAL>(pos))
  {
    // 合法手mで1手進めて、そのときの評価関数を呼び出して、その値が一番良い指し手を選ぶ。
    // (1手進めた局面は後手番なので一番小さなものが先手から見たベスト)
    pos.do_move(m,si);
    auto value = -Eval::eval(pos);
    pos.undo_move(m);
    if (value > maxValue)
    {
      maxValue = value;
      bestMove = m;
    }
  }
  sync_cout << "bestmove " << bestMove << sync_endl;
}

void MainThread::think()

{

auto& pos = rootPos;

Move bestMove = MOVE_RESIGN;

Value maxValue = -VALUE_INFINITE;

StateInfo si;

for (auto m : MoveList(pos))

{

// 合法手mで1手進めて、そのときの評価関数を呼び出して、その値が一番良い指し手を選ぶ。

// (1手進めた局面は後手番なので一番小さなものが先手から見たベスト)

pos.do_move(m,si);

auto value = -Eval::eval(pos);

pos.undo_move(m);

if (value > maxValue)

{

maxValue = value;

bestMove = m;

}

sync_cout << "bestmove " << bestMove << sync_endl;

}

ソースコードは、評価関数を呼び出している以外はいままで出てきたものしか使っていない。

1手読みAIの弱点

コンパイルして将棋所で遊んでみると角道を開けたり、飛車先の歩を突いたり、玉を囲おうとしたり、形よく指すのですが、ただで駒を捨ててくることがあることに気づく。

1手だと、それを取り返されるところまで読めていないので仕方ない意味があるが、進んで歩や金を飛車の利きに捨ててくる。

これは、3駒関係では大駒に当たりになっている駒の評価値が高いためだ。特に、手番を考慮しない3駒関係では、大駒に当っている小駒は価値が高いものとされる。(取れるかも知れないので)

これを回避するには色々な方法が考えられる。もちろん、深くまで探索すれば自然と解決するわけではあるが、深くまで探索せずに解決する方法はないだろうか？

例えば…。

・評価関数で手番も考慮するようにする(手番を考慮した3駒関係)
・最後に移動させた駒を取り返す指し手だけ延長して調べる(recapture延長)
・最後に移動させた升での行われる取り合いによる駒の収支だけ計算する(SEE : Static Exchange Evaluation)
・盤面全体を見て取れる駒をお互い最良だと思われる順で取り合う変化を読む(静止探索)

他にもいくらでも考えられるが、その計算量とそれによる効果が見合うかという問題になってくる。

これらの技術は互いに独立したものではあるが、しかし、すべては局面を(通常の探索なしに、小さなコストで)少しでも正確に評価したいという考えから生まれてきたものだ。

このような技術はたくさんあって(たくさんの可能性が考えられて)、そのなかから探索部や評価関数に見合う、バランスのいいものを採用するというのが正しい開発方針だ。

また、深くまで探索すればそれなりに強くはなるが、本当は3手ぐらいの極めて浅い探索においてもそれなりの強さになるべきで、そのようにチューンしていくのはわりと正しい開発方針である。3手ぐらいの探索において強くならないなら、それは局面を正しく評価出来ていないということなので、どう改善すればいいかを考えていくと、深い探索をするときにも生きてくる。

1手読みAIの改良

さきほどのプログラムは、取られる駒の移動は少し控えるように次のように改良してみる。

void MainThread::think()
{
  auto& pos = rootPos;

  Move bestMove = MOVE_RESIGN;
  Value maxValue = -VALUE_INFINITE;
  StateInfo si;
  for (auto m : MoveList<LEGAL>(pos))
  {
    pos.do_move(m,si);
    auto value = -Eval::eval(pos);

    // toの地点に敵の駒が利いてたら、この駒を損してしまう(ことにする)
    if (pos.effected_to(pos.side_to_move(), move_to(m)))
    {
      // 移動させた駒
      auto pc = pos.piece_on(move_to(m));
      value -= (Value)Eval::PieceValue[type_of(pc)]*2;
    }

    pos.undo_move(m);
    if (value > maxValue)
    {
      maxValue = value;
      bestMove = m;
    }
  }
  sync_cout << "bestmove " << bestMove << sync_endl;
}

void MainThread::think()

{

auto& pos = rootPos;

Move bestMove = MOVE_RESIGN;

Value maxValue = -VALUE_INFINITE;

StateInfo si;

for (auto m : MoveList(pos))

{

pos.do_move(m,si);

auto value = -Eval::eval(pos);

// toの地点に敵の駒が利いてたら、この駒を損してしまう(ことにする)

if (pos.effected_to(pos.side_to_move(), move_to(m)))

{

// 移動させた駒

auto pc = pos.piece_on(move_to(m));

value -= (Value)Eval::PieceValue[type_of(pc)]*2;

}

pos.undo_move(m);

if (value > maxValue)

{

maxValue = value;

bestMove = m;

}

sync_cout << "bestmove " << bestMove << sync_endl;

}

金を飛車の利きに移動させれば、その金はとられるものとして計算する。金がとられるということは、自分の盤上の金が相手の持ち駒の金になるのだから金の価値の2倍損をする。(1,000円を誰かにあげたら、その人との所持金の差は2,000円になるという原理)

これを「交換値は駒の価値の倍」というように言う。
上のPieceValue[]は、駒の価値が入っている配列なので、交換値としてはその倍にしなければならないのだ。

1手読みAI改良の結果

上のコードを入れるとただ捨ては確かに減る。

しかし、当たりになっている駒を逃げない。なぜかというと、その駒で相手の駒をとっても取り返されるからプラマイゼロ、かと言って逃げたところで駒の損得はないので、その場所がその駒にとって良い場所かどうかという話になってしまう。その場所がその駒にとって良い場所ではないなら逃げた分だけマイナスになってしまう。だから逃げないのである。

結果としてただでとられるままの状態で放置してしまい、損をする。

まあ、ただで金を差し出す最初のAIよりはずいぶんマシなので、今回はこれで良しとする。

ここまでのまとめ

評価関数の呼び出し方がわかった。読者の方には、探索を深くする以外で、どうやれば今回の1手読みAIが強くなるのか、色々考えてみて欲しい。それを考えて、手軽に試すことが出来る環境こそがやねうら王miniなのである。

次の記事に続く。