チェスAIが探索なしでグランドマスターレベルに到達した件

Google DeepMind社がtransformerを用いたチェスAIで、探索なしにグランドマスターレベルに到達したという論文を発表した。

Grandmaster-Level Chess Without Search : https://arxiv.org/abs/2402.04494

ちなみに上の論文には私の名前も入っている。

チェスAIのStockfishの主要開発者として名前を入れてもらった感じでありがたい限りである。(StockfishのGitHubにプルリクしたことすらないのにな…)

将棋AIの方も、2022年にPolicy Networkだけの指し手を指すことで二番絞り(ソフト名)が、アマ四段ぐらいの強さになっているという記事をこのブログで書いた。

PolicyNetworkだけの将棋ソフトの強さは? : https://yaneuraou.yaneu.com/2022/07/19/the-strength-of-the-shogi-ai-of-the-policy-network-only/

その後、二番絞りは、将棋倶楽部24に参戦した。当初、指し手にランダム性がなかったので攻略する人が現れて、一気にレーティングを下げた時期があったが、序盤の指し手だけPolicy Networkの出力にノイズを加えることで少しランダム性を持たせた結果、最終的にはR2700ぐらいまで行っていたと思う。(プロ棋士がR3000ぐらいからなので、わりとプロに肉薄するレベル。トッププロがR3300ぐらいと言われている。)

二番絞り自体は、先日の電竜戦HWT予選の成績(予選13位)などから察するに、いまとなってはDeep Learningを使った将棋AIのなかでは上位に位置しているとも言い難いので、いま最新のDeep Learningを用いた将棋AI(dlshogi)ならば、将棋倶楽部24でプロレベルのレーティングがつくのではないかと思う。

電竜戦HWT予選 対戦表 : https://denryu-sen.jp/denryusen/dr4_hardware2/league_table_y1.html

将棋も、(従来のDeep Learning型の将棋AIの代表的なアーキテクチャであるResNetより)transformerを使った方がいいんじゃないか?と言われるであろうが、これに関しては開発者の間でもまだ優劣がよくわかっていない。

transformerの方は学習データがたくさんいるようなので、教師生成のための費用が個人では負担しきれないとする見方もある。

あと、transformerなら(大量のデーターさえ食わせれば)探索なしで最強のAIになるのかと誤解している人を観測したので書いておくと、将棋AIの場合、探索ありだと大会スペックのマシンではR4800ぐらいの強さになっている。つまりは、探索によって+R2000近いレーティング上昇が見られるということだ。将棋倶楽部24では1段の差はR200であるから、R3300がプロ九段として、R4700は、プロ16.5段に相当する。

だから「Grandmaster超え!」みたいに言われても、(チェスAIや将棋AIの世界では)「んなもん、(探索ありなら)なにやっても(どんなアーキテクチャのモデル持ってきても)超えるやろ」みたいなところはある。探索なしで超えるのは、確かに凄いことではあるのだが、探索ありなら余裕なんだよな…。

だから探索なしでGrandmasterを超えたからと言って、それが(探索をありにしたときの)優れたアーキテクチャだとは言えないところはあるんだわ。

チェスAIが探索なしでグランドマスターレベルに到達した件」への6件のフィードバック

  1. この評価関数は重すぎて(モンテカルロ木)探索と組み合わせて使ってもstockfish超えるってことはないのですかね?

    • 推論自体が重いかどうかの問題もありますが、それより重要なのは、今回のモデルは言わばpolicy networkだけの出力なのですが、あり得る指し手の確率が0近い出力になることもあり、そうすると探索でこのようなモデルを用いるとその指し手は読み抜けるわけです。

      このようなモデルの場合、いくら長い時間を思考させても大事な指し手の確率が0に近いことがあって、要するに読み抜けているので、長い時間になればなるほどそこがまともなソフトと差がついて相対的に弱くなります。

      • まあ、そもそもで言うと今回の論文の手法は、transformerにactionvalues(指し手と評価値)を分類問題として学習させてるだけで、かつ評価値は、binning(評価値の値で区切っていくつかの容器に入れてるの意味)してあるので、どれが一番いい評価値なのかbinの範囲でしか分からなくて、これだと探索にそのまま使えませんし…。

        この論文は、LLMの標準的なセットアップ(分類問題とみなして損失関数をcross entropy lossに設定して学習)でわりとうまくいったというだけですな…。

  2. 二番絞りはハードウェア統一戦の決勝ソフトなのでトップクラスですよ。今年は中立性を考えてアップデートせずに出してサンドバッグにしてもらっただけです。

    • ええ、もちろん存じております。私が説明不足でしたね。

      2022年末ごろに将棋倶楽部24に投入されていた二番絞り = R2700 で、これがアップデートせずに今回の電竜戦HWTに基準ソフト(?)として参加。現在これより強いDL系のソフトが上位にある。ゆえに、
      現在のDL系のソフトのPolicyのみ > R2700
      で、ならば、この左辺は、プロレベルに到達してるでしょう、という論法でした。

      大変失礼しました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です