囲碁ソフトがプロ棋士に勝利したようです

投稿日時: 2016年1月28日投稿者: やねうらお

Googleが作ったDeepMindの「AlphaGo」という囲碁ソフトが中国出身のプロ棋士(Fan Huiさん)に勝利したそうです。(5戦5勝)

グーグルが最新人工知能使い囲碁ソフト開発プロに勝利
http://www3.nhk.or.jp/news/html/20160128/k10010388481000.html

囲碁はソフト自体は、将棋ソフトとは違い、指し手生成などがシンプルなので結局、作り込みではなく、機械学習一発で勝負が決まってしまうような側面がありました。また、囲碁におけるDeepLearningを用いた機械学習で、近年、プロの棋譜との指し手一致率が急激に上がるなか、「これ、あとはもう探索部もNN(ニューラルネットワーク)で書ければ超強いよね」と私は思っていたのですが、ついに現実となったようです。

プロ棋士としてFan Huiさんはトッププレイヤーとは差があるそうで、このあと3月に行われるAlphaGoとプロ棋士との公開対局に自ずと注目が集まります。対局のお相手は、韓国のLee Sedolさんで、世界有数の強豪プレイヤーです。

Crazy Stoneの作者は今回の件について“This is a really big result, it’s huge”と賞賛の声を送っています。

DeepMind自体は汎用的な概念の獲得を目指しているようなので、他の似た問題領域(囲碁のようなゲーム)においても人間以上の結果を出せるようになりそうです。

ちなみに今回のDeepMindのプロジェクトを主導しているのはHassabisさんだそうで、DeepMindは、もともとはGoogleが2014年に4億ポンド(約750億円)で買収したスタートアップ企業の名前です。

以下、関連記事のURLを貼り付けておきます。興味のある人は、そちらをどうぞ…。

Googleの人工知能開発をリードするDeepMindの天才デミス・ハサビス氏とはどんな人物なのか？
http://gigazine.net/news/20141203-deepmind-demis-hassabis/

Googleの自己学習する人工知能DQNを開発した「ディープマインド」の実態、何が目的なのか？
http://gigazine.net/news/20150831-google-deepmind/

AlphaGo: マシンラーニングで囲碁を
http://googlejapan.blogspot.jp/2016/01/alphago.html

今回のAlphaGoの詳しい手法が書かれている論文
Mastering the Game of Go with Deep Neural Networks and Tree Search
https://gogameguru.com/i/2016/03/deepmind-mastering-go.pdf

2016/01/28 9:00追記

論文をざっと読んだ人による解説。

論文ざっと読みました。詳しくは後程ブログに書きますが、やったこととしては、1.棋譜からの学習で、a.高速なプレイアウト用行動評価関数を重み付き線形和で、b.遅いけど正確な行動評価関数をDCNNで作る。2.②を強化学習でさらに学習する(c)。(続く)

— Nobuo Araki@博士 (@ark_golgo) January 27, 2016

3.cを使った自己対戦により、状態評価関数をDCNNで作る(d)。(これにより、cをプレイアウトに使った場合と同様の状態評価が15000分の1の時間で出来るようになった。)、4.aのプレイアウトとdの評価を組み合わせたMCTSで打たせる。　ということのようです。

— Nobuo Araki@博士 (@ark_golgo) January 27, 2016

すみません。2つ前のtweetの②はbの間違いです。

— Nobuo Araki@博士 (@ark_golgo) January 27, 2016