DeepMindがAlphaGo Zeroで使われた手法をチェスと将棋に適用して、チェスと将棋の世界でもぶっちぎり強いソフトが出来たそうです。(私は、内容は詳しく読んでいません。)
「機械学習」カテゴリーアーカイブ
20
教師データはWCSC28終了まで公開しておきます
depth10で作った110億局面の教師データ、期間限定で公開します
SDT5の直前にAWSで20万円かけて生成したという例のやつです。
Apery(SDT5)の評価関数はどれくらい強いのですか?
本大会で最強の評価関数はAperyのものだと私はくどいほど言い続けたが、それを確認しておく。
評価関数をゼロから学習させるときに駒割りも学習させる話
リゼロ評価関数では、評価関数をゼロから学習させているが、駒割り(駒の点数)は、Aperyのソースコードで定義されている点数を初期値として用いてある。実際のところ、これがすべてゼロであってもきちんと学習できることは確かめた。
freeze_kkは何のためにあるのですか?
やねうら王のlearnコマンドのfreeze_kk/kkp/kppは何のためにあるのか、説明を書いておく。
本大会のやねうら王は究極のリゼロ系
今回のやねうら王は、学習時に人間の棋譜を用いていない。いわゆるリゼロ系である。学習時に人間の定跡も用いていない。初期局面から何手かランダムムーブさせた局面からdepth 10で対局させたものを教師局面として用いている。
評価関数のブレンドに関する知られざること
今回の大会、決勝に進出した12チームのうち、Ponanza、Apery、Seleneを除く9チームがやねうら王チルドレン。
コンピュータ将棋開発者がAWSで機械学習を回すには?
電王トーナメント直前ですが、AWSを使って機械学習で使う教師局面を生成してみようと思い、昨日実際にやってみたので、そのノウハウを書いておきます。ノウハウというか、たぶんLinuxに慣れているような人なら誰でも知っているはずのことで、誰得記事ではあるのですが、私は大いに躓いたので記録として残しておきます。
eta可変絞りについて
SDT5に向けて徐々に手持ちの情報を公開していきます。
やねうら王の学習部はAdaGradを用いている。勾配をgとして、gの二乗を足し合わせたものを記憶しておき、これを基準にwを更新する。