将棋の完全ハッシュは何bitで表現できますか？

投稿日時: 2015年12月29日投稿者: やねうらお

ちょっと気になる話題が聞こえてきたので記事にまとめておきます。

完全ハッシュの定義についてはggrks。
局面(盤面+手駒+手番)を何bitにpack出来るかという話。

これは、定跡データを作るときなどになるべく小さくpackしたいのでわりと切実な問題。
なのはminiは、ハフマン符号を使っているらしい。
ハフマン符号化は、出現頻度が高いものに短いbit列を割り当てる。

将棋の盤面だと、空白の升が一番出現頻度が高く、次に歩である。そこで、空白の升を0b(1bit)、先手の歩を100b(3bit)とか何かそんな感じで割り当てていくと、そこそこ短くなるという理屈である。詳しくはggrks。

たぶんハフマン符号化等をしていいなら200bitぐらいに収まる気がする。

しかしAVX時代に突入して、256bitなら一命令で計算できるので、差分計算がしやすく、かつ256bitに収まって欲しいという要求もある。

そこでZobrist Hashの更新と同じ程度の計算コストで出来る方法を編み出す必要がある。
ざっくり計算してみる。

手番は1bit。
角・飛のように成れる駒は、升(81升=7bit) + 先後(1bit) + 成り(1bit) = 9bit。
金のように成れない駒は、ここから1bit少なくて8bit。
王はhash keyのbit位置で先後決めておけば先後を表現する1bitは省略できて7bit。
歩は、愚直にやると角・飛と同じく9bitなのだが、各筋に先手の歩は1つしか存在できないので、hash keyのbit位置で先後どちらのどの筋を表現する歩であるかを決めておけば18枚に対して、それぞれ升(9升=4bit)+成り(1bit)で5bitずつで済む。

手駒は、升を意味する数字が82,83であればそれは先手,後手の手駒であるということにする。(歩も同様に手駒の時は、10,11升目にあるという扱いにする)

歩 5 * 18 = 90
香 9 * 4 = 36
桂 9 * 4 = 36
銀 9 * 4 = 36
金 8 * 4 = 32
角 9 * 2 = 18
飛 9 * 2 = 18
王 7 * 2 = 14
手番 1 * 1 = 1
281 bit

だめだ。256bitから少し(かなり?)オーバーした。

これ以上縮めるとZobrist Hashの更新と同等の速度でなくなってくる。(気がする)
歩が4bitで表現できたとしても263bit。ぐぬぬ。

256bitちょっと厳しいんじゃないの？何とかなるの？どうなの？

追記(2015/12/29 4:00)

局面数>4.65*10^62 であることがわかっている https://t.co/jXtkrRG5Gr ので、62*log2(10) で200は超えるはず。 https://t.co/bOtfIYR9Sg

— 山田剛 (@yamadacsa) December 28, 2015

なるほど…。

あとコメント欄で指摘があったのですが、歩の成りは、1つの筋に1つとは限らないので上で書いたの間違ってました…。うおおお。だとしたら、256bitに収めるの、大変すぎ！