2015年9月9日水曜日

Backgammon dice recognition with Caffe

このブログでは異色の、技術ネタシリーズその2です。

前回は、バックギャモンをプレイしている動画からダイスと思われる領域を切り出して拡大表示してみました。今回は一歩進んで、画像認識技術を使ってダイスの目を読んでみました。

やったこと:
  1. 前回作ったシステムを使って、YouTubeで公開されている有名プレーヤーのプレイ動画から、ダイス部分を切り出して保存する。
  2. これらの大量の画像を手作業でラベル付け(1,2.. 6)する。
  3. Caffeというツールでニューラルネットワークに深層学習させる。
  4. 前回作ったシステムを改造して、リアルタイムにダイスの目を認識させて、結果を表示するようにした。
この中でもっとも大変な作業は2番目のラベル付けです。これまでに21000枚以上の画像を分類しましたが、あまりに単調な苦行でした。

ということで、こんなものが出来ました。


ニューラルネット自体は95%以上の正解率まで学習されているはずなのですが、まだまだ認識間違いが多いです。特に"6"がダメだなって感じです。人間にははっきり違いが分かるのですが、3とか4と誤認識する場合が多いです。

次は何しよっかなと思案していますが、チェッカーの位置を認識してピップ表示したり、あわよくばキューブの判断をしてくれる"リアル"Aceボタンとか作ってみたいです。