ささみろぐ

チラシの裏

食器輪郭特徴量でじゃんけん画像識別

作ってみた

OpenCV + Pythonでじゃんけん画像の識別をやった。

画像から抽出した特徴量を比較してグーチョキパーに分類するという流れで、特徴量は食器輪郭特徴量を手の輪郭に対してほぼそのまま使った。食器輪郭特徴量の論文は

http://www.topic.ad.jp/sice/papers/236/236-12.pdf

食器輪郭特徴量はものの輪郭に対して重心からの距離と接線方向のヒストグラムをとる方法で、食器の分類に使える。図は食器輪郭特徴量の論文から引用

f:id:sasamijp:20160729221321p:plain:w300

じゃんけんの識別では、画像からラベルまでは

画像に対して大津の2値化をして背景と手を分離
ラプラシアンフィルタでエッジを検出
エッジを線をなす順番に並び替える
線から食器輪郭特徴量を抽出
Bhattacharyya距離とk-近傍法を使って学習データからクラス分類

みたいな流れで処理する。特徴量は大体下の図の感じのがとれる。重心からの距離は全ての輪郭点についての重心からの距離を\( \bf r \)として\( \bf r \gets \frac{r}{\max({\bf r})} \)と正規化するので0から1までの範囲で収まる。食器輪郭特徴量の論文ではカメラと食器の距離が全ての写真で一定なことを仮定していた(多分)ので手画像では正規化が必要になった。

f:id:sasamijp:20160730220016p:plain

Bhattacharyya距離で各ヒストグラムを比較すると重心からの距離ヒストグラムについての距離\( d_r \)と接線方向ヒストグラムについての距離 \( d_\theta \)がとれるが、これらを

${ \displaystyle d = wd_r+ (1-w)d_\theta 　 (0 \leq w \leq 1) }$

として線形結合して最終的な画像間の距離 \( d \) を決める。

画像から輪郭線を並び替えたところまでを出力するスクリプト:

gist.github.com

輪郭線から特徴量を抽出してk近傍でクラス分類して識別成功率をみるスクリプト:

gist.github.com

実験

PRMUのデータセットを学習データにして自分で撮った写真19枚を分類してみて成功率をみる。

自分で撮った写真:

f:id:sasamijp:20160704220926j:plain:w100 f:id:sasamijp:20160710123426j:plain:w100 f:id:sasamijp:20160710123433j:plain:w100

PRMUのデータセット(http://www.ccm.media.kyoto-u.ac.jp/alcon2011/):

f:id:sasamijp:20160730212704p:plain:w100 f:id:sasamijp:20160730212620p:plain:w100 f:id:sasamijp:20160730212643p:plain:w100

PRMUのデータセットは12枚を90度ずつ回転させて48枚分の学習データにした。k近傍はk=3で固定して、輪郭点の数dを10から150まで10刻み、重心からの正規化距離と接線方向の距離の重みw(どちらのヒストグラムを比較においてより重視するかの値)は0から1まで0.05刻みで振った。

f:id:sasamijp:20160730213600p:plain

やはり輪郭点の数が多いほうが成功率が高い傾向がある。グーチョキパーでヒストグラムの差異がより大きくなるからだと思う。あと、重心からの距離の割合が大きくなると成功率がやたら下がる傾向がある。これは重心からの正規化距離だけだとグーとパーの区別がつかなくなることから起こっている。

画像から抽出した輪郭点を線をなす順番に並び替えるアルゴリズムがオリジナルなせいで1枚2分ぐらいかかる。リアルタイムに処理できるようにしたい。