ささみろぐ

チラシの裏

食器輪郭特徴量でじゃんけん画像識別

OpenCV + Pythonでじゃんけん画像の識別をやった。

github.com

画像から抽出した特徴量を比較してグーチョキパーに分類するという流れで、特徴量は食器輪郭特徴量を手の輪郭に対してほぼそのまま使った。 食器輪郭特徴量の論文は

http://www.topic.ad.jp/sice/papers/236/236-12.pdf

食器輪郭特徴量はものの輪郭に対して重心からの距離と接線方向のヒストグラムをとる方法で、食器の分類に使える。図は食器輪郭特徴量の論文から引用

f:id:sasamijp:20160729221321p:plain:w300

じゃんけんの識別では、画像からラベルまでは

  1. 画像に対して大津の2値化をして背景と手を分離

  2. ラプラシアンフィルタでエッジを検出

  3. エッジを線をなす順番に並び替える

  4. 線から食器輪郭特徴量を抽出

  5. Bhattacharyya距離とk-近傍法を使って学習データからクラス分類

みたいな流れで処理する。特徴量は大体下の図の感じのがとれる。重心からの距離は全ての輪郭点についての重心からの距離を\( \bf r \)として\( \bf r \gets \frac{r}{\max({\bf r})} \)と正規化するので0から1までの範囲で収まる。食器輪郭特徴量の論文ではカメラと食器の距離が全ての写真で一定なことを仮定していた(多分)ので手画像では正規化が必要になった。

f:id:sasamijp:20160730220016p:plain

Bhattacharyya距離で各ヒストグラムを比較すると重心からの距離ヒストグラムについての距離\( d_r \)と接線方向ヒストグラムについての距離 \( d_\theta \)がとれるが、これらを

{ \displaystyle
d = wd_r+ (1-w)d_\theta    (0 \leq w \leq 1)
}

として線形結合して最終的な画像間の距離 \( d \) を決める。

画像から輪郭線を並び替えたところまでを出力するスクリプト:

gist.github.com

輪郭線から特徴量を抽出してk近傍でクラス分類して識別成功率をみるスクリプト:

gist.github.com

実験

PRMUのデータセットを学習データにして自分で撮った写真19枚を分類してみて成功率をみる。

自分で撮った写真:

f:id:sasamijp:20160704220926j:plain:w100 f:id:sasamijp:20160710123426j:plain:w100 f:id:sasamijp:20160710123433j:plain:w100

PRMUのデータセット(http://www.ccm.media.kyoto-u.ac.jp/alcon2011/):

f:id:sasamijp:20160730212704p:plain:w100 f:id:sasamijp:20160730212620p:plain:w100 f:id:sasamijp:20160730212643p:plain:w100

PRMUのデータセットは12枚を90度ずつ回転させて48枚分の学習データにした。k近傍はk=3で固定して、輪郭点の数dを10から150まで10刻み、重心からの正規化距離と接線方向の距離の重みw(どちらのヒストグラムを比較においてより重視するかの値)は0から1まで0.05刻みで振った。

f:id:sasamijp:20160730213600p:plain

やはり輪郭点の数が多いほうが成功率が高い傾向がある。グーチョキパーでヒストグラムの差異がより大きくなるからだと思う。あと、重心からの距離の割合が大きくなると成功率がやたら下がる傾向がある。これは重心からの正規化距離だけだとグーとパーの区別がつかなくなることから起こっている。

画像から抽出した輪郭点を線をなす順番に並び替えるアルゴリズムがオリジナルなせいで1枚2分ぐらいかかる。リアルタイムに処理できるようにしたい。

天海春香さんと会話したい 20

f:id:sasamijp:20151126233453p:plain

グラフの出し方があまりよくない気がするが、これは返答発言に含まれる名詞数を表したものである。

f:id:sasamijp:20151126234923p:plain

返答発言の名詞数が10を超えたものを抽出した。こういった感じの返答は往々にして「変な返答」になってしまう。一定の基準でコーパスからこういったセットを取り除かなければならない。

名詞数に制約を設けたところ、28214 → 16726 と減少した。まあまだ使える数あるからいいでしょう

これがわいの言葉や

「自我が破綻したおっさん」というキャラにハマってしまったので、変換器を書いた。

日本語をわいらの言葉に変換するやで · GitHub

Webページの翻訳もできる。

html内にある日本語の固有名詞をわいに置換する · GitHub

Wikipediaの記事で試してみた。勘のいい人ならすぐに気づくと思うが、一瞬しか面白くない。

わいの歴史 - Wikipedia

天海春香さんと会話したい 19

文をtf-idfで重み付けしたベクトルで表して、コサイン類似度で類似度を出す方法を試してみる。

まずコーパス内の全ての2-gramを抽出し、重複を削除すると40355個になる。40355次元のベクトルで一文書を表現することになる。

tf-idfで文書内それぞれの2-gramに対し重みをつけていって、ベクトルとして書き出してみた。 f:id:sasamijp:20151124172531p:plain めっちゃ疎なベクトルができた。

ほんとは3次元じゃなくて40355次元なんだけど、今こんな感じでベクトルがたくさんある。 f:id:sasamijp:20151124193127p:plain

入力された文(話しかけられた文)もベクトルにすると、こんな具合に空間内に入ってくる。 f:id:sasamijp:20151124193316p:plain

ベクトルだから、それぞれに入力文とのなす角θがある。このとき、cosθの値を文章の類似度と捉えることができる。 f:id:sasamijp:20151124193550p:plain

この仕組みでとりあえず組んでみた。

gist.github.com コーパスはこんな形式で保存されている。

gist.github.com コーパスの"|||"で句切られている文字列の左側だけをnattoで分かち書きして2-gramに変換しベクトルにする。

gist.github.com こんな感じのベクトルができる。あまりにも疎なので「どこが0じゃない値か」みたいな形式にしておく。

gist.github.com できたベクトルを読み取って入力文ベクトルと比較してテストケースの結果を出力する。

gist.github.com テストケースに対する返答の結果。なんかあんまり良くない... ちょっと荒削りすぎた

そもそもSSのセリフだとtf-idfで重み付けするのがあまりよくない気がしてきた 品詞とかその辺の情報で重み付けしたい感じがある

LSIなどを使って密なベクトルに変換するのも試したいが、疎なベクトルのままやる方法を色々試そうと思う

天海春香さんと会話したい 18

テストケース

色々試して返答の精度を上げたいところだが、精度を確認する手段が必要なので、テストケースを作ってみる。

@sa2miへのリプライ最新50件を取得してみた。

gist214520b25537fc6dc58c

 

それぞれに対する返答を見ていって、返答器の評価をする。具体的な値が出せれば嬉しいのだが、ちょっと思いつかないのでパッと見た感覚でいいなあとかよくないなあとかやることにする。

 

 ためしに、バージョン16の天海春香さんで試してみた。

 

gist9ba5a2b89a34d31aa8bd

 

たまに面白いのもあるんだけど全体的に意味不明で悲しい。