ささみろぐ

チラシの裏

天海春香さんと会話したいシリーズ12

前回のラブライブ!

ノイズの少ない学習データ(SS)を用意することが一番重要だとわかったのでSS収集をもっとしっかりできるように作ろう

 

ショートストーリーの収集

まとめブログの本文抽出にextractcontentというgemを使っていたのだが精度がよくなくて記事の半分ぐらいまでしか読み込めないので自分で本文抽出を書いた

https://gist.github.com/sasamijp/702cd781aebdc97deae1

 

返答の仕組み

f:id:sasamijp:20140807022928p:plain

与えられた入力と学習データのin_reply_toがある程度一致するとserifが返る

ほとんど従来型と変わらないが名詞と動詞に対して重くスコアを振る感じにしたので「ちょっと来て」という文に対し「ちょっと」という部分に対してしか返答できなかったのが「来て」に対しての返答をしてくれるようになった

https://gist.github.com/sasamijp/67de96c5a246224d7e27

 

いい感じになった

f:id:sasamijp:20140807022239p:plain

学習データ数が3600ぐらいと今までと比べるとだいぶ少ないのでもっと増やしてあげたい