天海春香さんと会話したいシリーズ12
前回のラブライブ!
ノイズの少ない学習データ(SS)を用意することが一番重要だとわかったのでSS収集をもっとしっかりできるように作ろう
ショートストーリーの収集
まとめブログの本文抽出にextractcontentというgemを使っていたのだが精度がよくなくて記事の半分ぐらいまでしか読み込めないので自分で本文抽出を書いた
https://gist.github.com/sasamijp/702cd781aebdc97deae1
返答の仕組み
与えられた入力と学習データのin_reply_toがある程度一致するとserifが返る
ほとんど従来型と変わらないが名詞と動詞に対して重くスコアを振る感じにしたので「ちょっと来て」という文に対し「ちょっと」という部分に対してしか返答できなかったのが「来て」に対しての返答をしてくれるようになった
https://gist.github.com/sasamijp/67de96c5a246224d7e27
いい感じになった
学習データ数が3600ぐらいと今までと比べるとだいぶ少ないのでもっと増やしてあげたい