天海春香さんと会話したいシリーズ14
重い
18万件も会話コーパスがあるとDBから全部の文章を取り出してmecabで分かち書きして数値出してみたいなことをやるとものすごい時間かかる 10分ぐらいかかる
1回の返答に10分かけるとかやってられないので事前に分かち書きしてDBに保存しておくことにする
かなり雑だけどテーブルはこんな設計になった
これに従来のコーパスを放り込める状態に変換して放り込むのに7時間ぐらいかかった 多分やり方が悪かった
文章表現の増幅
細かいニュアンスは違うけど、言いたいことは同じ、みたいな文を検知して正しい返答を返したい
文章中の名詞と助詞を置換可能なものに置換することで、より正確にその文章の言いたいことがわかるようにしたかった
置換可能名詞の推定
日本語 Wordnetという日本語の意味辞書を使う
入力した名詞に対する類義語、上位語、下位語を置換可能な名詞として扱う
「電車」を例にするとこんな感じで置換可能名詞がとれる
置換可能助詞の推定
もうマルコフ連鎖みたいな感じで置換可能な助詞とれるんじゃね?みたいなノリだった 甘かった
入力した文章中に含まれる助詞の前後の単語と品詞が一致する助詞をコーパスから検索し置換可能助詞として扱う
よくできた例
いい感じに語尾が置換されて表現が増幅されている
悪い例
「私は元気です」とは文章の意味自体が違うものが多く出てきている そもそも日本語として成り立ってないものも多い
調べてみると、格パターン分析とかいうことをやらないと置換可能な助詞はちゃんととれないらしい
ムビマスBD届いた
BD再生機器ないから本編とシャイニーフェスタ観れないんだけど特典CDが素晴らしかった 生きててよかった