天海春香さんと会話したいシリーズ13
戦いは数だよ兄貴
前々回の記事でノイズの少ない会話コーパスを集めるのが大事といった話を書いたが、それにしても会話コーパスの量が3000とかだと会話するには全然足りないと感じた
ノイズの少なさを保ったまま会話コーパスの量を増やすために適当なSSまとめサイトの記事を全部保存するスクリプトを書いてみた
記事のurl全部取得するやつ :
https://gist.github.com/sasamijp/b9c1f8a5f3f554060f1d
記事の内容を会話コーパスに変換して保存するやつ :
https://gist.github.com/sasamijp/c845f4784c050789a434
SSから会話コーパスへの変換をするクラス :
https://gist.github.com/sasamijp/4df8193b80c4007dd185
会話コーパスのテーブルはこんな感じで用意した
以前までは発言者が春香のコーパスのみを集めていたがほかのキャラの会話も色々と使いようがあるので保存しておくことにする
それでも大体18万ぐらいの会話コーパスが集まったので以前より600倍ぐらい強い春香さんができると思う
泣きそう
大きさ18万のデータとなると今まで適当にループ回して2秒ぐらいで終わった処理に1分ぐらいかかったりするのであらかじめ文を分かち書きしておくなどといった工夫が必要になる
つらい
今日は、このへんに、しときます、それではみなさん、さよなら〜