天海春香さんと会話したいシリーズ15
クソみたいなコーパス
つらみ
これは「トーク長え...」と言われたのに対して「久し振りに...」という返答があるコーパスなのだが、ラジオMC専用の対話システムでもない限り会話コーパスとしてはまず使い物にならない
こういった使い物にならない会話コーパスがとても多く滅茶苦茶な返答をする原因になっている
なんで
SSの種類っていうか内容を判別せずに収集させていたので使えないコーパスが大量に発生するっぽい
元のSSを読んでみるとラジオ番組の放送中という設定らしい、面白かった
どうすんの
ラジオSS、登場人物が多いSS、発言がいちいち長いSSなどを弾く基準を設定して会話コーパスを再収集する
どうやんの
パースされたSSがコーパスに適しているか判定するクラスを作った
https://gist.github.com/sasamijp/a997fcbef4e9c4c708a1
発言の平均の長さが20以下かつ一対一の会話が40%以上の場合と、発言の長さが20以上でも一対一の会話が80%以上の場合、コーパスとして適していると判断される
どうなの
まだちょっとしかテストしてないけど多分いい感じ