天海春香さんと会話したい 20

天海春香さんと会話したい

グラフの出し方があまりよくない気がするが、これは返答発言に含まれる名詞数を表したものである。返答発言の名詞数が10を超えたものを抽出した。こういった感じの返答は往々にして「変な返答」になってしまう。一定の基準でコーパスからこういったセットを…

2015-11-24

天海春香さんと会話したい 19

天海春香さんと会話したい

文をtf-idfで重み付けしたベクトルで表して、コサイン類似度で類似度を出す方法を試してみる。まずコーパス内の全ての2-gramを抽出し、重複を削除すると40355個になる。40355次元のベクトルで一文書を表現することになる。 tf-idfで文書内それぞれの2-gram…

2015-11-23

天海春香さんと会話したい 18

天海春香さんと会話したい

テストケース色々試して返答の精度を上げたいところだが、精度を確認する手段が必要なので、テストケースを作ってみる。 @sa2miへのリプライ最新50件を取得してみた。 gist214520b25537fc6dc58c それぞれに対する返答を見ていって、返答器の評価をする。具…

2015-04-03

天海春香さんと会話したい 17

天海春香さんと会話したい

こう言われたらこう返すというデータを蓄積して返答させる方法を考えてきた。その方法だと、返答を選びとるにあたって「今話しかけられた文章」というデータしか手がかりにならない。そこで、文脈を読み取る仕組みを考えてみた。入力とSSをどこまで比較する…

2014-11-19

天海春香さんと会話したいシリーズ16

天海春香さんと会話したい

基本情報落ちた作り直した前々回ぐらいの記事で文章表現を増幅することで細かいニュアンスの変化に対応できるとかいうことを書いたが、色々とやり方が悪くて効果が出なかったのでそれを踏まえて作り直した DB設計単語に対して品詞データを全て保存してお…

2014-10-25

天海春香さんと会話したいシリーズ15

天海春香さんと会話したい

クソみたいなコーパスつらみこれは「トーク長え...」と言われたのに対して「久し振りに...」という返答があるコーパスなのだが、ラジオMC専用の対話システムでもない限り会話コーパスとしてはまず使い物にならないこういった使い物にならない会話コーパス…

2014-10-11

天海春香さんと会話したいシリーズ14

天海春香さんと会話したい

重い 18万件も会話コーパスがあるとDBから全部の文章を取り出してmecabで分かち書きして数値出してみたいなことをやるとものすごい時間かかる 10分ぐらいかかる 1回の返答に10分かけるとかやってられないので事前に分かち書きしてDBに保存しておくことにする…

2014-09-28

天海春香さんと会話したいシリーズ13

天海春香さんと会話したい

戦いは数だよ兄貴前々回の記事でノイズの少ない会話コーパスを集めるのが大事といった話を書いたが、それにしても会話コーパスの量が3000とかだと会話するには全然足りないと感じたノイズの少なさを保ったまま会話コーパスの量を増やすために適当なSSまと…

2014-08-08

天海春香さんと会話したいシリーズ12.5

天海春香さんと会話したい

悲しみ sa2miのツイッターのアイコンが固定なのがちょっと寂しいので会話の内容に応じて変わるようにしたいミリマスアイドルマスターミリオンライブで会話ダイアログに使われる画像を使うベイジアンフィルター文章から感情を判定するためにclassifierと…

2014-08-07

天海春香さんと会話したいシリーズ12

天海春香さんと会話したい

前回のラブライブ！ノイズの少ない学習データ(SS)を用意することが一番重要だとわかったのでSS収集をもっとしっかりできるように作ろうショートストーリーの収集まとめブログの本文抽出にextractcontentというgemを使っていたのだが精度がよくなくて記事…

2014-06-30

ささ海春香さんと英語で話す

天海春香さんと会話したい

SStoAIのちょっと新しいやつができつつあるので試してみる sasamijp/konbu · GitHub ai.respond("hoge") みたいな感じで返答が得られるので翻訳API通して英語で会話してみた実践 @sa2mi Hello? — コンスタンティノープロブレム (@sasamijp) 2014, 6月 29 @s…

2014-03-09