ささみろぐ

チラシの裏

天海春香さんと会話したい

天海春香さんと会話したい 20

グラフの出し方があまりよくない気がするが、これは返答発言に含まれる名詞数を表したものである。 返答発言の名詞数が10を超えたものを抽出した。こういった感じの返答は往々にして「変な返答」になってしまう。一定の基準でコーパスからこういったセットを…

天海春香さんと会話したい 19

文をtf-idfで重み付けしたベクトルで表して、コサイン類似度で類似度を出す方法を試してみる。 まずコーパス内の全ての2-gramを抽出し、重複を削除すると40355個になる。40355次元のベクトルで一文書を表現することになる。 tf-idfで文書内それぞれの2-gram…

天海春香さんと会話したい 18

テストケース 色々試して返答の精度を上げたいところだが、精度を確認する手段が必要なので、テストケースを作ってみる。 @sa2miへのリプライ最新50件を取得してみた。 gist214520b25537fc6dc58c それぞれに対する返答を見ていって、返答器の評価をする。具…

天海春香さんと会話したい 17

こう言われたらこう返すというデータを蓄積して返答させる方法を考えてきた。その方法だと、返答を選びとるにあたって「今話しかけられた文章」というデータしか手がかりにならない。そこで、文脈を読み取る仕組みを考えてみた。 入力とSSをどこまで比較する…

天海春香さんと会話したいシリーズ16

基本情報落ちた 作り直した 前々回ぐらいの記事で文章表現を増幅することで細かいニュアンスの変化に対応できるとかいうことを書いたが、色々とやり方が悪くて効果が出なかったのでそれを踏まえて作り直した DB設計 単語に対して品詞データを全て保存してお…

天海春香さんと会話したいシリーズ15

クソみたいなコーパス つらみ これは「トーク長え...」と言われたのに対して「久し振りに...」という返答があるコーパスなのだが、ラジオMC専用の対話システムでもない限り会話コーパスとしてはまず使い物にならない こういった使い物にならない会話コーパス…

天海春香さんと会話したいシリーズ14

重い 18万件も会話コーパスがあるとDBから全部の文章を取り出してmecabで分かち書きして数値出してみたいなことをやるとものすごい時間かかる 10分ぐらいかかる 1回の返答に10分かけるとかやってられないので事前に分かち書きしてDBに保存しておくことにする…

天海春香さんと会話したいシリーズ13

戦いは数だよ兄貴 前々回の記事でノイズの少ない会話コーパスを集めるのが大事といった話を書いたが、それにしても会話コーパスの量が3000とかだと会話するには全然足りないと感じた ノイズの少なさを保ったまま会話コーパスの量を増やすために適当なSSまと…

天海春香さんと会話したいシリーズ12.5

悲しみ sa2miのツイッターのアイコンが固定なのがちょっと寂しいので会話の内容に応じて変わるようにしたい ミリマス アイドルマスターミリオンライブで会話ダイアログに使われる画像を使う ベイジアンフィルター 文章から感情を判定するためにclassifierと…

天海春香さんと会話したいシリーズ12

前回のラブライブ! ノイズの少ない学習データ(SS)を用意することが一番重要だとわかったのでSS収集をもっとしっかりできるように作ろう ショートストーリーの収集 まとめブログの本文抽出にextractcontentというgemを使っていたのだが精度がよくなくて記事…

ささ海春香さんと英語で話す

SStoAIのちょっと新しいやつができつつあるので試してみる sasamijp/konbu · GitHub ai.respond("hoge") みたいな感じで返答が得られるので翻訳API通して英語で会話してみた 実践 @sa2mi Hello? — コンスタンティノープロブレム (@sasamijp) 2014, 6月 29 @s…

おしりからおしり出てきた

SS(ショートストーリー)を人工無能に変換するツールを作ったので使い方を説明します 1. ダウンロード githubから本体をダウンロードするかcloneしてください。 sasamijp/SStoAI · GitHub 2. 解凍 zipかなんかで落としたら解凍しましょう。レンジでチンすると…

プロデューサーさん、人工無能ですよ人工無能!

@sasamijp じゃあカツ丼で! — 天海春香 (@sa2mi) 2014, 2月 9 今 @sa2mi で動作している人工無能天海春香2のおおまかな仕組みについて適当に解説します。 前回のラブライブ! 従来までのささみbotはただ持っている文章データを使って、マルコフ連鎖でめちゃ…