文をtf-idfで重み付けしたベクトルで表して、コサイン類似度で類似度を出す方法を試してみる。 まずコーパス内の全ての2-gramを抽出し、重複を削除すると40355個になる。40355次元のベクトルで一文書を表現することになる。 tf-idfで文書内それぞれの2-gram…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。