R でテキストマイニングをやってみた（１０）まとめ

2019-09-30テキストマイニング

こんにちは。この1か月、Rを使ってテキストマイニングをしてみました。

それらを、まとめ、振り返るとともに、感想を書いてみることにします。

1. 単語（形態素）の出現頻度に着目してみた
2. つながりに着目してみた
3. クラスタリングをしてみた
4. タネ本の紹介

単語（形態素）の出現頻度に着目してみた

はじめに単語（形態素）の出現頻度に着目して、テキストマイニングを行いました。

Rでテキストマイニングを試してみる（１）単語の出現頻度

こんにちは。なかなかまとまったことができないので、何回かに分けて少しずつまとまったことをやってい ...

https://joho-ka.mints.ne.jp/text-mining-with-r-01

単純に頻度に着目するだけでは、余計な単語が含まれてしまうので、品詞で絞ったり、ストップワードを設定したりして、必要な単語に絞り込んでみました。

Rでテキストマイニングを試してみる（２）ストップワードとワードクラウド

こんにちは。前回に続いて R でテキストマイニングを試してみることにします。前回までの問題点前回 ...

https://joho-ka.mints.ne.jp/text-mining-with-r-02

ここでは、視覚化できるよう、棒グラフを描いたり、ワードクラウドを描いたりしていました。

さらに、どの文書でも頻出する単語の価値を低く見積もることができるよう、TF-IDFという指標でテキストマイニングをしてみました。

Ｒでテキストマイニングを試してみる（５）TF-IDF

こんにちは。引き続き、梶井基次郎作品を使ってテキストマイニングをしていきます。今回はTF-IDFを求 ...

https://joho-ka.mints.ne.jp/text-mining-with-r-05

文章間で比較をすることにより、それぞれの文章に特徴のある語句を調べることができました。

つながりに着目してみた

はじめに、前後のつながりに着目してテキストマイニングを行うよう、N-gramの頻度を求めました。

Rでテキストマイニングを試してみる（３）N-gram

こんにちは。今回はRでN-gramを試してみます。 N-gramについては、以前Pythonを使って書いた記事がある ...

https://joho-ka.mints.ne.jp/text-mining-with-r-03

さらに、N-gramを求める関数にはさまざまなものがあるので、試してみて結果の形式などを比較してみました。

Ｒでテキストマイニングを試してみる（４）N-gramの比較

こんにちは。前回に続き、N-gramを取り上げます。 RMeCabには、N-gramをする関数がいろいろあるので、 ...

https://joho-ka.mints.ne.jp/text-mining-with-r-04

N-gramをどのように活用するかによって、使い分けが必要そうな感じがします。さらに多くの場面でN-gramの結果を活用することを通して探っていきたいと思います。

ここまでは、連続してつながっている場合の頻度を求めていましたが、文章には途中で副詞がはさまったり、語順の入れ替わりがあったりします。

そのような場合にも対応できるよう、n 語以内に一緒に出現する単語である共起語についても調べてみました。

Ｒでテキストマイニングを試してみる（６）共起語

こんにちは。まだまだテキストマイニングをやってみることにします。共起語・コロケーションについて ...

https://joho-ka.mints.ne.jp/text-mining-with-r-06

その共起語を視覚化してとらえられるよう、共起ネットワークを描いてみました。

Rでテキストマイニングを試してみる（７）共起ネットワーク

こんにちは。まだまだテキストマイニングを続けることにします。そして、まだまだ梶井基次郎作「檸檬」 ...

https://joho-ka.mints.ne.jp/text-mining-with-r-07

ここで描いた共起ネットワークは、結局バイグラム（2-gram）なので、上で求めた共起語とは異なっていますが、ある程度傾向がつかめるようには思います。

クラスタリングをしてみた

文章が似ているか否かを、距離が近い順にまとめていく手法であるクラスタリングを用いて分類してみました。

教師なしの機械学習とも言われているようです。

はじめに、ユークリッド距離を用いたウォード法によるクラスタリングを行いました。

Rでテキストマイニングを試してみる（８）クラスタリング

こんにちは。まだまだテキストマイニングをやってみることにします。今回はクラスタリングです。（ア ...

https://joho-ka.mints.ne.jp/text-mining-with-r-08

他の距離を用いたり、クラスタリングする際の手法が他にもあったりしたことから、さまざまな組み合わせについて試してみました。

Rでテキストマイニングをやってみた（９）いろいろクラスタリング

こんにちは。前回のクラスタリングをやってみて、用いる距離を変えてみたり、クラスタリングの方法を変 ...

https://joho-ka.mints.ne.jp/text-mining-with-r-09

予想外にも9本の小説を、作者ごとに分類できる場合がありました。

丁寧に手法を見ていくと、偶然なのか根拠となることが見つかるのかまでは残念ながら試すことはできていませんが、興味深く思っています。

タネ本の紹介

参考にさせていただいた書籍は2冊あります。

1冊目は、RMeCabの作者である石田基広先生の「Rによるテキストマイニング入門」です。

Rによるテキストマイニング入門(第2版)｜森北出版株式会社

森北出版で発行している書籍「Rによるテキストマイニング入門(第2版)」の詳細ページです。

https://www.morikita.co.jp/books/book/3169

具体的な分析を例示があり、分析したい対象とその手法がわかりやすいと思い、参考にさせていただきました。

2冊目は、小林雄一郎先生の「Rによるやさしいテキストマイニング」です。

Rによるやさしいテキストマイニング | Ohmsha

　本書は、「テキストマイニングに必要な知識とはなんだろう？」という素朴な疑問に直球でお答えする入 ...

https://www.ohmsha.co.jp/book/9784274220234/

Rのプログラムについては、dplyrライブラリを使わないで、一つ一つの処理がわかりやすく感じました。

かなり、この本をなぞったところがありますが、そのまま写すだけで終わらないように心がけました。

書面ではページ数が限られているので、Rに慣れていない人（私を含めて）が同じ処理をするときに、実行しなければいけないコマンドをまとめて表示したり、途中で実行結果を確認するようなコマンドを外したりして、未来の自分がもう一度同じ処理を再現できるようにしておいたという感じになります。

また、本に書かれていることから派生して、私が気になったことも調べてみました。

観光地のガイド本を使うときに、紹介されたコースをなぞるのもよいですが、脇道にそれてみて自分なりの新しい発見をしてみるのも楽しいと感じ、そのような使い方をさせていただきました。

まだまだ、テキストマイニングの一部しか味わっていませんが、このシリーズもこのあたりで一区切りをつけたいと思います。それではまた。

Posted by 春日井優

表計算ソフトウェアでシミュレーション（１）確率に応じて事象が出現するようにする

Rでテキストマイニングをやってみた（９）いろいろクラスタリング

コメント一覧

まだ、コメントがありません

コメントをどうぞコメントをキャンセル

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。

日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30