Rでテキストマイニングを試してみる(1)単語の出現頻度
こんにちは。なかなかまとまったことができないので、何回かに分けて少しずつまとまったことをやっていきたいと思います。
しばらくの間、Rを使ったテキストマイニングを試してみることにします。
RMeCabをインストールする
はじめに、テキストマイニングをRでできるようにするために、RMeCabをインストールします。環境はWindowsのRです。
install.packages("RMeCab", repos = "http://rmecab.jp/R")
library(RMeCab)
によりRMeCabが使えるようになりました。
テキストマイニングの素材を用意する
青空文庫に掲載されている文章を使わせていただきます。
今回は、檸檬(梶井基次郎)を使うことにします。理由は、単に程よく短いということだけです。
短いので、ルビなどは手作業で削除しました。
とりあえず頻度を出してみる
それでは、形態素の頻度を調べてみます。テキストファイルは、実行時に選択するようにしています。
result<-RMeCabFreq(file.choose())
head(result[order(result$Freq,decreasing = TRUE),],20)
実行結果です。
Term Info1 Info2 Freq
106 た 助動詞 * 156
10 。 記号 句点 132
108 だ 助動詞 * 126
81 て 助詞 接続助詞 124
103 の 助詞 連体化 119
73 は 助詞 係助詞 110
12 、 記号 読点 86
69 を 助詞 格助詞 85
64 に 助詞 格助詞 84
58 が 助詞 格助詞 83
824 私 名詞 代名詞 72
832 の 名詞 非自立 46
150 する 動詞 自立 42
325 いる 動詞 非自立 40
871 その 連体詞 * 34
74 も 助詞 係助詞 32
11 記号 空白 29
6 ―― 記号 一般 24
61 と 助詞 格助詞 23
110 ない 助動詞 * 22
とりあえず頻度を求めることができていますが、「あの」であるとか「え」であるとか、特に重要そうに思えないので、このような語を外して頻度を出すことにします。
品詞を限定して頻度を出してみる
おそらく文章の意味を読み取るために重要な品詞は、名詞・動詞・形容詞だろうと予想して、この3つの品詞に限定して頻度を出してみます。
result2<-docDF(file.choose(),type=1,pos=c("名詞","動詞","形容詞"))
head(result2[order(result2$lemon.txt,decreasing = TRUE),],20)
実行結果です。
TERM POS1 POS2 lemon.txt
361 私 名詞 代名詞 72
85 の 名詞 非自立 46
54 する 動詞 自立 42
20 いる 動詞 非自立 40
43 こと 名詞 非自立 19
62 それ 名詞 代名詞 19
108 もの 名詞 非自立 19
118 よう 名詞 非自立 16
82 なる 動詞 自立 14
668 来る 動詞 非自立 14
153 一 名詞 数 12
210 街 名詞 一般 12
78 ない 形容詞 自立 11
104 みる 動詞 非自立 11
302 言う 動詞 自立 11
121 れる 動詞 接尾 10
601 美しい 形容詞 自立 10
46 さ 名詞 接尾 9
411 出る 動詞 自立 9
700 檸檬 名詞 一般 9
いくらかまともになったような気がします。
とりあえず、中途半端さは否めませんが、今回はこれでおしまいにします。それではまた。
ディスカッション
コメント一覧
まだ、コメントがありません