お知らせ

ただいま、シンタックスハイライターの設定を見直しております。
プログラムが見にくくなっているページがありますが、ご容赦ください。

Rでテキストマイニングを試してみる(1)単語の出現頻度

テキストマイニング

こんにちは。なかなかまとまったことができないので、何回かに分けて少しずつまとまったことをやっていきたいと思います。

しばらくの間、Rを使ったテキストマイニングを試してみることにします。

RMeCabをインストールする

はじめに、テキストマイニングをRでできるようにするために、RMeCabをインストールします。環境はWindowsのRです。

install.packages("RMeCab", repos = "http://rmecab.jp/R")
library(RMeCab)

によりRMeCabが使えるようになりました。

テキストマイニングの素材を用意する

青空文庫に掲載されている文章を使わせていただきます。

今回は、檸檬(梶井基次郎)を使うことにします。理由は、単に程よく短いということだけです。

短いので、ルビなどは手作業で削除しました。

とりあえず頻度を出してみる

それでは、形態素の頻度を調べてみます。テキストファイルは、実行時に選択するようにしています。

result<-RMeCabFreq(file.choose())
head(result[order(result$Freq,decreasing = TRUE),],20)

実行結果です。

    Term  Info1    Info2 Freq
106   た 助動詞        *  156
10    。   記号     句点  132
108   だ 助動詞        *  126
81    て   助詞 接続助詞  124
103   の   助詞   連体化  119
73    は   助詞   係助詞  110
12    、   記号     読点   86
69    を   助詞   格助詞   85
64    に   助詞   格助詞   84
58    が   助詞   格助詞   83
824   私   名詞   代名詞   72
832   の   名詞   非自立   46
150 する   動詞     自立   42
325 いる   動詞   非自立   40
871 その 連体詞        *   34
74    も   助詞   係助詞   32
11        記号     空白   29
6   ――   記号     一般   24
61    と   助詞   格助詞   23
110 ない 助動詞        *   22

とりあえず頻度を求めることができていますが、「あの」であるとか「え」であるとか、特に重要そうに思えないので、このような語を外して頻度を出すことにします。

品詞を限定して頻度を出してみる

おそらく文章の意味を読み取るために重要な品詞は、名詞・動詞・形容詞だろうと予想して、この3つの品詞に限定して頻度を出してみます。

result2<-docDF(file.choose(),type=1,pos=c("名詞","動詞","形容詞"))
head(result2[order(result2$lemon.txt,decreasing = TRUE),],20)

実行結果です。

      TERM   POS1   POS2 lemon.txt
361     私   名詞 代名詞        72
85      の   名詞 非自立        46
54    する   動詞   自立        42
20    いる   動詞 非自立        40
43    こと   名詞 非自立        19
62    それ   名詞 代名詞        19
108   もの   名詞 非自立        19
118   よう   名詞 非自立        16
82    なる   動詞   自立        14
668   来る   動詞 非自立        14
153     一   名詞     数        12
210     街   名詞   一般        12
78    ない 形容詞   自立        11
104   みる   動詞 非自立        11
302   言う   動詞   自立        11
121   れる   動詞   接尾        10
601 美しい 形容詞   自立        10
46      さ   名詞   接尾         9
411   出る   動詞   自立         9
700   檸檬   名詞   一般         9

いくらかまともになったような気がします。

とりあえず、中途半端さは否めませんが、今回はこれでおしまいにします。それではまた。

この記事を書いた人
春日井 優

高校で情報科という教科を担当しています。以前は数学科も担当していました。(今でも数学科の教員免許状は有効です。)プログラムを覚えたのは、「ゲームセンターあらし」という漫画のキャラクターがBASICを解説する「こんにちはマイコン」を読んだことがきっかけでした。

Posted by kasugai