N-gram（１）

2019-01-24データの活用

こんにちは。今回は文を分割する方法について書きます。以前、形態素解析について書きましたが、もっとお手軽に文章を分割することができます。

以前の記事：

にほんごであそぼ！（形態素解析のお話）

こんにちは。Ｅテレの番組のようなタイトルなので、間違えてこのページに来てしまった人、本当にごめん ...

https://joho-ka.mints.ne.jp/morphological-analysis

1. N-gramとは
2. N-gramの例
3. N-gramのプログラム
4. 粒度について

N-gramとは

エヌグラムとよみます。文字列を連続したN文字で区切っていく分割の方法です。N=1のときuni-gram（ユニグラム）、N=2のときbi-gram（バイグラム）、N=3のときtri-gram（トリグラム、トライグラム）といいます。発音が気になったので、ネイティブの発音を聞いてみました。

ユニグラムス、ビッグラムス、トリグラムスと発音しているように聞こえましたが、リスニング力に自信がないのでこれ以上深入りするのはやめることにします。

N-gramの例

例として、芥川龍之介の羅生門の書き出し「ある日の暮方の事である。一人の下人が、羅生門の下で雨やみを待っていた。」を使って、2-gramではどのように区切られるかを見てみます。

['ある', 'る日', '日の', 'の暮', '暮方',
 '方の', 'の事', '事で', 'であ', 'ある',
 'る。', '。一', '一人', '人の', 'の下',
 '下人', '人が', 'が、', '、羅', '羅生',
 '生門', '門の', 'の下', '下で', 'で雨',
 '雨や', 'やみ', 'みを', 'を待', '待っ',
 'って', 'てい', 'いた', 'た。']

次に3-gramで区切った場合です。

['ある日', 'る日の', '日の暮', 'の暮方', '暮方の',
 '方の事', 'の事で', '事であ', 'である', 'ある。',
 'る。一', '。一人', '一人の', '人の下', 'の下人',
 '下人が', '人が、', 'が、羅', '、羅生', '羅生門',
 '生門の', '門の下', 'の下で', '下で雨', 'で雨や',
 '雨やみ', 'やみを', 'みを待', 'を待っ', '待って',
 'ってい', 'ていた', 'いた。']

意味があるまとまりに必ずしもなっていませんが、前後の関係がわかる形で区切ることができています。

N-gramのプログラム

Pythonのプログラムで、上の結果を得ました。

def n_gram( text, n ):
	return [ text[i:i+n] for i in range( len(text)-n+1 ) ]


path = 'rashomon.txt'
file = open( path, encoding='utf-8' )
text = file.read()
file.close()

print( n_gram( text, 2 ) )
print( n_gram( text, 3 ) )

Pythonの内包表記と文字列のスライスを使っているので、慣れないと読みにくいですが、「i文字目からn文字分取り出してリストを作る」ということが2行目に書かれています。