TF-IDFを求めてWordCloudをつくるプログラム（５）

2018-10-30テキストマイニング

こんにちは。これまで４回にわたり、TF-IDFを求めてWord Cloudをつくるプログラムを説明してきました。今回が最終回になります。

1. 計算結果を出力する部分
2. 授業で説明した部分

計算結果を出力する部分

１４９～１７３行目では、前回説明した部分で計算したTF-IDFを出力しています。

# ---------------　【tf-idf をエクセルに出力する】　---------------
 
from openpyxl import Workbook
 
filename = "tf-idf.xlsx"
book = Workbook()
 
#　カテゴリーごとにtf-idfをファイルに出力する
for category in word_list:
 
    sheet = book.create_sheet(category)
    sheet['A1'] = '形態素'
    sheet['B1'] = 'tf'
    sheet['C1'] = 'idf'
    sheet['D1'] = 'tf-idf'
    
    # tf-idf　が大きい順に並び替えて出力する
    keys = sorted( tfidf[category].items() , key = lambda x:x[1] , reverse = True )
    for i , word in enumerate(keys):
        sheet.cell(row=i+2,column=1).value = word[0]
        sheet.cell(row=i+2,column=2).value = tf[category][word[0]]
        sheet.cell(row=i+2,column=3).value = idf[word[0]]
        sheet.cell(row=i+2,column=4).value = tfidf[category][word[0]]
 
book.save('tf-idf.xlsx')

プログラムでは、計算したTF-IDFをExcelに出力させることにしました。Matplotlibというライブラリを使えば、グラフを描いて出力することもできるのですが、単に数値の大小だけではなく、出力された言葉の意味を取りながら重要性を判断する必要があると考えました。ストップワードを増やして、再度プログラムを実行することにより修正することもできますが、限られた授業時間で発表資料を完成させるためには、Excel上で操作した方がよいと判断しました。カテゴリーごとに計算結果のシートを作り、形態素・TF・IDF・TF-IDFをそれぞれ出力しています。グラフはそのデータをもとに、生徒がExcelを使って描くことにしました。

１５１行目では、openpyxlというライブラリをインポートしています。これによりExcelとしてデータを出力できるようになります。標準ライブラリではないので、インストールしていなければ、pipコマンドでインストールする必要があります。

１５３行目では、出力先のファイル名を変数filenameに入れて・・・というはずでしたが、結果として使っていませんでした。何をやっているんでしょうね。

１５４行目では、空のExcelファイルを作成し変数bookとして記憶しています。

１５７行目では、カテゴリーごとに出力するようループさせています。

１５９行目では、カテゴリー名がシート名となる新しいシートを作成しています。

１６０～１６３行目では、カラム名「形態素」「TF」「IDF」「TF-IDF」をA1～D1のセルに出力しています。

１６６行目では、TF-IDFが降順になるようにソートしています。引数が３つあるので、それぞれの引数について説明します。１つ目の引数ではソートするデータを与えています。tfidf[category].items()により、TF-IDFの計算結果を（キー,バリュー）のタプルとして、それらを要素とするリストに変換して与えています。バリューであるTF-IDFの値を降順で並べ替え、キーである形態素を使うため、２つの値のタプルにしています。実際どうなるかというと、
［ ( '果物’, 0.04 ) , ( 'ケーキ’ , 0.19 ) , ( 'ビタミン’ , 0 ) , ('赤い’ , 0.04) ］
となります。２つ目の引数ではソートキーを与えています。TF-IDFの値でソートするので、TF-IDFの値はタプルの２つ目の要素でありx[1]を指定しています。３つ目の引数はソート順を降順にするため、reverse = True としています。

１６７行目では、for i , word in enumerate(keys):により、インデックス番号を変数iに、リストの要素を変数wordで受け取りループしています。ループ１回目では、i=0，word=( 'ケーキ’ , 0.19 )を受け取っています。

１６８～１７１行目では、セルに値を出力しています。１６８行目ではＡ列のi+2行目に形態素を、１６９行目ではＢ列のi+2行目にTFを、１７０行目ではC列のi+2行目にIDFを、１７１行目ではD列のi+2行目にTF-IDFを出力しています。

１７３行目では、変数bookに出来上がったExcelを'tf-idf.xlsx’というファイル名で保存しています。本当ならば、book.save(filename)とすべきでした。

以上でプログラムをひととおり確認しました。無理やり書いている部分があったり、不要な行が残っていたりして書き直したい感じがします。