Λάδι Βιώσας

http://profile.hatena.ne.jp/kenkitii/

MeCabとPythonで遊んでみたメモ2

形態素解析で何かおもしろいネタはないかと探していたところ、以下のページを見つけました。
TF-IDFと検索APIでキーワード抽出
http://nais.to/~yto/clog/2005-10-12-1.html

キーワード抽出アルゴリズムのTF-IDFは、コーパスという辞書ファイルが必要で試してみたいけど面倒だなあ。。。と思っていたわけですが、検索エンジンに頼れば辞書の必要なし!!なるへそ賢い!

で、Pythonで書いてみた。ソースはこれ

自分のPCには青空文庫とかのテキスト形式の小説がたくさん保存してあるので、このスクリプトを使ってこれらの小説のキーワードを抽出してみることにします。

あ、でも、勝手に小説解析とかしちゃっうと著作権とかやばかったりするかもしれないので、小説のタイトル等は伏せさせて頂きます。ご了承ください。

以下は、解析した結果です。

単語 TF-IDF
露出 1748.58894782
羞恥 1536.78402811
生贄 1469.71763742
女優 1428.97008558
哀願 1347.2125485
美貌 1244.09658334
屈辱 1229.92888797
言葉 1169.22399832
女囚 1165.87892547
写真 1138.69607401

あ、ちなみに登場人物の名前は解析結果から外しました。いい感じでキーワード抽出できてます。素晴らしい。じゃ次。

単語 TF-IDF
雪乃 8445.84351134
郁弥 7994.75227236
ゆかり 3698.48131034
義母 2823.38729968
仁科 1432.49030265
息子 1257.12010446
先生 1138.7603189
教師 1085.58524555
教え子 930.596974057
だめ 867.853708713

今回は面倒だったので人物の名前は削りませんでした。登場人物はほぼ上位3位に入ってるようです。いやー小説の特徴がよく表れてておもしろい。しばらくこれであそべそうです

    • -

2007.01.08追記
ソースのリンクが切れていたので修正しました。