MeCabとPythonで遊んでみたメモ2
形態素解析で何かおもしろいネタはないかと探していたところ、以下のページを見つけました。
TF-IDFと検索APIでキーワード抽出
http://nais.to/~yto/clog/2005-10-12-1.html
キーワード抽出アルゴリズムのTF-IDFは、コーパスという辞書ファイルが必要で試してみたいけど面倒だなあ。。。と思っていたわけですが、検索エンジンに頼れば辞書の必要なし!!なるへそ賢い!
自分のPCには青空文庫とかのテキスト形式の小説がたくさん保存してあるので、このスクリプトを使ってこれらの小説のキーワードを抽出してみることにします。
あ、でも、勝手に小説解析とかしちゃっうと著作権とかやばかったりするかもしれないので、小説のタイトル等は伏せさせて頂きます。ご了承ください。
以下は、解析した結果です。
単語 | TF-IDF |
---|---|
露出 | 1748.58894782 |
羞恥 | 1536.78402811 |
生贄 | 1469.71763742 |
女優 | 1428.97008558 |
哀願 | 1347.2125485 |
美貌 | 1244.09658334 |
屈辱 | 1229.92888797 |
言葉 | 1169.22399832 |
女囚 | 1165.87892547 |
写真 | 1138.69607401 |
あ、ちなみに登場人物の名前は解析結果から外しました。いい感じでキーワード抽出できてます。素晴らしい。じゃ次。
単語 | TF-IDF |
---|---|
雪乃 | 8445.84351134 |
郁弥 | 7994.75227236 |
ゆかり | 3698.48131034 |
義母 | 2823.38729968 |
仁科 | 1432.49030265 |
息子 | 1257.12010446 |
先生 | 1138.7603189 |
教師 | 1085.58524555 |
教え子 | 930.596974057 |
だめ | 867.853708713 |
今回は面倒だったので人物の名前は削りませんでした。登場人物はほぼ上位3位に入ってるようです。いやー小説の特徴がよく表れてておもしろい。しばらくこれであそべそうです
-
- -
2007.01.08追記
ソースのリンクが切れていたので修正しました。