ベイジアンフィルタ - Λάδι Βιώσας

MeCab＆形態素解析ネタの続きで、Pythonで簡易ベイジアンフィルタ作ってみました。

ベイジアンフィルタって何ぞや？という方に簡単に説明すると、テキスト分類プログラムのことです。よくある利用方法として、あるメールが、スパムメールかそうでないのかの判別に使われたりします。

ソースはコレです。ここのサイトの説明を参考にしました。アルゴリズムはPaul Graham方式を使っています。以前のコレはctypesを使ってMeCabを呼び出していたけど、今回はPython Bindingを使って書きました。

さて、、、ベイジアンフィルタを試すには、フィルタに学習させる為のデータが必要です。しかし、ふつーにスパムメールたくさん、ノンスパムメールたくさん用意して実験してもいまいち面白くない。

そこで、次のような実験方法を考えました。

Aさん、Bさんの書いた文章をフィルタ学習用データとして用意する。そして、学習用データに含まれない文章をフィルタにかけ、Aさん or Bさんのどちらが書いた文章かを判別する

という方法です。

というわけで、41個の椎名林檎の歌詞テキストと、55個の矢井田瞳の歌詞テキストを用意しました。
以下、簡単の為に、椎名林檎 = nonspam、矢井田瞳 = spamとします。

では、椎名林檎の「丸の内サディスティック」、矢井田瞳の「B'coz I Love You」をそれぞれフィルタにかけ、spamか否かを判別してみます。学習用データに、これら2曲は含めてありません。

「丸の内サディスティック」を nonspam、「B'coz I Love You」を spam と判別してくれるのを期待してるわけですが、、、

spam probability:0.000167671848076

上の数値は特徴的な単語上位15個のスパム確率です。総合スパム確率は0.01%。ちゃんと判別してるぽい。。

spam probability:0.999999996442

おお、99.99%スパムだ！！賢い！
って当たり前なのか。や、でも賢いなあ。

2007.01.08追記
ソースのリンクが切れていたので修正しました。