スパム

スパム、ごみメールのことだが、いつからか受け取るメールのほとんどがこのスパムメールになってしまった。何とかしたいな、と思っていたときに出会ったのが、POPFile というフリーのソフトウェア。受け取ったメールをベイズ推定という統計的な手法を使って、これはごみメール、これは大事なメール、というように自動的に振り分けてくれる。「ベイズ推定」なんて難しいことをやっていそうなのだが、要はメールに使われている言葉からごみメールか大事なメールかをソフトウェアが推測して振り分けるのだ。「今すぐ」とか「体験できます」なんてあったら、いかにも宣伝でごみメールっぽいと人間が思うようにこのソフトウェアも推測する。POPFile がすごいのは、いろいろ面倒なルールを人間が設定する必要がなく、代わりに「トレーニングして育てる」という作業で賢くなっていくというところだ。最初は大事なメールをごみメールに分類したり、逆にごみメールを大事なメールに分類したりと間違えることもあるのだが、「これはごみメールだよ。これは大事なメール」と間違いを指摘していくうちに、だんだんと正確に分類するようになる。最初100通ほど分類すれば、90% あるいはそれ以上の正確さで分類できるようになる。
こんなに便利な POPFile だが、残念ながらオリジナルは日本語には対応していない。そこで、日本語対応のパッチを作った。今、POPFile の最新版は v0.19.0 が出たばかりで、それに対応したパッチをここで公開している。まだベータ版といったところだが、それでも私のマシン上ではそん色なく動いていて、現在 98% という正確さでごみメールと普通のメールとをより分けてくれている。
このパッチは POPFile の作者に送ってあり、うまくすれば次の正式版にとりこまれるかもしれない。しかしあくまでもまだベータ版なので、このパッチPOPFile を日本語環境の上で試してみて、フィードバックをくれる人がいたら大歓迎だ。

Flogman が Google でヒット

Flogman ( id:jishiha:20030516#p1 ) が Google でヒットするようになって、うれしい。

google:Flogman

写真日記」「メール」というキーワードでもリストされるので、これで使ってくれる人が増えるかな?

google:写真日記 メール

ちなみに、この日記も Junya Diary というキーワードでヒットしたが、

google:Junya Diary

なぜか Junya's Diary ではヒットしなかった。

google:Junya's Diary

いずれにしても、これは昨日の日記で「あこがれの会社」って書いたからかな?

POPFile v0.19.0 リリース

POPFile (http://popfile.sourceforge.net/) の新バージョン v0.19.0 がリリースされた。

http://sourceforge.net/forum/forum.php?forum_id=284199

ユーザーインターフェースの日本語化モジュールを提供。

http://sourceforge.net/tracker/index.php?func=detail&aid=754405&group_id=63137&atid=502958

機能自体の日本語化パッチは現在テスト中。近日中にアップロードする予定。

POPFile

http://popfile.sourceforge.net
こちらがもう一つのプロジェクト。メールを統計的な手法を使って自動的に分類してくれるツール。来たメールをごみ・普通・重要のように分けてくれ、画期的なのは、このツールは最初はまるっきり馬鹿なのだが、ユーザーが「これはごみ」、「これは普通」、「これは重要だよ」と教えていくことによってどんどん賢くなっていくところ。
関わっているのは、このプロジェクトの日本語化の部分であり、少し修正を加えることによって日本語でも十分動く。
http://jishiha.hp.infoseek.co.jp/POPFile/ にまだ英語のみではあるが日本語化の説明を載せてある。
日本語化の部分を正式なバージョンに取り込んでもらうよう、作者にかけあっている最中。次のバージョンあたりで取り込んでもらえればいいのだが。