昨日の POPFile による振り分け結果

spam1621
ham495
unclassified11
誤認識0
見逃し18
appoint191

ということで落ちついたようだ。spam の見逃し率は 1% に戻っている。
(先日の日記の false-positive と false-negative は意味が逆だったような気がするので、日本語に改めた)
id:matznaga:20041012 に書いたように大量に誤認識が出るのには、実は理由があって、私は ML 毎に別のユーザ名で登録している。それらのアーカイヴが伏字なしで公開されているため、同じ spam がそれぞれのアドレスに届く。
おまけに、これらのユーザ名が多すぎるため、受取の設定で任意のユーザ名を受け取るようにしてある。そのため、実際には使ったことの無いアカウント宛のメールまでもが大量に届いてしまう。
なので、普通なら1通の見逃しで済むところをそれら数十通全部を見逃す、ということになってしまっている。
(チェックしようとしたときには全部届いてしまっている)
これら全部を reclassify しても、既に受け取っているメールの数が膨大なためか、数十通程度ではそのメールに入っていた単語が spam 用語だと認識されないように思われる。が、100通を超えたあたりから、それらのメールはunclassified になり、200通目くらいには spam と認識されるようになるようだ。
たとえば l1日から12日に来た Apple computer の安売りメールは最初のうちはham と unclassified だったのに211通目から全部 spam と認識されるようになった。(昨日までに合計403通が届いている)
最近の spam はごく普通のメールに1行だけ目的の url を書いたものなどがあって、判定しにくくなっているので、たまにこういうふうに大量の spam が届いてしまう。
(おかげで、Citibank を騙るメールも大量に来るので一目で偽だと判る。もっとも見る前に spam box に落ちてしまっているが)
数としては大量なのだが、種類としてはごく少数なので、POPFile の責任では無いのは理解しているのだが、これらを reclassify する手間は馬鹿に出来ないのでつい日記でグチってしまう。
appoint というバケツを作ったのは、そういうサブジェクトの spam が大量になったので一々 reclassify しないで、全部 spam box に入れてもよかったのだが、本当に用のある人のメールを見落とすことの無いように、spam box のサブセットとして準備したもので、1回のチェックでせいぜい数十通なら、Subject: の目視チェックが可能だから。
2000通の spam を全部となると、目視チェックなんてあてにならないしね。
unclassified が多いのは確かに中身の無いメールが多いせいもあると思われる。

とは言え、12日の日記にコメントをつけていただいた
id:amatubu:20041013#p1
は十分参考になりました。ありがとうございました。