PopFile

classify 結果

popfile-pipe - allows message classification via a pipe これを使って何か書けばいいのか。 と思ったけど、どうやら勘違い。別の目的のものなのね。

Error

文字化けは(自然に)直ったが、 2004/11/1 11:33:05 8302: html: 331: HTTP error 404 returned は相変らず出続けている。 何が悪いんだろう。コントロールセンターは見えていて、かつそこからの設定変更などは出来るんだが。 404 って File Not Found だな。…

学習

朝起きたときに受けとったメールが1109通、うち spam 1033, ham 76 だったが、spam の見逃しが 1通(damedame ML)。 メールの数が 1175 に増えた時点で、spam の見逃しがもう 1通、誤認識が 1通(熊八ML)。熊八 ML は職場と自宅の両方のアドレスで参加している…

10月末記録

バケツ名固有単語数 ham1,317 spam3,562 分類精度 分類されたメール数:3,506 分類エラーの数:79 精度:97.74% 分類されたメール数 バケツ分類数誤検出見逃し ham231 (6.58%)188 spam3,275 (93.41%)271 unclassified0 (0.00%)59 (最後のリセット: Sat Oct 30 2…

文字化け

popfile-jp-users に、報告しようとして、念のためにPOPFlie コントロールを見る。あれ? POPFile の表示が直っている? さっき、restart したときも直らなかったのに。 うーむ。09:06 までに受信したメールは文字化けしていて、09:22 以降のメールは化けて…

log の形式

また変ったのか。はてな? メールをどう classify したか、って情報が載っていないような気がする。 これじゃあ、今まで作っていたグラフの続きが描けない。 別な log があるのかしら。それとも、どこかに log の出力に関する設定があるのかな? logger-leve…

以前のバージョン

今のバージョンが変なのは nkf とか kakasi まわりかしら。 それとも日本語対応していないのかな? そんなはずは無いよな。前のはどうだったけ。 ということで、 fetchmail -q; sudo /etc/init.d/popfile stop したあと、古いバージョンの popfile を起動。 …

favicon

favicon.ico は無くなったのかしら?

文字化け

ii popfile 0.22.1-1 email classification tool を導入。default の 8080, 110 の代りに 7070,7071 を使っているので、それなりに調整。 今までは自分でコンパイルしていたので /usr/local の下にあったが、今度はdebian package なので /usr/share に入る…

間違ったときだけ鍛える(TOE (Train Only on Errors))

今まで unclassified なものは全部 reclassify していた。 これがいけないのは理解したが、今 spam 判定されている物は自動で再学習されているわけで、これがコーパスを悪化させているとすると、今日のように同じ spam が大量に来たときは、1通を残して残り…

昨日の POPFile による振り分け結果 spam1621 ham495 unclassified11 誤認識0 見逃し18 appoint191 ということで落ちついたようだ。spam の見逃し率は 1% に戻っている。 (先日の日記の false-positive と false-negative は意味が逆だったような気がするの…

昨日の結果。 spam1684 ham311 unclassified249 false-positive0 fales-negative339 appoint80 appoint は全て、spam なので、実質的には spam が 1764通。 一昨日よりは少いのか。 しかし、fales-negative が 339通 じゃあ 2割近くを見逃しているわけで、フ…

昨日の false-negative は結局、238通、unclassified が 188通(全部 spam)、 appoint が 336通あった(内1通はham)。spam が 2003通、ham が 281通 ある状態での数字なので、spam の1割以上が false-negative だったわけだ。POPFile の効果がとっても悪くなっ…

spam の見逃しが大量(数十通)に出ている。午前中にそれらを spam に reclassify したが、午後も同じ(だと思われる) spam を大量に見逃している。unclassified なメールは100通を超えているみたい。文面から見ると今までの学習からして spam と判断されそうな…

誤判定が1通

見逃がしは毎日かなりあるが、誤判定は本当に久しぶりな気がする。 でも この高結果は unclassified の多さのせいだな。 まあ、unclassified で spam でないものも滅多に無いんだが。

htcn.ne.jp 続き

さっき htcn.ne.jp はマグネットで spam 行きにしたはずなのに、unclassified に htcn.ne.jp のメールが届いている。間違いなく、たった今 fetchmail された物。うーむ。 あれ? magnet 一覧に htcn.ne.jp が無い。追加する。でも現れない。 virus-alert@htc…

htcn.ne.jp

@htcn.ne.jp なメイルが3通も spam 見逃しになっている。 htcn.ne.jp で検索すると spam と virus が大量に。え、てことは virsu check をやっているのが htcn.ne.jp でそこが spam の発信源? それとも spammer が htcn.ne.jp を詐称しているのか。 こいつ…

振り分け結果の解析プログラム

Y軸を対数目盛にした物も毎日自動作成するように修正。これで、false-positive, false-negative の変化も見えるようになった。 うーん、こいつを nice-tv に載せるかどうか。 と、その前に smoothing に appoint の結果が入ってないな。 グラフが増えたので…

popfile-repute の 7番は 6番から切り離しに失敗していただけ。 1番から 7番までの Date: フィールドを正規の形に修正。mailutime でファイルの日付を修正。 他の人のものが検索されてるから hatena.ne.jp も livedoor から検索対象に入っているはず。 じゃ…

popfile-repute が届いた。あれ? 8通目? 7通目はどうなったの? 僕の日記はやっぱり補足されていない。

popfile-repute が流れて来ない。昨日ここに書いた日記は補足されなかったってことか。

popfile-repute という ML が出来たらしい。

popfile-repute の Archive を取り寄せて、/var/mail/matznaga に移し、imget --dist=+inbox で取り込む。 おっと、日付単位に切れてくれない。1ヶ月分がまとめて1つのファイルになってしまっている。 emacs で日付単位に切り分けようとしたら、マシンがハン…

appointment をマグネットにして、spam 除けをしたら、本当の appointment なメール(ってたぶん滅多に無いけど)も spam に落ちるな。これの救出ってのもちと大変。 appointment ってバケツを作ればいいのか。これなら目視チェックも簡単かな。で、グラフにも…

ひょっとすると、最近の大量の見逃がしは以前の「ML 登録」が(spamの偽装ではなく)実際に行なわれていた結果かな? だとすると、こいつらを spam に reclassify するのは、誤認識を増やす効果しか無くて根本対策は unsubscribe だな。これらのメールをチェッ…

朝、+matznaga に 65通もメールが届いている。無論全部 spam. unclassified は10通程度。残りは ham と判断されている。 unclassified はまとめて処理出来るが、ham と誤判断された mail を 1通ずつ reclassify をするが、他のメールはヒットしない。(From: …

matznaga に届いている、junk mail を spam に unclassify しようとしたら、「該当メッセージはありません.」になってしまう。なぜ? 今朝届いたメールだから、 expire してしまったはずは無いんだけど。 これで、3件試して3件とも「該当なし」。unclassifie…

また id:matznaga:20040801 と同様に Use of uninitialized value in numeric le (value in subtraction (-) at Classifier/Bayes.pm line 432. が大量に krxvt の画面に出力された。(70組140行?) fetchmail が動いている。ということは POPFile は死んでい…

たった今届いたメールを ham から spam に reclassify しようとしたが、「該当メッセージはありません.」と言われてしまった。 From: フィールドから copy & paste しているのになぜ? あれ? ham で filtering しようとしたら connction refused になった。…

Subject: に payment を含むメールが13通、spam なのに ham に分類されてしまっている。 一昨日7通を再学習させた効果は出ていないということか? さて、payment を マグネットとして登録してもいいものだろうか。本物の請求書が spam に行ってしまっても困…

Popfile が ham と誤認識した今日の一連のspam M07/26 Luke@tethys.ht We cannot cancel your payment N1083082 M07/26 Rusty Gentry M07/26 Leonel@tethys. We cannot cancel your payment N70608573865 M07/26 Gabriela Shaw Payment N424169774453 M07/26…