2004-10-17 間違ったときだけ鍛える(TOE (Train Only on Errors)) POPFile 今まで unclassified なものは全部 reclassify していた。 これがいけないのは理解したが、今 spam 判定されている物は自動で再学習されているわけで、これがコーパスを悪化させているとすると、今日のように同じ spam が大量に来たときは、1通を残して残りは記録から削除するのが正しい? でも、それぞれのメールは微妙に違うんだな。 で、コーパスは一旦削除して作り直した方がいい? spam は日に2000通くらいくるから半日もたたないうちに、学習は終了しそうだが。