間違ったときだけ鍛える(TOE (Train Only on Errors))

今まで unclassified なものは全部 reclassify していた。
これがいけないのは理解したが、今 spam 判定されている物は自動で再学習されているわけで、これがコーパスを悪化させているとすると、今日のように同じ spam が大量に来たときは、1通を残して残りは記録から削除するのが正しい?
でも、それぞれのメールは微妙に違うんだな。
で、コーパスは一旦削除して作り直した方がいい?
spam は日に2000通くらいくるから半日もたたないうちに、学習は終了しそうだが。