10月30日の21時頃に version を 0.22.1 に上げて、10月31日24時までに届いた3506 通のメールのうち、最初の50本を含めて、79通を学習させた。
その結果、97.74% の分類精度に達した。31日の24時にリセットして、昨日と今日の2日間に(まだ今日は終っていないけど)に届いた 7779 通のメールのうち 17通が classify を間違えていたので、学習させた。
この結果現在 99.78% の分類精度。
もっとも、見逃しの9通はともかく、誤認識が 8通というのが。まあ、まだ起動してから 74時間しか経っていないわけだし、まだこれからかな。
と書いてる間にまた見逃しが1通。まあ、数としては1% 以下なわけだが。

inbox に 届いていた spam が ham と判定されていたので、チェックしたら現在のコーパスではspam になる、となっていたので reclassify しないことにする。
0.22.1 になってから、この機能が使えるようになったおかげで、無駄なreclassify が不要になったような。
今のところ順調。もっとも 0.20.1 のときも出だしは順調だったんだよね。
途中から unclassified が増えたり別のバケツを準備せざるをえなくなったりしたけど。
ということで、0.22.1 が長期の使用に耐えるかどうかはまだこれから。(まあ実質1日で訓練は終るからコーパスを捨てる、って手段はあるわけだけれども)
しかし、件のメールはどうして到着したときは ham で現在は spam なのだろう。その間に学習させたのは「チャリが盗まれた」という日本語のspam で、件のメールは英語で書いてある何かのセールスなんだが。
To: あたりの評価が違ったので微妙だった判定が覆ったのか?