人狼BBS のキャッシュは SJIS なのか。それで、namazu で拾えないのか。いや、namazu はそのあたりはちゃんとしてくれるはず。
/home/matznaga/.galeon/mozilla/galeon/Cache で

grep `echo 村長|nkf -s` /data/Archive/galeon/*2004-09-22.*|less

するとそれらしい文章がちゃんと拾える。でも /data/Archive/galeon

grep `echo 村長|nkf -s` /data/Archive/galeon/*2004-09-22.*|less

してもほとんど何もヒットしないのはなぜ?
galeon の Cache から /data/Archive/galeon へはテキストなファイルは全部コピーしてあるはずだが。判定が悪くて SJIS なファイルのコピーが出来ていないとか? 画像データは無関係なはず……。
file *|less でチェック。

XML 1.0 document text 

こいつか! こいつを保存しなきゃいけないのか?
なんて extension で? .html でいいみたい。
~/bin/copy-cache の該当行を

foreach i (`file *|egrep '(HTML|SGML|XML)'|sed 's/:.*//'`)

に修正。これで、人狼BBS のキャッシュも namazu の対象になる(はず)
現在 Cache に XML ファイルは71個
今、当該ファイルのコピーは

cp -p $i /usr/local/work/galeon/${i}${TODAY}.html

になっている。これだと Cache にあるファイルは全部毎日コピーされてしまう。といって、${TODAY}を外すと同じ url を見に行ったときに内容が上書きされてしまう感じ(今までの経験上)
さて、同じファイルをコピーしないようにするには? 一々 diff を取るのは、ちょっと計算量が多すぎると思う。