■
人狼BBS のキャッシュは SJIS なのか。それで、namazu で拾えないのか。いや、namazu はそのあたりはちゃんとしてくれるはず。
/home/matznaga/.galeon/mozilla/galeon/Cache で
grep `echo 村長|nkf -s` /data/Archive/galeon/*2004-09-22.*|less
するとそれらしい文章がちゃんと拾える。でも /data/Archive/galeon で
grep `echo 村長|nkf -s` /data/Archive/galeon/*2004-09-22.*|less
してもほとんど何もヒットしないのはなぜ?
galeon の Cache から /data/Archive/galeon へはテキストなファイルは全部コピーしてあるはずだが。判定が悪くて SJIS なファイルのコピーが出来ていないとか? 画像データは無関係なはず……。
file *|less でチェック。
XML 1.0 document text
こいつか! こいつを保存しなきゃいけないのか?
なんて extension で? .html でいいみたい。
~/bin/copy-cache の該当行を
foreach i (`file *|egrep '(HTML|SGML|XML)'|sed 's/:.*//'`)
に修正。これで、人狼BBS のキャッシュも namazu の対象になる(はず)
現在 Cache に XML ファイルは71個
今、当該ファイルのコピーは
cp -p $i /usr/local/work/galeon/${i}${TODAY}.html
になっている。これだと Cache にあるファイルは全部毎日コピーされてしまう。といって、${TODAY}を外すと同じ url を見に行ったときに内容が上書きされてしまう感じ(今までの経験上)
さて、同じファイルをコピーしないようにするには? 一々 diff を取るのは、ちょっと計算量が多すぎると思う。