2008年1月28日月曜日

Internet Archive

Internet Archiveに過去のホームページのほとんどが記録されている。
このような試みは大変有意義で、これを活用すると貴重な知見が得られると期待している。
しかし、問題はクローリング能力だ。クロールできずに未収録となったホームページも多いと思う。
この問題は今ならRSS、少し前なら分散検索などで改善できる。
ちなみに、学科のホームページを検索したら1997-5-1が最古であった。しかし、実際には1994年にはサーバを立ち上げているので、プロジェクトの始動が1996年からであったとしても大規模なクローリングに1年近くを要していることがわかる。

0 件のコメント: