2009年11月16日月曜日

類似文書の検索

イメージ検索では似たイメージを検索できるものも少なくない。しかし、文書検索では以外と類似文書を検索できるものは少ない。やはり決定版としてはGoogleで類似検索ができるようになって欲しい。
類似文書の検索は著作権の検査に利用できる。身近なところではコピーレポートのチェック、2次引用のチェック、論文のオリジナリティのチェックなど応用は広い。
しかし、類似検索を単純に行おうとするとN文書に対してO(N^2)の比較が必要になる。これはきわめて難しい。少なくともそのままの力業では採用できない。そこで、アルゴリズムの詳細は省略するが(まだ考え中)、類似度を表す数値に変換し、その数値の距離で判断することが望ましい。場合によっては複数の数値、すなわちベクトルになるかもしれないが、単純な語ベクトルは使えない。また、1つの数値に変換する際、類似度を反映した距離を表現できるかが問題となる。
この数値はハッシュのようなもので、必ずしもその数値だけで判断する必要はない。その場合は多くの検索もれが生じる可能性もある。

0 件のコメント: