2010年3月3日水曜日

World Wide Deduplication

ストレージの世界では重複排除によるコスト削減が話題になっている。これだけHDD/SSDが安くなっても、コスト削減圧力は決してなくならない。
重複排除の仕組みを簡単に述べれば、データをその内容を示す識別子に変えて、保存するというものだ。例えば、4KBのデータを160bitのSHA1に変換できれば、160/4096=4%に圧縮できる。同じデータが多ければ多いほど圧縮率は高まる。
このときデータとハッシュはほぼ1:1の関係になる。しかし、情報量の観点から原理的にはありえない話だ。必ずいつかは1つのハッシュに複数のデータが対応することになる。しかし、今のところかなり1:1が維持出来ている。それを検証するには非常に長い時間をかけて計算をする必要がある。
そこで仮に1:1がうまくいくとすれば、それは1つの組織の中だけで成立するものではなく、複数の組織で成立するはずだ。そこで、ハッシュとデータの対応が分かれば、それを世界中に分散して重複なく管理してもよいだろう。実際には、データを失うことは避けなければならないので複製を持つ必要があるが、少なくてもよい。このような重複排除をWWDと呼んでみた。
そのうち世界中のデータセンターにハッシュとの対応表だけを提供するサービスが始まるかもしれない。ゲノム解読のように大規模に行い、密に集約すれば、データそのものを保存する必要がなくなる。究極のインデックスサービスかもしれない。

0 件のコメント: