多くの訓練を受けていないユーザーは、GoogleやYahooやAsk.comを使って、ワールドワイドウェブ上で何かを見つけることができる素朴な期待を持っている。 これらの検索エンジンとしてない、などの強力な、彼らはワールドワイドウェブ上でインデックスのすべて(ドントケア)です。 実際には、検索エンジンのインデックスウェブ全体の10%未満! その残りの90%は"見えないウェブ"と呼ばれる、または他の言葉で、"クロークWeb"または"ディープウェブ"。 これはpublicとして使用可能な膨大なコンテンツですが、通常の検索エンジンから隠されています。
確かに、これは理解するのは難しい概念です - Webページの十億がGoogleで見つけることができないこと。 たしかに、ページの十億は、目録検索エンジンの能力を超えています。 ワールドワイドウェブをスキャンしてカタログ化ロボット"スパイダー"は限られている... 彼らはすべてを参照してくださいもインデックスすることはできません。
この概念を視覚化するために、Yahoo.com Google.com、、Cyberatlas、およびMITからいくつかのサイズの見積もりから始めましょう。 これらの統計は、2011年春に現在以下のとおりです。
-
Google.comのインデックス265億公開されているWebページを。
-
92 +億静的なWebページは 、公的に利用可能です。
これらのページは簡単にGoogleや他の検索エンジンで見つけることができます。
(例:www.honda.com、www.australia.gov.au)
-
95億静的ページは、国民から隠されている。プライベートイントラネットのコンテンツとして、これらは特定の企業の従業員にのみ開かれている会社のページです。
(例:employees.honda.com、secure.australia.gov.au)
-
300 +億データベースドリブンなページは、Googleで完全に見えなくなります。これらの目に見えないページがあなたと私が作ることができる通常のウェブページではない。
むしろ、これらは大規模なデータベースから呼び出された時のみに存在する動的なデータベースのレポートです。
(先住民の課税上のシェリー、オーストラリア政府の議論の例:カスタムオンライン車の見積もり)
Googleは、今日最高の検索データベースを考慮、これだけ巨大なコンテンツの一部をカタログ化できます。 毎週Webページの何百万をカタログ化するにも電子スパイダーで、Googleは現在のインデックスのみ235億うち300の+そこ億ページ...すべての利用可能なインターネットコンテンツの8%未満。
したがって、Googleのみのカタログであればワールドワイドウェブ、および他の検索エンジンのカタログの8%も少ないし、Webコンテンツの残りの92%がどこに隠されている?
それは"見えないウェブ"が始まる場所です...