*4.2. Major data structures
Googleのデータ構造は最適化され、それにより大きなドキュメント収集が少ないコストでクロールされ、インデックスされ、サーチされる。
そのために、データの持ち方等に様々な工夫がされている。
*4.3. Crawling the Web
– 表示せず –
*4.4. Searching
サーチングのゴールは効率良く検索結果を素早く準備する事である。大手の商業検索エンジンの多くは効率に主眼を置いて発展してきた様だ。従って、我々のソリューションはもうちょっとの努力により商業規模に拡張可能であるが、Google構築のリサーチに際して我々は検索の品質により注力した。
Googleは代表的な検索エンジンよりwebドキュメントについてもっと多くの情報を扱います。個々のヒットリストはposition、fontそしてcapitalization information(資本情報)を含む。その上、Anchor textからのHitsとドキュメントのPageRankを計算に入れる。この情報の全てとランキングを組み合わせる事は難しい。一つのファクターが多すぎる影響を持ち得ない様にランキング・ファクターをデザインしている。全てのマッチング・ドキュメントについて、異なった優先順位レベルで、異なったドキュメント・タイプのHitsのカウントを計算する。これらのカウントは一連のlookupテーブルを通して走らせられ、最終的にRankに形を変える。このプロセスは多くの同調parametersを巻き込む。我々はシステムのチューニングにあまり時間を費やさなかった; その代わりに将来的にそれらのパラメータが調整する時の助けとなる一つのフィードバック・システムを開発した。
*5. Results and performance
検索エンジンの最も重要な評価基準は検索結果の品質である。完璧なユーザー評価はこの論文のスコープ外であるが、Googleとの我々の経験は、大多数の検索についてメジャーな商業検索エンジンよりも良い結果を生み出す事を示してきた。PageRank、Anchor text、priorityの使用を説明する一つの例として、Fig.2は“bill clinton”を検索したGoogleの結果を示す。これらの結果はGoogleのいくつかの特徴を証明している。結果はサーバーによってクラスター化(集めて集団化)される。結果のいくつかは、誰でもがその様な検索から当たり前に予測する様に、ホワイトハウスのドメインからだ。現在、大多数のメジャーな商業検索エンジンはホワイトハウスからのどんな結果も、ましてや適正なものは返さない。最初の結果についてタイトル無しである事に注意しよう。そうではなくて、Google はこれがqueryに対する適正な答えである事を決定するためにAnchor textを頼りにした。同様に、50の結果はemail addressである、もちろんクロール可能ではない。これもAnchor textの結果である。
*6. Conclusions
Google は拡張性のある(scalable)検索エンジンとしてデザインされている。当面のゴールは急速に成長するWWWをカバーして高い品質の検索結果を提供する事である。Google はpage rank、Anchir text、近接情報を含む検索品質を向上するために多くの技術者を雇っている。さらに今後は、Google Webページを収集し、それらをindexし、それらに検索クエリーかけるために完璧なアーキテクチャとなる。
*6.1. Future work
– 表示せず –
*6.2. High quality search
– 表示せず –
*6.3. Scalable architecture
– 表示せず –
*6.4. A research tool
我々はGoogleが研究者の助け(resource)となる事と、検索エンジン技術を牽引するする事を望む。
SEOとはなんだろうと言う疑問から読み始めた論文であったが、2人の状況分析の斬新さとそれを解決する方向性、結果を出すまでの粘り強さ(そこまでは書いてないが、行間から十分感じ取る事ができる)、に引き込まれた。内容の理解は不十分で、SEOが理解できた訳では無いが、読んで良かったと思える内容でした。
特に印象に残った言葉は、あちこちに出てきた「Quality、品質」です。いかに彼らがその点を問題と認識し、対応策をGoogleに詰め込んだか、良く分かります。
なお、この内容を投稿する時に、何らかのSEO対策を試しに施して見ようと思う。
参照資料 :
- The anatomy of a large-scale hypertextual Web search engine. Stanford University Sergey Btin、Lawrence Page. (発表に際してFull versionと配布用のShorter versionが用意されていた様だ。)
- SEOとは? 初心者向け完全ガイド 向井 拓真
- 検索エンジンとSEOの歴史 戸栗 頌平