グーグルのクラスタリング・アルゴリズム?
グーグルには、同一のものや類似のものをまとめる機能があります。
SEO塾では仮に、「クラスタリング・アルゴリズム」と呼んでいます。クラスターとはブドウの房のようなものですね。あのブドウのように、ひとまとめにするのです。
では、グーグルで「翔泳社 書籍」と検索してみます。

検索結果のインデントは、パーソナライズ検索を無効にする、ログインするとか、検索結果画面の右上の「ウェブ履歴」を有効にする、無効にする、google.comで検索、google.co.jpで検索など、いろいろな条件でインデントされたりされなかったりします。今回はGoogle.comで翔泳社 書籍を検索した結果を表示しています。
このように、同じドメインで2番目に表示されるページは、インデントされています。つまり、同じドメインはクラスタリングされているのです。
ちなみに、「Show more results from seshop.com(co.jpでは、seshop.com のその他の検索結果を表示する)」の左の「+」をクリックすると、seshop.com ドメインのページが5つ出てきてきます。その最後に「Show all results from seshop.com ≫(co.jpでは、seshop.com のすべての検索結果を表示する)」とあって、ようやく数千ページが一覧できるようになります。
まず、同じドメインのページは、第一段階では2ページまで表示、次にプラス5ページ。同一ドメインの全ページを見るにはさらにもう一手間かかることになっています。
もう一例、グーグルで「SEOメルマガ」と検索してみると、hyperposition.comはサブドメインのe-club3.hyperposition.comともまとめられているようですから、場合によってはサブドメインもクラスタリングの対象となっています。
「SEOメルマガ」の検索結果でも分かるとおり、mag2.comなど大手サービスのドメイン(サブドメイン)もクラスタリングされますので、3番目なら悲劇、8番目なら地獄、ということになるかもしれませんね。
なお、「Yahoo」で検索してみると、サブドメインはクラスタリングされていませんから、優良ドメイン(サイト)には細工が施されている(優遇している?)ようですね。
とにかくグーグルでは一般のホームページは、同じドメイン(サブドメインを含む)のページがまとめられる、クラスタリングされるということです。
また検索結果のキャッシュ横の「類似ページ」リンクをクリックしてみると、同じキーワードでSEOをやっているページはもちろんのこと、下図のようなリンクを元にいわゆる「二親等(親子祖父母孫兄弟)」にあたるものが表示される場合があります。

グーグルの中では、こういったリンク関係をベースに、クラスタリングの下地を作りあげているということです。
グーグルTDPの原因と回避策、そしてリカバリーは?
では、グーグルの「トップページ・ダウン・ペナルティ(TDP)」の原因は何でしょうか? SEO塾の検証では、行き過ぎたSEOが問題のようです。その多くはバックリンクの量産ですね。
詳しいデータを示しませんので簡潔に述べますと、短期間に数十・数百・それ以上のリンクを受けるとフラグが立ち、条件がそろうとペナルティのトリガーが引かれます。そのときに、クラスタリングされたドメイン(サブドメイン)の1つのページを残して、あとは所定のルールに従って順位ダウンするという仕組みのようです。
「条件がそろう」「所定のルール」の方にもクラスタリングが働いていて、特に同一ドメイン(サブドメイン)からの大量バックリンクが条件の1つであり、また大きくリンク価値を失います。
ですから、回避策としては作為的なバックリンク量産をやらないこと、リカバリーも作為的なリンクを撤去していくことになります。
実は、グーグルで評価されるリンクは非常に限られていますので、逆にほとんど根こそぎ削除しても、順位ダウンすることはあまり起こらず、リカバリーのときは下げ止まりしたり上がったりします。
結論として、グーグルSEOとしてのリンクは、かなりアルゴリズムに精通してシステム化しないと、自作自演も有料リンクもペナルティの元になります。自分でやるにせよ、業者に頼むにせよ、くれぐれも注意してください。
このTDPのリスクをヘッジするには(つまりペナルティを想定した運営法)、ホームページ内に同じキーワードで検索されたいページを複数つくっておくことでしょう。ヤフー版のTDPでも、この方法を採用したウェブマスターも多いです。究極は、複数サイト・複数ページのSEOです。
次回以降の予定になっていますが、新設サイトのエイジング・フィルターや、いわゆるマイナス30・マイナス50・マイナス950ペナルティなども、ガードがあまいバックリンク量産が原因であることが多いです。
ドメインやIPアドレス、アンカーテキストなどが、条件がそろうとクラスタリングされますし、グーグルが好む「ナチュラルリンク」を極めないと、SEOは無理でしょう。