最近、連続してテストサイトがインデックスされっ放しのサイトを見かけました。
パスワードをかけるなどして、クローラーのブロックをするといった対応もありますが、インデックス制御を行うだけでも、テストサイトのインデックスは防げます。

基本的な内容ですが、簡単に利用可能なインデックス制御方法を記載しておきたいと思います。

テストサイトがインデックスされてしまっていたりしませんか?

割とよく見る、良くないインデックス状況の1つに、テストディレクトリが残っている、というものがあります。

これの何がいけないか?と言いますと、重複する内容のコンテンツになり、Googleからの評価が下がります。
また。テストページも検索結果に引っかかる可能性があり、訪れたユーザーを逃してしまう可能性があります。

インデックス状況は【site:example.com】と検索する事で表示されます。
製作時に/test/ の様なディレクトリに、テスト環境を構築していた場合だと /test/ の様なディレクトリのページが、site:検索で出てくる人は、テスト環境がインデックスされてしまっています。

早急に、削除、もしくは、インデックスからの除外を行いましょう。

robots.txtを使用したインデックス制御

ディレクトリ単位をクロール除外する手軽な方法は、ドメインのrootディレクトリに、
robots.txt
というファイルを作成して置いておく事です。

robots.txtの中身は以下の様に記載します。

User-agent: *
Disallow: /test/

Disallow: の後ろに記載しているディレクトリ名が、クロールのブロックとインデックス削除を行うディレクトリになります。

/test/

/mobile-test/
というディレクトリが、テストディレクトリとしてインデックスされてしまっている場合、

User-agent: *
Disallow: /test/
Disallow: /mobile-test/

と複数のエントリーを記述する事も可能です。

User-Agent: の後ろには以下のルールを適用するクローラーを記載します。
*(アスタリスク)はワイルドカードで、全てのクローラーにルールが適用されます。
ただし、Google以外の検索エンジンで、robots.txtに従わないものがある可能性もあります。

この記述をしておけば、Googlebotが次にクロールした時に、インデックスの削除が行われます。
ディレクトリ単位でインデックス制御をする場合などに、手軽な方法だと思われます。

他にもrobots.txtで使用出来る記述例を記載しておきます。
参考にして下さい。

サイト全体のブロック
Disallow: /

testディレクトリの、index.htmlをブロック
Disallow: /test/index.html

サイト全体のpdfファイルだけをブロック
Disallow: /*.pdf$

などなど、割と手間をかけずにインデックス制御が可能です。

例外的にインデックスされてしまう可能性も

基本的には、robots.txtで対応しておけば、大丈夫だと思いますが、例外的にブロックしたURLがインデックスされてしまう可能性もあります。
それは、他のサイトからリンクされている場合や、他のサイトにURLが記載されている場合です。

この場合、robots.txtで制御していても、インデックスされてしまう可能性がある事に注意しましょう。

リンクされていても、インデックスさせたくない場合は、

<meta name=”robots” content=”noindex”>

という記述を、インデックスさせたくないディレクトリの全てのページの内に記載します。

robots.txtに比べると、少し手間はかかりますが、より確実な方法になります。

注意点としては、
先ほどのrobots.txtDisallow:と、
<meta name=”robots” content=”noindex”>
は同時に使用出来ない事に注意が必要です。

robots.txtDisallow: に該当のディレクトリが記載してある場合、該当ページのクロールを行わない為、noindexの記述を読み取る事が出来ないからです。

間違えやすい仕様だと思いますので注意が必要です。

今回の記事のまとめ

TIPS的な記事なりましたが、最近よく見るサイトの特徴が、テストディレクトリのインデックスでしたので、インデックス制御は意外と浸透していないのかな?と思い、今回の記事を作成しました。

X-Robots-Tagを使用する方法もあるのですが、今回は省いています。
そこは改めて記事に出来ればと思います。

今日の記事に出てきたnoindexrobots.txtが併用出来ない事は、実は僕も抜けていましたw
こういった細かい注意点もありますので、インデックス制御などの様な大きな影響がある記述は慎重に行いましょう。

※本ブログに記載されている情報は、私の見解に基づく場合が多々ございます。
 掲載記事を参考にした事による損害については、その責任を負いかねます。
 自己責任で、掲載情報を参考にして頂ければと思います。