制作中のページであったり、何らかの事情で特定の人以外には閲覧させたくないといったときに、ページをインデックスさせないようにすることができます。この設定をしておけば、検索エンジンはそのページをインデックスすることもなく、そのページのURLを知っている人以外は閲覧することはないでしょう。
metaタグを使用する
metaタグを使用して検索エンジンにインデックスさせない方法です。head要素内に以下のように記述します。
<meta name="robots" content="noindex">
「noindex」と設定することで、検索インデックス登録をブロックすることができます。「robots」とすることで、ほとんどの検索エンジンクローラーのインデックス登録対象から除外することができます。また、以下のように設定するとページのインデックス登録をGoogleクローラーのみが実行できないようにすることもできます。
<meta name="googlebot" content="noindex">
robots.txtを使用する
robots.txtとは、クローラーを制御するためのテキストファイルです。これを使用することで特定のファイルやディレクトリごと検索エンジンにインデックスさせないようにすることができます。
robots.txtの作り方
まず、どのクローラーを対象にするのか「User-Agent:」を使用して命令します。
User-Agent: *
「*」と設定すると全てのクローラーが対象になります。
User-Agent: Googlebot
「Googlebot」と設定するとGoogleクローラーのみが対象となります。
次に、クロールを禁止したいページを設定します。禁止させるには「Disallow:」を使用します。
User-Agent: *
Disallow: /sample/
このように設定すると、「/sample/」というディレクトリ内のクロールを禁止することができます。逆に「Allow:」とすればクロールを許可することができます。
「Disallow:」や「Allow:」のあとはスラッシュ(/)から記述するようにしてください。
ちなみに、robots.txtでページをブロックしていると、クローラーがnoindexタグを認識しないらしいです。そうすると他のページからリンクが張られていたりすると、そのページは検索結果に引き続き表示される可能性があるらしいです。