検索サイトにインデックスさせない方法

■robots.txtを使う

ディレクトリごとなど、複数のページを検索クロール禁止にするには、
ドキュメントルートにrobots.txtを置いて設定すると早い。

例
User-agent: *
Disallow: /internet/
Disallow: /av.html

■metaタグを使う

ドキュメントルートにrobots.txtをおけない場合や、
１ページだけ検索クロール禁止すればいいだけの時はmetaタグで禁止する。

例
<meta name="robots" content="noindex,nofollow" />

■リンク元から遮断する

クロールされてほしくないページに直接metaタグを書き込めない場合は、
そのページをリンクしているページに指定することができる。

例
<a href="http://hogehoge.com/" rel="nofollow">クロールされたくないリンク先</a>

■.htaccessで検索ボットのアクセスを遮断

上記方法でクロールを禁止にできるのは、google、yahoo、msnなど代表的な検索サイトで、
いくつかの検索サイトは上記方法をスルーしてしまう。（例えば、metaの方法はexciteには適応されないなど。）
そういうサイトもブロックするには、webサーバー(apache)の設定ファイル.htaccessで、検索ボットの出入りを禁止する。

例

#　Google
SetEnvIf User-Agent "Googlebot" shutout
SetEnvIf User-Agent "Googlebot-Image" shutout
Deny from 66.249.64.0/19

■緊急に削除したい場合

googleの場合は、下記のURL 削除リクエストツールを使うと削除できます。
http://www.google.com/support/webmasters/bin/answer.py?answer=61062

■robots.txtを使う

■metaタグを使う

■リンク元から遮断する

■.htaccessで検索ボットのアクセスを遮断

■緊急に削除したい場合

カテゴリ:

トラックバック(0)

コメントする

カテゴリ

検索