■robots.txtを使う
ディレクトリごとなど、複数のページを検索クロール禁止にするには、
ドキュメントルートにrobots.txtを置いて設定すると早い。
例
User-agent: *
Disallow: /internet/
Disallow: /av.html
■metaタグを使う
ドキュメントルートにrobots.txtをおけない場合や、
1ページだけ検索クロール禁止すればいいだけの時はmetaタグで禁止する。
例
<meta name="robots" content="noindex,nofollow" />
■リンク元から遮断する
クロールされてほしくないページに直接metaタグを書き込めない場合は、
そのページをリンクしているページに指定することができる。
例
<a href="http://hogehoge.com/" rel="nofollow">クロールされたくないリンク先</a>
■.htaccessで検索ボットのアクセスを遮断
上記方法でクロールを禁止にできるのは、google、yahoo、msnなど代表的な検索サイトで、
いくつかの検索サイトは上記方法をスルーしてしまう。(例えば、metaの方法はexciteには適応されないなど。)
そういうサイトもブロックするには、webサーバー(apache)の設定ファイル.htaccessで、検索ボットの出入りを禁止する。
例
# Google SetEnvIf User-Agent "Googlebot" shutout SetEnvIf User-Agent "Googlebot-Image" shutout Deny from 66.249.64.0/19
■緊急に削除したい場合
googleの場合は、下記のURL 削除リクエスト ツールを使うと削除できます。
http://www.google.com/support/webmasters/bin/answer.py?answer=61062
コメントする