停Googleから割り出し

https://stackoverflow.com/questions/390368

google-index

23-08-2019
|

質問

があるので、停Googleから割り出した。

解決

のrobots.txt

User-agent: *
Disallow: /

これは、インデックスからすべての検索ボットをブロックします。

詳細はを参照してください。 http://www.google.com/support/webmasters /bin/answer.py?hl=en&answer=40360する

他のヒント

I gotta追加えて受け答えないタッチの問題。ることも忘れてはいけ防止にGoogleからクロールなしたときは、コンテンツです。

私の回答に基づく数資料 https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

robots.txt ファイル管理クが指数付け!それらは完全に異なる行為を行います。一部のページのトップへ潜り込むもののない物価連動し、一部ている可能性もあります索引な潜り込む.へのリンクは非潜り込む場合がありますので、あらかじめ存在し、他のウェブサイトに、Google indexerで、index.

について指数付ける収集データのページでご覧が検索結果として得られます。で制限することが可能追加のメタタグ:

<meta name="robots" content="noindex" />

追加HTTPヘッダに対応:

X-Robots-Tag: noindex

の場合についてクロールしてみてください robots.txt ファイルやエラーの具体的な内容:

User-agent: *
Disallow: /

ハであって実行されるアクションについての情報収集の構造を特定です。E.g.また、サイトを通じてGoogleウェブマスターツールです。クローラーまで、利用者の探索 robots.txt.っていることを確認してください見つけ、それまで這いでもとても重要で、これによって sitemap.xml ファイルとしても、この操作は、指定の優先順位を定義変化を周波数).ができるようにするためのlibsoupおのファイルが遵守するよう指導します。その後はクロールである時点で実行指数付けのために潜り込むページができない時---

重要:ここのページが表示されるGoogle検索の結果に関わらず robots.txt.

私は少なくとも一部のユーザーに読み込んでこの回答が明らかにし、重要なのはどんな印象を持ちます。

あなたは、Apacheのconfでグローバルに以下の設定を追加したり、同じパラメータは、特定のバーチャルホストだけのためにそれを無効にするためのバーチャルホストで使用することができることにより、広いこのサーバを無効にすることができます。

ヘッダ集合X-ロボットタグ "にnoindex、nofollowを"

これが完了すると、あなたがApacheのヘッダを確認することにより、それをテストすることができますが返されます。

カール-I staging.mywebsite.com HTTP / 1.1 302見つかり日：土、11月26日 2016年22時36分33秒GMTサーバ：Apacheの/ 2.4.18（Ubuntuの）場所：/ページ/ X-ロボットタグ：NOINDEX、nofollowをコンテンツタイプ：text / htmlの。文字セット= UTF-8

あなたのウェブサイトをクロールしてインデックス作成を停止するには、Googleなどのクローラを停止するには、いくつかの方法があります。

を介してサーバーレベルでのヘッダの

Header set X-Robots-Tag "noindex, nofollow"

robots.txtファイルによるルートドメインレベルでのの

User-agent: *
Disallow: /

のページレベルでロボットを介して、メタタグの

<meta name="robots" content="nofollow" />

しかし、私はあなたのウェブサイトは、既存のページ/ URLを時代遅れとされていない場合、あなたはいつかを待つ必要があり、Googleが自動的に次のクロールでそれらのURLをdeindexますと言わなければならない - <のhref = "https://support.google.comを読みます/ウェブマスター/答え/ 1663419？HL = EN」のrel = "nofollowをnoreferrer"> https://support.google.com/webmasters/answer/1663419?hl=en の

心の中で

ベアビングのためのMicrosoftのクローラは、robots.txtのに従うように彼らの主張にもかかわらず、常にそうしないこと。

私たちのサーバーの統計は、彼らが行うものの数としてのrobots.txtにも従わないクローラを実行するIPの数を持っていることを示します。

私は一度に100件の結果を取得し、偽の「県」クッキーを使用して、私のブラウザにGoogleからのリレーの結果に、単純なaspxページを使用して、私は、Googleが、私はIPアドレスを確認するので、このリレーページを見たいと思っていなかったとそれは66.249で始まるならば、私は単純に、リダイレクトを行います。

あなたはプライバシーを尊重し、コピーをご希望の場合は、

私の名前をクリックします。

私が使用して別のトリックは、あなたはそれがオフになっているかであるJavaScriptを使用してブラウワーを知っているので、（すべてではない）、ほとんどのウェブボットはJavaScriptを実行していないため、セッションにフラグを設定するページを呼び出して、いくつかのJavaScriptを持つことですliklyボットよります。

また、あなたは、このようにメタロボットを追加することができます：

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

また、別の余分な層は、.htaccessファイルを変更することですが、あなたは深く、それをチェックする必要があります。

のnofollowメタタグを使用します：

<meta name="robots" content="nofollow" />

リンクにnofollow属性の値を持つ属性のrelを追加し、リンクレベルでのnofollowを指定するには：

<a href="example.html" rel="nofollow" />

サイトをインデックスからGoogleに停止する方法はありますか？

各ページのmetaに次のheadタグを追加するだけでクロールからグーグルを停止するには：

<meta name="googlebot" content="noindex, nofollow">

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow