Googlebot がページの特定の部分をインデックスに登録しないようにする方法はありますか?

https://stackoverflow.com/questions/1497445

19-09-2019
|

質問

ページの一部を無視し、残りの部分はインデックスに登録するという程度まで Google へのディレクティブを微調整することは可能でしょうか?

私たちがこれまでに遭遇した、次のような、これによって解決できるさまざまな問題がいくつかあります。

外部ソースからのコンテンツを表示するページ上の RSS フィード/ニュースティッカータイプのテキスト
ユーザーが連絡先電話番号などを入力する詳細をサイトに表示したいが、Google で検索できないようにしたい人

上記の両方が他の手法 (JavaScript でコンテンツを記述するなど) で対処できることはわかっていますが、Google からすでに利用できるよりクリーンなオプションがあるかどうかを誰かが知っているでしょうか?

これについて調べてみたところ、次のような言及を見つけました。 googleon そして googleoff タグ, ただし、これらは Google 検索アプライアンス専用のようです。

Googlebot が準拠する同様のタグのセットがあるかどうか知っている人はいますか?

編集:明確にしておきますが、私はさまざまなコンテンツをクローキングしたり Google に提供したりするという危険な道を選びたくありません。そのため、私がやりたいことを達成する「正当な」方法があるかどうかを探しています。ここ。

解決

あなたが求めているものを、本当に、Googleに行われていないのいずれか、ページ全体をとる、またはそれのどれもすることはできません。

以下のようなあなたはiframe内にインデックスを付けたくないページの一部を挿入していないインデックスにGoogleに依頼するのrobots.txtを使用しても

あなたは、いくつかの卑劣なトリックを行うことができることにiFrameます。

他のヒント

短期NOで - あなたがクローキング使用しない限りは、Googleが推奨されます。

。

ここから公式ドキュメントをチェックアウトしてください。

http://code.google.com/apis/ searchappliance /ドキュメント/ 46 / admin_crawl / Preparing.htmlする

「インデックスから不要なテキスト除外」セクションに移動します

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->

このようなコンテンツの検索エンジンでインデックスを特定の重複したコンテンツを使用して許可しないようにするための有用なリソースを見つけます。

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

は、サーバーでPHPやASPを使用してIPによる検索ボットを検出します。そして、そのリストの中にあなたがインデックスを作成することを希望するページのバージョンを秋IPアドレスを養います。あなたのページの検索エンジンに優しいバージョンでは、検索エンジンにインデックスを作成したくないページのバージョンを指定するには、正規のリンクタグを使用します。

この方法では、インデックスになりたいん内容のページでは、インデックスを作成することを希望するコンテンツのみがインデックス化されている間のみのアドレスでインデックス化されます。この方法は、あなたが検索エンジンによってブロックされ、完全に安全である取得することはできません。

はい、間違いなくあなたは、カスタムのrobots.txtを作成することによって、あなたのウェブサイトの一部をインデックスからGoogleに停止し、あなたが作成することにより、簡単にそれを行うことができますので、あなたがwpadminsのようなインデックス、または特定のポストまたはページにたくない部分を書くことができますこのrobots.txtファイルは、例えば、www.yoursite.com/robots.txtのためにあなたのサイトのrobots.txtをチェック作成.beforeます。

すべての検索エンジンのインデックスまたはページ全体を無視するのどちらか。

：あなたが欲しいものを実装するための唯一の可能な方法はにあります

（A）は、同じページの2つの異なるバージョンを持っている

（b）に使用されるブラウザの検出

（c）は、それが検索エンジンの場合は、あなたのページの第二のバージョンを提供します。

このリンクには有用証明するかもしれません。

ボットのためのメタタグがあり、そしてあなたは、特定のディレクトリへのアクセスを制限することが可能なのrobots.txtは、もあります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow