ダイナミックロボット.txt

https://stackoverflow.com/questions/43971

09-06-2019
|

質問

非常に特定のユーザーを対象としたコミュニティ生成コンテンツをホストする Web サイトがあるとします。さて、より良いコミュニティを育成するために、コミュニティのメンバーがサイトのメインテーマに関係なく、好きなことを投稿したり話したりできるトピック外のエリアがあるとします。

今私は 欲しい ほとんどのコンテンツは Google によってインデックスに登録されます。注目すべき例外は、主題から外れたコンテンツです。各スレッドには独自のページがありますが、すべてのスレッドが同じフォルダーにリストされるため、どこかのフォルダーから検索エンジンを除外することはできません。ページごとにする必要があります。従来の robots.txt ファイルは巨大になるため、他にどのようにこれを実現できるでしょうか?

解決

これは、正常に動作するすべての検索エンジンで機能します。 <head>:

<meta name="robots" content="noindex, nofollow" />

他のヒント

Apache を使用している場合は、mod-rewrite を使用して robots.txt を、必要なコンテンツを動的に生成できるスクリプトにエイリアスします。

編集：IIS を使用している場合は、次のように使用できます ISAPIリライト同じことをするために。

@James Marshallの提案と同様に、ASP.NETではHttpHandlerを使用してrobots.txtへの呼び出しを、コンテンツを生成したスクリプトにリダイレクトできます。

robots.txt を出力を生成する動的スクリプトに置き換えることで実装できます。Apache を使用すると、単純な .htaccess ルールを作成してそれを実現できます。

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

そのスレッドについては、頭に noindex メタタグが含まれていることを確認してください。これは、robots.txt でブロックする以外に、検索エンジンにページをクロールしないよう指示するもう 1 つの方法です

robots.txt の禁止は、Google が外部サイトからのリンクを含むページのインデックスを作成するのを妨げるものではなく、内部のクロールを防ぐだけであることに注意してください。見る http://www.webmasterworld.com/google/4490125.htm または http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

ロボットメタタグを制限することで、検索エンジンによるコンテンツの読み取りやインデックス付けを禁止できます。このようにして、スパイダーはユーザーの指示を考慮し、ユーザーが必要とするページのみにインデックスを付けます。

robots.txt で動的 Web ページをブロックするには、このコードを使用します

ユーザーエージェント：*

許可しない:/setnewsprefs?

許可しない:/index.html?

許可しない:/?

許可する：/?hl=

許可しない:/?hl=*&

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow