質問

にサイトがあるとします http://example.com. 。ボットにホームページを表示できるようにしたいのですが、スパイダーするのは無意味なので、他のページはブロックする必要があります。言い換えると

http://example.com & http://example.com/ 許されるべきですが、http://example.com/何でも そして http://example.com/someendpoint.aspx ブロックされるべきです。

さらに、特定のクエリ文字列をホームページにパススルーできるようにできれば素晴らしいと思います。http://example.com?okparam=true

だがしかしhttp://example.com?anythingbutokparam=true

役に立ちましたか?

解決

そこで、いくつかの調査を行った結果、主要な検索プロバイダーに受け入れられるソリューションを見つけました。 グーグル , ヤフー & msn (ここでバリデーターを見つけることができました):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

秘訣は、$ を使用して URL の終わりをマークすることです。

他のヒント

Googleのウェブマスターツール 禁止するレポートは常に許可よりも優先されるため、これを実行する簡単な方法はありません。 robots.txt ファイル。

これを実現するには、 noindex,nofollow META ホーム ページを除くすべてのページに HTML タグを追加します。

基本的な robots.txt:

Disallow: /subdir/

「ルート以外のすべて」という式を作成できるとは思えません。すべてのサブディレクトリを埋める必要があります。

クエリ文字列の制限も robots.txt からは行えません。これはバックグラウンド コード (処理部分) で行うか、サーバーの書き換えルールを使用して行う必要があります。

Disallow: *
Allow: index.ext

私の記憶が正しければ、2 番目の句が最初の句をオーバーライドするはずです。

私の知る限り、すべてのクローラーが許可タグをサポートしているわけではありません。考えられる解決策の 1 つは、ホームページ以外のすべてを別のフォルダーに置き、そのフォルダーを禁止することです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top