サイトのデフォルトページのみを許可する robot.txt を設定する方法

質問

にサイトがあるとします http://example.com. 。ボットにホームページを表示できるようにしたいのですが、スパイダーするのは無意味なので、他のページはブロックする必要があります。言い換えると

さらに、特定のクエリ文字列をホームページにパススルーできるようにできれば素晴らしいと思います。http://example.com?okparam=true

解決

そこで、いくつかの調査を行った結果、主要な検索プロバイダーに受け入れられるソリューションを見つけました。グーグル , ヤフー & msn (ここでバリデーターを見つけることができました):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

秘訣は、$ を使用して URL の終わりをマークすることです。

他のヒント

Googleのウェブマスターツール禁止するレポートは常に許可よりも優先されるため、これを実行する簡単な方法はありません。 robots.txt ファイル。

これを実現するには、 noindex,nofollow META ホームページを除くすべてのページに HTML タグを追加します。

基本的な robots.txt:

Disallow: /subdir/

「ルート以外のすべて」という式を作成できるとは思えません。すべてのサブディレクトリを埋める必要があります。

クエリ文字列の制限も robots.txt からは行えません。これはバックグラウンドコード (処理部分) で行うか、サーバーの書き換えルールを使用して行う必要があります。

Disallow: *
Allow: index.ext

私の記憶が正しければ、2 番目の句が最初の句をオーバーライドするはずです。

私の知る限り、すべてのクローラーが許可タグをサポートしているわけではありません。考えられる解決策の 1 つは、ホームページ以外のすべてを別のフォルダーに置き、そのフォルダーを禁止することです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow