サイトのデフォルトページのみを許可する robot.txt を設定する方法
-
09-06-2019 - |
質問
にサイトがあるとします http://example.com. 。ボットにホームページを表示できるようにしたいのですが、スパイダーするのは無意味なので、他のページはブロックする必要があります。言い換えると
http://example.com & http://example.com/ 許されるべきですが、http://example.com/何でも そして http://example.com/someendpoint.aspx ブロックされるべきです。
さらに、特定のクエリ文字列をホームページにパススルーできるようにできれば素晴らしいと思います。http://example.com?okparam=true
他のヒント
Googleのウェブマスターツール 禁止するレポートは常に許可よりも優先されるため、これを実行する簡単な方法はありません。 robots.txt
ファイル。
これを実現するには、 noindex,nofollow
META
ホーム ページを除くすべてのページに HTML タグを追加します。
基本的な robots.txt:
Disallow: /subdir/
「ルート以外のすべて」という式を作成できるとは思えません。すべてのサブディレクトリを埋める必要があります。
クエリ文字列の制限も robots.txt からは行えません。これはバックグラウンド コード (処理部分) で行うか、サーバーの書き換えルールを使用して行う必要があります。
Disallow: *
Allow: index.ext
私の記憶が正しければ、2 番目の句が最初の句をオーバーライドするはずです。
私の知る限り、すべてのクローラーが許可タグをサポートしているわけではありません。考えられる解決策の 1 つは、ホームページ以外のすべてを別のフォルダーに置き、そのフォルダーを禁止することです。