So richten Sie eine robot.txt-Datei ein, die nur die Standardseite einer Website zulässt
-
09-06-2019 - |
Frage
Angenommen, ich habe eine Website http://example.com.Ich würde Bots wirklich gerne erlauben, die Homepage zu sehen, aber jede andere Seite muss blockiert werden, da sie für Spider sinnlos ist.Mit anderen Worten
http://example.com & http://example.com/ sollte erlaubt sein, aberhttp://example.com/anything Und http://example.com/someendpoint.aspx sollte gesperrt werden.
Außerdem wäre es großartig, wenn ich die Durchleitung bestimmter Abfragezeichenfolgen zur Startseite zulassen könnte:http://example.com?okparam=true
Lösung
Andere Tipps
Die Webmaster-Tools von Google Berichten Sie, dass das Verbieten immer Vorrang vor dem Erlauben hat, sodass es in a keine einfache Möglichkeit gibt, dies zu tun robots.txt
Datei.
Sie könnten dies erreichen, indem Sie a noindex,nofollow
META
Tag im HTML auf jeder Seite außer der Startseite.
Grundlegende robots.txt:
Disallow: /subdir/
Ich glaube nicht, dass man einen Ausdruck erstellen kann, der „alles außer dem Stammverzeichnis“ sagt, man muss alle Unterverzeichnisse ausfüllen.
Die Einschränkung der Abfragezeichenfolge ist auch in robots.txt nicht möglich.Sie müssen dies im Hintergrundcode (dem Verarbeitungsteil) oder möglicherweise mit Server-Rewrite-Regeln tun.
Disallow: *
Allow: index.ext
Wenn ich mich richtig erinnere, sollte der zweite Satz den ersten überschreiben.
Soweit ich weiß, unterstützen nicht alle Crawler das Allow-Tag.Eine mögliche Lösung könnte darin bestehen, alles außer der Homepage in einen anderen Ordner zu verschieben und diesen Ordner nicht zuzulassen.