So richten Sie eine robot.txt-Datei ein, die nur die Standardseite einer Website zulässt

https://stackoverflow.com/questions/43427

09-06-2019
|

Frage

Angenommen, ich habe eine Website http://example.com.Ich würde Bots wirklich gerne erlauben, die Homepage zu sehen, aber jede andere Seite muss blockiert werden, da sie für Spider sinnlos ist.Mit anderen Worten

http://example.com & http://example.com/ sollte erlaubt sein, aberhttp://example.com/anything Und http://example.com/someendpoint.aspx sollte gesperrt werden.

Außerdem wäre es großartig, wenn ich die Durchleitung bestimmter Abfragezeichenfolgen zur Startseite zulassen könnte:http://example.com?okparam=true

aber nichthttp://example.com?anythingbutokparam=true

Lösung

Nach einiger Recherche habe ich Folgendes gefunden – eine Lösung, die von den großen Suchanbietern akzeptiert wird: Google , Yahoo & msn (Ich konnte hier einen Validator finden):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

Der Trick besteht darin, das Ende der URL mit dem $ zu markieren.

Andere Tipps

Die Webmaster-Tools von Google Berichten Sie, dass das Verbieten immer Vorrang vor dem Erlauben hat, sodass es in a keine einfache Möglichkeit gibt, dies zu tun robots.txt Datei.

Sie könnten dies erreichen, indem Sie a noindex,nofollow META Tag im HTML auf jeder Seite außer der Startseite.

Grundlegende robots.txt:

Disallow: /subdir/

Ich glaube nicht, dass man einen Ausdruck erstellen kann, der „alles außer dem Stammverzeichnis“ sagt, man muss alle Unterverzeichnisse ausfüllen.

Die Einschränkung der Abfragezeichenfolge ist auch in robots.txt nicht möglich.Sie müssen dies im Hintergrundcode (dem Verarbeitungsteil) oder möglicherweise mit Server-Rewrite-Regeln tun.

Disallow: *
Allow: index.ext

Wenn ich mich richtig erinnere, sollte der zweite Satz den ersten überschreiben.

Soweit ich weiß, unterstützen nicht alle Crawler das Allow-Tag.Eine mögliche Lösung könnte darin bestehen, alles außer der Homepage in einen anderen Ordner zu verschieben und diesen Ordner nicht zuzulassen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow