Googlebot Robots.txt nicht respektieren [geschlossen]

https://stackoverflow.com/questions/463569

19-08-2019
|

Frage

Aus irgendeinem Grund, wenn ich überprüfen, auf den Google Webmaster-Tool „robots.txt Analyse“, um zu sehen, welche URLs durch unsere robots.txt-Datei blockiert sind, dann ist es nicht das, was ich erwarte. Hier ist ein Ausschnitt aus dem Anfang unserer Datei:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Alles, was in den Skriptordner korrekt sowohl für den Googlebot und Medienpartner-Google blockiert. Ich kann sehen, dass die beiden Roboter die richtige Richtlinie sehen, weil der Googlebot sagt die Skripte von der Linie 7 gesperrt werden, während die Medienpartner-Google von der Linie 4. Und noch eine andere URL blockiert habe ich aus den nicht anerkannten Urls unter den zweiten Benutzer in -agent Richtlinie nicht blockiert werden!

Ich frage mich, ob mein Kommentar über absolute Urls Dinge schrauben ...

Einsicht wird geschätzt. Danke.

Lösung

Der Grund, warum sie ignoriert wird, ist, dass Sie die vollständige URL in der robots.txt Datei für Disallow Einträge haben, während die

Andere Tipps

Es ist die absolute URLs. robots.txt sollte nur relativen URIs aufzunehmen; ist die Domäne von auf der Domäne, die die robots.txt zugegriffen gefolgert basiert.

Es ist schon seit mindestens einer Woche, und Google sagt, es war das letzte Mal vor 3 Stunden heruntergeladen, so bin ich sicher, dass es neu.

Haben Sie kürzlich machen diese Änderung Ihrer robots.txt-Datei? Nach meiner Erfahrung es scheint , dass Google das Zeug für eine wirklich lange Zeit zwischenspeichert.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow