Dynamische robots.txt

https://stackoverflow.com/questions/43971

09-06-2019
|

Frage

Nehmen wir an, ich habe eine Website zum Hosten von von der Community erstellten Inhalten, die sich an eine ganz bestimmte Gruppe von Benutzern richten.Nehmen wir an, ich habe im Interesse der Förderung einer besseren Community einen Off-Topic-Bereich, in dem Community-Mitglieder unabhängig vom Hauptthema der Website alles posten oder darüber reden können, was sie wollen.

Jetzt ich wollen Die meisten Inhalte werden von Google indexiert.Die bemerkenswerte Ausnahme sind themenfremde Inhalte.Jeder Thread hat seine eigene Seite, aber alle Threads werden im selben Ordner aufgelistet, sodass ich Suchmaschinen nicht einfach irgendwo aus einem Ordner ausschließen kann.Es muss pro Seite erfolgen.Eine herkömmliche robots.txt-Datei würde riesig werden. Wie könnte ich das sonst erreichen?

Lösung

Dies funktioniert für alle gut funktionierenden Suchmaschinen. Fügen Sie es einfach hinzu <head>:

<meta name="robots" content="noindex, nofollow" />

Andere Tipps

Wenn ich Apache verwende, würde ich mod-rewrite verwenden, um robots.txt in ein Skript umzuwandeln, das den erforderlichen Inhalt dynamisch generieren kann.

Bearbeiten:Wenn Sie IIS verwenden, können Sie Folgendes verwenden ISAPIrewrite das Gleiche tun.

Ähnlich zum Vorschlag von @James Marshall: In ASP.NET könnten Sie einen HttpHandler verwenden, um Aufrufe von robots.txt an ein Skript umzuleiten, das den Inhalt generiert hat.

Sie können es implementieren, indem Sie robots.txt durch ein dynamisches Skript ersetzen, das die Ausgabe generiert.Mit Apache könnten Sie eine einfache .htaccess-Regel erstellen, um dies zu erreichen.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

Stellen Sie nur für diesen Thread sicher, dass Ihr Kopf ein Noindex-Meta-Tag enthält.Dies ist neben der Blockierung in robots.txt eine weitere Möglichkeit, Suchmaschinen anzuweisen, Ihre Seite nicht zu crawlen

Bedenken Sie jedoch, dass eine Deaktivierung der robots.txt-Datei Google NICHT daran hindert, Seiten zu indizieren, die Links von externen Websites enthalten. Dadurch wird lediglich das interne Crawlen verhindert.Sehen http://www.webmasterworld.com/google/4490125.htm oder http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

Sie können Suchmaschinen das Lesen oder Indizieren Ihrer Inhalte verbieten, indem Sie Robot-Meta-Tags einschränken.Auf diese Weise berücksichtigt Spider Ihre Anweisungen und indiziert nur die von Ihnen gewünschten Seiten.

Blockieren Sie dynamische Webseiten mit robots.txt. Verwenden Sie diesen Code

User-Agent:*

Nicht zulassen:/setnewsprefs?

Nicht zulassen:/index.html?

Nicht zulassen:/?

Erlauben:/?hl=

Nicht zulassen:/?hl=*&

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow