Hat jemand jeden C # -Code robots.txt zu analysieren und bewerten URLS dagegen

https://stackoverflow.com/questions/633479

10-07-2019
|

Frage

Kurze Frage:

Hat jemand einen C # -Code bekam robots.txt zu analysieren und dann bewerten URLS dagegen so sehen, wenn sie ausgeschlossen werden würden oder nicht.

Lange Frage:

Ich habe eine Sitemap für einen neuen Standort wurde die Erstellung noch Google veröffentlicht werden. Die Sitemap verfügt über zwei Modi, ein User-Modus (wie ein traditionelles Sitemap) und einen ‚admin‘ Modus.

Der Admin-Modus werden alle möglichen URLS auf der Website zeigen, einschließlich individueller Eintrag URLS oder URLS für einen bestimmten externen Partner - wie example.com/oprah für jeden, der unsere Website auf Oprah sieht. Ich mag irgendwo andere veröffentlichten Links verfolgen als in einer Excel-Tabelle.

Ich würde davon ausgehen, dass jemand den /oprah Link auf ihrem Blog veröffentlichen könnte oder irgendwo. Wir nicht wirklich wollen, um diese ‚Mini-oprah Website‘ indiziert werden, weil sie in nicht-oprah Zuschauern in der Lage zu finden, die spezielle Oprah Angebote führen würden.

So zur gleichen Zeit, als ich die Erstellung der Sitemap ich auch URLS wie /oprah hinzugefügt unserer robots.txt Datei ausgeschlossen werden.

Dann (und das ist die eigentliche Frage) Ich dachte, "wäre es nicht schön sein, um auf der Sitemap zeigen, ob Dateien indiziert und sichtbar Roboter. Dies würde ganz einfach sein -. Nur robots.txt analysieren und dann einen Link dagegen bewerten

Doch dies ein ‚Bonus-Feature‘ ist, und ich habe sicherlich nicht die Zeit, es zu gehen und schreiben (dachte sogar, es ist wahrscheinlich, dass die komplexe nicht) - so wurde ich gefragt, ob jemand bereits einen Code parsen Roboter geschrieben hat. txt?

Lösung

Hass, das zu sagen, aber nur google „C # robots.txt-Parser“ und klicken Sie auf den ersten Treffer. Es ist ein Codeproject Artikel über eine einfache Suchmaschine in C # „Searcharoo“ genannt umgesetzt, und es enthält eine Klasse Searcharoo.Indexer.RobotsTxt, wie beschrieben wird:

  Überprüfen
für und, falls vorhanden, herunterladen und analysiert die robots.txt-Datei auf der Website

Geben Sie eine Schnittstelle für die Spinne jede URL gegen die robots.txt Regeln zu überprüfen

Andere Tipps

Ich mag den Code und die Tests in http://code.google.com/p/robotstxt/ würde es als Ausgangspunkt empfehlen.

Ein bisschen Selbst fördern, aber da ich ein ähnliches Parser benötigt und konnte nichts finden Ich war glücklich mit, ich meine eigene:

http://nrobots.codeplex.com/

Ich würde jedes Feedback lieben

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow