Tout le monde a du code C # pour analyser le fichier robots.txt et évaluer les URL par rapport à celui-ci

https://stackoverflow.com/questions/633479

10-07-2019
|

Question

Petite question:

Quelqu'un a-t-il un code C # à analyser le fichier robots.txt, puis à évaluer les URL par rapport à celui-ci afin de déterminer s'il serait exclu ou non?

Longue question:

Je crée un sitemap pour un nouveau site à publier sur Google. Le sitemap a deux modes, un mode utilisateur (comme un sitemap traditionnel) et un mode "admin".

Le mode administrateur affichera toutes les URL possibles sur le site, y compris les URL d'entrée personnalisées ou les URL d'un partenaire externe spécifique - tel que exemple.com/oprah pour les personnes qui voient notre site sur Oprah. Je souhaite suivre les liens publiés ailleurs que dans une feuille de calcul Excel.

Je suppose que quelqu'un pourrait publier le lien / oprah sur son blog ou ailleurs. Nous ne souhaitons pas réellement que ce "mini-site Oprah" soit indexé, car cela permettrait aux téléspectateurs non-oprah de trouver les offres spéciales Oprah.

En même temps que je créais le plan du site, j'ai également ajouté des URL telles que / oprah à exclure de notre fichier robots.txt .

Ensuite (et telle est la question à présent), je me suis dit: "ne serait-il pas agréable de pouvoir indiquer sur le plan du site si les fichiers sont indexés et visibles pour les robots". Ce serait assez simple: il suffit d'analyser le fichier robots.txt, puis d'évaluer un lien par rapport à celui-ci.

Cependant, il s’agit d’une "fonctionnalité bonus" et je n’ai certainement pas le temps de l’écrire (même si ce n’est probablement pas si complexe que cela). Je me demandais donc si quelqu'un avait déjà écrit du code pour analyser les robots. txt?

La solution

Je déteste dire ça, mais il suffit de google & c; analyseur syntaxique C. robots.txt " et cliquez sur le premier coup. Il s'agit d'un article de CodeProject sur un moteur de recherche simple implémenté en C # appelé "Searcharoo" . et contient une classe Searcharoo.Indexer.RobotsTxt, décrite comme suit:

Recherchez et, le cas échéant, téléchargez et analysez le fichier robots.txt sur le site

Fournit une interface à Spider pour vérifier chaque URL avec les règles robots.txt

Autres conseils

J'aime le code et les tests de http://code.google.com/p/robotstxt/ le recommanderais comme point de départ.

Un peu de promotion personnelle, mais comme j'avais besoin d'un analyseur similaire et que je ne trouvais rien qui me plaisait, j'ai créé le mien:

http://nrobots.codeplex.com/

Je serais ravi de recevoir vos réactions

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow