Alguien tiene un código C # para analizar robots.txt y evaluar URLS contra él

StackOverflow https://stackoverflow.com/questions/633479

  •  10-07-2019
  •  | 
  •  

Pregunta

Pregunta corta:

¿Alguien tiene algún código C # para analizar robots.txt y luego evaluar las URLS para ver si se excluirán o no?

Pregunta larga:

He estado creando un mapa del sitio para un nuevo sitio que aún no se ha lanzado a Google. El mapa del sitio tiene dos modos, un modo de usuario (como un mapa del sitio tradicional) y un modo 'administrador'.

El modo administrador mostrará todas las URLS posibles en el sitio, incluidas las URL de entrada personalizadas o URLS para un socio externo específico, como example.com/oprah para cualquier persona que vea nuestro sitio en Oprah. Quiero hacer un seguimiento de los enlaces publicados en otro lugar que no sea una hoja de cálculo de Excel.

Tendría que asumir que alguien podría publicar el enlace / oprah en su blog o en otro lugar. En realidad, no queremos que este 'sitio mini-oprah' se indexe porque daría lugar a que los espectadores que no son oprah puedan encontrar las ofertas especiales de Oprah.

Entonces, al mismo tiempo que estaba creando el mapa del sitio, también agregué URLS como / oprah para excluirlas de nuestro archivo robots.txt .

Entonces (y esta es la pregunta real) pensé '¿no sería bueno poder mostrar en el mapa del sitio si los archivos están indexados y son visibles para los robots'? Esto sería bastante simple: simplemente analiza el archivo robots.txt y luego evalúa un enlace.

Sin embargo, esta es una 'característica adicional' y ciertamente no tengo tiempo para escribirla (aunque probablemente no sea tan complejo), por lo que me preguntaba si alguien ya ha escrito algún código para analizar los robots. txt?

¿Fue útil?

Solución

Odio decir eso, pero solo google " C # robots.txt parser " y haz clic en el primer golpe. Es un artículo de CodeProject sobre un motor de búsqueda simple implementado en C # llamado " Searcharoo " y contiene una clase Searcharoo.Indexer.RobotsTxt, descrita como:

  
      
  1. Verifique y, si está presente, descargue y analice el archivo robots.txt en el sitio
  2.   
  3. Proporcione una interfaz para que Spider compruebe cada URL con las reglas de robots.txt
  4.   

Otros consejos

Me gusta el código y las pruebas en http://code.google.com/p/robotstxt/ lo recomendaría como punto de partida.

Un poco de autopromoción, pero como necesitaba un analizador similar y no podía encontrar nada con lo que estuviera contento, creé el mío:

http://nrobots.codeplex.com/

Me encantaría cualquier comentario

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top