Alguém tem qualquer código C # para robots.txt de análise e avaliar URLS contra ele

https://stackoverflow.com/questions/633479

10-07-2019
|

Pergunta

pergunta curta:

Alguém tem qualquer código C # para robots.txt análise e, em seguida, avaliar URLS contra ele assim que ver se eles seriam excluídos ou não.

pergunta longa:

Eu tenho vindo a criar um mapa do site para um novo local ainda a ser lançado para o Google. O mapa do site tem dois modos, um modo de usuário (como um mapa do site tradicional) e um modo de 'admin'.

O modo de administração irá mostrar todos os URLS possíveis no site, incluindo URLs personalizadas entrada ou URLs para um parceiro externo específico - como example.com/oprah para quem vê o nosso site no programa da Oprah. Eu quero controlar os links publicados em algum lugar diferente em uma planilha do Excel.

eu teria que assumir que alguém pode publicar o link /oprah em seu blog ou em algum lugar. Nós realmente não quero isso 'local mini-Oprah' para ser indexado porque isso resultaria em espectadores não Oprah ser capaz de encontrar as ofertas especiais Oprah.

Assim, ao mesmo tempo eu estava criando o mapa do site I também acrescentou URLS como /oprah a ser excluído do nosso arquivo robots.txt.

seguida (e esta é a questão real) eu pensei 'não seria bom para ser capaz de mostrar no mapa do site ou não os arquivos são indexados e visível para os robôs'. Isso seria bastante simples -. Apenas robots.txt análise e, em seguida, avaliar um link contra ele

No entanto, este é um 'bônus' e eu certamente não tem tempo para ir para fora e escrevê-lo (até pensei sua provavelmente não tão complexo) - então eu queria saber se alguém já escreveu algum código para robôs de análise. txt?

Solução

odeio dizer isso, mas apenas google "C parser # robots.txt" e clique no primeiro hit. É um artigo CodeProject sobre um motor de busca simples implementado em C # chamado "Searcharoo" , e que contém uma Searcharoo.Indexer.RobotsTxt classe, descrito como:

Verifique se há, e se estiver presente, faça o download e analisar o arquivo robots.txt no site

Fornecer uma interface para o Aranha para verificar cada Url contra as regras robots.txt

Outras dicas

Eu gosto do código e os testes em http://code.google.com/p/robotstxt/ recomendaria como um ponto de partida.

Um pouco de auto-promoção, mas desde que eu precisava de um analisador semelhante e não consegui encontrar nada que eu estava feliz com, eu criei minha própria:

http://nrobots.codeplex.com/

Eu adoraria algum feedback

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow