Alguém tem qualquer código C # para robots.txt de análise e avaliar URLS contra ele
-
10-07-2019 - |
Pergunta
pergunta curta:
Alguém tem qualquer código C # para robots.txt análise e, em seguida, avaliar URLS contra ele assim que ver se eles seriam excluídos ou não.
pergunta longa:
Eu tenho vindo a criar um mapa do site para um novo local ainda a ser lançado para o Google. O mapa do site tem dois modos, um modo de usuário (como um mapa do site tradicional) e um modo de 'admin'.
O modo de administração irá mostrar todos os URLS possíveis no site, incluindo URLs personalizadas entrada ou URLs para um parceiro externo específico - como example.com/oprah
para quem vê o nosso site no programa da Oprah. Eu quero controlar os links publicados em algum lugar diferente em uma planilha do Excel.
eu teria que assumir que alguém pode publicar o link /oprah
em seu blog ou em algum lugar. Nós realmente não quero isso 'local mini-Oprah' para ser indexado porque isso resultaria em espectadores não Oprah ser capaz de encontrar as ofertas especiais Oprah.
Assim, ao mesmo tempo eu estava criando o mapa do site I também acrescentou URLS como /oprah
a ser excluído do nosso arquivo robots.txt
.
seguida (e esta é a questão real) eu pensei 'não seria bom para ser capaz de mostrar no mapa do site ou não os arquivos são indexados e visível para os robôs'. Isso seria bastante simples -. Apenas robots.txt análise e, em seguida, avaliar um link contra ele
No entanto, este é um 'bônus' e eu certamente não tem tempo para ir para fora e escrevê-lo (até pensei sua provavelmente não tão complexo) - então eu queria saber se alguém já escreveu algum código para robôs de análise. txt?
Solução
odeio dizer isso, mas apenas google "C parser # robots.txt" e clique no primeiro hit. É um artigo CodeProject sobre um motor de busca simples implementado em C # chamado "Searcharoo" , e que contém uma Searcharoo.Indexer.RobotsTxt classe, descrito como:
- Verifique se há, e se estiver presente, faça o download e analisar o arquivo robots.txt no site
- Fornecer uma interface para o Aranha para verificar cada Url contra as regras robots.txt
Outras dicas
Eu gosto do código e os testes em http://code.google.com/p/robotstxt/ recomendaria como um ponto de partida.
Um pouco de auto-promoção, mas desde que eu precisava de um analisador semelhante e não consegui encontrar nada que eu estava feliz com, eu criei minha própria:
Eu adoraria algum feedback