Pergunta

im construção de um rastreador web em larga escala, quantos casos é o ideal ao rastrear um web quando executá-lo no servidor web dedicado localizado em farms de servidores de internet.

Foi útil?

Solução

spare_memory_on_machine / memory_footprint_of_crawler_process * 0.95

Outras dicas

Para fazer um rastreador grande escala que você terá que lidar com algumas questões como:

• A impossibilidade de manter informações em um só banco de dados.

• Não o suficiente RAM para lidar com enorme índice (s)

• desempenho Multithread e simultaneidade

• armadilhas Crawler (loop infinito criado por mudar urls, calendários, sessões ids ...) e conteúdo duplicado.

• Crawl de mais de um computador

códigos

• malformado HTML

• erros de HTTP constante dos servidores

• Os bancos de dados sem compressão, wich tornar a sua necessidade de espaço de cerca de 8x maior.

• rotinas e prioridades recrawl.

• Use solicitações com compressão (Deflate / gzip) (bom para qualquer tipo de rastreador).

E algumas coisas importantes

• Respeite robots.txt

• E um atraso rastreador em cada solicitação para não servidores web sufocar.

A configuração da linha ideal vai depender do seu código .. i'am correr 100 processo com .net. Eu recomendo que você use uma classe cronograma para evitar tópicos abertos desnecessários.

PS. Se você estiver usando 5 tópicos, você vai levar anos para chegar "grande escala" crawling web.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top