Pergunta

Ainda sou um novato em python, então espero que esta pergunta não seja fútil.

Quanto mais procuro soluções de web scraping no Google, mais confuso fico (incapaz de ver uma floresta, apesar de investigar muitas árvores..)

Eu tenho lido documentação sobre vários projetos, incluindo (mas não limitado a) mecanizar spynner

mas não consigo descobrir qual martelo devo tentar usar.

Há uma página específica que estou tentando rastejar (www.schooldigger.com) que ele usa ASP e há algum script Java que eu preciso para ser capaz de imitar.

Estou ciente de que esse tipo de problema não é facilmente resolvido, então adoraria receber orientação.

Além de uma discussão geral sobre as opções disponíveis (e as relações entre os diferentes projetos, se possível), tenho algumas perguntas específicas

  1. Ao usar o scrapy, existe alguma maneira de evitar a definição dos 'itens' a serem analisados ​​e apenas baixar as primeiras centenas de páginas ou mais?Na verdade, não quero baixar sites inteiros, mas gostaria de poder ver quais páginas estão sendo baixadas durante o desenvolvimento do scraper.

  2. mecanizar, asp e javascript, veja uma pergunta que postei, mas não vi nenhuma resposta,https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. Por que não criar algum tipo de utilitário (seja um aplicativo turbogears ou um plug-in de navegador) que permita ao usuário selecionar links para seguir e itens para analisar graficamente?Tudo o que estou sugerindo é algum tipo de interface gráfica para usar uma API de análise.Não sei se tenho conhecimento técnico para criar tal projeto, mas não vejo por que não é possível, na verdade, parece bastante viável dado o que sei sobre python.Talvez algum feedback sobre quais problemas esse tipo de projeto enfrentaria?

  4. Mais importante ainda, todos os rastreadores da web são criados 'específicos do site'?Parece-me que estou reinventando a roda no meu código.(mas provavelmente é porque não sou muito bom em programação)

  5. Alguém tem algum exemplo de scrapers completos?Existem muitos exemplos na documentação (que venho estudando), mas todos parecem focar na simplicidade, apenas para a exposição do uso do pacote, talvez eu me beneficiasse com um exemplo mais detalhado/complicado.

obrigado por seus pensamentos.

Foi útil?

Solução

Para uma interação completa do navegador, é melhor usar Selênio-RC

Ele possui um driver python e você pode criar scripts para um navegador para "testar" praticamente qualquer site na Internet

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top