Existem quaisquer blocos de construção para um motor de busca que vai raspar outros sites?

StackOverflow https://stackoverflow.com/questions/1014138

Pergunta

Eu quero construir um serviço de busca por uma coisa particular. Os dados estão disponíveis gratuitamente lá fora, através de serviços de classificados gratuitos e uma série de outros sites.

Existem quaisquer blocos de construção, por exemplo, Open-source crawlers que gostaria de personalizar -? Ao invés de construir a partir do zero, que eu possa usar

Qualquer conselhos sobre a construção de um produto desse tipo? Não apenas técnica, mas qualquer privacidade / coisas legais que eu poderia precisa levar em consideração.

por exemplo. Eu preciso 'dar crédito', onde os resultados são a partir e colocar um link para o original -? se eu levá-los a partir de muitos lugares

Editar: A propósito, estou usando GWT com JS para o front-end, ainda não decidiu sobre o idioma para o back-end. PHP ou Python. Pensamentos?

Foi útil?

Solução

Há alguns blocos em python você pode usar.

  1. BeautifulSoup [ http://www.crummy.com/software/BeautifulSoup/] para análise de HTML. Ele pode lidar com código ruim também, e sua API é veeery fácil ... muito melhor do que qualquer ferramenta DOM-like para mim. Meu amigo usou para raspar seu fórum phpbb idade com sucesso. Tem boas docs bonitas.
  2. mecanizar [ http://wwwsearch.sourceforge.net/mechanize/] é um webbrowser-simulando biblioteca cliente http. Ele lida com os cookies, formulários de preenchimento e assim por diante. Também fácil de usar, mas ajuda se você entender como funciona http trabalho.
  3. http://dev.scrapy.org/ - isso é uma coisa relativamente nova: a quadro raspagem toda baseada na torcida. Eu não tenho jogado com ele muito.

Eu uso dois primeiros para minhas necessidades; F. E. ele precisa de 20 linhas de código para obter uma ferramenta de teste automático para uma pesquisa de 3 estágios, com a simulação de espera para a introdução de dados do usuário e assim por diante.

Outras dicas

Eu fiz uma tela de raspador em Ruby, que teve como cinco minutos. Aparentemente esse cara tem até 60 segundos! Eu não tenho certeza se o Ruby é tão escalável ou rápido como o que você está procurando, mas eu nunca vi uma rota mais rápida a uma prova de conceito, ou um protótipo.

O segredo é uma biblioteca chamada " hpricot ", que foi construído exatamente para este fim .

Eu não sei nada sobre PHP ou Python ou o que está disponível para aqueles de desenvolvimento de sistemas / idiomas.

Boa sorte!

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top