Existe-t-il des éléments de base pour un moteur de recherche qui grattent d’autres sites?

StackOverflow https://stackoverflow.com/questions/1014138

Question

Je souhaite créer un service de recherche pour un élément particulier. Les données sont disponibles gratuitement via des services classifiés gratuits et de nombreux autres sites.

Existe-t-il des blocs de construction, par exemple les robots d'exploration à code source ouvert que je personnaliserais - plutôt que de construire à partir de rien, que je pourrais utiliser?

Un conseil sur la construction d'un tel produit? Pas seulement technique, mais tout ce qui concerne la vie privée / juridique que je devrais prendre en considération.

E.g. Dois-je donner le crédit d'où proviennent les résultats et mettre un lien vers l'original, si je les reçois de nombreux endroits?

Edit: En passant, j’utilise GWT avec JS pour le front-end, je n’ai pas choisi la langue du back-end. PHP ou Python. Des pensées?

Était-ce utile?

La solution

Vous pouvez utiliser quelques blocs en python.

  1. beautifulsoup [ http://www.crummy.com/software/BeautifulSoup/]/// a> pour l'analyse HTML. Il peut aussi gérer le mauvais code, et son API est très simple ... bien meilleure que n'importe quel outil de type DOM pour moi. Mon ami l'a utilisé pour gratter son vieux forum phpbb avec succès. Il a une très bonne documentation.
  2. mechanize [ http://wwwsearch.sourceforge.net/mechanize/] est un bibliothèque client http simulant un navigateur Web. Il gère les cookies, remplir des formulaires, etc. Aussi facile à utiliser, mais cela aide si vous comprenez comment fonctionne http.
  3. http://dev.scrapy.org/ - il s'agit d'une chose relativement nouvelle: une cadre de raclage complet basé sur tordu. Je n'ai pas beaucoup joué avec elle.

J'utilise les deux premiers pour mes besoins; f.e. 20 lignes de code sont nécessaires pour obtenir un outil de test automatique pour un sondage en 3 étapes, avec simulation d’attente pour la saisie des données par l’utilisateur, etc.

.

Autres conseils

J'ai fabriqué un grattoir en Ruby qui a pris environ cinq minutes. Apparemment, ce type l'a jusqu'à 60 secondes! Je ne sais pas si Ruby est aussi évolutif ou rapide que ce que vous recherchez, mais je n’ai jamais vu de voie plus rapide menant à une preuve de concept ou à un prototype.

Le secret est une bibliothèque appelée " hpricot "", construite pour exactement cet objectif.

Je ne connais rien à PHP ou Python, ni à la disponibilité de ces systèmes / langages de développement.

Bonne chance!

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top