Pregunta

Quiero construir un servicio de búsqueda para una cosa en particular. Los datos están disponibles gratuitamente, a través de servicios clasificados gratuitos y una gran cantidad de otros sitios.

¿Hay bloques de construcción, p. rastreadores de código abierto que personalizaría, en lugar de crear desde cero, ¿qué puedo usar?

¿Algún consejo para construir tal producto? No solo aspectos técnicos, sino también de privacidad / legales que podría tener que tener en cuenta.

Por ejemplo, ¿Necesito "dar crédito" de dónde provienen los resultados y poner un enlace al original, si los obtengo de muchos lugares?

Editar: Por cierto, estoy usando GWT con JS para el front-end, no he decidido el idioma para el back-end. Ya sea PHP o Python. Pensamientos?

¿Fue útil?

Solución

Hay algunos bloques en Python que puedes usar.

  1. beautifulsoup [ http://www.crummy.com/software/BeautifulSoup/font> para analizar HTML. También puede manejar código incorrecto, y su API es muy fácil ... mucho mejor que cualquier herramienta similar a DOM para mí. Mi amigo lo usó para raspar su antiguo foro phpbb con éxito. Tiene muy buenos documentos.
  2. mecanizar [ http://wwwsearch.sourceforge.net/mechanize/] es un biblioteca de cliente http que simula webbrowser. Maneja las cookies, rellenando formularios, etc. También es fácil de usar, pero ayuda si comprende cómo funciona http.
  3. http://dev.scrapy.org/ : esto es algo relativamente nuevo: un Todo el marco de raspado basado en retorcido. No he jugado mucho con él.

Yo uso los dos primeros para mis necesidades; f.e. necesita 20 líneas de código para obtener una herramienta de prueba automática para una encuesta de 3 etapas, con simulación de espera para que el usuario ingrese datos, etc.

Otros consejos

Hice un raspador de pantalla en Ruby que tardó como cinco minutos. Al parecer, este tipo lo tiene ¡hasta 60 segundos! No estoy seguro de si Ruby es tan escalable o rápido como lo que estás buscando, pero nunca he visto una ruta más rápida hacia una prueba de concepto o un prototipo.

El secreto es una biblioteca llamada " hpricot " ;, que fue construida exactamente para este propósito.

No sé nada sobre PHP o Python o lo que está disponible para esos sistemas / lenguajes de desarrollo.

¡Buena suerte!

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top