Pregunta

Soy bastante bueno con Python, por lo pseudo-código será suficiente cuando los detalles son triviales. Por favor, me refiero a la tarea - ¿cómo ir acerca del rastreo de la red para las direcciones de correo caracol de iglesias en mi estado. Una vez que tengo un un trazador de líneas tales como "viejo oeste 123 Carretera # 3 Old Lyme City MD 01234", es probable que pueda analizar en ciudad, estado, calle, número, apto suficiente prueba y error. Mi problema es - si uso las páginas blancas en línea, entonces, ¿cómo puedo lidiar con toda la basura HTML, tablas HTML, anuncios, etc.? Creo que no necesito su número de teléfono, pero no haré daño - que siempre se puede tirar hacia fuera una vez analizada. Incluso si la solución es medio-manual (tal como guardar en PDF, Acrobat continuación, abierto, guardar como texto) - Yo podría ser feliz con él todavía. ¡Gracias! Heck, incluso a aceptar fragmentos Perl - Yo les puedo traducir mi mismo

.
¿Fue útil?

Solución

Se puede usar mecanizar . Es una biblioteca de Python que simula un navegador, por lo que podría arrastrarse a través de las páginas blancas (de forma similar a lo que se hace de forma manual).

Con el fin de hacer frente a la pitón 'html basura' tiene una biblioteca para eso también: BeautifulSoup Es una bonita manera de obtener los datos que desea fuera de HTML (por supuesto que se supone que saber un poco acerca de HTML, ya que todavía tendrá que navegar por el árbol de análisis sintáctico).

Actualización: En cuanto a su pregunta de seguimiento sobre la manera de hacer clic a través de múltiples páginas. mecanizar es una biblioteca para hacer precisamente eso. Echar un vistazo más de cerca a sus ejemplos, esp. el método follow_link. Como ya he dicho que simula un navegador, por lo que 'clic' se puede realizar de forma rápida en Python.

Otros consejos

lynx --dump <url> intenta descargar las páginas web. Todas las etiquetas HTML problemáticos serán despojadas de la salida, y todos los enlaces de la página aparecerán juntas.

Lo que estamos tratando de hacer que se denomina raspado o raspado web.

Si lo hace algunas búsquedas en pitón y raspando , puede encontrar una lista de noreferrer herramientas que será de ayuda.

(nunca he utilizado scrapy, pero parece prometedor del sitio:)

Hermosa sopa no es un sencillo. Aquí hay un sitio que puede comenzar en http://www.churchangel.com/ . Tienen una lista enorme y el formato es muy regular - traducción: fácil de BSoup configuración para raspar

.

scripts de Python podría no ser la mejor herramienta para este trabajo, si usted está en busca de direcciones de iglesias en un área geográfica.

El censo de los Estados Unidos proporciona un conjunto de datos de las iglesias para su uso con sistemas de información geográfica. Si encontrar toda la x en una zona espacial es un problema recurrente, invertir en el aprendizaje de un SIG. A continuación, puede traer sus habilidades de Python para influir en muchas tareas geográficas.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top