Question

Je suis assez bien avec Python, pseudo-code SUFFIT lorsque les détails sont insignifiants. S'il vous plaît me lancer sur la tâche - Comment s'y prendre pour ramper sur le net pour les adresses de courrier d'escargot d'églises dans mon état. Une fois que j'ai un revêtement tel que « 123 Old West Road # 3 Ville Old Lyme MD 01234 », je peux probablement analyser dans la ville, l'État, la rue, le numéro, apt avec suffisamment de tâtonnement. Mon problème est - si j'utilise en ligne des pages blanches, alors comment puis-je gérer tous les déchets HTML, tables HTML, annonces, etc? Je ne pense pas avoir besoin de leur numéro de téléphone, mais il ne fera pas mal - je peux toujours jeter une fois analysé. Même si votre solution est demi-manuelle (par exemple, sauf en pdf, puis ouvrez acrobate, sauf sous forme de texte) - je pourrais être heureux avec elle encore. Merci! Zut, je vais même accepter des extraits Perl - je peux les traduire moi-même

.
Était-ce utile?

La solution

Vous pouvez utiliser mécaniser . Il est une bibliothèque Python qui simule un navigateur, vous pouvez donc ramper à travers les pages blanches (de façon similaire à ce que vous faites manuellement).

Afin de traiter le python 'ordure html' a une bibliothèque pour cela aussi: BeautifulSoup Il est une belle façon d'obtenir les données que vous voulez de HTML (bien sûr, il suppose que vous savez un peu plus sur HTML, que vous aurez toujours à naviguer dans l'arborescence d'analyse syntaxique).

Mise à jour: En ce qui concerne votre question de suivi sur la façon de cliquer sur plusieurs pages. mécaniser est une bibliothèque pour le faire. Jetez un oeil de plus près leurs exemples, esp. la méthode de follow_link. Comme je l'ai dit il simule un navigateur, donc « clic » peut être réalisé rapidement en python.

Autres conseils

Essayez lynx --dump <url> pour télécharger les pages web. Toutes les balises HTML gênants seront supprimés de la sortie, et tous les liens de la page apparaîtront ensemble.

Qu'est-ce que vous essayez de faire est appelé Grattage ou grattage web.

Si vous faites quelques recherches sur python et le grattage , vous pouvez trouver une liste de noreferrer outils qui vous aideront.

(je ne l'ai jamais utilisé scrapy, mais il est le site semble prometteur:)

Beautiful Soup est un doux euphémisme. Voici un site que vous pouvez commencer à http://www.churchangel.com/ . Ils ont une liste énorme et la mise en forme est très régulière - traduction: facile à BSoup de configuration pour racler

.

scripts Python pourraient ne pas être le meilleur outil pour ce travail, si vous cherchez juste pour les adresses des églises dans une zone géographique.

Le recensement des États-Unis fournit un ensemble de données d'églises pour une utilisation avec les systèmes d'information géographique. Si trouver toutes les x dans une zone spatiale est un problème récurrent, investir dans l'apprentissage d'un SIG. Ensuite, vous pouvez apporter vos compétences en Python à prendre appui sur de nombreuses tâches géographiques.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top