Une simple question d'araignée

https://stackoverflow.com/questions/1810652

05-07-2019
|

Question

Je suis un débutant qui essaie de réaliser cette tâche simple en utilisant Scrapy sans succès jusqu'à présent. Je vous demande votre avis sur la façon de procéder avec Scrapy ou tout autre outil (avec Python). Merci.

Je veux

commence par une page qui répertorie les biographies des avocats dont le nom commence par A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A
De LastName = A pour extraire les liens vers le bios actuel: / BioLinks /
visitez chacun des / BioLinks / pour extraire les informations sur l'école de chaque avocat.

Je peux extraire les informations / BioLinks / et School, mais je ne peux pas aller de l'URL initiale aux pages de bio.

Si vous pensez que c'est la mauvaise façon de procéder, alors, comment atteindriez-vous cet objectif?

Merci beaucoup.

La solution

Je ne suis pas sûr de bien comprendre ce que vous demandez, mais vous devez peut-être obtenir l'URL absolue de chaque bio et récupérer le code source de cette page:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

Utilisez ensuite des expressions régulières ou une autre analyse syntaxique pour obtenir la faculté de droit de l'avocat.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow