Eine einfache Spinne Frage

https://stackoverflow.com/questions/1810652

05-07-2019
|

Frage

Ich bin ein Neuling unter Verwendung Scrapy ohne Glück so weit diese einfache Aufgabe zu achive versuchen. Ich bitte Ihre Ratschläge, wie dies mit Scrapy zu tun oder mit jedem anderen Werkzeug (mit Python). Danke.

Ich will

von einer Seite starten, das BIOS von Anwälten, der Nachname Listen beginnen mit A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A
Von Namen VZ = A Links zu aktuellen BIOS zu extrahieren: / BioLinks /
besucht jedes der / BioLinks / die Schule Informationen für jeden Anwalt zu extrahieren.

Ich bin in der Lage, die / BioLinks / und Schule Informationen zu extrahieren, aber ich bin nicht in der Lage von der anfänglichen URL zu den Bio-Seiten zu gehen.

Wenn Sie denken, dies ist der falsche Weg, um dies zu, dann, wie würden Sie dieses Ziel erreichen?

Vielen Dank.

Lösung

Nicht sicher, ob ich voll und ganz verstehen, was Sie fragen, aber vielleicht müssen Sie jedes Bio die absolute URL erhalten und den Quellcode für die Seite abzurufen:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

Dann wird eine reguläre Ausdrücke oder andere Parsing verwenden der Anwalt der juristischen Fakultät zu erhalten.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow