سؤال

ولقد كنت أحاول أن أكتب هذا العنكبوت لأسابيع ولكن من دون نجاح. ما هي أفضل طريقة بالنسبة لي لرمز هذا في بيثون:

1) رابط الأولي: http://www.whitecase.com/Attorneys/List.aspx?LastName=A

2) من رابط الأولي التقاط هذه عناوين المواقع مع هذه التعابير المنطقية:

وhxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+')

[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairisto', u
/zalbert', u'/salberts', u'/aaleksandrova', u'/malhadeff', u'/nalivojvodic', u'
....

و3) الذهاب إلى كل من هذه عناوين وتتخلص من معلومات المدرسة مع هذه التعابير المنطقية

وhxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)'

و[u'JD, ', u'University of Florida Levin College of Law, <em>magna cum laude</em> , Order of the Coif, Symposium Editor, Florida Law Review, Awards for highest grades in Comparative Constitutional History, Legal Drafting, Real Property and Sales, ', u'2007']

و4) كتابة معلومات المدرسة كشط في ملف schools.csv

هل يمكنك مساعدتي أكتب هذا العنكبوت في بيثون؟ لقد كنت أحاول أن أكتب في Scrapy ولكن من دون نجاح. أرى سابقة السؤال .

وشكرا لكم.

هل كانت مفيدة؟

المحلول

http://www.ibm.com/developerworks/linux/ مكتبة / لتر العنكبوت المادة / IBM مع صفا جيدا

أو

http://code.activestate.com/recipes/576551/ بيثون كتاب طبخ ، رمز أفضل ولكن أقل التفسير

نصائح أخرى

وأيضا، وأنا أقترح عليك قراءة:

مباراة التعابير المنطقية مفتوحة علامات باستثناء XHTML النفس علامات -contained

وقبل أن تحاول تحليل HTML مع تعبير عادي. ثم نفكر في ما يحدث قوات الاسم الأول مرة شخص ما في الصفحة التي سيتم يونيكود بدلا من اللاتينية-1.

وتحرير: للرد على سؤالك عن مكتبة لاستخدامها في بيثون، أود أن أقترح حساء جميل، وهو محلل HTML كبيرة وتدعم يونيكود في جميع أنحاء (ويقوم بعمل جيد حقا مع HTML تالف، والتي كنت سوف تجد في كل مكان).

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top