الحصول على قائمة بجميع الكنائس في حالة معينة باستخدام بيثون

StackOverflow https://stackoverflow.com/questions/1903966

سؤال

أنا جيد جدا مع بيثون، لذلك الكود الزائف سوف يكفي عندما التفاصيل تافهة. يرجى البدء في المهمة - كيف يمكنك الذهاب حول الشبكة عن عناوين البريد الحلزون للكنائس في حالتي. بمجرد أن يكون لدي بطانة واحدة مثل "123 Old West Road # 3 Lyme Lyme City MD 01234"، ربما أستطيع تحليلها في المدينة، ولاية، الشارع، العدد، عرضة مع محاكمة وخطأ كافية. مشكلتي هي - إذا كنت تستخدم الصفحات البيضاء عبر الإنترنت، فماذا أتعامل مع جميع أجهزة HTML غير المرغوب فيها، طاولات HTML، الإعلانات، إلخ؟ لا أعتقد أنني بحاجة إلى رقم هاتفهم، لكنها لن تؤذي - يمكنني دائما طردها مرة واحدة تحليلها. حتى إذا كان الحل الخاص بك هو نصف دليل (مثل حفظ إلى قوات الدفاع الشعبي، فافتح Acrobat، احفظ كنص) - قد أكون سعيدا به لا يزال. شكرا! هيك، سوف أقبل حتى مقتطفات بيرل - يمكنني ترجمةهم بنفسي.

هل كانت مفيدة؟

المحلول

يمكنك استخدام ميكانيكية. وبعد إنها مكتبة بيثون تحاكي المتصفح، لذلك يمكنك الزحف عبر الصفحات البيضاء (مماثلة لما تفعله يدويا).

من أجل التعامل مع "HTML Junk" Python لديه مكتبة لذلك أيضا: جميلةإنها طريقة رائعة للحصول على البيانات التي تريدها من HTML (بالطبع يفترض أنك تعرف قليلا عن HTML، كما لا يزال يتعين عليك التنقل في شجرة التحليل).

تحديث: بالنسبة لسؤال المتابعة الخاص بك حول كيفية النقر عبر صفحات متعددة. ميكانيكية هي مكتبة للقيام بذلك. نلقي نظرة فاحصة على أمثلةهم، ESP. طريقة المتابعة_LINK. كما قلت إنه يحاكي المتصفح، لذلك يمكن تحقيق "النقر" بسرعة في بيثون.

نصائح أخرى

يحاول lynx --dump <url> لتنزيل صفحات الويب. سيتم تجريد جميع علامات HTML المزعجة من الإخراج، وستظهر جميع الروابط من الصفحة معا.

ما تحاول القيام به يسمى كشط أو تجريف الويب.

إذا قمت بذلك يبحث على بيثون والخرطات, ، قد تجد قائمة أدوات هذا سيساعد.

(لم أستخدمها أبدا Scrapy، لكن الموقع يبدو واعدا :)

حساء جميل ليس بإكرانيا. إليك موقع قد تبدأ في http://www.churchangel.com/. وبعد لديهم قائمة ضخمة والتنسيق منتظم جدا - ترجمة: من السهل إعداد BSOUP إلى كشط.

قد لا تكون البرامج النصية Python هي أفضل أداة لهذه المهمة، إذا كنت تبحث فقط عن عناوين الكنائس في منطقة جغرافية.

يوفر التعداد الأمريكي مجموعة بيانات من الكنائس للاستخدام مع أنظمة المعلومات الجغرافية. إذا وجدت كل x في منطقة مكانية مشكلة متكررة، استثمر في تعلم نظم المعلومات الجغرافية. ثم يمكنك إحضار مهاراتك بيثون إلى تحمل العديد من المهام الجغرافية.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top