كيفية تتخلص من صفحات الويب التي هي في شكل مختلف / تخطيطات؟
-
06-07-2019 - |
سؤال
وأحتاج لتتخلص نموذج 10-K تقارير (أي التقارير السنوية للشركات US) من SEC موقع لمشروع.
والمشكلة هي، والشركات لا تستخدم نفس الشكل المحدد لتقديم هذه البيانات. لذلك لالسابقين، يمكن عرض البيانات العقارات لمدة 2 شركات مختلفة على النحو التالي
1st company
Property name State City Ownership Year Occupancy Total Area
------------- ----- ------ --------- ---- --------- ----------
ABC Mall TX Dallas Fee 2007 97% 1,347,377
XYZ Plaza CA Ontario Fee 2008 85% 2,252,117
2nd company
Property % Ownership %Occupany Rent Square Feet
--------------- ----------- --------- ----- -----------
New York City
ABC Plaza 100.0% 89.0% 38.07 2,249,000
123 Stores 100.0% 50.0% 18.00 1,547,000
Washington DC Office
12th street .......
2001, J Drive .......
etc.
وبالمثل، فإن تخطيط البيانات يمكن أن تكون مختلفة تماما عن غيرها من الشركات.
وأود أن أعرف إذا كان هناك طرق أفضل لتتخلص من هذا النوع من البيانات غير متجانسة أخرى من كتابة البحث باستخدام التعابير المنطقية المعقدة.
ولدي الحرية في استخدام جافا، بيرل، بايثون أو رائع لهذا العمل.
المحلول
وسأكون يميل للحفاظ على مكتبة الملفات الفوقية التي تصف تخطيط لكل صفحة تريد أن تتخلص من البيانات واستخدامها عند محاولة الحصول على البيانات.
في هذه الطريقة لا تحتاج أوامر ريج سابق معقدة وإذا كان موقع يتغير تصميمها لك ببساطة تغيير واحد على واحد من الملفات.
وكيف أن تقرر إنشاء ملف التعريف متروك لكم ولكن الأمور مثل أسماء فئة ذات الصلة أو العلامات قد تكون بداية جيدة.
وثم تصف كيفية استخراج البيانات من هذه العلامة.
وغير متأكد ما إذا كان هناك أداة من هناك أن يفعل كل ذلك.
وو، أجمل، وسيلة أخرى قد تكون في الاتصال أصحاب هذه المواقع ومعرفة ما اذا كان توفير العلف في شكل خدمة ويب أو أي شيء التي يمكنك استخدامها للحصول على البيانات. يوفر الكثير من وجع القلب وأود أن أعتقد.