كيفية تتخلص من صفحات الويب التي هي في شكل مختلف / تخطيطات؟

StackOverflow https://stackoverflow.com/questions/1634969

  •  06-07-2019
  •  | 
  •  

سؤال

وأحتاج لتتخلص نموذج 10-K تقارير (أي التقارير السنوية للشركات US) من SEC موقع لمشروع.

والمشكلة هي، والشركات لا تستخدم نفس الشكل المحدد لتقديم هذه البيانات. لذلك لالسابقين، يمكن عرض البيانات العقارات لمدة 2 شركات مختلفة على النحو التالي

1st company

Property name   State  City     Ownership   Year  Occupancy Total Area
-------------   -----  ------   ---------   ----  --------- ----------
ABC Mall         TX    Dallas   Fee         2007    97%       1,347,377
XYZ Plaza        CA    Ontario  Fee         2008    85%       2,252,117



2nd company

Property          % Ownership  %Occupany  Rent   Square Feet
---------------   -----------  ---------  -----  -----------
New York City
  ABC Plaza       100.0%        89.0%     38.07    2,249,000 
  123 Stores      100.0%        50.0%     18.00    1,547,000 
Washington DC Office
  12th street     .......
  2001, J Drive   .......

etc.

وبالمثل، فإن تخطيط البيانات يمكن أن تكون مختلفة تماما عن غيرها من الشركات.

وأود أن أعرف إذا كان هناك طرق أفضل لتتخلص من هذا النوع من البيانات غير متجانسة أخرى من كتابة البحث باستخدام التعابير المنطقية المعقدة.

ولدي الحرية في استخدام جافا، بيرل، بايثون أو رائع لهذا العمل.

هل كانت مفيدة؟

المحلول

وسأكون يميل للحفاظ على مكتبة الملفات الفوقية التي تصف تخطيط لكل صفحة تريد أن تتخلص من البيانات واستخدامها عند محاولة الحصول على البيانات.

في هذه الطريقة لا تحتاج أوامر ريج سابق معقدة وإذا كان موقع يتغير تصميمها لك ببساطة تغيير واحد على واحد من الملفات.

وكيف أن تقرر إنشاء ملف التعريف متروك لكم ولكن الأمور مثل أسماء فئة ذات الصلة أو العلامات قد تكون بداية جيدة.

وثم تصف كيفية استخراج البيانات من هذه العلامة.

وغير متأكد ما إذا كان هناك أداة من هناك أن يفعل كل ذلك.

وو، أجمل، وسيلة أخرى قد تكون في الاتصال أصحاب هذه المواقع ومعرفة ما اذا كان توفير العلف في شكل خدمة ويب أو أي شيء التي يمكنك استخدامها للحصول على البيانات. يوفر الكثير من وجع القلب وأود أن أعتقد.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top