استخراج معلومات من المواقع

https://stackoverflow.com/questions/318564

11-07-2019
|

سؤال

وليس كل موقع يعرض البيانات بشكل جيد، مع يغذي XML، واجهات برمجة التطبيقات، الخ

وكيف يمكن أن أذهب حول استخراج المعلومات من موقع على شبكة الانترنت؟ على سبيل المثال:

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

ولقد جئت من خلفية البرمجة جافا والترميز مع XMLBeans أباتشي. هل هناك أي شيء مماثل لتحليل HTML، عندما أعرف هيكل والبيانات بين علامة معروفة؟

والشكر

المحلول

وهناك العديد من المصادر المفتوحة HTML موزعي هناك لجاوة.

ولقد استخدمت JTidy في الماضي، وكان لها حظا سعيدا معها. وسوف أعطيك DOM من صفحة HTML، ويجب أن تكون قادرة على انتزاع العلامات التي تحتاجها من هناك.

نصائح أخرى

وفيما يلي مقال التي لديها بضع أدوات كشط الشاشة مكتوب بلغة جافا.

في عام، يبدو وكأنه كنت تريد أن نلقي نظرة على التعابير العادية ، والتي لا نمط مطابقة كنت تبحث عنه.

وعلى أمل أن يساعد!

وجافا يبدو عائقا صعبا إلى حد ما لهذه المهمة. هل هذا الشرط الصعب؟ لغات البرمجة هي مثالية لبناء ما هو في الحقيقة الكثير من التعليمات البرمجية الميل الأخير.

إذا كنت تكون مفتوحة لذلك، روبي + hpricot يجعل هذا تافهة تماما. يمكنك استخدام المغلق أو كسباث محددات (أو كليهما) للعثور (والتلاعب) المحتوى في HTML. الاستيلاء على الوثيقة، تحليل ذلك، واستخراج النص في المثال الخاص بك هو حرفيا سطر واحد من التعليمات البرمجية.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow