ما هي أفضل طريقة لاستخراج محتوى الجدول من مجموعة من ملفات HTML ؟

https://stackoverflow.com/questions/68691

09-06-2019
|

سؤال

بعد تنظيف مجلد كامل من ملفات HTML مع مرتبة ، كيف يمكن أن الجداول محتوى يتم استخراج لمزيد من المعالجة?

المحلول

يعتمد على أي نوع من المعالجة تريد القيام به.يمكنك معرفة مرتبة لتوليد XHTML, وهو نوع من XML ، مما يعني أنه يمكنك استخدام جميع المعتاد XML أدوات مثل XSLT و XQuery على النتائج.

إذا كنت تريد أن عملية لهم في Microsoft Excel, ثم يجب أن تكون قادرة على شريحة من HTML ووضعها في ملف ثم فتح هذا الملف في Excel:وسوف بسعادة تحويل جدول HTML في جدول الصفحة.ثم هل يمكن حفظه كملف CSV أو مصنف Excel.... الخ(حتى يمكنك استخدام هذا على ملقم ويب-إعادة جدول HTML ولكن تعيين Content-Type رأس application/ms-vnd.excel:Excel سيتم فتح استيراد الجدول وتحويلها إلى جدول بيانات.)

إذا كنت تريد CSV إلى تغذية في قاعدة بيانات ثم هل يمكن أن تذهب من خلال التفوق كما كان من قبل ، أو إذا كنت ترغب في أتمتة عملية كتابة البرنامج الذي يستخدم XML-التنقل API من اختيارك تكرار من صفوف الجدول وحفظها كملف CSV.بايثون Elementtree و CSV وحدات من شأنه أن يجعل هذا من السهل جدا.

نصائح أخرى

لقد استعملت BeautifulSoup عن مثل هذه الأمور في الماضي بنجاح كبير.

بعد استعراض اقتراحات ، أنا الجرح باستخدام HtmlUnit.

مع HtmlUnit كنت قادرا على تخصيص كود جافا لفتح كل ملف HTML في مجلد ، انتقل إلى الجدول العلامة ، الاستعلام كل عمود المحتوى واستخراج البيانات اللازمة لإنشاء ملف CSV.

في .صافي يمكن استخدام HTMLAgilityPack.

ترى هذا السؤال السابق على ستاكوفيرفلوو للحصول على مزيد من المعلومات.

إذا كنت ترغب في استخراج المحتوى من HTML, يجب عليك استخدام نوع من HTML محلل.ولتحقيق ذلك هناك الكثير من هناك و هنا نوعان التي قد جناح الاحتياجات الخاصة بك:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

من خلال تكرار النص واستخدام التعبير العادي :)

http://www.knowledgehouse.sg

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow