سؤال

أريد أن أكون قادرا على الاستيلاء على المحتوى من صفحات الويب، وخاصة العلامات والمحتوى داخلها. لقد جربت XQuery و XPath، لكنهم لا يعملون للعمل من أجل XHTML المشوه و Regex مجرد ألم.

هل هناك حل أفضل. من الناحية المثالية، أود أن أتمكن من طلب جميع الروابط واستعاد مجموعة من عناوين URL، أو طلب نص الروابط واستعادة مجموعة من السلاسل مع نص الروابط، أو أطلب كل النص الجريء إلخ.

هل كانت مفيدة؟

المحلول

قم بتشغيل XHTML من خلال شيء مثل جيتي, ، والتي يجب أن تعطيك مرة أخرى XML صالحة.

نصائح أخرى

قد ترغب في النظر في Watij.. وبعد لقد استخدمت فقط ابن عمها الروبي، ومسير، ولكن مع ذلك تمكنت من تحميل صفحة ويب وطلب من عناوين URL من الصفحة بالطريقة التي تصفها بالضبط.

كان من السهل جدا العمل مع - إنه يطلق حرفيا WebBrowser ويمنحك المعلومات مرة أخرى في أشكال لطيفة. أي دعم بدا أفضل، ولكن على الأقل مع Watir Firefox مدعوم أيضا.

كان لدي بعض المشاكل مع JTIDY مرة أخرى في اليوم. أعتقد أنه كان مرتبطا بالعلامات التي لم تكن مغلقة التي جعلت jtidy فشل. لا أعرف إذا كانت هذه ثابتة الآن. انتهى بي الأمر باستخدام شيء كان مجمع حوله Tagsup, ، على الرغم من أنني لا أتذكر اسم المشروع الدقيق. هناك ايضا htmlleaner..

لقد استخدمت http://htmlparser.sourceforge.net/. وبعد يمكن أن تحليل HTML تشكيل بشكل سيء ويسمح باستخراج البيانات بسهولة تماما.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top