سؤال

هذا السؤال سبق الجواب هنا:

لقد تم القيام ببعض HTML تجريف في PHP باستخدام التعبيرات العادية.يعمل هذا ، ولكن النتيجة هو صعب و هشة.وقد أي شخص يستخدم أي من الباقات التي توفر أكثر قوة الحل ؟ ملف config مدفوعة لن يكون الحل المثالي ، ولكن أنا ليس من الصعب إرضاءه.

هل كانت مفيدة؟

المحلول

وأود أن نوصي PHP بسيطة HTML DOM محلل بعد الانتهاء من كشط HTML من صفحة.وهو يدعم غير صالحة HTML و يوفر طريقة سهلة جدا للتعامل مع عناصر HTML.

نصائح أخرى

إذا كانت الصفحة كنت كشط صالحة X(HT)مل ، ثم أي من PHP المدمج في موزعي XML وسوف نفعل.

لم تتح لي الكثير من النجاح مع PHP المكتبات الأميركية.إذا كنت المغامرة على الرغم من يمكنك أن تجرب simplehtmldom.أنصح Hpricot بالنسبة روبي أو شوربة جميلة بايثون ، ممتاز موزعي HTML.

أود أن أوصي أيضا 'بسيطة HTML DOM محلل.' بل هو خيار جيد لا سيما إذا كان على دراية جافا سكريبت مسج أو محددات ثم سوف تجد نفسك في المنزل.

حتى لقد كتبت عن ذلك في الماضي.

لدي بعض المرح في العمل مع htmlSQL, والذي هو ليس كثيرا الراقية الحل, ولكن حقا بسيطة للعمل مع.

باستخدام PHP HTML كشط, أنصح حليقة + regexp أو الضفيرة + بعض دوم موزعي على الرغم من أنني شخصيا استخدام حليقة + regexp.إذا كان لديك عميق طعم regexp, انها في الواقع أكثر دقة في بعض الأحيان.

لقد كان جيد جدا مع النتائج مع بسيطة Html DOM محلل المذكورة أعلاه أيضا.ثم هناك مرتبة امتداد PHP وكذلك الذي يعمل بشكل جيد جدا.

اضطررت لاستخدام الضفيرة على استضافة 1and1.

http://www.quickscrape.com/ ما جئت حتى مع استخدام بسيط دوم الدرجة!

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top