سؤال

أريد أن صفحة الويب واستخراج معلومات العنوان من صفحة.بعضها أسهل من غيرها.أنا أبحث عن فايرفوكس البرنامج المساعد, windows التطبيق ، أو VB.NET التعليمات البرمجية التي سوف تساعدني في الحصول على هذا المنجز.

ومن الناحية المثالية كنت ترغب في الحصول على صفحة ويب على المشرف (ASP.NET/VB.NET) حيث يمكنك إدخال URL و قصاصات الصفحة وإرجاع البيانات التي يمكنني وضعها في الشبكة.

هل كانت مفيدة؟

المحلول

إذا كنت تعرف شكل الصفحة (على سبيل المثال ، إذا كان أنهم جميعا مثل ذلك ashnha.com الصفحة) ثم فإنه من السهل إلى حد ما تكتب VB.NET رمز أن يفعل هذا:

  1. إنشاء النظام.صافي.WebRequest و قراءة الاستجابة إلى سلسلة.
  2. ثم إنشاء النظام.النص.RegularExpressions.Regex و تكرار عبر مجموعة من يطابق بين هذا و السلسلة أنت فقط استردادها.لكل مباراة ، إنشاء صف جديد في DataTable.

صعبة قليلا كتابة التعابير المنطقية ، الذي هو جزء من الفن الأسود.انظر regexlib.com على الكثير من الأدوات والكتب وما إلى ذلك عن regexes.

إذا كان تنسيق HTML ليست محددة بشكل جيد بما فيه الكفاية بالنسبة regex, ثم ربما كنت سوف تضطر إلى الاعتماد على بعض كمية من تدخل المستخدم من أجل تحديد أي بت هي عناوين...

نصائح أخرى

ما هو نوع من معالجة المعلومات التي تشير إليها ؟

هناك بعض الإضافات فايرفوكس المشغل & ذيول التي تسمح لك لاستخراج وعرض تنسيقات microformat من صفحات الويب.

عزة راسكين قد تحدث عن الاعتراف عند النص المحدد هو عنوان له فايرفوكس الاقتراح:أفضل علامة تبويب جديدة الشاشة.لا يوجد قانون حتى الآن ، ولكن أذكر أنه قد يكون هناك رمز في فايرفوكس للقيام بذلك في المستقبل.

بدلا من ذلك, يمكنك أن تنظر في استخدام خريطة الأمر في كل مكان, ، على الرغم من أن سيكون لديك لتحديد عناوين نفسك.

العامة HTML الشاشة تجريف في VB.NET تحقق من HTML Agility Pack.أسهل بكثير من محاولة Regex ذلك (إلا إذا كنت يحدث أن يكون Regex النينجا بالفعل!)

الصفحة التي ذكرتها في الإجابة سيكون من السهل لأتمتة ، كما يتناول في شكل موحد.

ولكن أن تسمح للمستخدمين أن نشير إلى أي صفحة ، هذا أصعب بكثير من العمل.البيانات يمكن أن تكون في أي شكل على الإطلاق.هل يمكن أن أكتب شيئا إلى تفريغ النص كله تخمين كيف يتم تقسيمها ، ومحاولة التعرف على القطع مثل البلد و الدولة الأسماء ، وأرقام الهاتف وغيرها ، والحصول ثم تظهر النتائج الخاصة بك مع واجهة التي سوف تتيح للمستخدمين كاملة أقسام المفقودة ، نقل فواصل ، وتحديد بت غاب أو لم يريدوا.

انها ليست بسيطة على الرغم مما يجعل واجهة يوفر ميزة كبيرة أكثر من مجرد قطع ولصق في التحقق من حقول النموذج سيكون إنجازا كبيرا أعتقد - أود أن تكون مهتمة لمعرفة كيف يمكنك الحصول على!

تحرير:فقط لاحظت هذا السؤال الآخر الذي قد تغطي قدرا كبيرا من ما تريد القيام به:تحليل للاستخدام عنوان الشارع, المدينة, الدولة, الرمز البريدي من سلسلة

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top