ما هو حالة من الفن في محتوى HTML الاستخراج ؟

https://stackoverflow.com/questions/1962389

21-09-2019
|

سؤال

هناك الكثير من العلماء العمل على محتوى HTML استخراج مثلا Gupta & Kaiser (2005) استخراج المحتوى من الوصول إليها صفحات الويب, و بعض علامات الاهتمام هنا ، على سبيل المثال ، واحد, اثنين, ، ثلاثة, ولكن أنا لست واضحة حول كيفية ممارسة هذا الأخير يعكس الأفكار السابقة.ما هي أفضل الممارسات ؟

مؤشرات جيدة (خاصة مفتوحة المصدر) تطبيقات جيدة العلمية دراسات تطبيقات سيكون نوع من شيء أبحث عنه.

حاشية أول:أن تكون دقيقة ، وهذا النوع من الدراسة أنا بعد سيكون ورقة (نشرت ، غير منشورة ، أيا كان) أن يناقش كل المعايير من الأدبيات العلمية وعدد من القائمة تطبيقات وتحليلات كيف تنجح التطبيقات هي من وجهة نظر المعايير.و حقا, بعد أن قائمة بريدية العمل بالنسبة لي أيضا.

حاشية الثاني أن تكون واضحة, بعد بيتر رويل الجواب الذي كنت قد قبلت ، يمكننا أن نرى أن هذا السؤال يقودنا إلى اثنين subquestions:(ط) حل مشكلة تنظيف غير conformant HTML التي شوربة جميلة هو الحل الأكثر الموصى بها ، و (ثانيا) لم تحل المشكلة أو فصل الغبار المتراكم تحت السرير (في الغالب الموقع-إضافة النمطي والمواد الترويجية) من اللحوم (contentthat هذا النوع من الناس الذين يعتقدون الصفحة قد تكون مثيرة للاهتمام في الواقع تجد ذات الصلة.لمعالجة حالة من الفن ، إجابات جديدة تحتاج إلى معالجة الغبار المتراكم تحت السرير من اللحوم peoblem صراحة.

المحلول

استخراج يمكن أن يعني أشياء مختلفة لأناس مختلفين.انها شيء واحد أن تكون قادرة على التعامل مع جميع المهترئ HTML هناك ، شوربة جميلة فائز واضح في هذا القسم.ولكن BS لن اقول لكم ما هو الغبار المتراكم تحت السرير و ما هو اللحم.

تبدو الأمور مختلفة (والقبيح) عند النظر في استخراج المحتوى من وجهة نظر الحسابية لغوي.عند تحليل صفحة أنا مهتم فقط في محتوى معين الصفحة ناقص جميع الملاحة/الإعلان/الخ.الغبار المتراكم تحت السرير.و لا يمكنك ان تفعل الاشياء المثيرة للاهتمام -- co-قوع تحليل العبارة اكتشاف مرجح السمة ناقلات الجيل ، إلخ.- حتى كنت قد حصلت على التخلص من الغبار المتراكم تحت السرير.

الورقة الأولى المشار إليها من قبل المرجع يشير إلى أن هذا هو ما كنت تحاول تحقيق -- تحليل الموقع ، تحديد الهيكل العام ، ثم طرح هذا وفويلا!لديك فقط اللحوم-ولكن وجدوا أنه أكثر صعوبة مما كان يعتقد.كانت تقترب المشكلة من تحسين إمكانية الوصول زاوية ، بينما كنت في وقت مبكر البحث egine الرجل ولكن كلانا جاء إلى نفس النتيجة:

فصل الغبار المتراكم تحت السرير من اللحم صعبة. و (قراءة ما بين السطور من سؤالك) حتى بمجرد إزالة الغبار المتراكم تحت السرير دون تطبيقها بعناية الترميز الدلالي هو للغاية من الصعب تحديد 'الكاتب القصد من هذه المادة.الحصول على اللحوم من موقع مثل citeseer (نظيفة & متوقع وضعت عالية جدا إشارة إلى نسبة الضوضاء) ، 2 أو 3 أوامر من حجم أسهل من التعامل مع عشوائية المحتوى على شبكة الإنترنت.

راجع للشغل, إذا كنت تتعامل مع المستندات الطويلة قد تكون مهتمة بشكل خاص في العمل الذي قام به مارتي هيرست (الآن أستاذ في جامعة كاليفورنيا في بيركلي).لها رسالة دكتوراه وغيرها من الأوراق على القيام الموضوع الفرعي اكتشاف في المستندات الكبيرة أعطاني الكثير من التبصر في القيام بشيء مماثل في أصغر الوثائق (التي من المستغرب أن يكون من الصعب التعامل مع).ولكن يمكنك القيام بذلك إلا بعد الحصول على التخلص من الغبار المتراكم تحت السرير.

على عدد قليل من الذين قد تكون مهتمة هنا بعض الدرامية (ربما خارج الموضوع, لكن أنا في هذا النوع من المزاج الليلة):

في 80 و 90 عملائنا معظمهم من الوكالات الحكومية العيون التي كانت أكبر من ميزانياتها و الأحلام التي جعلت ديزني لاند تبدو باهتة.كانوا يجمعون كل ما يمكن أن يضعوا أيديهم على ثم ذهبت تبحث عن الرصاصة الفضية التكنولوجيا التي من شأنها أن بطريقة أو بأخرى ( عملاق اليد موجة ) استخراج 'معنى' الوثيقة.صحيح.وجدوا لنا لأننا كنا هذا غريب قليلا الشركة القيام "المحتوى التشابه البحث" في عام 1986.لدينا بعض العروض (حقيقي لا زيف) الذي استثنائي بها.

واحدة من الأشياء التي كنا نعرف بالفعل (و استغرق الأمر وقتا طويلا بالنسبة لهم أن تؤمن لنا) أن كل جمع مختلف الاحتياجات الخاصة الماسح الضوئي الخاصة للتعامل مع تلك الاختلافات.على سبيل المثال, إذا كان كل ما تفعله هو المضغ مباشرة صحيفة قصص الحياة من السهل جدا.العنوان الغالب يقول لك شيء مثير للاهتمام, و كتب القصة في نمط الهرم - الفقرة الأولى أو الثانية اللحم من/ماذا/أين/متى ومن ثم تتبع الفقرات التوسع في ذلك.كما قلت هذه الاشياء سهلة.

ماذا عن مجلة المقالات ؟ اللهم لا تجعلني أبدأ!العناوين هي دائما تقريبا بلا معنى و هيكل يختلف من واحد ماج المقبل ، وحتى من مقطع واحد من مجلة إلى أخرى.التقاط نسخة من السلكية و نسخة من المحيط الأطلسي الشهري.نظرة على المادة الرئيسية ومحاولة معرفة معنى 1 الفقرة ملخص ما هي المادة عنه.الآن في محاولة لوصف كيف أن برنامج إنجاز نفس الشيء.لا نفس مجموعة من القواعد تطبق في جميع المواد ؟ حتى المقالات من نفس المجلة ؟ لا ، لا.

اسف على الصوت مثل البخيل على هذا, ولكن هذه المشكلة حقا من الصعب.

والغريب سبب كبير في google كونه ناجحا كما هو (من منظور محرك بحث) هو أنها تضع الكثير من الوزن على الكلمات المحيطة بها رابط من موقع آخر.هذا رابط النص يمثل نوعا من mini-ملخص القيام به من قبل الإنسان ، الموقع/الصفحة هو ربط بالضبط ما تريد عندما كنت تبحث عن.ويعمل عبر ما يقرب من كل نوع/أنماط تخطيط المعلومات.انها إيجابيا والبصيرة و أتمنى لو كان ذلك بنفسي.ولكن ذلك لن يتم العملاء جيدة لأن هناك لا توجد روابط ليلة أمس من موسكو قوائم التلفزيون إلى بعض عشوائي المبرقة رسالة كانوا قد أسروا ، أو إلى بعض بشدة OCR أن النسخة المصرية من صحيفة.

/مصغرة خرف و رحلة بانخفاض ذاكرة حارة

نصائح أخرى

كلمة واحدة: Boilerpipe.

بالنسبة للمجال الإخباري ، على مجموعة تمثيلية ، نحن الآن عند دقة استخراج 98 ٪ / 99 ٪ (AVG / MEDIAN)

العرض التوضيحي: http://boilerpipe-web.appspot.com/
شفرة: http://code.google.com/p/boilerpipe/
عرض: http://videolectures.net/wsdm2010_kohlschutter_bdu/
مجموعة البيانات والشرائح: http://www.l3s.de/~kohlschuetter/boilerplate/
أطروحة الدكتوراه: http://www.kohlschutter.com/pdf/dissertation-kohlschuetter.pdf

أيضا اللغة المستقلة أيضًا (اليوم ، لقد تعلمت أنها تعمل مع نيبالي أيضًا).

إخلاء المسئولية: أنا مؤلف هذا العمل.

هل رأيت المرجل؟ وجدت أنه مذكور في سؤال مماثل.

لقد جئت عبر http://www.keyvan.net/2010/08/php-readability/

في العام الماضي ، قمت بنقل قابلية قراءة ARC90 لاستخدامها في مشروع Five Filters. لقد مر أكثر من عام الآن وقد تحسنت قابلية القراءة كثيرًا - بفضل كريس داراري وبقية الفريق في ARC90.

كجزء من تحديث إلى خدمة RSS النص الكاملة ، بدأت في نقل إصدار أحدث (1.6.2) إلى PHP والرمز الآن عبر الإنترنت.

لأي شخص غير مألوف ، تم إنشاء قابلية القراءة للاستخدام كملحق متصفح (مرجعية). بنقر واحد ، يحول صفحات الويب لسهولة القراءة وشرائح الفوضى. قامت شركة Apple مؤخرًا بدمجها في قارئ Safari.

إنه أيضًا مفيد للغاية لاستخراج المحتوى ، وهذا هو السبب في أنني أردت نقله إلى PHP في المقام الأول.

هناك عدد قليل من أدوات المصادر المفتوحة المتوفرة التي تقوم بمهام استخراج المقالات المماثلة.https://github.com/jiminoc/goose الذي كان مفتوح المصدر بواسطة Gravity.com

لديها معلومات عن الويكي وكذلك المصدر الذي يمكنك عرضه. هناك العشرات من اختبارات الوحدة التي تظهر النص المستخرج من مقالات مختلفة.

لقد عملت مع بيتر رويل على مر السنين على مجموعة واسعة من مشاريع استرجاع المعلومات ، والتي تضمنت الكثير منها استخراج نص صعب للغاية من مجموعة متنوعة من مصادر الترميز.

أنا أركز حاليًا على استخراج المعرفة من مصادر "Firehose" مثل Google ، بما في ذلك أنابيب RSS الخاصة بهم التي تفريغ كميات هائلة من المقالات الإخبارية المحلية والإقليمية والوطنية والدولية. في كثير من الحالات ، تكون العناوين غنية وذات مغزى ، ولكنها فقط "خطافات" تستخدم لسحب حركة المرور إلى موقع ويب حيث تكون المقالة الفعلية عبارة عن فقرة لا معنى لها. يبدو أن هذا نوع من "البريد العشوائي في العكس" مصمم لتعزيز تصنيفات حركة المرور.

لترتيب المقالات حتى مع أبسط مقياس طول المقالة ، يجب أن تكون قادرًا على استخراج المحتوى من العلامات. إن الترميز والبرمجة البرمجية الغريبة التي تهيمن على محتوى الويب هذه الأيام تكسر معظم حزم تحليل المصادر المفتوحة مثل الحساء الجميل عند تطبيقها على أحجام كبيرة مميزة من Google ومصادر مماثلة. لقد وجدت أن 30 ٪ أو أكثر من المقالات الملغومة تكسر هذه الحزم كقاعدة عامة. وقد تسبب هذا في إعادة تركيزنا على تطوير محللات منخفضة للغاية ، ذكية ، قائمة على الشخصية لفصل النص الخام عن الترميز والبرمجة النصية. كلما زادت رعاية التحليل (أي تقسيم المحتوى) ، كلما كانت أدواتك أكثر ذكاءً (وصنعها يدويًا). لجعل الأمور أكثر إثارة للاهتمام ، يكون لديك هدف متحرك مع استمرار تأليف الويب في التحول والتغيير مع تطوير مناهج البرمجة النصية الجديدة ، والتوصيف ، والملحقات اللغوية. هذا يميل إلى تفضيل تسليم المعلومات القائمة على الخدمة بدلاً من تطبيقات "تقلص ملفات".

إذا نظرنا إلى الوراء على مر السنين ، يبدو أنه كان هناك عدد قليل جدًا من الأوراق العلمية المكتوبة حول ميكانيكا المستوى المنخفض (أي "ممارسة السابق" الذي تشير إليه) من هذا الاستخراج ، ربما لأنه محدد للغاية للمجال والمحتوى.

حساء جميل هو محلل HTML قوي مكتوب في بيثون.

إنه يتعامل مع HTML بأمان مع علامة سيئة ، كما أنه تم تصميمه جيدًا كمكتبة Python ، ودعم المولدات للتكرار والبحث ، والتوصل إلى النقطة للوصول إلى الطفل (على سبيل المثال ، Access <foo><bar/></foo>' usingdoc.foo.bar`) و unicode سلس.

إذا كنت خارج لاستخراج المحتوى من الصفحات التي تستخدم جافا سكريبت بشكل كبير ، السيطرة عن بعد السيلينيوم يمكن القيام بهذه المهمة. إنه يعمل لأكثر من مجرد اختبار. الجانب السلبي الرئيسي للقيام بذلك هو أنك ستنتهي باستخدام المزيد من الموارد. الجانب العلوي هو ستحصل على تغذية بيانات أكثر دقة من الصفحات/التطبيقات الغنية.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow