تحديد المحتوى الأساسي للصفحة

https://stackoverflow.com/questions/1220494

10-07-2019
|

سؤال

نظرًا لأن صفحة HTML عبارة عن مقالة نصية ثقيلة، أود تحديد المحتوى الأساسي وتحليله.

استخدام http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html على سبيل المثال، أريد تحديد div#post-4438372351887392855، الذي يحتوي على العنوان والمقالة.

أعلم أنه لا يوجد شيء يمكن أن يكون مثاليًا أو يعمل بنسبة 100% من الوقت، ولكن هل هناك نهج يمكن أن يمنحني النتيجة المرجوة في عدد معقول من الظروف؟

فكرتي الحالية هي التكرار خلال كل div، وإزالة العلامات، ثم العثور على القسم الداخلي الذي يحتوي على أكبر قدر من النص.

في هذه المرحلة، لقد بدأت للتو، لذا أبحث عن مدخلات يمكنني وضعها في نهج مفاهيمي.أو، إذا كان هناك شيء ما، فسيكون من الجيد وجود مكتبة مفتوحة المصدر.

شكرا مقدما على الأفكار.

المحلول

وبعض الناس في arc90 قامت بعمل رائعة جميلة مع هذا مع بووكمركلت . ويبدو للقيام بعمل جيد جدا في العثور على المحتوى 'الرئيسي' - يعمل على الصفحة لك قائمة تماما
. يمكنك أن تبحث من خلال لهم جافا سكريبت علق جيدا (مرتبطة في بووكمركلت)، ولكنك قد تحتاج إلى الاتصال المطورين لأفكارهم وإذن لاستخدامها.

نصائح أخرى

قائمة الموارد المجمعة الأكثر اكتمالا لاستخراج المحتوى الأساسي هي:

انظر أيضًا إلى التعليقات نظرًا لوجود نصائح إضافية.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow