أين يمكنني الحصول على مقالات إخبارية خام من العام الماضي؟

StackOverflow https://stackoverflow.com/questions/2359316

  •  23-09-2019
  •  | 
  •  

سؤال

أنا أكتب بعض التعليمات البرمجية التي تحسب بعض الإحصاءات حول استخدامات الكلمات.

هل يعرف أي شخص أين يمكنني العثور على قاعدة بيانات للمقالات الإخبارية الخام من مواضيع مختلفة على مدى فترة (على سبيل المثال) في العام الماضي؟ ويفضل أن يكونوا إما بتنسيق نص عادي أو XML. إن محاولة كشط المحتوى من مواقع الويب العشوائية ليست خيارًا جيدًا.

أعلم أن المضي قدماً ربما يمكنني أرشفةهم بنفسي. ومع ذلك ، أحتاج إلى بدء العملية بمجموعة من المقالات الموجودة ... كلما زادت أكثر هدوءًا.

أي أفكار أخرى لمجموعات بيانات Corpus متوفرة بسهولة في شكل بسيط إلى تحليل سيكون موضع تقدير أيضًا.

هل كانت مفيدة؟

المحلول

قد تجرب أرشيف الإنترنت. لديهم قسم نص ، لكنني لا أعرف ما إذا كان لديه أخبار. قد تكون قادرًا أيضًا على استخدام آلة Wayback الخاصة بهم لسحب المقالات الإخبارية من موقع رئيسي باستخدام خلاصات RSS الخاصة بهم.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top