كيف يمكنني الحصول على مجموعة فرعية من صفحات ويكيبيديا؟

StackOverflow https://stackoverflow.com/questions/1320475

  •  19-09-2019
  •  | 
  •  

سؤال

كيف يمكنني الحصول على مجموعة فرعية (قل 100 ميجابايت) من صفحات ويكيبيديا؟ لقد وجدت أنه يمكنك الحصول على مجموعة البيانات بأكملها XML ولكنها أكثر مثل 1 أو 2 العربات؛ أنا لا أحتاج إلى ذلك كثيرا.

أريد تجربة تنفيذ خوارزمية تقليل الخريطة.

بعد القول أنه إذا استطعت العثور على بيانات نموذجية نصية نصية من أي مكان، من شأنها أن تكون جيدة أيضا. على سبيل المثال قاعدة بيانات تجاوز Stack، إذا كانت متوفرة، فمن الممكن أن تكون بحجم جيد. أنا منفتح على الاقتراحات.

تحرير: أي ما لا يسيل؟ لا أستطيع الحصول على تلك الموجودة في العمل.

هل كانت مفيدة؟

المحلول

قاعدة بيانات Stackoverflow متاحة ل تحميل.

نصائح أخرى

كريس، يمكنك فقط كتابة برنامج صغير لضرب رابط Wikipedia "الصفحة العشوائية" حتى تحصل على 100 ميغابايت من صفحات الويب: http://en.wikipedia.org/wiki/special:random.. وبعد سترغب في تجاهل أي تكرار قد تحصل عليه، وقد ترغب أيضا في الحد من عدد الطلبات التي تجريها في الدقيقة (على الرغم من أن بعض الكسر من المقالات سيتم تقديمها بواسطة مخابئ الويب الوسيطة، وليس خوادم Wikipedia). ولكن يجب أن تكون سهلة جدا.

إذا كنت ترغب في الحصول على نسخة من قاعدة بيانات Stackoverflow، فيمكنك القيام بذلك من تفريغ بيانات العموم الإبداعية.

بدافع الفضول، ما الذي تستخدم كل هذه البيانات؟

خيار واحد هو تنزيل تفريغ Wikipedia بأكملها، ثم استخدم جزءا فقط منه. يمكنك إما فك ضغط الشيء بالكامل ثم استخدم برنامج نصي بسيط لتقسيم الملف إلى ملفات أصغر (على سبيل المثال هنا)، أو إذا كنت قلقا من مساحة القرص، فيمكنك كتابة شيء نصي ينفجر وانشقاق على الطاير، ثم يمكنك إيقاف عملية إلحادات الضغط في أي مرحلة تريدها. قارئ تفريغ ويكيبيديا يمكنه إلهامك لإلهامك لإزالة الضغط والمعالجة على الطاير، إذا كنت مرتاحا مع Python (انظر إلى MPARSER.PY).

إذا كنت لا ترغب في تنزيل الشيء بأكمله، فقد تركت مع خيار Exharphing. ال ميزة التصدير قد تكون مفيدة لهذا، و Wikipediabot. كما اقترح في هذا السياق.

يمكنك استخدام مجنزرة ويب وكشط 100 ميغابايت من البيانات؟

هناك الكثير من مقالب ويكيبيديا المتاحة. لماذا تريد اختيار أكبر (Wiki الإنجليزية)؟ Wikinews الأرشيف أصغر بكثير.

تحتوي مجموعة فرعية واحدة أصغر من مقالات ويكيبيديا على مقالات Wiki "التعريف". هذا في نفس تنسيق XML كمادة بيانات المقالة بأكملها، ولكن أصغر (حوالي 400 ميغابايت اعتبارا من مارس 2019)، لذلك يمكن استخدامه للتحقق من صحة البرامج (على سبيل المثال اختبار البرامج النصية Gensim).

https://dumps.wikimedia.org/metawiki/latest/

تريد البحث عن أي ملفات مع -articles.xml.bz2 لاحقة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top