البرمجة اللغوية العصبية:بناء مجموعة (صغيرة) من النصوص، أو "من أين يمكن الحصول على الكثير من الملفات النصية باللغة الإنجليزية غير المتخصصة؟"

StackOverflow https://stackoverflow.com/questions/137380

  •  02-07-2019
  •  | 
  •  

سؤال

هل لدى أي شخص اقتراح حول مكان العثور على أرشيفات أو مجموعات من النصوص الإنجليزية اليومية لاستخدامها في مجموعة صغيرة؟لقد كنت أستخدم كتب مشروع جوتنبرج كنموذج أولي عملي، وأرغب في دمج لغة أكثر معاصرة.أ الإجابة الأخيرة وأشار هنا بشكل غير مباشر إلى عظيم أرشيف مراجعات أفلام Usenet, ، وهو ما لم يخطر ببالي، وهو جيد جدًا.بالنسبة لهذا البرنامج بالذات، فإن أرشيفات Usenet التقنية أو قوائم بريد البرمجة قد تميل النتائج ويصعب تحليلها، ولكن أي نوع من نصوص المدونة العامة، أو نصوص الدردشة، أو أي شيء قد يكون مفيدًا للآخرين، سيكون مفيدًا للغاية.أيضًا، نقدر بشدة مجموعة بحثية جزئية أو قابلة للتنزيل وغير ملحوظة للغاية، أو بعض الاستدلال للعثور على مجموعة فرعية مناسبة من مقالات ويكيبيديا، أو أي فكرة أخرى.

(راجع للشغل، أنا مواطن صالح ولا أقوم بالتنزيل، باستخدام برنامج نصي بطيء بشكل متعمد ولا يتطلب الكثير من الخوادم التي تستضيف مثل هذه المواد، في حالة إدراكك لوجود خطر أخلاقي في توجيهي إلى شيء هائل.)

تحديث:يشير المستخدم S0rin إلى أن ويكيبيديا لا تطلب أي زحف وتوفر أداة التصدير هذه بدلاً من.لدى مشروع Gutenberg سياسة محددة هنا, خلاصة القول، حاول عدم الزحف، ولكن إذا كنت بحاجة إلى:"قم بتكوين الروبوت الخاص بك لينتظر ثانيتين على الأقل بين الطلبات."

تحديث 2 مقالب ويكيبيديا هي الطريق الصحيح، وذلك بفضل المجيبين الذين أشاروا إليها.انتهى بي الأمر باستخدام النسخة الإنجليزية من هنا: http://download.wikimedia.org/enwiki/20090306/ ، ومكب نفايات إسباني بحوالي نصف الحجم.إنها بعض الأعمال التي تحتاج إلى تنظيف، ولكنها تستحق العناء، وتحتوي على الكثير من البيانات المفيدة في الروابط.


هل كانت مفيدة؟

المحلول

  • استخدم ال مقالب ويكيبيديا
    • يحتاج إلى الكثير من التنظيف
  • معرفة ما إذا كان هناك أي شيء في nltk-data يساعدك
    • عادة ما تكون الأجسام صغيرة جدًا
  • ال أحمق الناس لديهم بعض المجاميع الحرة
    • الموسومة
    • يمكنك عنكبوت مجموعتك الخاصة باستخدام مجموعة الأدوات الخاصة بهم
  • يوروبرل مجاني وهو أساس كل أنظمة الترجمة الآلية الأكاديمية تقريبًا
    • اللغة المنطوقة، مترجمة
  • ال رويترز كوربورا مجانية، ولكنها متاحة فقط على قرص مضغوط

يمكنك دائمًا الحصول على منتجك الخاص، ولكن كن حذرًا:غالبًا ما تحتاج صفحات HTML إلى عملية تنظيف مكثفة، لذا اقتصر على خلاصات RSS.

إذا قمت بذلك تجاريًا، فإن أقل البلدان نموا قد يكون بديلا قابلا للتطبيق.

نصائح أخرى

ويكيبيديا تبدو وكأنها الطريق الصحيح.هناك واجهة برمجة تطبيقات ويكيبيديا التجريبية قد يكون ذلك مفيدًا، لكن ليس لدي أدنى فكرة عن كيفية عمله.حتى الآن قمت فقط بمسح ويكيبيديا بالعناكب المخصصة أو حتى wget.

ثم يمكنك البحث عن الصفحات التي تقدم النص الكامل لمقالاتها في خلاصات RSS.RSS، لأنه لا توجد علامات HTML تعترض طريقك.

إن تجريف القوائم البريدية و/أو Usenet له عدة عيوب:سوف تحصل على AOLbonics وTechspeak، وهذا من شأنه أن يؤثر سلباً على مجموعتك.

المجموعات الكلاسيكية هي Penn Treebank وBritish National Corpus، ولكن يتم الدفع مقابلها.يمكنك قراءة أرشيفات قائمة Corpora, أو حتى سؤالهم عن ذلك.ربما ستجد بيانات مفيدة باستخدام الويب كجسم أدوات.

لدي بالفعل مشروع صغير قيد الإنشاء، يسمح بالمعالجة اللغوية على صفحات الويب العشوائية.ومن المفترض أن يكون جاهزًا للاستخدام خلال الأسابيع القليلة المقبلة، ولكن حتى الآن لم يُقصد منه أن يكون أداة كاشطة.لكن يمكنني أن أكتب وحدة نمطية لها، أعتقد أن الوظيفة موجودة بالفعل.

إذا كنت على استعداد لدفع المال، فيجب عليك التحقق من البيانات المتاحة في اتحاد البيانات اللغوية، مثل Penn Treebank.

يبدو أن ويكيبيديا هي أفضل طريقة.نعم يجب عليك تحليل الإخراج.ولكن بفضل فئات ويكيبيديا، يمكنك بسهولة الحصول على أنواع مختلفة من المقالات والكلمات.على سبيل المثالومن خلال تحليل جميع فئات العلوم، يمكنك الحصول على الكثير من الكلمات العلمية.سيتم ميل التفاصيل المتعلقة بالأماكن نحو الأسماء الجغرافية، وما إلى ذلك.

لقد غطيت تلك الواضحة.المجالات الأخرى الوحيدة التي يمكنني التفكير فيها مكملة أيضًا:

1) المقالات الإخبارية / المدونات.

2) تنشر المجلات الكثير من المواد المجانية عبر الإنترنت، ويمكنك الحصول على شريحة جيدة من المواضيع.

وبالنظر إلى بيانات ويكيبيديا، لاحظت أنهم فعلوا ذلك بعض التحليلات على نصوص البرامج التلفزيونية والأفلام.اعتقدت أن هذا قد يكون نصًا مثيرًا للاهتمام ولكن لا يمكن الوصول إليه بسهولة - فقد اتضح أنه موجود في كل مكان، وهو منظم ويمكن التنبؤ به بدرجة كافية بحيث يكون من الممكن تنظيفه. هذا الموقع, ، الذي يحمل عنوانًا مفيدًا "مجموعة من نصوص وسيناريوهات الأفلام في مكان واحد على شبكة الإنترنت"، ربما يكون مفيدًا لأي شخص يتعثر في هذا الموضوع ويطرح عليه سؤالًا مشابهًا.

يمكنك الحصول على محتوى عروض الأسعار (بشكل محدود) هنا:http://quotationsbook.com/services/

يحدث هذا المحتوى أيضًا على Freebase.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top