كيفية العثور على عبارات شائعة في جسم كبير من النص

https://stackoverflow.com/questions/1928997

20-09-2019
|

سؤال

أنا أعمل في مشروع في الوقت الحالي الذي أحتاج فيه إلى اختيار أكثر العبارات شيوعًا في مجموعة كبيرة من النصوص. على سبيل المثال ، قل لدينا ثلاث جمل مثل ما يلي:

قفز الكلب على المرأة.
قفز الكلب الى داخل السيارة.
قفز الكلب أعلى السلالم.

من المثال أعلاه أريد استخراج "قفز الكلب"لأنها العبارة الأكثر شيوعًا في النص. في البداية فكرت ،" أوه ، يتيح استخدام رسم بياني موجه [مع عقد متكررة] ":

الرسم البياني الموجه http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png

تعديل: الاعتذار ، لقد ارتكبت خطأً أثناء ارتكاب هذا الرسم التخطيطي "أكثر" ، "في" و "UP" يجب أن تربط جميعها إلى "The".

كنت سأحافظ على عدد المرات التي حدثت فيها كلمة في كل كائن عقدة ("" سيكون "6 ؛" الكلب "و" قفز "، 3 ؛ إلخ) ولكن على الرغم من العديد نضيف بعض الأمثلة الأخرى مثل (يرجى تجاهل القواعد النحوية السيئة :-)):

قفز الكلب لأعلى ولأسفل.
قفز الكلب مثل أي كلب قفز من قبل.
قفز الكلب بسعادة.

لدينا الآن مشكلة منذ "كلب"ستبدأ عقدة جذر جديدة (في نفس مستوى" ") ولن نحدد"قفز الكلب"بما أن الآن العبارة الأكثر شيوعًا. لذا ، فأنا أفكر الآن ربما يمكنني استخدام رسم بياني غير موجه لرسم خريطة للعلاقات بين جميع الكلمات واختيار العبارات الشائعة في النهاية ، لكنني لست متأكدًا من كيفية عمل هذا أيضًا ، كما تفقد العلاقة المهمة للنظام بين الكلمات.

فهل لدى أي شخص أي أفكار عامة حول كيفية تحديد العبارات الشائعة في مجموعة كبيرة من النص وهيكل البيانات الذي سأستخدمه.

شكرا بن

المحلول

تحقق من هذا السؤال ذي الصلة: ما هي التقنيات/الأدوات الموجودة لاكتشاف العبارات الشائعة في أجزاء النص؟ فيما يتعلق أيضا أطول مشكلة فرعية شائعة.

لقد نشرت هذا من قبل ، لكني أستخدم ص بالنسبة لجميع مهام تعدين البيانات الخاصة بي وهي مناسبة تمامًا لهذا النوع من التحليل. على وجه الخصوص ، انظر إلى tm حزمة. فيما يلي بعض الروابط ذات الصلة:

ورقة حول الحزمة في مجلة الحوسبة الإحصائية: http://www.jstatsoft.org/v25/i05/paper. تتضمن الورقة مثالًا لطيفًا على تحليل القائمة البريدية R-Devel (https://stat.ethz.ch/pipermail/r-devel/) منشورات مجموعة الأخبار من عام 2006.
الصفحة الرئيسية الحزمة: http://cran.r-project.org/web/packages/tm/index.html
انظر إلى المقالة القصيرة التمهيدية: http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

بشكل عام ، هناك عدد كبير من حزم تعدين النص على وجهة نظر معالجة اللغة الطبيعية على الرافعة.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow