سؤال

أقوم بإنشاء بعض الإحصائيات لبعض النصوص باللغة الإنجليزية وأرغب في تخطي الكلمات غير المثيرة للاهتمام مثل "a" و"the".

  • أين يمكنني العثور على بعض قوائم هذه الكلمات غير المثيرة للاهتمام؟
  • هل قائمة هذه الكلمات هي نفسها قائمة الكلمات الأكثر استخدامًا في اللغة الإنجليزية؟

تحديث:يبدو أن هذه تسمى "كلمات التوقف" وليس "تخطي الكلمات".

هل كانت مفيدة؟

المحلول

الكلمة السحرية التي يجب وضعها في Google هي "كلمات التوقف".هذا يظهر قائمة ذات مظهر معقول.

يحتوي MySQL أيضًا على قائمة مدمجة من كلمات التوقف, ، ولكن هذا شامل جدًا لذوقي.على سبيل المثال، واجهنا مشاكل في مكتبة جامعتنا لأن كلمة "الثالث" في "العالم الثالث" كانت تعتبر كلمة توقف.

نصائح أخرى

تسمى هذه كلمات التوقف, ، افحص هذا عينة

اعتمادًا على المجال الفرعي للغة الإنجليزية الذي تعمل فيه، قد يكون لديك/ترغب في تجميع قائمة كلمات التوقف الخاصة بك.يمكن أن تكون بعض كلمات التوقف العامة ذات معنى في المجال.على سبيل المثالكلمة "هي" يمكن أن تكون في الواقع اختصار/اختصار في بعض المجالات.وعلى العكس من ذلك، قد ترغب في تجاهل بعض الكلمات الخاصة بالمجال اعتمادا على التطبيق الخاص بك والتي قد لا ترغب في تجاهلها في مجال اللغة الإنجليزية العامة.على سبيل المثالإذا كنت تقوم بتحليل مجموعة من تقارير المستشفى، فقد ترغب في تجاهل كلمات مثل "التاريخ" و"الأعراض" لأنها قد توجد في كل تقرير وقد لا تكون مفيدة (من منظور مؤشر الفانيليا المقلوب البسيط).

وبخلاف ذلك، يجب أن تكون القوائم التي أعادتها Google على ما يرام.بورتر ستيمر يستخدم هذا وتنفيذ محرك بحث لوسين يستخدم هذا.

احصل على إحصائيات حول تكرار الكلمات في مجموعات النص الكبيرة.تجاهل كل الكلمات ذات التردد> بعض الأرقام.

أعتقد أنني استخدمت قائمة كلمات التوقف للغة الألمانية من هنا عندما قمت بإنشاء تطبيق بحث باستخدام lucene.net منذ فترة.يحتوي الموقع على قائمة باللغة الإنجليزية أيضًا، ومن الواضح أن القوائم الموجودة على الموقع هي تلك التي يستخدمها مشروع لوسين كإعداد افتراضي أيضًا.

عادةً ما تظهر هذه الكلمات في المستندات ذات التكرار الأعلى.على افتراض أن لديك قائمة عالمية من الكلمات:

{ Word Count }

باستخدام قائمة الكلمات، إذا قمت بترتيب الكلمات من أعلى عدد إلى أقل عدد، فسيكون لديك رسم بياني (العدد (المحور y) وكلمة (المحور x) يمثل دالة السجل العكسي.ستكون جميع كلمات التوقف على اليسار، وستكون نقطة التوقف لـ "كلمات التوقف" عند مكان وجود المشتق الأول الأعلى.

هذا الحل أفضل من محاولة القاموس:

  • وهذا الحل هو نهج عالمي غير مقيد باللغة
  • تتعلم هذه المحاولة الكلمات التي تعتبر "كلمات توقف"
  • ستنتج هذه المحاولة نتائج أفضل للمجموعات المتشابهة جدًا، كما ستنتج قوائم كلمات فريدة للعناصر الموجودة في المجموعات
  • يمكن إعادة حساب كلمات التوقف في وقت لاحق (مع هذا يمكن أن يكون هناك تخزين مؤقت وتحديد إحصائي بأن كلمات التوقف ربما تكون قد تغيرت منذ وقت حسابها)
  • يمكن أن يؤدي ذلك أيضًا إلى حذف الكلمات والأسماء غير الرسمية أو المستندة إلى الوقت (مثل اللغة العامية، أو إذا كان لديك مجموعة من المستندات التي تحتوي على اسم الشركة كرأس)

محاولة القاموس أفضل:

  • وقت البحث أسرع بكثير
  • يتم تخزين النتائج مسبقًا
  • انه سهل
  • وجاء البعض الآخر مع كلمات التوقف.
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top