سؤال

أنا أبحث عن فئة أو طريقة تأخذ سلسلة طويلة من العديد من 100s من الكلمات والأمزام، ويزيل كلمات التوقف وينبع للاستخدام في نظام IR.

علي سبيل المثال:

"القط الكبير الدهون، وقال" أطرف الرجل الذي أعرفه "إلى الكنغر ..."

سوف المميزين إزالة علامات الترقيم وإعادة ArrayList الكلمات

سوف إيقاف مزيل كلمة إزالة الكلمات مثل "The"، "إلى"، إلخ

سيقلل Stemmer كل كلمة "جذر"، على سبيل المثال "أطرف" سيصبح مضحكا

شكرا كثيرا مسبقا.

هل كانت مفيدة؟

المحلول

بقدر ما أعلم لوسين يمكن أن تفعل ما تريد. مع StandardAnalyzer و StopAnalyzer يمكنك بإزالة كلمة التوقف. بالاشتراك مع Lucene contrib-snowball (والتي تشمل العمل من كرة الثلج) مشروع يمكنك القيام بالنجوم أيضا.

ولكن بالنسبة للنجوم، فكر في هذه الإجابة على: خوارزمية Stemming التي تنتج كلمات حقيقية

نصائح أخرى

هذه متطلبات قياسية في معالجة اللغة الطبيعية حتى أنظر في مثل هذه الأدوات. نظرا لأنك تحتاج إلى Java سأبدأ باستخدام OpenNLP:http://opennlp.sourceforge.net/

إذا كنت تستطيع إلقاء نظرة على لغات أخرى، فهناك أيضا NLTK (بيثون)

لاحظ أن "أطرف الرجل الذي أعرفه" ليس بمثابة بناء جملة قياسي وهذا يجعل من الصعب معالجة أكثر من "أنت أطرف رجل أعرفه". ليس مستحيلا، ولكن أصعب بكثير. لا أعرف أي نظام من شأنه أن يساوي "الخاص بك" إلى "أنت".

لقد تعاملت مع القضية على عدد من المهام التي عملت بها، لذلك اسمحوا لي أن أعطي اقتراحا مميزا. لأنني لا أرى أنها تعطى مباشرة كإجابة، وغالبا ما أستخدمها edu.northwestern.at.utils.corpuslinguistics.tokenizer.* كما عائلتي من المرافقين. أرى عدد من الحالات التي استخدمتها PennTreebankTokenizer صف دراسي. إليك كيفية استخدامها:

    WordTokenizer wordTokenizer = new PennTreebankTokenizer();
    List<String> words = wordTokenizer.extractWords(text);

الرابط لهذا العمل هو هنا. وبعد مجرد إخلاء المسؤولية، ليس لدي أي انتماء مع شمال غرب المجموعة أو المجموعة أو العمل الذي يقومون به. أنا مجرد شخص يستخدم الكود في بعض الأحيان.

هنا قائمة شاملة أدوات NLP.. وبعد في وقت ما، من المنطقي أن يخلق هذه نفسك لأنها ستكون أخف وأنك سيكون لديك المزيد من السيطرة على العمل الداخلي: استخدم تعبيرا منتظما بسيطا للتوافق. لوقف الكلمات فقط اضغط على القائمة أدناه أو بعض القائمة الأخرى إلى Hashset:

الكلام المشتركة - الكلمات

هنا واحد من الكثير تنفيذ جافا من stemer بورتر).

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top