سؤال

ما هي بعض الخوارزميات جيدة لوصفها النص تلقائيا مع المدينة / المنطقة أو الأصل؟ وهذا هو، إذا كان هو بلوق عن نيويورك، كيف يمكنني معرفة برمجيا. هل هناك حزم / ورقات التي تدعي أنها تفعل ذلك مع أي درجة من اليقين؟

ولقد بحثت في بعض المناهج tfidf القائمة على التقاطعات الاسم الصحيح، ولكن حتى الآن، لا نجاحات باهرة، وكنت أقدر الأفكار!

والسؤال أعم هو حول تعيين النصوص على المواضيع في ضوء بعض قائمة من الموضوعات.

ونهج بسيط / ساذجة فضلت كامل على نهج النظرية الافتراضية، ولكن أنا مستعد.

هل كانت مفيدة؟

المحلول

أنت تبحث عن اسمه اعتراف الكيان النظام، أو NER قصيرة . هناك عدة <لأ href = "http://opennlp.sourceforge.net/index أتش تي أم أل "يختلط =" noreferrer "> href="http://alias-i.com/lingpipe" rel="noreferrer"> الأدوات متاحة لمساعدتك. LingPipe على وجه الخصوص لديه جدا تعليمي لائق . CAGEclass يبدو أن يكون موجها نحو NER على أسماء الأماكن الجغرافية، ولكن أنا لم تستخدم حتى الآن.

هنا لطيفة بلوق دخول إزاء الصعوبات نير مع أسماء الأماكن الجغرافية.

إذا كنت تريد الذهاب مع جافا، أنصح باستخدام فئات LingPipe NER. لديها OpenNLP أيضا بعض، ولكن من السابق لديها وثائق أفضل.

إذا كنت تبحث عن بعض الخلفية النظرية، شافيز وآخرون. (2005) وقد شيدت على syntem مثيرة للاهتمام وتوثيقها.

نصائح أخرى

الكامنة الدلالية رسم الخرائط يبدو المحتمل أن يكون مناسبا. هذا فقط حوالي مثل السذاجة خوارزمية كما كنت من المرجح أن يجد.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top