سؤال

أحاول تصفية الأسماء من النصوص النصية. حاليًا ، أقوم فقط بإنشاء قائمة كلمات وتصفيةها باليد ، لكنني حصلت على كلمات ~ 8K للذهاب ، لذا أبحث عن طريقة أفضل. يمكنني الاستيلاء على قاموس وتصفيةهم ، لكن هذا من شأنه أن يعجل أسماء مثل سميث وكليف.

ما أحتاجه هو أي مما يلي:

  • قائمة بالأسماء الشائعة (سأحتاج إلى أسماء أكثر شيوعًا> 5K)
  • قائمة بالأسماء التي تصادف أيضًا كلمات

أنا أظهر بينهما ، يمكنني القيام بقائمة سوداء/قائمة بيضاء مجتمعة للحصول على ما أحتاجه.

هل كانت مفيدة؟

المحلول

قائمة اسم التعداد الأمريكي: http://www.census.gov/genealogy/www/

يجب أن يحصل عليك زاوية واحدة على المشكلة ، على أي حال.

تحرير تم تغيير عنوان URL ، لكل تعليق أدناه حول تحريك الصفحة. لا أحد يؤمن بـ HTTP 302 بعد الآن؟

نصائح أخرى

من منشور وجدت في Quora:

جمع مشروع NELL من CMU قائمة ضخمة من الأسماء المناسبة من الويب وتصنيفها حسب النوع. يمكنك تصفح عبر الإنترنت على: نيل المعرفة متصفح وتنزيل البيانات على: الموارد والبيانات.

الويب الذي يقوم بإجراء نتائج ، على سبيل المثال ، على سبيل المثال ، شخص يبدو أكثر كفاءة مما فعلته ، والذي يستخرج قائمة من الأسماء من العبارات الموسومة على أنها "شخص" في ملف CSV الكبير الذي تم تحديده. في كلتا الحالتين سوف تستخدم regex.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top