قائمة الأسماء المناسبة؟
-
23-09-2019 - |
سؤال
أحاول تصفية الأسماء من النصوص النصية. حاليًا ، أقوم فقط بإنشاء قائمة كلمات وتصفيةها باليد ، لكنني حصلت على كلمات ~ 8K للذهاب ، لذا أبحث عن طريقة أفضل. يمكنني الاستيلاء على قاموس وتصفيةهم ، لكن هذا من شأنه أن يعجل أسماء مثل سميث وكليف.
ما أحتاجه هو أي مما يلي:
- قائمة بالأسماء الشائعة (سأحتاج إلى أسماء أكثر شيوعًا> 5K)
- قائمة بالأسماء التي تصادف أيضًا كلمات
أنا أظهر بينهما ، يمكنني القيام بقائمة سوداء/قائمة بيضاء مجتمعة للحصول على ما أحتاجه.
المحلول
قائمة اسم التعداد الأمريكي: http://www.census.gov/genealogy/www/
يجب أن يحصل عليك زاوية واحدة على المشكلة ، على أي حال.
تحرير تم تغيير عنوان URL ، لكل تعليق أدناه حول تحريك الصفحة. لا أحد يؤمن بـ HTTP 302 بعد الآن؟
نصائح أخرى
من منشور وجدت في Quora:
جمع مشروع NELL من CMU قائمة ضخمة من الأسماء المناسبة من الويب وتصنيفها حسب النوع. يمكنك تصفح عبر الإنترنت على: نيل المعرفة متصفح وتنزيل البيانات على: الموارد والبيانات.
الويب الذي يقوم بإجراء نتائج ، على سبيل المثال ، على سبيل المثال ، شخص يبدو أكثر كفاءة مما فعلته ، والذي يستخرج قائمة من الأسماء من العبارات الموسومة على أنها "شخص" في ملف CSV الكبير الذي تم تحديده. في كلتا الحالتين سوف تستخدم regex.