Lista de nomes adequados?
-
23-09-2019 - |
Pergunta
Estou tentando filtrar os nomes de blobs de texto. Atualmente, estou apenas gerando uma lista de palavras e filtrando -a manualmente, mas tenho ~ 8k palavras para ir, então estou procurando uma maneira melhor. Eu poderia pegar um dicionário e filtrá -los, mas isso abate nomes como Smith e Cliff.
O que eu preciso é de um dos seguintes:
- Uma lista de nomes comuns (eu precisaria dos nomes mais comuns> 5k)
- Uma lista de nomes que também são palavras
Eu acho que entre eles, posso fazer uma lista negra combinada/lista de permissões para conseguir o que preciso.
Solução
Lista de nomes do Censo dos EUA: http://www.census.gov/genealogy/www/
De qualquer forma, isso deve dar um ângulo para você.
editado URL alterado, por comentário abaixo sobre a movimentação da página. Ninguém mais acredita no HTTP 302?
Outras dicas
De um post que encontrei em Quora:
O projeto Nell da CMU coletou uma enorme lista de substantivos adequados da Web e os categorizou por tipo. Você pode navegar online em: Nell KnowledgeBase Base e baixar os dados em: Recursos e dados.
Web raspando os resultados para, digamos, pessoa Parece mais eficiente do que o que fiz, o que está extraindo uma lista de nomes das frases marcadas como "pessoa" em seu grande arquivo CSV delimitado por Tab. De qualquer maneira, você estará usando o Regex.