Pergunta

Estou tentando filtrar os nomes de blobs de texto. Atualmente, estou apenas gerando uma lista de palavras e filtrando -a manualmente, mas tenho ~ 8k palavras para ir, então estou procurando uma maneira melhor. Eu poderia pegar um dicionário e filtrá -los, mas isso abate nomes como Smith e Cliff.

O que eu preciso é de um dos seguintes:

  • Uma lista de nomes comuns (eu precisaria dos nomes mais comuns> 5k)
  • Uma lista de nomes que também são palavras

Eu acho que entre eles, posso fazer uma lista negra combinada/lista de permissões para conseguir o que preciso.

Foi útil?

Solução

Lista de nomes do Censo dos EUA: http://www.census.gov/genealogy/www/

De qualquer forma, isso deve dar um ângulo para você.

editado URL alterado, por comentário abaixo sobre a movimentação da página. Ninguém mais acredita no HTTP 302?

Outras dicas

De um post que encontrei em Quora:

O projeto Nell da CMU coletou uma enorme lista de substantivos adequados da Web e os categorizou por tipo. Você pode navegar online em: Nell KnowledgeBase Base e baixar os dados em: Recursos e dados.

Web raspando os resultados para, digamos, pessoa Parece mais eficiente do que o que fiz, o que está extraindo uma lista de nomes das frases marcadas como "pessoa" em seu grande arquivo CSV delimitado por Tab. De qualquer maneira, você estará usando o Regex.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top