Domanda

Sto cercando di filtrare i nomi di blob di testo. Attualmente sto solo generare un elenco parole e filtrando a mano, ma ho avuto ~ 8K parole per andare così sto cercando un modo migliore. Potrei prendere un dizionario e filtrare fuori ma che sarebbe abbattere nomi come fabbro e scogliera.

Quello che mi serve è una delle seguenti:

  • una lista di nomi comuni (che avrei bisogno i> 5k nomi più comuni)
  • un elenco di nomi che anche capitare di essere parole

Ho pensato tra di loro, posso fare una blacklist / whitelist combinati per ottenere quello che mi serve.

È stato utile?

Soluzione

Censimento americano Listino Nome: http://www.census.gov/genealogy/www/

Questo dovrebbe farti un angolo sul problema, in ogni caso.

a cura cambiato URL, a commento qui sotto su pagina di movimento. Nessuno crede in HTTP 302 più?

Altri suggerimenti

Da un post che ho trovato su Quora :

  

progetto NELL della CMU ha raccolto un enorme elenco di nomi propri dal web e li classificati per tipo. È possibile sfogliare online all'indirizzo: NELL KnowledgeBase Browser e scaricare i dati a: Risorse e dati .

Web raschiando i risultati per, diciamo, personUS sembra più efficiente di quello che ho fatto, che è l'estrazione di un elenco di nomi da frasi nella categoria "persona" nella loro grande file CSV delimitato da tabulazioni. In entrambi i casi ti verrà utilizzando espressioni regolari.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top