Lista dei nomi propri?
-
23-09-2019 - |
Domanda
Sto cercando di filtrare i nomi di blob di testo. Attualmente sto solo generare un elenco parole e filtrando a mano, ma ho avuto ~ 8K parole per andare così sto cercando un modo migliore. Potrei prendere un dizionario e filtrare fuori ma che sarebbe abbattere nomi come fabbro e scogliera.
Quello che mi serve è una delle seguenti:
- una lista di nomi comuni (che avrei bisogno i> 5k nomi più comuni)
- un elenco di nomi che anche capitare di essere parole
Ho pensato tra di loro, posso fare una blacklist / whitelist combinati per ottenere quello che mi serve.
Soluzione
Censimento americano Listino Nome: http://www.census.gov/genealogy/www/
Questo dovrebbe farti un angolo sul problema, in ogni caso.
a cura cambiato URL, a commento qui sotto su pagina di movimento. Nessuno crede in HTTP 302 più?
Altri suggerimenti
Da un post che ho trovato su Quora :
progetto NELL della CMU ha raccolto un enorme elenco di nomi propri dal web e li classificati per tipo. È possibile sfogliare online all'indirizzo: NELL KnowledgeBase Browser e scaricare i dati a: Risorse e dati .
Web raschiando i risultati per, diciamo, personUS sembra più efficiente di quello che ho fatto, che è l'estrazione di un elenco di nomi da frasi nella categoria "persona" nella loro grande file CSV delimitato da tabulazioni. In entrambi i casi ti verrà utilizzando espressioni regolari.