Pregunta

Estoy tratando de nombres de filtro de burbujas de texto. Actualmente estoy generando una lista de palabras y de filtrarla a mano pero tengo ~ 8k palabras para ir, así que estoy buscando una mejor manera. Podría tomar un diccionario y filtrarlos pero eso sería sacrificar nombres como Smith y acantilado.

Lo que necesito es una de las siguientes:

  • una lista de nombres comunes (que necesitaría la> 5k nombres más comunes)
  • una lista de nombres que también resultan ser las palabras

I figura entre ellos, puedo hacer una lista negra combinada / lista blanca para conseguir lo que necesito.

¿Fue útil?

Solución

Censo de Estados Unidos lista de nombres: http://www.census.gov/genealogy/www/

Esto debe obtener un ángulo en el problema, de todos modos.

Editado URL cambiado, por comentarios a continuación sobre la página en movimiento. Nadie cree en HTTP 302 más?

Otros consejos

A partir de un post que encontré en Quora :

  

Proyecto de Nell CMU ha recogido una enorme lista de los nombres propios de la web y categorizada por tipo. Puede navegar por Internet en: NELL KnowledgeBase navegador y descargar los datos en: Recursos y datos "http://rtw.ml.cmu.edu/rtw/resources" rel = "nofollow".

Web raspado de los resultados para, por ejemplo, personUS parece más eficiente de lo que hice, que es la extracción de una lista de nombres de frases en la categoría "persona" en su gran archivo CSV delimitado por tabuladores. De cualquier manera usted va a utilizar expresiones regulares.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top