Question

Je suis en train de filtrer les noms de blobs texte. Actuellement, je suis juste générer une liste des mots et de filtrer la main mais j'ai ~ 8K mots aller donc je suis à la recherche d'une meilleure façon. Je pourrais saisir un dictionnaire et les filtrer mais cela des noms comme smith abattre et falaise.

Ce que je dois est une des conditions suivantes:

  • une liste des noms communs (je besoin des> 5k noms les plus communs)
  • une liste de noms qui se trouvent également être des mots

Je figure entre eux, je peux faire une liste noire combinée / whitelist pour obtenir ce que j'ai besoin.

Était-ce utile?

La solution

liste des noms Census: http://www.census.gov/genealogy/www/

Cela devrait vous obtenir un angle sur le problème, de toute façon.

modifié a changé URL, par commentaire ci-dessous à propos de la page mobile. Personne ne croit en HTTP 302 plus?

Autres conseils

A partir d'un poste que j'ai trouvé à NELL Browser et KnowledgeBase télécharger les données à: Ressources et données .

racler Web les résultats pour, disons, personUS semble plus efficace que ce que je l'ai fait, ce qui est d'extraire une liste de noms de phrases dans la catégorie « personne » dans leur grand fichier CSV délimité par des tabulations. De toute façon, vous allez utiliser regex.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top