Frage

Ich versuche, aus Text Blobs Filternamen. Zur Zeit bin ich zu erzeugen nur Worte Liste und es von Hand Filterung aber ich habe ~ 8k Worte zu gehen, damit ich für eine bessere Art und Weise bin auf der Suche. Ich könnte ein Wörterbuch greifen und filtern sie heraus, aber das würde keulen Namen wie Schmied und Felsen.

Was ich brauche, ist eine der folgenden:

  • eine Liste von gemeinsamen Namen (ich bräuchten> 5k häufigste Name)
  • eine Liste von Namen, die Wörter auch sein passieren

Ich Figur zwischen ihnen, ich kann eine kombinierte schwarze Liste tun / Whitelist zu bekommen, was ich brauche.

War es hilfreich?

Lösung

US-Volkszählung Namensliste: http://www.census.gov/genealogy/www/

Das sollten Ihnen einen Winkel auf dem Problem bekommen, sowieso.

editierten geändert URL per Kommentar unter etwa Seite bewegend. Niemand glaubt in HTTP 302 mehr?

Andere Tipps

Aus einem Beitrag habe ich in NELL Knowledge Browser und laden Sie die Daten unter: Ressourcen und Daten .

Web Scraping die Ergebnisse für, sagen wir, personUS scheint effizienter als das, was ich tat, die eine Liste mit Namen von Phrasen der Kategorie „Person“ in ihrer großen Tab-separierte CSV-Datei zu extrahieren. In beiden Fällen werden Sie verwenden regex.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top