Irgendwelche guten Familiennamen-Datenbanken?
Frage
Ich möchte einige Datenbanktestdaten generieren, insbesondere Tabellenspalten, die die Namen von Personen enthalten.Um einen guten Hinweis darauf zu erhalten, wie gut die Indizierung in Bezug auf namenbasierte Suchen funktioniert, möchte ich den Namen der realen Welt und ihrer tatsächlichen Häufigkeitsverteilung, z.viele verschiedene Namen mit Frequenzen, die über eine Potenzgesetzverteilung verteilt sind.
Idealerweise suche ich nach einer frei verfügbaren Datendatei mit Namen, gefolgt von einem einzelnen Frequenzwert (oder einer entsprechenden Wahrscheinlichkeit) pro Name.
Angelsächsische Namen wären in Ordnung, obwohl Namen aus anderen Kulturen ebenfalls nützlich wären.
Lösung
Ich habe einige US-Volkszählungsdaten gefunden, die den Anforderungen entsprechen.Die einzige Einschränkung ist, dass nur Namen aufgelistet werden, die mindestens 100 Mal vorkommen ...
- Genealogie-Daten: Häufig vorkommende Nachnamen aus der Volkszählung 2000
- names.zip
Gefunden über diesen Blogeintrag, der auch die Verteilungskurve des Potenzgesetzes zeigt
Andere Tipps
Die Universität Oxford stellt Wortlisten auf ihrer öffentlichen FTP-Site als komprimierte .gz-Dateien unter ftp bereit: //ftp.ox.ac.uk/pub/wordlists/names/ .
Sie können auch das jFairy-Projekt auschecken.Es ist in Java geschrieben und erzeugt gefälschte Daten (wie zum Beispiel Namen). http://codearte.github.io/jfairy/
Fairy fairy = Fairy.create();
Person person = fairy.person();
System.out.println(person.firstName()); // Chloe
System.out.println(person.lastName()); // Barker
System.out.println(person.fullName()); // Chloe Barker