良い姓データベースはありますか？

https://stackoverflow.com/questions/6332119

27-10-2019
|

質問

データベースのテストデータ、具体的には人の名前を含むテーブル列を生成しようとしています。名前ベースの検索に関してインデックス作成がどの程度うまく機能するかを適切に示すために、実際の名前とその実際の度数分布にできるだけ近づけたいと思います。いくつかのべき法則分布に周波数が分布している多くの異なる名前。

理想的には、名前の後に名前ごとに1つの頻度値（または同等の確率）が続く、無料で入手できるデータファイルを探しています。

アングロサクソン人に基づく名前で十分ですが、他の文化の名前も役立ちます。

解決

要件に適合する米国国勢調査データをいくつか見つけました。唯一の注意点は、少なくとも100回出現する名前のみがリストされることです...

系図データ：2000年の国勢調査で頻繁に発生する姓
names.zip
べき乗則の分布曲線も示すこのブログエントリから見つかりました
- 姓のべき法則曲線（ブログエントリ）
  これに加えて、ルーレットホイールセレクションを使用してリストからサンプリングできます。（テストされていません）ジェネラコディセタグプレ

他のヒント

オックスフォード大学は、パブリックFTPサイトの ftpで圧縮された.gzファイルとしてワードリストを提供しています。：//ftp.ox.ac.uk/pub/wordlists/names/ 。

jFairyプロジェクトをチェックすることもできます。これはJavaで記述されており、偽のデータ（名前など）を生成します。 http://codearte.github.io/jfairy/ ジェネラコディセタグプレ

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow