最初の名前と姓のバリアントを見つけるための名前マッチング辞書

StackOverflow https://stackoverflow.com/questions/5911494

  •  29-10-2019
  •  | 
  •  

質問

訪問者を保存および追跡するアプリケーションがあります。これらの訪問者は、訪問を設定したときに必要に応じて、スケジューラ(ユーザー)によってシステムで作成されます。問題は、ほとんどの場合、訪問者の唯一の重要な一意の識別子が次のとおりであることです。

  • ファーストネーム
  • 苗字
  • 会社名

同じ人に存在するレコードを複製するリスクは固有です。スケジューラは、その名前で存在する誰かをシステムに検索する代わりに、新しい訪問者レコードを入力する場合があります。

同じ名前で訪問者に入る誰かに出会ったとき、私はこの人が誰であるかについてのさまざまな提案を含む警告ダイアログを表示しますが、それでも十分ではありません。

私は「ジム・ジョーンズ」に入ることができ、この人は「ジェームズ・ジョーンズ」または「ジミー・ジョーンズ」としてシステムに存在するかもしれません。名前認識ソフトウェアパッケージが利用可能であることがわかりますが、それらは高価で、私が探しているものよりも確かに重いです。

潜在的な名前のバリアントを見つけるためにプログラム的にアクセスできるフリーまたはオープンソースの辞書ファイルをどこで見つけるか誰か知っている人はいますか?ソフトウェアまたはオンラインサービスは素晴らしいでしょうが、データダンプや単純なテキストファイルだけでもそうかもしれません。

これでさえ、訪問者の記録が重複しないことを知っています。私はそれを最小限に抑えようとしているので、重要な機能ではありません。

正しい解決策はありません

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top