データ統合の問題 - 同様のエンティティを統合する方法
-
13-10-2019 - |
質問
同じテーブル内に非常に似た行があるデータベースがあります。これらの行は、列の値がほぼ等しいため、似ています。対応する行を1つの行に統合する必要があります。
たとえば、これら2人のユーザー(U1とU2)を統合する必要があります。
u1 = User(name = "William Henry Gates III",
age = 55,
nationality = "american",
alma_mater = "Harvard Univesity")
u2 = User(name: "William Henry 'Bill' Gates III",
age: 55,
nationality: "America",
alma_mater: "Harvard U.")
私はいくつかを使うことを考えています 距離を編集します と 茎 テクニック。他のアルゴリズムとテクニックの提案?使用する有用なライブラリ(できればPythonまたはJavaで)はありますか?
解決
のようなものと考えられています リファイン?
所属していません StackOverflow