質問

同じテーブル内に非常に似た行があるデータベースがあります。これらの行は、列の値がほぼ等しいため、似ています。対応する行を1つの行に統合する必要があります。

たとえば、これら2人のユーザー(U1とU2)を統合する必要があります。

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

私はいくつかを使うことを考えています 距離を編集します テクニック。他のアルゴリズムとテクニックの提案?使用する有用なライブラリ(できればPythonまたはJavaで)はありますか?

役に立ちましたか?

解決

のようなものと考えられています リファイン?

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top