我有一个数据库,该数据库在同一表中具有非常相似的行。这些行相似,因为它们具有几乎相等的列值。我需要将这些相应的行集成到一行中。

例如,应集成这两个用户(U1和U2):

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

我正在考虑使用一些 编辑距离 技术。其他算法和技术建议?有没有有用的库可使用(最好在Python或Java中)?

有帮助吗?

解决方案

认为类似 精炼?

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top