problema di integrazione dei dati - Come integrare entità simili
-
13-10-2019 - |
Domanda
Ho un database che ha le righe molto simili all'interno della stessa tabella. Le righe sono simili perché hanno valori quasi uguali di colonna. Ho bisogno di integrare le corrispondenti righe in una singola riga.
Ad esempio, questi due utenti (U1 e U2) dovrebbe essere integrata:
u1 = User(name = "William Henry Gates III",
age = 55,
nationality = "american",
alma_mater = "Harvard Univesity")
u2 = User(name: "William Henry 'Bill' Gates III",
age: 55,
nationality: "America",
alma_mater: "Harvard U.")
Sto pensando di usare un po 'di edit distance e derivante tecniche . Altri algoritmi e tecniche suggerimenti? Eventuali librerie utile usare (preferibilmente in Python o Java)?
Soluzione
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow