Domanda

Ho un database che ha le righe molto simili all'interno della stessa tabella. Le righe sono simili perché hanno valori quasi uguali di colonna. Ho bisogno di integrare le corrispondenti righe in una singola riga.

Ad esempio, questi due utenti (U1 e U2) dovrebbe essere integrata:

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

Sto pensando di usare un po 'di edit distance e derivante tecniche . Altri algoritmi e tecniche suggerimenti? Eventuali librerie utile usare (preferibilmente in Python o Java)?

È stato utile?

Soluzione

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top