Y at-il, faible coût, ou des outils open source pour faire correspondre les données nom / adresse? [fermé]

StackOverflow https://stackoverflow.com/questions/2805511

  •  25-09-2019
  •  | 
  •  

Question

Cette question est liée à pour le nom correspondant / adresse données. Il y a un certain nombre d'outils commerciaux fournis par SAS, Oracle, Microsoft, etc., qui permettent de dé-dupliquer ou fusionner les noms des personnes ou des entreprises provenant de plusieurs sources.

Cependant, après avoir lu les réponses à la question mentionnée avant, je me suis demandé pourquoi un problème apparemment intéressant n'a pas reçu de réponses mentionnant des projets open source qui pourrait résoudre le problème.

Êtes-vous au courant de projets open source ou des algorithmes pour mettre en œuvre le soi-disant « liaison record », « fusion record », ou « cluster »?

Était-ce utile?

La solution

Je vous recommande Google Préciser votre comme open source ( Nouvelle licence BSD de) outil pour l'analyse et la fixation des données crufty. Il permet également le regroupement et le rapprochement des données en double, ainsi que ayant des caractéristiques d'exploration de données.

Je l'ai utilisé pour importer et fixer un grand nombre de données dans différents formats, .csv, .tsv, .xls, .xml, .json, etc. .rdf avec succès. Il peut être utilisé en interne sans envoyer des données à l'extérieur, ce qui semblait être une préoccupation de la question " outils pour faire correspondre les données nom / adresse "

NB. Google a déjà été appelé Affiner Freebase GridWorks.

Autres conseils

Je trébuche sur l'article suivant: " fusion / purge et détection des doublons " .

En regardant http://www.semaphorecorp.com J'ai trouvé des prix extrêmement bas.

Ce n'est pas ce que je cherche, mais au moins est un peu d'aide, et une étape sur la bonne direction.

Essayez projet de qualité et de profilage de données open source sur SourceForge OSDQ

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top