문제

다음과 같은 개인 데이터가 포함 된 몇 가지 테이블 소스가 있습니다.

SOURCE 1
ID, FIRST_NAME, LAST_NAME, FIELD1, ...
1, jhon, gates ...

SOURCE 2
ID, FIRST_NAME, LAST_NAME, ANOTHER_FIELD1, ...
1, jon, gate ...

SOURCE 3
ID, FIRST_NAME, LAST_NAME, ANOTHER_FIELD1, ...
2, jhon, ballmer ...

따라서 소스 1과 2의 ID 1이있는 레코드가 같은 사람이라고 가정하면 내 문제는 모든 출처의 레코드가 같은 사람을 나타내는 지 확인하는 방법입니다.. 또한 모든 기록이 모든 출처에 존재하는 것은 아닙니다. 모든 이름은 주로 스페인어로 작성됩니다.

이 경우, 정확히 일치하는 것은 우리가 데이터 소스는 엄격하게 점검되지 않았습니다 국가 식별 국에 대항하여. 또한 우리는 가정해야합니다 오타가 일반적입니다, 데이터를 수집하기위한 프로세스의 특성이기 때문입니다. 또한, 기록의 양은 모든 출처에서 약 2 ~ 3 백만입니다 ...

우리 팀은 다음과 같은 생각을했습니다. 첫째, ID 번호와 같은 선택된 필드에서 정확히 일치하고 문제가 얼마나 어려울 수 있는지 알 수 있습니다. 둘째, 일치하는 기준을 완화하고 더 많은 레코드를 일치시킬 수있는 기록을 세우지 만 문제가 발생하는 곳에 있습니다. 너무 소음을 너무 많이 제한하지 않고 일치하는 기준을 완화하는 방법은 무엇입니까?

예를 들어,이 일치를 지원하기 위해 일부 데이터베이스 엔진의 일부 확장에 대해 알고 있습니까? 영리한 알고리즘에 대해 알고 있습니까? Soundex 이 대략적인 일치를 처리하지만 스페인어 텍스트의 경우?

모든 도움이 감사하겠습니다!

감사.

도움이 되었습니까?

해결책

문제의 요점은 각 항목 쌍 사이의 하나 이상의 거리 측정을 계산 한 다음 거리 중 하나가 허용 가능한 임계 값보다 적을 때 동일하다고 생각하는 것입니다. 핵심은 분석을 설정 한 다음 허용되는 거리를 확보하는 것입니다. 허용되는 거리는 거짓 양성과 거짓 음성 사이의 최상의 트레이드 오프로 고려할 때까지 수용 가능한 거리를 변경하는 것입니다.

하나의 거리 측정은 음성 일 수 있습니다. 당신이 고려할 수있는 또 다른 것입니다 Levenshtein 또는 편집 거리 오타를 측정하려고 시도하는 균열 사이.

얼마나 많은 사람이 있어야하는지에 대한 합리적인 아이디어가 있다면, 당신의 목표는 당신이 올바른 수의 사람에 대해 얻는 달콤한 장소를 찾는 것입니다. 일치하는 것을 너무 퍼지하면 너무 적게 가질 수 있습니다. 제한적으로 만들면 너무 많을 것입니다.

사람이 가지고 있어야하는 출품작의 수를 알고 있다면, 가까이에있을 때 볼 수있는 메트릭으로 사용할 수 있습니다. 또는 레코드 수를 각 사람의 평균 기록 수로 나누고 촬영하는 대략적인 수의 사람을 얻을 수 있습니다.

사용할 숫자가 없다면 분석에서 레코드 그룹을 선택하고 직접 확인하는 사람이 같은 사람처럼 보이는지 확인하고 있습니다. 그래서 그것은 추측과 점검입니다.

도움이되기를 바랍니다.

다른 팁

이것은 A처럼 들립니다 고객 데이터 통합 문제. 해당 용어를 검색하면 더 많은 정보를 찾을 수 있습니다. 또한 내부 주위에 찌르십시오 데이터웨어 하우스 인테이션, 그리고 당신은 거기에서 몇 가지 답을 찾을 수 있습니다.

편집하다: 게다가, 여기에 있습니다 스페인 발음 매칭에 관심이있는 기사.

나는 전에 비슷한 일을해야했고 내가 한 일은 이중 은유 이름에 대한 음성 검색.

그래도 이름을 비교하기 전에 내가 만든 별명 테이블에서 이름을 찾아서 이름/별명 차이를 정규화하려고 시도했습니다. (온라인에서 찾은 인구 조사 데이터로 테이블을 채웠습니다.

편집하다: Double Metaphone은 Soundex보다 나은 것보다 더 나은 것으로 특별히 설계되었으며 영어 이외의 언어로 작동했습니다.

SSIS, 퍼지 조회 변환을 사용해보십시오

이 문제를 해결하기 위해 몇 가지 세부 사항을 추가하기 위해 PostgreSQL 8.3 용이 모듈을 찾았습니다.

이름을 dicionary와 비교하여 이름을 대조화하려고 시도 할 수 있습니다.
이를 통해 일반적인 오타를 발견하고 수정할 수 있습니다.

나에게 들린다 당신은 당신이 있습니다 기록 연결 문제. 링크에서 참조를 사용할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top