OCR- 대부분의 "다른"또는 "인식 가능한"ASCII 문자?

https://stackoverflow.com/questions/1412693

06-07-2019
|

문제

나는 가장 "다른"또는 "인식 가능한"n ascii 문자를 결정하는 방법을 찾고 있습니다 ... 예를 들어, n = 10이라면 ASCII에서 0x21에서 0x7e에서 가장 다른 N 문자는 무엇입니까? 분명히, "x"는 "o"(문자)와 매우 다르지만 "o"(문자)는 "0"(0)과 매우 유사합니다. 제한된 OCR 문자 서브 세트를 가정하면 0과 문자 O가 하나 또는 다른 하나만 감지 될 것이며, 하나는 0 또는 문자 O인지 걱정할 필요가 없었습니다. 일반적인 OCR 엔진 (예 : TesserAct)이 품질이 좋지 않은 입력 이미지에서 쉽게 인식하는 문자? 가정. "+"및 "t"와 같은 것은 서로에게 널리 착각 할 수 있습니다. "+"또는 "t"이든 각 입력 문자는 하나 또는 다른 입력 문자에만 해당됩니다.

감사합니다, 벤

해결책

불행히도 나는 이것에 대한 독특한 대답이 하나있을 것이라고 생각하지 않습니다.

글꼴에 따라 다릅니다. 0, f, s가 표현되고 문체가 번창하는 다른 방법을 비교합니다.

그것은 스캔하기 전에 캐릭터가받는 손상 유형에 따라 다릅니다. 일부는 번지는 것에 대해 더 탄력적 일 수 있고, 다른 일부는 컷에 대해, 다른 일부는 오버 곡선에 대해 더 탄력적 일 수 있습니다.

인쇄, 스캔 및 Ocred에서 생존하는 데 가장 적합한 표현을 찾고 있다면 1D 또는 2D 바코드가 더 나은 선택일까요?

다른 팁

이 질문에 답하는 한 가지 방법 : 테스트하십시오. 각 문자에 대한 샘플 세트를 만들고 각 샘플에서 OCR을 실행하십시오. OCR이 가장 자주 얻는 편지는 가장 "인식 할 수있는"편지입니다. OCR이 가장 자주 잘못되는 글자는 가장 "다른"입니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow