문제

내 응용 프로그램이 다음과 같은 양식의 단일 필드를 채우기를 원합니다. 흑백 이미지 파일로 존재합니다.양식은 항상 같은 종이 버전으로 시작하지만 내 응용 프로그램이 내 사용자로부터 가져옵니다., 더 많이 스캔하거나 팩스로 보냈을 수 있습니다. 한 번보다.그 때문에 필요한 필드는 모든 파일에서 동일한 위치.

내 사용자가 항상 나에게서 빈 양식을 얻는 것은 아니므로 내가 할 수 있는 표시나 자리 표시자를 인쇄할 수 있는 기능이 있습니다. 나중에 인식하십시오.

원래 빈 양식에 텍스트가 있지만 팩스를 받았는데 해상도가 200dpi에 불과합니다.본문 는 항상 인간이 읽을 수 있을 만큼 충분히 크지만 나는 회의적이다 OCR에 대해.

예산이 좀 있어서 무료솔루션은 필요없네요...하자 $2000라고 말하면 됩니다.

즉, 고려 중입니다

  1. 텍스트를 찾기 위한 OCR 솔루션 가져오기 필요한 필드에 레이블을 붙입니다.저는 아니에요 내가 자원이 있다고 생각하거나 나만의 것을 굴릴 수 있는 전문 지식.저는 아니에요 완벽한 인식이 필요하기 때문에 본문이 무엇을 말하는지 이미 알고 있습니다.하지만 X-와 Y 좌표.소프트가 있습니까? 그게 이렇게?아니면 프로그래밍이 생각보다 쉽나요?

  2. 인식할 수 있는 소프트웨어 구축 또는 구매 양식의 가장자리입니다.거기에서, 의 상대적인 위치를 얻을 수 있습니다. 내가 필요로하는 분야.라고 생각하고 있습니다. 내 스캐너 소프트웨어가 이미지 주위에 놓는 점선 작은 문서.알려진 것입니까? algorhthm 또는 사용 가능한 용액?

  3. 를 인식하는 다른 방법 내가 필요로하는 필드.구글 시도 양식 작성 소프트웨어는 저에게 웹 양식에 대한 수백 개의 일치 항목, PDF 양식 등내가하는 일을하지 않는다. 필요.

나는 언어에 까다롭지 않다.내 응용 프로그램은 Linux에서 실행되지만 Microsoft가 가장 좋은 솔루션이라면 아마도 그렇게 할 수 있을 것입니다.

당신의 생각에 감사드립니다.

도움이 되었습니까?

해결책

제가 올바르게 이해한 바에 따르면, 양식은 항상 동일하지만 복사/팩스로 인해 이동되거나 크기가 조정되거나 약간 회전될 수 있습니다.이 경우 문제는 다음 중 하나입니다. 이미지 등록:관심 분야의 위치를 ​​알고 있는 "모델" 양식과 사용자 라인업의 양식을 만드는 최적의 강성 변환을 찾습니다.변환을 알고 나면 사용자 양식에서 필드의 위치를 ​​계산할 수 있습니다.

일반적으로 뇌의 MR 이미지 정렬과 같은 응용 프로그램을 위해 개발된 많은 이미지 등록 알고리즘이 있습니다.계산 비용이 많이 들고 통계적 사전 계산이 필요합니다.다행히도 귀하의 경우는 더 쉽습니다.당신이 해야 할 일은 사용자 양식의 내용 주위에 직사각형을 맞추는 것뿐입니다.좌표 하강이 작동해야 합니다.소음(양식 외부의 쓰레기)에 대한 어느 정도의 내성이 필요합니다.

다른 팁

다음은 사용 가능한 일부 OCR 솔루션 (오픈 소스 및 아님)에 대한 약간의 요약입니다. http://googlesystem.blogspot.com/2007/04/open-source-ocroc-software-sponsored-by.html

엄격한 등록만으로는 충분하지 않을 수 있습니다. 사용자는 글꼴 변경, 체크 박스 또는 입력 상자의 위치 변경, 다른 Newline 위치에서 단락을 중단하는 등 템플릿 양식의 레이아웃 및 형식을 수정할 수 있습니다. 이러한 차이는 순수한 것보다 다루기가 더 복잡합니다. 시프트, 회전 또는 스케일 변환. 게다가, 이미지가 바이너리 이미지 (흑백) 인 경우 의료 이미지 등록 알고리즘 (Grayscale 이미지 작업)이 많은 도움이 될 것이라고 생각하지 않습니다. 비용 기능 및 최소화 전략은 그에 따라 변경 될 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top