OCR(광학 문자 인식) 이전의 이미지 향상을 위해 어떤 소프트웨어를 추천하시겠습니까?[닫은]

StackOverflow https://stackoverflow.com/questions/142743

문제

현재 OCR에 제출하기 전에 이미지 품질을 향상시키는 방법을 연구하고 있습니다.현재 우리가 활용하고 있는 OCR 엔진은 Nuance(v15)의 Scansoft API입니다.우리는 다음을 연구하고 있었습니다. 리드 도구 하지만 그 이후로 다른 곳을 알아보기로 결정했습니다.Lead Tools와 관련된 라이센스 비용은 너무 큽니다.우선 우리는 다음과 같은 간단한 이미지 향상 기능을 찾고 있습니다.기울기 보정, 얼룩 제거, 선 제거, 펀치 구멍 제거, 샤프닝 등우리는 .NET과 Java 소프트웨어를 혼합하여 실행하고 있지만 Java 솔루션이 더 선호됩니다.

도움이 되었습니까?

해결책

Kofax는 사전 처리에 적합하지만 이미지가 나쁘지 않으면 말하는 청소 유형의 경우 과도 할 수 있습니다. 귀하의 전문 분야가 이미지 처리에 있지 않으면 이미지 정리 및 OCR을 수행하는 공급자와 협력하여 실제로 추가 할 수있는 값에 집중할 수 있습니다.

우리는 Abbyy의 OCR 개발 키트를 라이센스합니다 (애비 SDK) 그리고 이미지 처리와 OCR 모두에서 훌륭하다는 것을 알았습니다. API는 상당히 광범위하며 샘플 앱, 도움 및 지원은 인상적이었습니다. 나는 확실히 살펴 보는 것이 좋습니다.

다른 팁

면책 조항 : 나는 Atalasoft에서 일합니다

.NET에 대한 이러한 기능과 런타임 로열티 프리 라이센스가 있습니다.

http://www.atalasoft.com/products/dotimage/

또한 Abbyy, TesserAct 및 기타 .NET 래퍼 및 검색 가능한 PDF 생성을 포함한 OCR 구성 요소도 있습니다 (PDF의 텍스트 상단 이미지).

이것이 당신이 필요로하는 표준에 달려 있는지 확실하지 않지만 아마도 당신은 아마도 일부를보아야 할 것입니다. Paint.net 아피스. 프로젝트에서 사용하기 위해 이미지 처리 알고리즘을 추출하는 것이 얼마나 쉬운 지 모르겠지만, 그들이 찾고있는 일을한다고 생각합니다. 또한 MIT 라이센스가있는 오픈 소스 프로젝트이므로 비즈니스 사용에 매우 친숙해야합니다.

kofax.com의 Kofax VR에 대한 연구

아마도 Jmagick, 그것은 Imagemagick의 오픈 소스 Java 인터페이스 일 것입니다. imagemagick API에 얇은 JNI (Java Native Interface) 층의 형태로 구현됩니다. LGPL에 따라 라이센스가 부여되므로 문제가되지 않아야합니다.

http://sourceforge.net/projects/jmagick/

내가 제안 할게 인텔 제로 비용 런타임 라이센스의 경우.

원본 이미지의 수와 품질에 따라 다릅니다.관리 코드와 이미징 도구 키트는 작동하지만 처리할 이미지가 수백만 개라면 이것이 항상 최선의 솔루션은 아닙니다.소규모 배치와 예산이 부족한 경우 다음과 같은 프로젝트의 이전 포스터에 동의합니다. 아포지, Paint.NET, 기타 오픈 소스 컴퓨터 비전 라이브러리가 그 역할을 할 것입니다.물론, 결과가 개선되지 않으면 혼자 고민해야 합니다...최소한 이를 통해 저렴한 비용으로 하나의 애플리케이션에 필요한 모든 것을 넣을 수 있습니다.

한 달에 수십만 개의 이미지를 처리하는 경우 프로세스를 더 작은 작업 흐름 단계로 나누고 이미지당 비용이 최대한 0에 가까워질 때까지 각 단계를 조정하는 것이 좋습니다.처음에는 OCR 결과가 빠르게 상승했다가 예상보다 빨리 안정되는 것을 볼 수 있습니다.(나는 OCR의 열렬한 팬은 아니지만 그 자리가 있습니다)

저는 상용 Windows 제품을 사용하고 있습니다. 인식 다양한 종류의 이미지에 맞게 조정된 스크립트를 사용하여 배치 모드에서 OCR 이전 이미지를 처리하고 정리합니다.이미지가 QC에 실패하거나 OCR 엔진에 의해 거부되면 다음으로 구축된 사용자 정의 .NET 애플리케이션을 사용하여 수동으로 "복구"됩니다. Atalasoft의 툴킷.모든 것을 일괄 처리하고 실패한 것만 건드립니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top