문제

저는 현재 Finereader 11 SDK를 사용하여 소규모 프로젝트를 진행하고 있습니다.내 결과를 향상시키기 위해 나는 임시 사전을 사용하여 작업하는 것을 좋아합니다.사전의 내용은 특정 줄의 첫 번째 단어를 기반으로 합니다.

예:

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

내 생각은 첫 번째 단어(Samsung 또는 Apple)를 인식하고 첫 번째 단어(Samsung의 경우)를 기반으로 가능한 모든 단어로 사전을 채우는 것입니다.갤럭시 S3, ...)

Finereader로 이 문제를 해결하는 방법에 대한 아이디어가 있습니까?

문안 인사

도움이 되었습니까?

해결책

명확하게 해 주셔서 감사합니다.그래서 제 생각에는 당신이 할 수 있는 일이 이렇습니다.이는 FineReader 제품 라인에 적용되며 물론 SDK에서는 API를 통해 보다 구체적인 제어가 가능합니다.

FineReader OCR에는 다음과 같은 사전이 있습니다.

  • 내장 사전 - ABBYY OCR 기술의 강점 중 하나인 일반적인 단어와 그 변형의 대규모 세트입니다.예를 들어 "Samsung" 및 "S3"와 같은 특수 단어는 포함되지 않습니다.인기 있는 언어를 선택하면 해당 언어에 대한 내장 사전이 자동으로 활성화됩니다.

  • 사용자 정의 사전 - 단독으로 또는 내장 사전과 함께 구축하고 사용할 수 있는 사전입니다.

따라서 귀하의 프로젝트에서는 귀하의 문구에 표준 영어 단어가 포함될 수 있으므로 내장 사전을 사용하는 것이 합리적이라고 생각합니다(귀하가 제가 볼 수 있도록 전체 문구를 제공하지 않았으므로 직접 결정하십시오).

또한 브랜드, 모델 등을 포함하는 사용자 정의 사전을 만들어야 한다고 굳게 믿습니다.해당 옵션이 있다면 그렇게 들리는 것 같습니다.문자와 숫자를 혼합해서는 안 된다는 공통 언어 규칙이 있기 때문에 특히 "S3"과 같은 부자연스러운 단어에 대한 인식이 크게 향상됩니다.이것은 매우 쉽습니다.

다른 줄에 적용할 수 있는 매우 유사한 단어의 교차점이 있다고 생각하고 해당 단어를 별도의 사전에 각 줄에 상대적으로 두기를 원하지 않는 한, 나는 현재 별도의 사전으로 각 줄을 읽는 것의 이점을 보지 못합니다.그런 다음 별도의 사전을 생성하고 초기 단어를 기반으로 보조 인식을 위해 각 사전을 켤 수 있습니다.그러나 이를 달성하려면 고유한 사전을 사용하여 각각을 별도로 처리할 수 있도록 먼저 줄로 분리해야 합니다(메모리에서 또는 실제로 이미지 자르기).이는 작업량이 많은 SDK에서만 가능합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top