는 방법을 알고 있는 경우 PDF 파일만을 포함하는 이미지 또는 OCR 검사를 찾?

https://stackoverflow.com/questions/1489733

18-09-2019
|

문제

나의 무리는 PDF 파일에서 나온 문서를 검색합니다.파일이 혼합되어 있는 이미지 및 텍스트입니다.일부로 스캔 이미지 없이 OCR,그래서 각 PDF 페이지를 하나의 큰 이미지도는 전체 페이지는 전적으로 텍스트입니다.다른 사람들이 스캔 OCR 및 이미지가 포함되어 있고 검색할 수 있는 텍스트는 텍스트가 존재한다.많은 경우에도 단어에서 이미지를 만들어졌 검색할 수 있습니다.

만들고 싶다는 자동화된 프로세스를 인식하는 모든 텍스트를 스캔한 문서를 사용하여 OCR,Acrobat8Pro,but I don't want to re-OCR 파일을 통해 이미 OCR 프로세스는 과거에.사람이 알고 있는 경우에는 방법을 말하는 것을 포함하는 이미지만,어떤 사람이 이미 포함되어 텍스트 검색?

나는 계획에서 이렇 C#나 VB.NET 그러나 나는 생각하지 않 확인할 수 있다는 두 가지 종류의 파일을 외는 언어에 의존합니다.

해결책

Scannned 이미지로 변환하 PDF 는 OCR'ed 여파에서 텍스트 검색 할 수 일반적으로 텍스트가 포함되어 있는 부품으로 렌더링되지 않.그래서 당신은 화면에 표시(또는 종이에 인쇄)아직도 선명한 이미지를 제공합니다.하지만 당신 검색 성공적으로,당신은 히 강조 표시에 있는 눈에 보이지 않는 텍스트입니다.

내가 권하고 싶은 당신을 보 XPDF-파생 명령행 도구 pdffonts(.exe), pdfinfo(.exe) 고 pdftotext(.exe).여기를 참조하십시오 다운로드: http://www.foolabs.com/xpdf/download.html

를 들어의 사용법 pdffonts:

C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique          Type 1C           yes yes no   13171  0
LGOKGM+Univers-Black                 Type 1C           yes yes no   13172  0
[....]

이 PDF 글꼴을 사용(지시에 의하여'이름'열),그들이 내장(에 표시된'예'에서'emb'열)과 하위 집합이 사용하는 글꼴(에 표시된'예'에서'이하'열).

C:\downloads\> pdffonts examle1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique                 Type 1C           yes no  no   14    0
Arial                                TrueType          no  no  no   15    0

이 PDF 를 사용 글꼴 2(에 의해 표시'이름'열).글꼴을'우주-BlackOblique'이 포함된 완전히(에 표시된'예'에서'emb'열고'아니오'에서'이하'열).글꼴'굴림'은 또한 사용되는,그러나 포함 되지 않습니다.

C:\downloads\> pdffonts examle2.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------

이 PDF 파일을 사용하지 않는 하나의 글꼴,따라서이 없는 텍스트 임베디드(그래서 아무 OCR either).

를 들어의 사용법 pdftotext:

C:\downloads\> pdftotext ^
                   -layout ^
                   cisco-ip-phone-7911-guide6.1.pdf ^
                   cisco-ip-phone-7911-guide6.1.txt

이 추출되는 모든 텍스트 문자열에서 PDF(를 유지하려고 일부의 유사성이 원래의 레이아웃).이 있는 경우에는 텍스트가 없 PDF,당신은 알 수 없었 OCR...

다른 팁

PDF 다양한 도구를 말할 수 있는 경우 텍스트입니다.일부로 사용할 수 있 COM 컨트롤하고,어쩌면 기본.NET 것들입니다.

서 문서를 열고 acrobat.이동 파일->속성입니다.에 보면"Advanced"섹션을 찾아 PDF 파일 생산자이다.읽는 경우 다음과 같은"종이다"그런 다음 그것을 되었습 OCR 습니다.

이게 도움이 되었으면 좋겠습니다.

Apago 의 pdfspy 에서 정보를 추출 PDF XML 파일입니다.그것은 포함 문서에 대한 정보를 포함하여 이미지 및 텍스트입니다.프로젝트에 대한 유용한 정보를 포함 이미지 개수 및 크기고 있는 OCR(hidden)텍스트입니다.

http://www.apagoinc.com/pdfspy

죄송하는 오래된 스레드,하지만 당신은 발견되 이는 내 스레드:

일괄 처리 OCR 프로그램 Pdf

추가 정보를 얻을 수 있습에 대 pdf by catting 에서 unix/linux/osx 또는 개봉으로"rb"모드에서는 python.(물론 python 고 당신이 사용하고 싶지 않았지만 어쩌면 그것은 무언가를 상당액)이다.

사용"dtsearch"을 만드는 인덱스에 대한 모든 pdf 파일을 만들거나 수정합니다.그런 다음"로그 파일을 볼"의 인덱싱 프로세스 목록을 확인했는데 pdf 파일을 인덱싱되지 않습니다.

매우 낮은 기술 솔루션:어떤 파일이 있는 텍스트를 스캔 것입니다 의심 할 여지없이 문자를 포함""그래서 검색을 수행에 모든 파일 내용을 포함하지 않는 편지.즉"아니".는 모든 파일을 표시할 수 있습니다.OCR'd

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow