Java 또는 .NET 라이브러리를 사용하여 ColdFusion에서 PDF에서 광학 문자 인식을 수행합니까?

StackOverflow https://stackoverflow.com/questions/496875

  •  20-08-2019
  •  | 
  •  

문제

PDF를 가져 와서 텍스트를 추출하려고합니다. 그런 다음 ColdFusion의 Verity 검색을 사용하여 내용을 검색하여 사용할 수 있도록하고 싶습니다.

이미이 일을 잘하는 도서관이 있습니까? CF에서 호출 할 수 있기 때문에 Java 또는 .NET (Java Prefered) 라이브러리를 범위에 포함하고 있습니다.

모든 통찰력이나 경험은 대단히 감사 할 것입니다 ... 감사합니다!

편집 : PDF 파일 인덱싱은 CF에서 아는 한 텍스트가 PDF에 내장 될 때 작동합니다. 내가 다루어야 할 PDF는 텍스트를 이미지로 스캔했습니다.

도움이 되었습니까?

해결책

자신의 소프트웨어 (예 : 전용/VP)를 실행할 수있는 능력이 있다면 사용을 조사 할 수 있습니다. Tesseract OCR ~와 함께 cfexecute PDF를 텍스트로 변환하려면?

다른 팁

Verity는 기본적으로 PDF 파일을 색인 할 수 있어야합니다.

http://livedocs.adobe.com/coldfusion/6/developing_coldfusion_mx_applications_with_cfml/indexsearch2.htm#1142322

Ray Camden에는 8 부 시리즈가 있습니다 ColdFusion 8에서 PDFS와 협력.

7 부 이 시리즈 중 DDX를 사용하여 PDF에서 텍스트를 얻습니다.

이것이 당신의 OCR 요구와 함께 작동할지 확실하지 않지만 여전히 볼 가치가있을 수 있습니다.

반 관련 메모에서, 나는 ColdFusion에서 2D 매트릭스 바코드 인코딩 및 읽기에 관한 매우 깔끔한 게시물을 발견했습니다.

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

이것은 인코딩 된 정보를 추출 해야하는 내 문제 중 일부를 해결할 수 있지만 여전히 텍스트 본문을 따르는 것입니다.

Tessnet과 관련하여 .NET 버전도 찾았습니다. http://www.pixel-technology.com/freeware/tessnet2/ 내가 기본적으로 tiffs 대신 PDF를 먹일 수 있다면 .. :)

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top