PDF 파일에서 데이터를 가져 오거나 읽는 가장 좋은 방법은 무엇입니까?

StackOverflow https://stackoverflow.com/questions/25550

  •  09-06-2019
  •  | 
  •  

문제

고객으로부터 다양한 형식 [레이아웃 방식]의 pdf 파일로 많은 양의 데이터를 얻습니다. 이러한 파일은 일반적으로 보고서 출력이며 일반적으로 적절하게 주석이 추가되지만 [일반적으로 OCR이 필요하지 않음] 형식이 지정되지 않습니다. 단순히 곡예사에서 수백 페이지의 텍스트를 복사하는 것은 작동하지 않을만큼 충분합니다.

지금까지 찾은 가장 좋은 방법은 거의 유효한 xml 출력을 구문 분석하는 스크립트를 작성하는 것입니다 (주석은 유효하지 않으며 많은 문자가 다양한 방식으로 이스케이프되고 é는 [[[e9]]] é가됩니다. 명령 줄 pdftoipe 유틸리티 ( ipe ), 각 페이지의 위치와 함께 텍스트 요소를 제공합니다 [아래 샘플 참조]. 내가 관심있는 모든 페이지에서 동일한 값이 동일한 위치에있는 보고서에 충분히 작동합니다. 하지만 매트릭스 [크로스 탭] pdf 파일을 가져 오려면 추가 스크립팅 작업이 필요합니다. pdftoipe는이를위한 것이 아니며 Windows 용 cygwin을 사용하여 기껏해야 수동으로 컴파일 할 수 있습니다.

내가 허용 할 수있는 일부 스크립팅 언어로 쉽게 만들 수있는 라이브러리가 있습니까? 그래픽 도구도 멋질 것입니다. 그리고 조랑말.

이 샘플 의 pdftoipe 출력 다음과 같습니다. 라코 디스

도움이 되었습니까?

해결책

우리는 애플리케이션 중 하나에서 Xpdf 를 사용합니다.이 프로젝트에 유용 할 수있는 텍스트 추출기가 있지만 주로 pdf 렌더링에 사용되는 C ++ 라이브러리입니다.

다른 팁

외부 호출에 문제가없는 경우 ghostscript 를 사용할 수 있습니다.-배포판에 포함 된 ps2ascii 스크립트를보십시오.입력 및 출력 파일을 선택하기 위해 누르는 큰 버튼 인 그래픽 도구에서 원하는 것이 무엇인지 잘 모르겠습니다.미리보기?원하는 항목에 따라 GSView를 사용할 수 있습니다.

pdftohtml -xml

pdftoipe가 더 자세하게 보이지만 !!

Aspose를 보셨습니까?우리는 그것을 ASP.net 앱에 사용하고 있으며 그것을 사용하는 vbscript의 몇 가지 예도 보았습니다.특히 비싸지도 않습니다.

http://www.aspose.com/

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top