Ruby on Rails용으로 좋은 PDF-HTML 변환기는 무엇입니까?[닫은]

https://stackoverflow.com/questions/1900423

19-09-2019
|

문제

프로그래밍 방식으로 PDF를 HTML로 변환하려고 합니다.지금까지 나는 사용해왔다. pdftohtml 하지만 사용자들은 결과에 만족하지 않습니다.

내가 필요한 것은 다음과 같습니다.

저는 Ruby on Rails를 사용하고 있지만 Unix에서 작동하는 모든 도구는 명령줄에서 호출할 수 있으므로 작동합니다.하지만 물론 멋진 보석이나 플러그인도 완벽할 것입니다.
오픈소스이면 좋겠는데
이미지를 처리할 수 있어야 합니다.
필요한 경우 이미지를 삭제할 수 있는 옵션이 있으면 좋을 것 같습니다.
안정적이어야 해요
원본 PDF에 가까운 레이아웃으로 HTML을 반환해야 합니다. pdftohtml 많은 경우 결과가 그다지 좋지 않습니다)

해결책

pdftohtml/xpdf에 대한 몇 가지 대안은 다음과 같습니다.

Adobe에는 HTML 또는 텍스트로 변환되는 무료 온라인 PDF가 있습니다. 변환 서비스.문서를 다시 가져오는 데 1~2분 정도 걸릴 수 있지만 이 옵션이 최상의 결과를 제공할 것이라고 생각됩니다.
이있다 PDF 리더 PDF 파일의 내부에 접근할 수 있게 해주는 Ruby gem입니다.여기에는 일부 개발/확장이 필요하지만 이를 사용하여 PDF 파일을 구문 분석하고 멋진 HTML을 생성할 수 있습니다.사용자가 어떤 유형의 파일을 변환하는지 미리 알고 있다면(예: 표준화된 형식으로 작업하는 경우) 생각보다 쉬울 수 있습니다.
사용하면 더 많은 옵션이 있을 수 있습니다. 대본 (보석 여기에서 확인) 먼저 PDF를 다른 형식으로 변환하세요.gem은 PDF 파일에서 이미지(png, jpg 등)를 생성할 수 있지만 "PostScript-to-[여기에 형식 삽입]" 변환기가 무수히 있기 때문에 이를 PostScript 파일로 변환하는 것이 가장 좋을 수도 있습니다.

다른 팁

PDF를 HTML로 변환하는 경우 pdf2htmlEX가 꽤 좋은 도구인 것 같습니다(모든 예제/샘플을 살펴보면).

https://github.com/coolwanglu/pdf2htmlEX

다른 모든 방법이 실패하면 각 페이지를 이미지로 변환하고(이미지 매직 등을 사용하여) 이미지를 표시할 수 있습니다. http://books.google.com 또는 http://safari.oreilly.com.대역폭을 많이 차지하지만 원본에 대한 충실도를 얻을 수 있습니다.

저는 PDF를 입력으로 사용하는 연구 프로젝트에 참여하는 데 시간을 보냈습니다.당신이 요구하는 것은 정말 어려운 작업일 뿐이며 어떤 소프트웨어도 이 작업을 완벽하게 수행할 수 없습니다.HTML에는 다음과 같은 구조가 있습니다. <p>, PDF는 순전히 프레젠테이션용입니다.HTML 문서에서는 "이것은 단락입니다.이것은 이미지입니다." 프레젠테이션은 그것으로 해석됩니다.PDF 문서는 기본적으로 다음과 같이 말합니다."이 문자는 X, Y 위치에 렌더링되어야 합니다.다음 문자는..." 위치에 렌더링됩니다.그래서 그것으로 단락을 구성하는 것조차 어려울 수 있습니다.

나는 Java로 작업하고 있었기 때문에 내가 사용한 특정 프로그램이 당신에게 별로 유용하지 않을 것이라고 생각합니다.또한 일부 PDF 생성기는 이미지를 더 작은 이미지로 분할하여 나란히 표시하는 작업을 수행했는데 이는 엄청난 고통이었습니다.

다른 형식으로 작업하거나 기대치를 낮출 수 있는 방법이 있나요?Wayne이 제안한 이미지 작업을 수행할 수 있지만 그렇지 않습니다. 정말 HTML(액세스가 불가능합니다. 그게 걱정되시나요?)그것은 당신이 함께 사는 것일 수도 있습니다.

poppler나 xpdf를 사용해 보세요.하지만 마법과 바인딩이 필요합니다.

당신은 시도 할 수 있습니다 http://www.pdf-to-html-word.com/pdf-to-html정말 잘 작동합니다.기능 확인 후 결제했습니다.당신은 그것을 테스트하기 위해 무료로 타고 있습니다.또는 Acrobat Pro를 사용하고 CSS를 사용하여 HTML로 저장하세요.그것도 작동합니다.하지만 많은 파일을 다루는 것은 정말 고통스럽습니다.

이것을 시도해 볼 수 있습니다.나는 pdftohtml 유틸리티를 Ruby로 감싸는 첫 번째 작업을 수행했습니다.여기에서 사용 가능한 보석: http://gemcutter.org/gems/pdftohtmlr

한동안 pdftohtml을 사용하고 html 버전의 표시 결과에 만족하지 못한 후 Google 앱 문서 API 또는 scribd API(현재 제가 가장 선호하는 API)를 사용하는 것을 고려하고 있습니다.

http://www.scribd.com/developers/api

결국 PDFTOHTML을 사용하여 PDF 파일의 텍스트 내용과 Scribd API를 추출하여 사용자 페이지에 원본 파일을 표시하겠습니다.

방금 오픈 오피스 헤드리스(poyconverter 또는 jodconverter를 통해)로 문서를 변환하는 Ruby gem을 출시했습니다.또한 PDF 파일에서 텍스트 댄 이미지를 추출하기 위해 다른 몇 가지 라이브러리(pdftools 및 netpbm)를 통합합니다.

여기에서 찾을 수 있습니다. https://github.com/itkin/proselytism.git

자유롭게 자신만의 변환기를 추가하고 몇 가지 문제를 보고해 주세요.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow