Pergunta

Eu estou tentando converter programaticamente PDF to HTML. Até agora eu tenho usado pdftohtml mas nossos usuários não estão satisfeitos com os resultados.

Aqui está o que eu preciso:

  • Eu estou usando Ruby on Rails, mas qualquer ferramenta trabalhando em Unix funcionaria como eu posso chamá-lo a partir da linha de comando. Mas é claro que uma boa gem ou plugin seria perfeito.

  • Eu prefiro que ele seja open source

  • Ele precisa ser imagens do punho capazes

  • Seria bom se houvesse uma opção para imagens de descarte, se necessário

  • Ele precisa ser estável

  • Ele precisa retornar html com um layout perto do pdf originais (eu tentei pdftohtml e o resultado não é tão bom em muitos casos)

Foi útil?

Solução

Aqui estão mais algumas alternativas para pdftohtml / xpdf:

  • Adobe tem um PDF online gratuito para HTML ou texto conversão de serviço . Pode demorar um minuto ou dois para chegar a parte de trás do documento, mas eu suspeito que esta opção lhe daria os melhores resultados.
  • Há um pdf-reader gema do rubi que lhe dará acesso aos componentes internos de o arquivo PDF. Isso implicaria algum desenvolvimento / extensão de sua parte, mas você poderia usar isso para analisar o arquivo PDF e gerar aparência agradável HTML. Isso pode ser mais fácil do que parece se você sabe que tipo de arquivos de seus usuários estão convertendo à frente de vezes (como se eles estão trabalhando com formulários padronizados).
  • Você pode ter mais opções, se você usar ghostscript ( gem encontrada aqui) para converter o PDF para outro formato primeiro. A gema pode gerar imagens (PNG, JPG, etc) a partir de um arquivo PDF, mas você pode ter a melhor sorte convertê-lo em um arquivo PostScript já que não parece ser um zilhão "PostScript-to- [inserir formato aqui]" conversores.

Outras dicas

Para PDF para conversão de HTML, pdf2htmlEX parece ser uma boa ferramenta muito (olhando para todos os exemplos / amostras):

https://github.com/coolwanglu/pdf2htmlEX

Se tudo isso falhar, você pode transformar cada página em uma imagem (usando Imagemagick ou similar) e exibir as imagens, a la http://books.google.com ou http://safari.oreilly.com . Seria um porco largura de banda, mas você teria fidelidade ao original.

Eu passei um tempo trabalhando em um projeto de pesquisa que PDFs tomada envolvidas como entrada. O que você está pedindo é apenas uma tarefa realmente difícil, e nenhum software vai fazê-lo perfeitamente. Considerando HTML tem alguma estrutura, como <p>, PDF é puramente de apresentação. Um documento HTML vai dizer: "este é um parágrafo. Esta é uma imagem." ea apresentação é interpretada a partir daí. Um documento PDF será essencialmente dizer: ". Este personagem deve ser processado na posição X, Y esta próxima chracter será processado na posição ..." etc. Assim, mesmo construindo parágrafos fora do que pode ser difícil

Eu estava trabalhando em Java, então eu não acho que o programa específico I utilizado será de muita utilidade para você. Além disso, recordo que alguns geradores de PDF emendar uma imagem em imagens menores e exibi-los ao lado do outro -. Que era uma dor enorme

Existe alguma maneira possível que você pode estar trabalhando com um formato diferente, ou reduzir as suas expectativas? Você poderia fazer a coisa de imagem que Wayne sugere, mas então não é realmente HTML (e não é acessível - é que uma preocupação para você?). Que só tem que ser algo que você viver.

uso Tente poppler ou xpdf. Mas é necessário um pouco de magia e obrigatória.

Você pode tentar http: //www.pdf-to- html-word.com/pdf-to-html que funciona muito bem. Eu paguei por ele depois de verificar a sua funcionalidade. Você tem um passeio livre para testá-lo. Ou o uso outra Acrobat Pro e Salvar como HTML com CSS. Que funciona também. Mas é uma dor no a ** a ver com um monte de arquivos.

Pode tentar isso. Eu tomei um primeiro corte em envolver o Ruby em torno da utilidade pdftohtml. Gem disponível aqui: http://gemcutter.org/gems/pdftohtmlr

Depois de usar pdftohtml por algum tempo e estar insatisfeito com os resultados da versão HTML de exibição, eu estou pensando em usar o Google Apps API documento ou a API Scribd (meu direito favorito agora)

http://www.scribd.com/developers/api

No final, eu provavelmente vou usar pdftohtml simplesmente extrair o conteúdo do texto do arquivo pdf ea API Scribd para exibir o arquivo original na página de usuário

Eu apenas divulgou um gem ruby ??para converter documentos com decapitado escritório aberto (via poyconverter ou JODConverter). também integra outros poucos librairies (PDFTools e netpbm) para extrair dans texto imagens de arquivos PDF.

Você pode encontrá-lo aqui https://github.com/itkin/proselytism.git

Sinta-se livre para adicionar seus próprios conversores e reportar-me algumas questões

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top