O que é um bom conversor de PDF para HTML para Ruby on Rails? [fechadas]
-
19-09-2019 - |
Pergunta
Eu estou tentando converter programaticamente PDF to HTML. Até agora eu tenho usado pdftohtml mas nossos usuários não estão satisfeitos com os resultados.
Aqui está o que eu preciso:
-
Eu estou usando Ruby on Rails, mas qualquer ferramenta trabalhando em Unix funcionaria como eu posso chamá-lo a partir da linha de comando. Mas é claro que uma boa gem ou plugin seria perfeito.
-
Eu prefiro que ele seja open source
-
Ele precisa ser imagens do punho capazes
-
Seria bom se houvesse uma opção para imagens de descarte, se necessário
-
Ele precisa ser estável
-
Ele precisa retornar html com um layout perto do pdf originais (eu tentei pdftohtml e o resultado não é tão bom em muitos casos)
Solução
Aqui estão mais algumas alternativas para pdftohtml / xpdf:
- Adobe tem um PDF online gratuito para HTML ou texto conversão de serviço . Pode demorar um minuto ou dois para chegar a parte de trás do documento, mas eu suspeito que esta opção lhe daria os melhores resultados.
- Há um pdf-reader gema do rubi que lhe dará acesso aos componentes internos de o arquivo PDF. Isso implicaria algum desenvolvimento / extensão de sua parte, mas você poderia usar isso para analisar o arquivo PDF e gerar aparência agradável HTML. Isso pode ser mais fácil do que parece se você sabe que tipo de arquivos de seus usuários estão convertendo à frente de vezes (como se eles estão trabalhando com formulários padronizados).
- Você pode ter mais opções, se você usar ghostscript ( gem encontrada aqui) para converter o PDF para outro formato primeiro. A gema pode gerar imagens (PNG, JPG, etc) a partir de um arquivo PDF, mas você pode ter a melhor sorte convertê-lo em um arquivo PostScript já que não parece ser um zilhão "PostScript-to- [inserir formato aqui]" conversores.
Outras dicas
Para PDF para conversão de HTML, pdf2htmlEX parece ser uma boa ferramenta muito (olhando para todos os exemplos / amostras):
Se tudo isso falhar, você pode transformar cada página em uma imagem (usando Imagemagick ou similar) e exibir as imagens, a la http://books.google.com ou http://safari.oreilly.com . Seria um porco largura de banda, mas você teria fidelidade ao original.
Eu passei um tempo trabalhando em um projeto de pesquisa que PDFs tomada envolvidas como entrada. O que você está pedindo é apenas uma tarefa realmente difícil, e nenhum software vai fazê-lo perfeitamente. Considerando HTML tem alguma estrutura, como <p>
, PDF é puramente de apresentação. Um documento HTML vai dizer: "este é um parágrafo. Esta é uma imagem." ea apresentação é interpretada a partir daí. Um documento PDF será essencialmente dizer: ". Este personagem deve ser processado na posição X, Y esta próxima chracter será processado na posição ..." etc. Assim, mesmo construindo parágrafos fora do que pode ser difícil
Eu estava trabalhando em Java, então eu não acho que o programa específico I utilizado será de muita utilidade para você. Além disso, recordo que alguns geradores de PDF emendar uma imagem em imagens menores e exibi-los ao lado do outro -. Que era uma dor enorme
Existe alguma maneira possível que você pode estar trabalhando com um formato diferente, ou reduzir as suas expectativas? Você poderia fazer a coisa de imagem que Wayne sugere, mas então não é realmente HTML (e não é acessível - é que uma preocupação para você?). Que só tem que ser algo que você viver.
uso Tente poppler ou xpdf. Mas é necessário um pouco de magia e obrigatória.
Você pode tentar http: //www.pdf-to- html-word.com/pdf-to-html que funciona muito bem. Eu paguei por ele depois de verificar a sua funcionalidade. Você tem um passeio livre para testá-lo. Ou o uso outra Acrobat Pro e Salvar como HTML com CSS. Que funciona também. Mas é uma dor no a ** a ver com um monte de arquivos.
Pode tentar isso. Eu tomei um primeiro corte em envolver o Ruby em torno da utilidade pdftohtml. Gem disponível aqui: http://gemcutter.org/gems/pdftohtmlr
Depois de usar pdftohtml por algum tempo e estar insatisfeito com os resultados da versão HTML de exibição, eu estou pensando em usar o Google Apps API documento ou a API Scribd (meu direito favorito agora)
http://www.scribd.com/developers/api
No final, eu provavelmente vou usar pdftohtml simplesmente extrair o conteúdo do texto do arquivo pdf ea API Scribd para exibir o arquivo original na página de usuário
Eu apenas divulgou um gem ruby ??para converter documentos com decapitado escritório aberto (via poyconverter ou JODConverter). também integra outros poucos librairies (PDFTools e netpbm) para extrair dans texto imagens de arquivos PDF.
Você pode encontrá-lo aqui https://github.com/itkin/proselytism.git
Sinta-se livre para adicionar seus próprios conversores e reportar-me algumas questões