O que é um bom conversor de PDF para HTML para Ruby on Rails? [fechadas]

https://stackoverflow.com/questions/1900423

19-09-2019
|

Pergunta

Eu estou tentando converter programaticamente PDF to HTML. Até agora eu tenho usado pdftohtml mas nossos usuários não estão satisfeitos com os resultados.

Aqui está o que eu preciso:

Eu estou usando Ruby on Rails, mas qualquer ferramenta trabalhando em Unix funcionaria como eu posso chamá-lo a partir da linha de comando. Mas é claro que uma boa gem ou plugin seria perfeito.
Eu prefiro que ele seja open source
Ele precisa ser imagens do punho capazes
Seria bom se houvesse uma opção para imagens de descarte, se necessário
Ele precisa ser estável
Ele precisa retornar html com um layout perto do pdf originais (eu tentei pdftohtml e o resultado não é tão bom em muitos casos)

Solução

Aqui estão mais algumas alternativas para pdftohtml / xpdf:

Adobe tem um PDF online gratuito para HTML ou texto conversão de serviço . Pode demorar um minuto ou dois para chegar a parte de trás do documento, mas eu suspeito que esta opção lhe daria os melhores resultados.
Há um pdf-reader gema do rubi que lhe dará acesso aos componentes internos de o arquivo PDF. Isso implicaria algum desenvolvimento / extensão de sua parte, mas você poderia usar isso para analisar o arquivo PDF e gerar aparência agradável HTML. Isso pode ser mais fácil do que parece se você sabe que tipo de arquivos de seus usuários estão convertendo à frente de vezes (como se eles estão trabalhando com formulários padronizados).
Você pode ter mais opções, se você usar ghostscript ( gem encontrada aqui) para converter o PDF para outro formato primeiro. A gema pode gerar imagens (PNG, JPG, etc) a partir de um arquivo PDF, mas você pode ter a melhor sorte convertê-lo em um arquivo PostScript já que não parece ser um zilhão "PostScript-to- [inserir formato aqui]" conversores.

Outras dicas

Para PDF para conversão de HTML, pdf2htmlEX parece ser uma boa ferramenta muito (olhando para todos os exemplos / amostras):

https://github.com/coolwanglu/pdf2htmlEX

Se tudo isso falhar, você pode transformar cada página em uma imagem (usando Imagemagick ou similar) e exibir as imagens, a la http://books.google.com ou http://safari.oreilly.com . Seria um porco largura de banda, mas você teria fidelidade ao original.

Eu passei um tempo trabalhando em um projeto de pesquisa que PDFs tomada envolvidas como entrada. O que você está pedindo é apenas uma tarefa realmente difícil, e nenhum software vai fazê-lo perfeitamente. Considerando HTML tem alguma estrutura, como <p>, PDF é puramente de apresentação. Um documento HTML vai dizer: "este é um parágrafo. Esta é uma imagem." ea apresentação é interpretada a partir daí. Um documento PDF será essencialmente dizer: ". Este personagem deve ser processado na posição X, Y esta próxima chracter será processado na posição ..." etc. Assim, mesmo construindo parágrafos fora do que pode ser difícil

Eu estava trabalhando em Java, então eu não acho que o programa específico I utilizado será de muita utilidade para você. Além disso, recordo que alguns geradores de PDF emendar uma imagem em imagens menores e exibi-los ao lado do outro -. Que era uma dor enorme

Existe alguma maneira possível que você pode estar trabalhando com um formato diferente, ou reduzir as suas expectativas? Você poderia fazer a coisa de imagem que Wayne sugere, mas então não é realmente HTML (e não é acessível - é que uma preocupação para você?). Que só tem que ser algo que você viver.

uso Tente poppler ou xpdf. Mas é necessário um pouco de magia e obrigatória.

Você pode tentar http: //www.pdf-to- html-word.com/pdf-to-html que funciona muito bem. Eu paguei por ele depois de verificar a sua funcionalidade. Você tem um passeio livre para testá-lo. Ou o uso outra Acrobat Pro e Salvar como HTML com CSS. Que funciona também. Mas é uma dor no a ** a ver com um monte de arquivos.

Pode tentar isso. Eu tomei um primeiro corte em envolver o Ruby em torno da utilidade pdftohtml. Gem disponível aqui: http://gemcutter.org/gems/pdftohtmlr

Depois de usar pdftohtml por algum tempo e estar insatisfeito com os resultados da versão HTML de exibição, eu estou pensando em usar o Google Apps API documento ou a API Scribd (meu direito favorito agora)

http://www.scribd.com/developers/api

No final, eu provavelmente vou usar pdftohtml simplesmente extrair o conteúdo do texto do arquivo pdf ea API Scribd para exibir o arquivo original na página de usuário

Eu apenas divulgou um gem ruby ??para converter documentos com decapitado escritório aberto (via poyconverter ou JODConverter). também integra outros poucos librairies (PDFTools e netpbm) para extrair dans texto imagens de arquivos PDF.

Você pode encontrá-lo aqui https://github.com/itkin/proselytism.git

Sinta-se livre para adicionar seus próprios conversores e reportar-me algumas questões

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow