Em ASP.NET qual é a melhor maneira de converter um arquivo PDF para HTML?

https://stackoverflow.com/questions/277901

07-07-2019
|

Pergunta

O que meus usuários vão fazer é selecionar um documento PDF em sua máquina, faça o upload para o meu site, onde eu irá converter em um documento HTML para exibição no site. O documento será armazenado em um banco de dados após a conversão.

Qual é a melhor maneira de converter um PDF para HTML?

I foram entregues um requisito onde um usuário poderia criar uma "notícia" como um pdf e, em seguida, iria enviá-lo para o Sever, onde será convertido para HTML e exibidos no site.

Solução

Qualquer software de criação de documentos que pode salvar documentos em formato PDF pode salvá-los como HTML. Estou assumindo que o problema é que os usuários será a criação de documentos ricos (lotes de imagens embutidas), que resulta em vários arquivos, e suas necessidades decorrem de um desejo de fazer upload desses documentos o mais simples possível para o usuário.

Existem pacotes de conversão numerosos que provavelmente pode fazer isso por você, no entanto, quando você está falando de um conteúdo rico, você está falando de texto mais imagens. Essas imagens têm de ser armazenados em algum lugar e serviu de alguma forma, e qualquer método de conversão que você uso requer que você examine todas as fontes de imagem para se certificar que apontam para locais válidos no seu servidor.

Eu gostaria de sugerir uma forma alternativa de fazer isso que você pode tomar para sua equipe: Implementar uma das muitas APIs de blog para publicação de conteúdo. Existem pacotes de software livre e comerciais que usam essas APIs para publicar conteúdo diretamente para um site, como o Windows Live Writer e Microsoft Word. Seus usuários podem simplesmente criar o seu conteúdo e enviá-lo directamente para o seu site sem ter que publicá-lo como PDF primeiro e depois enviá-lo. Assim, o processo torna-se muito mais suave para os usuários, e você começa as mensagens de uma forma que não exige que você gastar milhares de dólares em desenvolvimento ou código de conversão de compra.

Os dois a maioria das APIs comuns são a MetaWeblog API e Movable Type API . Ambos são muito simples e fácil de implementar. Acho que dessa forma seria uma alternativa muito melhor do que o que você está pensando em fazer.

Outras dicas

Eu não acho que converter um PDF para uma string HTML é necessariamente a melhor idéia, especialmente se você quiser exportá-lo de volta como PDF. arquivos PDF, muitas vezes contêm elementos binários, como imagens, para que você pode ser melhor para convertê-lo em ASCII através de uma codificação, tais como Base64. Dessa forma, você terá uma seqüência de caracteres ASCII que você pode salvar em um campo de texto do DB e depois convertê-lo de volta. você poderia expandir-se mais sobre a exigência principal?

A minha recomendação seria não fazê-lo dessa maneira, se possível (mas todos nós sabemos o que os gerentes são como) assim ...

Eu recomendo que você fique longe de converter o PDF de / para HTML (porque a menos que você pode encontrar uma solução comercial será quase impossível) e, em vez fazer como já foi mencionado e armazená-lo como uma string Base64 codificado ou BLOB ou algum outro formato binário no banco de dados, e, em seguida, exibi-lo para o usuário com algum tipo de vista PDF plugin para o navegador.

Bastou uma simples pesquisa no Google por "PDF to HTML": http: // www. gnostice.com/pdf2manyOverview_x.asp. Estou certo de que há outros.

Assim, embora seja 'possível', você pode querer explicar ao seu gerente que esta não é a melhor solução de gerenciamento de conteúdo.

Por que não usar o href="http://itextsharp.sourceforge.net/" rel="nofollow noreferrer"> iTextSharp para ler o PDF conteúdo

Você deve olhar para DynamicPDF. Eles têm um conversor (atualmente Beta) para fora para servir exatamente para este fim. Temos usado os seus produtos com grande sucesso (especialmente para despejar Reporting Services reporta diretamente ao PDF).

Ref: http://www.dynamicpdf.com/

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow