Qual é um bom método para extrair texto de um PDF usando C# ou ASP clássico (VBScript)?[fechado]

https://stackoverflow.com/questions/46869

09-06-2019
|

Pergunta

Existe uma boa biblioteca para extrair texto de um PDF?Estou disposto a pagar por isso se for preciso.

Algo que funcione com C# ou ASP clássico (VBScript) seria o ideal e também preciso separar as páginas do PDF.

Essa questão tinha algumas coisas interessantes, especialmente pdf para texto mas gostaria de evitar chamar um aplicativo de linha de comando externo, se puder.

Solução

Você pode usar a interface IFilter integrada ao Windows para extrair texto e propriedades (autor, título, etc.) de qualquer tipo de arquivo compatível.É uma interface COM, então você usaria os recursos de interoperabilidade do .NET.

Você também teria que baixar o driver PDF IFilter gratuito da Adobe.

Outras dicas

Aqui está uma boa lista:Bibliotecas de código aberto para PDF/C#

A maioria deles é voltada para a criação de PDFs, mas também devem ter capacidade de leitura.

Há este também: iTexto

Eu só joguei com iText antes.Nada importante.

Nós usamos Suponha com bons resultados.

Biblioteca Docotic.Pdf pode ser usado para extrair texto formatado ou simples de documentos PDF.

A biblioteca pode ler documentos PDF de qualquer versão (até o último padrão publicado).A extração de páginas também é suportada pela biblioteca.

Links para código de exemplo:

Isenção de responsabilidade:Eu trabalho para o vendedor da biblioteca.

Adição à resposta aprovada:também existem soluções comerciais alternativas para substituir o Adobe IFilter para indexação de texto (fornecendo API semelhante, mas também oferecendo funcionalidade premium adicional):

Filtro Foxit PDF:fornece indexação de texto muito mais rápida em comparação com o plugin da Adobe.
PDFLib PDF iFilter:inclui suporte para documentos PDF danificados, além de API adicional para executar suas próprias consultas.

Se você está procurando uma ferramenta única que possa ser usada tanto em aplicativos .NET gerenciados quanto em linguagens de programação legadas, como ASP clássico ou VB6, então é aqui que o comercial SDK do extrator de PDF ByteScout caberia, pois fornece API .NET e ActiveX/COM.

Isenção de responsabilidade:Eu trabalho para ByteScout

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow