¿Cuál es un buen método para extraer texto de un PDF usando C# o ASP clásico (VBScript)?[cerrado]

StackOverflow https://stackoverflow.com/questions/46869

Pregunta

¿Existe una buena biblioteca para extraer texto de un PDF?Estoy dispuesto a pagar por ello si es necesario.

Algo que funcione con C# o ASP clásico (VBScript) sería ideal y también necesito poder separar las páginas del PDF.

Esta pregunta Tenía algunas cosas interesantes, especialmente pdf a texto pero, si puedo, me gustaría evitar llamar a una aplicación de línea de comandos externa.

¿Fue útil?

Solución

Puede utilizar la interfaz IFilter integrada en Windows para extraer texto y propiedades (autor, título, etc.) de cualquier tipo de archivo compatible.Es una interfaz COM, por lo que deberá utilizar las funciones de interoperabilidad de .NET.

También deberá descargar el controlador PDF IFilter gratuito de Adobe.

Otros consejos

Aquí tienes una buena lista:Bibliotecas de código abierto para PDF/C#

La mayoría de ellos están orientados a la creación de archivos PDF, pero también deberían tener capacidad de lectura.

También existe este: yo texteo

Sólo he jugado con iText antes.Nada mayor.

hemos usado asponer con buenos resultados.

Biblioteca Docótica.pdf se puede utilizar para extraer texto formateado o sin formato de documentos PDF.

La biblioteca puede leer documentos PDF de cualquier versión (hasta el último estándar publicado).La biblioteca también admite la extracción de páginas.

Enlaces al código de muestra:

Descargo de responsabilidad:Trabajo para el vendedor de la biblioteca.

Además de la respuesta aprobada:También existen soluciones comerciales alternativas para reemplazar Adobe IFilter para la indexación de texto (que proporciona una API similar pero también ofrece una funcionalidad premium adicional):

  1. Foxit PDF IFilter:proporciona una indexación de texto mucho más rápida en comparación con el complemento de Adobe.
  2. PDFLib PDF iFilter:incluye soporte para documentos PDF dañados más la API adicional para ejecutar sus propias consultas.

Si está buscando una herramienta única que pueda usarse tanto desde aplicaciones .NET administradas como desde lenguajes de programación heredados como ASP clásico o VB6, aquí es donde encontrará la solución comercial. SDK de extracción de PDF ByteScout encajaría ya que proporciona API .NET y ActiveX/COM.

Descargo de responsabilidad:Trabajo para ByteScout

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top