Qual è un buon metodo per estrarre testo da un PDF utilizzando C# o ASP classico (VBScript)?[Chiuso]

StackOverflow https://stackoverflow.com/questions/46869

Domanda

Esiste una buona libreria per estrarre testo da un PDF?Sono disposto a pagare per questo, se necessario.

Qualcosa che funzioni con C# o ASP classico (VBScript) sarebbe l'ideale e devo anche poter separare le pagine dal PDF.

Questa domanda aveva alcune cose interessanti, soprattutto pdftotext ma vorrei evitare di chiamare un'app da riga di comando esterna, se posso.

È stato utile?

Soluzione

Puoi utilizzare l'interfaccia IFilter integrata in Windows per estrarre testo e proprietà (autore, titolo, ecc.) da qualsiasi tipo di file supportato.È un'interfaccia COM, quindi dovresti utilizzare le funzionalità di interoperabilità .NET.

Dovresti anche scaricare il driver PDF IFilter gratuito da Adobe.

Altri suggerimenti

Ecco una buona lista:Librerie open source per PDF/C#

La maggior parte di questi sono orientati alla creazione di PDF, ma dovrebbero avere anche funzionalità di lettura.

C'è anche questo: iText

Ho giocato solo con iText prima.Niente di grave.

Noi abbiamo usato Asporre con buoni risultati.

Libreria Docotic.Pdf può essere utilizzato per estrarre testo formattato o semplice da documenti PDF.

La biblioteca può leggere documenti PDF di qualsiasi versione (fino all'ultimo standard pubblicato).La libreria supporta anche l'estrazione delle pagine.

Collegamenti al codice di esempio:

Disclaimer:Lavoro per il venditore della biblioteca.

Aggiunta alla risposta approvata:esistono anche soluzioni commerciali alternative per sostituire Adobe IFilter per l'indicizzazione del testo (che forniscono API simili ma offrono anche funzionalità premium aggiuntive):

  1. Foxit PDF IFilter:fornisce un'indicizzazione del testo molto più rapida rispetto al plug-in di Adobe.
  2. PDFLibPDF iFilter:include il supporto per documenti PDF danneggiati oltre all'API aggiuntiva per eseguire le tue query.

Se stai cercando l'unico strumento che può essere utilizzato sia dalle app .NET gestite che dai linguaggi di programmazione legacy come ASP classico o VB6, allora è qui che trovi l'offerta commerciale SDK di estrazione PDF di ByteScout sarebbe adatto in quanto fornisce sia .NET che API ActiveX/COM.

Disclaimer:Lavoro per ByteScout

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top