Was ist eine gute Methode zum Extrahieren von Text aus einer PDF-Datei mit C# oder klassischem ASP (VBScript)?[geschlossen]

https://stackoverflow.com/questions/46869

09-06-2019
|

Frage

Gibt es eine gute Bibliothek zum Extrahieren von Text aus einem PDF?Ich bin bereit, dafür zu zahlen, wenn ich muss.

Ideal wäre etwas, das mit C# oder klassischem ASP (VBScript) funktioniert, und ich muss auch in der Lage sein, die Seiten vom PDF zu trennen.

Diese Frage hatte vor allem einige interessante Sachen pdftotext Ich möchte jedoch nach Möglichkeit den Aufruf einer externen Befehlszeilen-App vermeiden.

Lösung

Sie können die in Windows integrierte IFilter-Schnittstelle verwenden, um Text und Eigenschaften (Autor, Titel usw.) aus jedem unterstützten Dateityp zu extrahieren.Da es sich um eine COM-Schnittstelle handelt, müssten Sie die .NET-Interop-Funktionen nutzen.

Sie müssten außerdem den kostenlosen PDF-IFilter-Treiber von Adobe herunterladen.

Andere Tipps

Hier ist eine gute Liste:Open-Source-Bibliotheken für PDF/C#

Die meisten davon sind auf die Erstellung von PDFs ausgerichtet, sollten aber auch lesefähig sein.

Es gibt auch dieses hier: ich schreibe

Ich habe bisher nur mit iText gespielt.Nichts Besonderes.

Wir haben verwendet Aspose mit guten Ergebnissen.

Docotic.PDF-Bibliothek kann zum Extrahieren von formatiertem oder einfachem Text aus PDF-Dokumenten verwendet werden.

Die Bibliothek kann PDF-Dokumente jeder Version (bis zum neuesten veröffentlichten Standard) lesen.Auch das Extrahieren von Seiten wird von der Bibliothek unterstützt.

Links zum Beispielcode:

Haftungsausschluss:Ich arbeite für den Anbieter der Bibliothek.

Ergänzung zur genehmigten Antwort:Es gibt auch alternative kommerzielle Lösungen, um Adobe IFilter für die Textindizierung zu ersetzen (die eine ähnliche API bereitstellen, aber auch zusätzliche Premium-Funktionalität bieten):

Foxit PDF IFilter:Bietet im Vergleich zum Adobe-Plugin eine viel schnellere Textindizierung.
PDFLib PDF iFilter:umfasst Unterstützung für beschädigte PDF-Dokumente sowie die zusätzliche API zum Ausführen eigener Abfragen.

Wenn Sie nach einem einzigen Tool suchen, das sowohl von verwalteten .NET-Apps als auch von älteren Programmiersprachen wie klassischem ASP oder VB6 verwendet werden kann, dann sind Sie hier genau richtig ByteScout PDF Extractor SDK würde passen, da es sowohl .NET- als auch ActiveX/COM-API bereitstellt.

Haftungsausschluss:Ich arbeite für ByteScout

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow