Durchführen von Optical Character Recognition auf PDF-Dateien von Coldfusion einer Java- oder .NET-Bibliothek verwenden?
-
20-08-2019 - |
Frage
Ich suche eine PDF zu nehmen und einen beliebigen Text daraus zu extrahieren. Ich mag dann, um es mit Coldfusion der verfügbaren Verity Suche zur Verfügung stellen, den Inhalt zu suchen.
Gibt es Bibliotheken gibt, die dies tun, recht gut schon? Ich bin wie Java oder .NET (Java bevorzugt) Bibliotheken im Rahmen da sie von CF genannt werden.
Keine Erkenntnisse oder Erfahrungen wäre sehr dankbar ... Danke!
Edit: Indizierung von PDF-Dateien funktionieren, wenn der Text in der PDF-Datei eingebettet ist, soweit ich weiß, mit CF. Die PDF-Dateien Ich habe zu tun haben, den Text als Bild gescannt.
Lösung
Wenn Sie die Möglichkeit, eigene Software (dh Dedicated / VPS) laufen, dann könnten Sie untersuchen mit Tesseract OCR mit cfexecute
, um die PDF-Dateien in Text zu umwandeln?
Andere Tipps
Verity sollte indizieren PDF-Dateien standardmäßig in der Lage:
Ray Camden hat eine achtteilige Serie auf arbeiten mit PDFs in Coldfusion 8 .
Teil 7 der Serie deckt DDX mit Text, um aus einer PDF-Datei.
Nicht sicher, dass dies funktionieren wird mit OCR allerdings braucht, kann aber immer noch ein Blick wert sein an.
Auf einem halb Beachtet zudem, fand ich eine sehr gepflegte Post über Codierung und 2D-Matrix-Barcodes in Coldfusion zu lesen.
http://www.stillnetstudios.com/2007/ 15.12 / 2d-Barcode-Coldfusion /
Dies könnte einige meiner Fragen in um codierte Information zu extrahieren, lösen, aber ich bin immer noch nach dem Körper des Textes.
In Bezug auf tessnet, fand auch eine .net-Version. http://www.pixel-technology.com/freeware/tessnet2/ Wenn ich konnte nativ füttern in PDF-Dateien statt TIFFs ..:)