Extrahieren und Parsen spezifischer Layoutinformationen aus der OCR -Motor

https://stackoverflow.com/questions/8367641

27-10-2019
|

Frage

Ich versuche, Layoutinformationen von OCR -Motoren mit PHP zu analysieren, außer dass sie keine Details geben.

Ich habe sowohl Tesseract (mit Leptonica) als auch Keilschrift installiert. Angeblich ist Keilschrift hervorragend zum Erkennung von Layout (dh was ist Text, was ist ein Bild usw.).

Sie alle scheinen zu glauben, dass ich die Ausgabe als TXT, HTML oder HOCR ... wenn ich will, sind die Koordinaten dessen, was sie hält, und was es für ein Bild hält.

Cuneform verfügt über eine "native" Ausgangsoption, die das Cuneform 2000 -Format ist und es in Notepad ++ öffnet. Ich kann sehen, dass es komprimiert ist. Ich habe versucht, es mit Reißverschluss und Gzip zu extrahieren, aber keiner erkennt es. Auch keine Informationen über Google über das native Keilschrift -Format.

Hat jemand eine Idee, wie man die Layoutinformationen von Tesseract oder Cuneform extrahiert ... oder bessere Ideen, um das Layout eines Bildes mit Textblöcken und Bildern herauszufinden?

Lösung

Sich ansehen ABBYY FENEREREADER -Motor. Es verfügt über eine sehr intelligente API, die maximale Informationen über den recognisierten Text einschließlich seiner Koordinaten liefert. Es ist nicht kostenlos, aber wenn es um Business -Software geht, kann Abbyy OCR Technologies Ihrem Produkt einen ernsthaften Wert verleihen.

Da Sie an einer Webanwendung in PHP arbeiten, möchten Sie möglicherweise Abbyy OCR Engine Web -API unter Verwendung www.ocrsdk.com. Es ist jetzt in geschlossener Beta, also ist es vorerst kostenlos zu bedienen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow