Tesseract-job: Wie man ein Bild analysiert, um die Informationen daraus zu erhalten

https://stackoverflow.com/questions/6811892

25-10-2019
|

Frage

guten Morgen.

Erstens. Dies ist die beeindruckendste Gemeinschaft, die ich je gesehen habe!

Nun, mehrere Tage, über den dreifach gefalteten Job von

a. bekommen b. Parsing c. eine Reihe von Seiten speichern.

Vor zwei Tagen dachte ich, dass das Erhalten der Seiten die Majoraufgabe wäre. Nein, das ist nicht der Fall - ich denke, der Parser -Job wäre eine heldenhafte Aufgabe. Jede der Seiten, die analysiert werden sollen, ist ein PNG-Image.

Die Frage ist also - nachdem sie alle bekommen haben. Wie man sie analysiert!? Dies scheint das Problem zu sein. Ich denke, es gibt einige Perl -Modules da draußen - die dabei helfen können ...

Nun - ich denke, dass dieser Job nur mit eingebetteten OCR erledigt werden kann! Frage: Gibt es ein Perl-Modul, das hier verwendet werden kann, um diese Aufgabe zu unterstützen:

Übrigens: Siehe die Ergebnisseite.

see an image

Übrigens;: Und wie ich dachte, ich kann alle 790 Ergebnisse in einem bestimmten Bereich zwischen ID = 0 und ID = 100000 finden, dachte ich, dass ich mit einer Schleife den Weg gehen kann:

http://www.foundationfinder.ch/showdetails.php?id=11233&interfacelanguage=&type=html http://www.foundationfinder.ch/showdetails.php?id=927&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=949&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=20011&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=10579&interfacelanguage=1&type=html

Ich dachte, ich kann den Perlweg gehen, aber ich bin mir nicht sehr sicher: Ich habe versucht, LWP :: UserAgent auf denselben URLs [siehe unten] mit unterschiedlichen Abfragebr. Weg für uns, die Abfrageargumente zu durchlaufen? Ich bin mir nicht sicher, dass LWP :: UserAgent eine Methode für uns hat, um dies zu tun. Nun - ich habe manchmal gehört, dass es einfacher ist, Mechanisierungen zu verwenden. Aber ist es wirklich einfacher!?

Aber - um ehrlich zu sein; Das Erste Aufgabe "Alle Seiten erhalten ist nicht sehr schwierig - wenn wir diese Aufgabe mit vergleicht die Parsen... Wie Kann das getan werden?!?

Alle Ideen - Vorschläge -

freue mich von Dir zu hören...

Null

Lösung

Sie benötigen kein Perl -Modul, Sie benötigen nur das system Funktion.

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Möglicherweise müssen Sie die Bilder vorbereiten, um Tesseract zu helfen, beispielsweise mit ImageMagick wie:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow