Tesseract-Job: come analizzare un'immagine al fine di ottenere le informazioni di fuori di esso

https://stackoverflow.com/questions/6811892

25-10-2019
|

Domanda

buona moring.

prima di tutto. Questa è la comunità più impressionante che abbia mai visto!

Bene diversi giorni riflettevo sul lavoro tre piegato

a. ottenere b. parsing c. memorizzare un numero di pagine.

Due giorni fa ho pensato che ottenere le pagine sarebbe il maggiore-task. No questo non è il caso - credo che il parser-lavoro sarebbe un compito eroico. Ciascuna delle pagine che sono destinati ad essere analizzato è png-immagine.

Quindi la domanda è - dopo aver ottenuto tutto loro. Come fare il parsing di loro !? Questo sembra essere il problema. Indovina che ci sono alcuni perl-modules là fuori - che può aiutare a fare questo ...

Beh - penso che questo lavoro solo può essere fatto con un po 'di OCR integrato! Domanda: c'è un perl-modulo che può essere utilizzato qui per sostenere questo compito:

A proposito: vedere il risultato pagine.

vedere un'immagine

A proposito ;: e, come ho pensato che riesco a trovare tutti i 790 resultpages entro un certo range compreso tra Id = 0 e id = 100000 ho pensato, che posso andare via con un ciclo:

http://www.foundationfinder.ch/ShowDetails.php ? Id = 11233 & InterfaceLanguage = & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 927 & InterfaceLanguage = 1 & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 949 & InterfaceLanguage = 1 & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 20011 & InterfaceLanguage = 1 & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 10579 & InterfaceLanguage = 1 & type = Html

ho pensato che posso andare Perl-Way, ma io non sono molto molto sicuro: Stavo cercando di utilizzare LWP :: UserAgent sugli stessi URL [vedi sotto] con argomenti diversi di query, e mi chiedo se LWP :: UserAgent fornisce un modo per noi di ciclo tra gli argomenti di query? Io non sono sicuro che LWP :: UserAgent ha un metodo per noi fare questo. Ebbene - a volte sentito che è più facile da usare Mechanize. Ma è davvero così facile!?

Ma - ad essere sinceri; Il primo compito "Ottenere tutte le pagine non è molto difficile - se confrontiamo questo compito con l'analisi ... Come questo può essere fatto !?

Tutte le idee - suggerimenti -

vediamo l'ora di sentire da voi ...

a zero

Soluzione

Non è necessario un modulo Perl, è necessario solo la funzione system.

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Potrebbe essere necessario pre-elaborare le immagini all'aiuto Tesseract, dire usando ImageMagick come:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow