Tesseract-Job: Как проанализировать изображение, чтобы извлечь из него информацию

https://stackoverflow.com/questions/6811892

25-10-2019
|

Вопрос

доброе утро.

прежде всего. Это самое впечатляющее сообщество, которое я когда -либо видел!

Ну, несколько дней я размышлял о трехэтажной работе

а Получение б. Расположение c. Хранение ряда страниц.

Два дня назад я думал, что получение страниц будет главной задачей. Нет, это не так - я полагаю, что синхронизация будет героической задачей. Каждая из страниц, которые предназначены для анализа, является PNG-Image.

Так что вопрос - после того, как все они их. Как их проанализировать!? Это кажется проблемой. Угадайте, что есть несколько модулей Perl - которые могут помочь в этом ...

Ну, я думаю, что эта работа может быть выполнена только с встроенным OCR! Вопрос: Есть ли здесь модуль Perl, который можно использовать для поддержки этой задачи:

Кстати: см. Результаты.

see an image

Кстати, и, как я думал, я могу найти все 790 результатов в определенном диапазоне между id = 0 и id = 100000 Я подумал, что я могу пойти с помощью цикла:

http://www.foundationfinder.ch/showdetails.php?id=11233&interfacelanguage=&type=html http://www.foundationfinder.ch/showdetails.php?id=927&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=949&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=20011&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=10579&interfacelanguage=1&type=html

Я думал, что смогу пойти по-первой, но я не очень уверен: я пытался использовать lwp :: userAgent на одних и тех же URL-адресах [см. Ниже] с различными аргументами запроса, и мне интересно, предоставляет ли LWP :: userAgent Способ для нас пройти аргументы в пользу запроса? Я не уверен, что у LWP :: userAgent есть метод для этого. Ну - я иногда слышал, что это проще использовать механизунию. Но это действительно проще!?

Но - чтобы быть откровенным; А первая задача «Получение всех страниц не очень сложно - если мы сравним эту задачу с Расположение... Как Можно ли это сделать!?

Любые идеи - предложения -

с нетерпением ждем ответа от Вас...

нуль

Решение

Вам не нужен модуль Perl, вам только нужен только system функция

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Вам может потребоваться предварительно обработать изображения, чтобы помочь Tesseract, скажем, используя ImageMagick Like:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow