Tesseract-Job: Как проанализировать изображение, чтобы извлечь из него информацию
Вопрос
доброе утро.
прежде всего. Это самое впечатляющее сообщество, которое я когда -либо видел!
Ну, несколько дней я размышлял о трехэтажной работе
а Получение б. Расположение c. Хранение ряда страниц.
Два дня назад я думал, что получение страниц будет главной задачей. Нет, это не так - я полагаю, что синхронизация будет героической задачей. Каждая из страниц, которые предназначены для анализа, является PNG-Image.
Так что вопрос - после того, как все они их. Как их проанализировать!? Это кажется проблемой. Угадайте, что есть несколько модулей Perl - которые могут помочь в этом ...
Ну, я думаю, что эта работа может быть выполнена только с встроенным OCR! Вопрос: Есть ли здесь модуль Perl, который можно использовать для поддержки этой задачи:
Кстати: см. Результаты.
Кстати, и, как я думал, я могу найти все 790 результатов в определенном диапазоне между id = 0 и id = 100000 Я подумал, что я могу пойти с помощью цикла:
http://www.foundationfinder.ch/showdetails.php?id=11233&interfacelanguage=&type=html http://www.foundationfinder.ch/showdetails.php?id=927&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=949&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=20011&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=10579&interfacelanguage=1&type=html
Я думал, что смогу пойти по-первой, но я не очень уверен: я пытался использовать lwp :: userAgent на одних и тех же URL-адресах [см. Ниже] с различными аргументами запроса, и мне интересно, предоставляет ли LWP :: userAgent Способ для нас пройти аргументы в пользу запроса? Я не уверен, что у LWP :: userAgent есть метод для этого. Ну - я иногда слышал, что это проще использовать механизунию. Но это действительно проще!?
Но - чтобы быть откровенным; А первая задача «Получение всех страниц не очень сложно - если мы сравним эту задачу с Расположение... Как Можно ли это сделать!?
Любые идеи - предложения -
с нетерпением ждем ответа от Вас...
нуль
Решение
Вам не нужен модуль Perl, вам только нужен только system
функция
system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');
Вам может потребоваться предварительно обработать изображения, чтобы помочь Tesseract, скажем, используя ImageMagick Like:
system qw[ convert.exe -resize 200% image.jpg foo.png ];