Tesseract-Job：如何解析图像以获取信息

https://stackoverflow.com/questions/6811892

25-10-2019
|

题

早上好。

首先。这是我见过的最令人印象深刻的社区！

好了几天，我想到了三重的工作

一个。得到b。解析c。存储许多页面。

两天前，我认为获取页面将是主要任务。不，事实并非如此 - 我想解雇者将是一项英勇的任务。打算解析的每个页面都是PNG图像。

因此，问题是 - 在获得所有人之后。如何解析它们！？这似乎是问题。猜猜那里有一些perl模型 - 可以帮助这样做...

好吧 - 我认为只能通过嵌入的OCR完成这项工作！问题：是否有可以在此处使用PERL模块来支持此任务：

顺便说一句：请参阅结果页。

see an image

顺便说一句；正如我认为我可以在ID = 0和ID = 100000之间的一定范围内找到所有790个结果页面，我认为我可以通过循环走。

http://www.foundationfinder.ch/showdetails.php?id=11233&interfaceLanguage=&type=html http://www.foundationfinder.ch/showdetails.php?id=927&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=949&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=20011&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=10579&interfaceLanguage=1&type=html

我以为我可以去Perl-way，但我不太确定：我试图在同一URL上使用LWP :: Useragent（请参见下文），并带有不同的查询参数，我想知道LWP :: Useragent是否提供了一个我们可以通过查询论点循环？我不确定LWP :: Useragent是否有一种方法可以做到这一点。好吧 - 有时我听说使用机械化更容易。但是真的很容易！

但是 - 坦率地；这 第一个任务“获取所有页面 不是很困难 - 如果我们将此任务与解析... 如何 可以做到吗!?

任何想法 - 建议 -

期待收到你的回复...

零

解决方案

您不需要Perl模块，您只需要 system 功能。

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

您可能需要预处理图像来帮助Tesseract，例如使用ImageMagick，例如：

system qw[ convert.exe -resize 200%   image.jpg foo.png ];

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow