早上好。

首先。这是我见过的最令人印象深刻的社区!

好了几天,我想到了三重的工作

一个。得到b。解析c。存储许多页面。

两天前,我认为获取页面将是主要任务。不,事实并非如此 - 我想解雇者将是一项英勇的任务。打算解析的每个页面都是PNG图像。

因此,问题是 - 在获得所有人之后。如何解析它们!?这似乎是问题。猜猜那里有一些perl模型 - 可以帮助这样做...

好吧 - 我认为只能通过嵌入的OCR完成这项工作!问题:是否有可以在此处使用PERL模块来支持此任务:

顺便说一句:请参阅结果页。

see an image

顺便说一句;正如我认为我可以在ID = 0和ID = 100000之间的一定范围内找到所有790个结果页面,我认为我可以通过循环走。

http://www.foundationfinder.ch/showdetails.php?id=11233&interfaceLanguage=&type=html http://www.foundationfinder.ch/showdetails.php?id=927&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=949&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=20011&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=10579&interfaceLanguage=1&type=html

我以为我可以去Perl-way,但我不太确定:我试图在同一URL上使用LWP :: Useragent(请参见下文),并带有不同的查询参数,我想知道LWP :: Useragent是否提供了一个我们可以通过查询论点循环?我不确定LWP :: Useragent是否有一种方法可以做到这一点。好吧 - 有时我听说使用机械化更容易。但是真的很容易!

但是 - 坦率地;这 第一个任务“获取所有页面 不是很困难 - 如果我们将此任务与 解析... 如何 可以做到吗!?

任何想法 - 建议 -

期待收到你的回复...

有帮助吗?

解决方案

您不需要Perl模块,您只需要 system 功能。

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

您可能需要预处理图像来帮助Tesseract,例如使用ImageMagick,例如:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];
许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top