Tesseract-Job:如何解析图像以获取信息
题
早上好。
首先。这是我见过的最令人印象深刻的社区!
好了几天,我想到了三重的工作
一个。得到b。解析c。存储许多页面。
两天前,我认为获取页面将是主要任务。不,事实并非如此 - 我想解雇者将是一项英勇的任务。打算解析的每个页面都是PNG图像。
因此,问题是 - 在获得所有人之后。如何解析它们!?这似乎是问题。猜猜那里有一些perl模型 - 可以帮助这样做...
好吧 - 我认为只能通过嵌入的OCR完成这项工作!问题:是否有可以在此处使用PERL模块来支持此任务:
顺便说一句:请参阅结果页。
顺便说一句;正如我认为我可以在ID = 0和ID = 100000之间的一定范围内找到所有790个结果页面,我认为我可以通过循环走。
http://www.foundationfinder.ch/showdetails.php?id=11233&interfaceLanguage=&type=html http://www.foundationfinder.ch/showdetails.php?id=927&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=949&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=20011&interfaceLanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=10579&interfaceLanguage=1&type=html
我以为我可以去Perl-way,但我不太确定:我试图在同一URL上使用LWP :: Useragent(请参见下文),并带有不同的查询参数,我想知道LWP :: Useragent是否提供了一个我们可以通过查询论点循环?我不确定LWP :: Useragent是否有一种方法可以做到这一点。好吧 - 有时我听说使用机械化更容易。但是真的很容易!
但是 - 坦率地;这 第一个任务“获取所有页面 不是很困难 - 如果我们将此任务与 解析... 如何 可以做到吗!?
任何想法 - 建议 -
期待收到你的回复...
零
解决方案
您不需要Perl模块,您只需要 system
功能。
system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');
您可能需要预处理图像来帮助Tesseract,例如使用ImageMagick,例如:
system qw[ convert.exe -resize 200% image.jpg foo.png ];