Question

bon Moring.

d'abord. C'est la communauté la plus impressionnante que j'ai jamais vu!

Eh bien plusieurs jours, je médita sur le travail de trois plié

a. obtention b. analyse syntaxique c. stocker un certain nombre de pages.

Il y a

Deux jours je pensais que l'obtention des pages serait la principale tâche. Non, ce isnt le cas - je suppose que l'analyseur de travail serait une tâche héroïque. Chacune des pages qui sont destinées à être parser est un .png image.

La question est - après avoir obtenu tous. Comment les analyser !? Cela semble être la question. Devinez qu'il ya des modules-perl là-bas - qui aide peut en faire ce ...

Eh bien - je pense que ce travail ne peut se faire avec un certain OCR intégré! Question: est-il un module perl qui peut être utilisé ici pour soutenir cette tâche:

BTW: voir les pages de résultats.

voir une image

BTW et que je ;: pensais que je peux trouver tous les 790 resultpages dans une certaine plage entre Id = 0 et Id = 100000 je pensais que je peux aller la voie avec une boucle:

http://www.foundationfinder.ch/ShowDetails.php ? Id = 11233 & InterfaceLanguage = & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 927 & InterfaceLanguage = 1 & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 949 & InterfaceLanguage = 1 & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 20011 & InterfaceLanguage = 1 & type = Html http://www.foundationfinder.ch/ShowDetails.php?Id= 10579 & InterfaceLanguage = 1 & type = Html

Je pensais que je peux aller le Perl-Way, mais je ne suis pas très bien sûr: Je tentais d'utiliser LWP :: UserAgent sur les mêmes URL [voir ci-dessous] avec différents arguments de la requête, et je me demande si LWP :: UserAgent fournit une moyen pour nous faire une boucle à travers les arguments de la requête? Je ne suis pas sûr que LWP :: UserAgent a une méthode pour nous de le faire. Eh bien - je parfois entendu qu'il est plus facile d'utiliser Mechanize. Mais est-il vraiment plus facile!

Mais - pour être franc; La tâche d'abord "faire toutes les pages est pas très difficile - si l'on compare cette tâche avec l'analyse syntaxique ... Comment peut-il être fait !

Toutes les idées - suggestions -

hâte de vous entendre ...

zéro

Était-ce utile?

La solution

Vous n'avez pas besoin d'un module Perl, il vous suffit de la fonction system.

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Il peut être nécessaire de prétraiter les images à l'aide Tesseract, par exemple en utilisant ImageMagick comme:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top