Pregunta

Buenos dias.

ante todo. ¡Esta es la comunidad más impresionante que he visto!

Bueno, varios días reflexioné sobre el trabajo triple de

una. Contiendo b. analizador c. almacenar varias páginas.

Hace dos días pensé que obtener las páginas sería la tarea mayor. No, este no es el caso, supongo que el parser -trabajo sería una tarea heroica. Cada una de las páginas que están destinadas a analizarse es una imagen PNG.

Entonces la pregunta es: después de obtener todos ellos. ¿Cómo analizarlos? Este parece ser el problema. Supongo que hay algunos módulos perl por ahí, que pueden ayudar a hacer esto ...

Bueno, ¡creo que este trabajo solo se puede hacer con algunos OCR incrustados! Pregunta: ¿Existe un módulo perl que se pueda usar aquí para apoyar esta tarea:

Por cierto: ver las páginas de resultados.

see an image

Por cierto;: y como pensé que puedo encontrar las 790 páginas de resultados dentro de un cierto rango entre ID = 0 e ID = 100000 pensé, que puedo seguir el camino con un bucle:

http://www.foundationfinder.ch/showdetails.php?id=11233&interfacelanguage=&type=html http://www.foundationfinder.ch/showdetails.php?id=927&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=949&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=20011&interfacelanguage=1&type=html http://www.foundationfinder.ch/showdetails.php?id=10579&interfacelanguage=1&type=html

Pensé que podía ir por el camino de Perl, pero no estoy muy seguro: estaba tratando de usar LWP :: UserAgent en las mismas URL [ver más abajo] con diferentes argumentos de consulta, y me pregunto si LWP :: UserAgent proporciona un ¿Camino de que avancemos a través de los argumentos de consulta? No estoy seguro de que LWP :: UserAgent tenga un método para que lo hagamos. Bueno, a veces escuché que es más fácil usar mecanizar. ¿Pero es realmente más fácil??

Pero - ser franco; los Primera tarea "Obtener todas las páginas no es muy difícil: si comparamos esta tarea con el análisis... Cómo Se puede hacer esto!?

Cualquier idea - sugerencias -

Espero recibir noticias suyas pronto...

cero

¿Fue útil?

Solución

No necesita un módulo perl, solo necesita el system función.

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Es posible que deba preprocesar las imágenes para ayudar a Tesseract, por ejemplo, usando ImageMagick como:

system qw[ convert.exe -resize 200%   image.jpg foo.png ];
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top