Pregunta

Yo uso Abbyy FineReader para ScanSnap a OCR un par de archivos PDF escaneados. El software afirma que retiene las imágenes PDF originales. Los tamaños de archivos PDF pre-OCR y Post-OCR son casi idénticos, lo cual es bueno.

Después de que se realiza el software, todas las imágenes PDF aparecen anti-alias en Acrobat X. La navegación de la página es mucho más lenta que antes, y cuando me acerco, las imágenes primero van a lo que parece el pre-anti-anti-aliasing. versión antes de cambiar rápidamente a imágenes anti-alias.

Izquierda: PDF escaneado / derecha: después de OCR con ABBYY ingrese la descripción de la imagen aquí

Me gustaría obtener las imágenes originales sin el anti-alias. Curiosamente, cuando abro una sola página del PDF anti-alias en Photoshop, no hay anti-aliasing y la imagen se ve como la izquierda.

Mi experiencia de programación PDF limitada me lleva a creer que Abbyy probablemente establece algún tipo de bandera anti-alias para cada imagen durante el procesamiento de OCR. ¿Cómo puedo configurar esta bandera?

Cualquier puntero a ideas útiles sería muy apreciado.

¿Fue útil?

Solución

Hay entrada /Interpolate true en el diccionario de imágenes de la versión OCR-ED, y eso es lo que causa 'anti-aliasing'.Ya sea que (y no JPEG2000 en lugar de la compresión JPEG) es una causa de desaceleración, verifica los archivos suficientemente grandes.

Para no configurar esta tecla, lo mejor sería apagarlo mientras crea un archivo, y si eso no es posible, para escribir y ejecutar un programa pequeño en lenguaje adecuado.

Pero, dado que su archivo no deporte "Los objetos comprimidos" y la llave ofensiva están en vista simple dentro de un archivo, en el espíritu de 'trabajo hecho rápidamente', simplemente puede procesar su archivo por ejemplo.Me gusta esto:

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf

Otros consejos

Después de que se realiza el software, todas las imágenes PDF aparecen anti-alias en Acrobat X. La navegación de la página es mucho más lenta que antes, y cuando me acerco, las imágenes primero van a lo que parece el pre-anti-anti-aliasing. versión antes de cambiar rápidamente a imágenes anti-alias.

En realidad en el archivo original 2013_11_15_22_51_31.pdf contiene una imagen JPEG mientras que el OCR 'Ed file 2013_11_15_22_51_31_ocr.pdf contiene una imagen jpeg2000.

Comparándolos en espectadores de terceros, queda claro que la imagen en el archivo OCR'ed no es inherentemente anti-alias. Además, no hay una bandera evidente en el PDF, instruyendo a los espectadores PDF para aplicar anti-aliasing a la imagen JPEG2000. Por lo tanto, Adobe Reader parece renderizar automáticamente las imágenes JPEG y JPEG2000 de manera diferente, aplicando el aliasing a este último, pero no a la primera.

Comparando ambas imágenes en detalle, sin embargo, queda claro que estas imágenes no son idénticas, sino que la imagen en el PDF OCR está ligeramente girada.

Supongo que Abbyy FineReader reconoció que la imagen escaneada original no está correctamente orientada. Por lo tanto, lo giró ligeramente para corregir esta orientación.

Por lo tanto, la reemplazo de la imagen en la versión OCR'ed con la de la original de la original no es una opción: debido a la rotación, la información de OCR estaría parcialmente apagado.

Lo que quiera querer probar es recodificar la imagen JPEG2000 a JPEG y reemplazar la imagen en la versión OCR'ed con esta recodificada. Esto significará cierta pérdida de calidad, pero lo más probable es que pueda deshacerse de la anti-aliasing de esta manera.

Sin embargo,

Sé consciente, que la imagen JPEG2000 es ligeramente más grande que la imagen JPEG para acomodar la rotación.

PS: Como señaló @vadimr, de hecho, hay una entrada verdadera de / interpolación en el diccionario de imágenes de la versión OCR-ED Me perdí al mirar el archivo. Esto no parece ser el principal problema que desacele la representación.

The Original JPEG

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top