Pregunta

La respuesta a la pregunta aceptado C ++ Biblioteca de reconocimiento de imágenes: las imágenes que contienen palabras a cadena recomienda que:

  1. Upsize / Reducir el tamaño de la imagen de entrada a 300 DPI.

¿Cómo voy a hacer esto ... Yo tenía la impresión de que era DPI para los monitores, no formatos de imagen.

¿Fue útil?

Solución

Creo que el término más preciso aquí es remuestreo . ¿Quieres una resolución de píxeles de alta precisión suficiente para mantener a OCR. Tamaño de la fuente (por ejemplo, en puntos ) se mide típicamente en unidades de longitud, no píxeles. Desde 72 puntos = 1 pulgada, necesitamos 300/72 píxeles por punto para una resolución de 300 dpi ( "píxeles por pulgada"). Eso significa que una fuente típica de 12 puntos tiene una altura (o más exactamente, la línea de base a la línea de base a distancia en texto a un solo espacio) de 50 píxeles.

Lo ideal sería que los documentos de origen se debe analizar a una resolución adecuada para el tamaño de fuente determinada, de modo que la fuente de la imagen es de unos 50 píxeles de alto. Si la resolución es demasiado alta / baja, se puede volver a muestrear fácilmente la imagen usando un programa de gráficos (por ejemplo, GIMP ) . También puede hacerlo mediante programación a través de una biblioteca de gráficos, tales como ImageMagick que tiene interfaces para muchos lenguajes de programación.

Otros consejos

DPI tiene sentido siempre que esté relacionada de una imagen en píxeles a un dispositivo físico con un tamaño de imagen. En el caso de OCR, por lo general significa la resolución de la digitalización, es decir, el número de píxeles que va a obtener por cada pulgada de su exploración. Una fuente de 12 puntos está destinado a ser impreso en 12/72 pulgadas por línea, y un carácter en mayúscula podría llenar aproximadamente el 80% de los que; Por lo tanto, sería de aproximadamente 40 píxeles de alto cuando digitalizada a 300 DPI.

Muchos formatos de imagen tienen un DPI grabado en ellos. Si la imagen se escaneó, este debe ser el ajuste exacto del escáner. Si se trataba de una cámara digital, siempre dice 72 DPI, que es un valor por defecto mandato de la especificación EXIF; esto se debe a una cámara no puede saber el tamaño original de la imagen. Cuando se crea una imagen con un programa de imágenes, es posible que tenga la oportunidad de establecer el DPI a cualquier valor arbitrario. Esta es una conveniencia para especificar cómo desea que la imagen final que se utilizará, y no tiene que ver con los detalles contenidos en la imagen.

Aquí hay una pregunta anterior que pide los detalles de cambiar el tamaño de una imagen: ? ¿Cómo hago escalado de alta calidad de una imagen

software de OCR es típicamente diseñado para trabajar con tamaños de fuente "normales". Desde el punto de vista de la imagen, esto significa que va a estar buscando las letras tal vez de todo el rango de altura de 30 a 100 píxeles. Las imágenes de resolución mucho más alta producirían letras que aparecen demasiado grande para el software de OCR para procesar de manera eficiente. Del mismo modo, las imágenes de menor resolución no proporcionarían suficientes píxeles para el software a reconocer las letras.

"¿Cómo voy a hacer esto ... Yo tenía la impresión de que era dpi para monitores, no formatos de imagen."

DPI significa puntos por pulgada. ¿Qué tiene que ver con los monitores? Bueno, tenemos un píxel compuesto por tres subpíxeles RGB. Cuanto mayor sea el DPI, cuantos más detalles meter en ese espacio.

DPI es una medida útil para la muestra e imprime pero nada útil ... de hecho, nada por sí mismos formatos de imagen.

La razón de DPI está etiquetada dentro de algunos formatos es instruir a los dispositivos para mostrar a esa resolución, pero por lo que entiendo, prácticamente todos ignoran que la instrucción y hace todo lo posible para optimizar la imagen para una salida particular.

Puede cambiar a 72 dpi 1 ppp o 6000 ppp en un formato de imagen y no va a hacer una diferencia en absoluto en un monitor. "Upsize / reducir el tamaño de 300 dpi" no tiene sentido. Remuestreo no cambia ya sea DPI. Probarlo en Photoshop, desactive la casilla "Volver a muestrear" al cambiar el DPI y verá ninguna diferencia en absoluto. No va a ser más grande o más pequeño.

DPI es totalmente sin sentido para los formatos de imagen, la OMI.

Si su objetivo es OCR, el DIP tiene sentido ya que el número de puntos en la imagen para cada pulgada en el documento original escaneado. Si su ppp es demasiado baja, la información se ha ido para siempre, y la interpolación bicúbica incluso no va a un trabajo brillante a recuperarlo. Si su ppp es demasiado alto, es fácil de tirar bits.

Para hacer el trabajo; Soy un gran fan del conjunto de herramientas netpbm / PBMPLUS; la herramienta para empezar es pnmscale, aunque si tienes un mapa de bits que desee considerar herramientas relacionadas, como pbmreduce.

scroll top