¿Extraer saltos de párrafo del texto de OCR?

https://stackoverflow.com/questions/5925561

30-10-2019
|

Pregunta

Estoy tratando de recrear los párrafos y las hendiduras de la salida del texto de imagen OCR'd, como así:

Aporte (Imagine que esta es una imagen, no escrita):

enter image description here

Producción (con algunos errores):

enter image description here

Como puede ver, no se conservan saltos de párrafo ni hendiduras.

Usando Python, probé un enfoque como este, pero no funciona (falla con demasiada frecuencia):

Código:

def smart_format(text):
  textList = text.split('\n')
  temp = ''

  averageLL = sum([len(line) for line in textList]) / len(textList)

  for line in textList:
    if (line.strip().endswith('!') or line.strip().endswith('.') or line.strip().endswith('?')) and not line.strip().endswith('-'):
      if averageLL - len(line) > 7:
        temp += '{{ paragraph }}' + line + '\n'
      else:
        temp += line + '\n'
    else:
      temp += line + '\n'

  return temp.replace(' -\n', '').replace('-\n', '').replace(' \n', '').replace('\n', ' ').replace('{{ paragraph }}', '\n\n      ')

¿Alguien tiene alguna sugerencia sobre cómo podría recrear este diseño? Estoy trabajando con libros antiguos, así que esperaba volver a colocarlos con látex, ya que es bastante simple crear un guión de Python para hacerlo.

¡Gracias!

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow