Estrarre il paragrafo pause dal testo OCR?

https://stackoverflow.com/questions/5925561

30-10-2019
|

Domanda

Sto cercando di ricreare i paragrafi e le rientranze dall'output del testo dell'immagine OCR'd, così:

Ingresso (Immagina che questa sia un'immagine, non digitata):

enter image description here

Produzione (con alcuni errori):

enter image description here

Come puoi vedere, nessuna pausa di paragrafo o rientranze viene preservata.

Usando Python, ho provato un approccio come questo, ma non funziona (fallisce troppo spesso):

Codice:

def smart_format(text):
  textList = text.split('\n')
  temp = ''

  averageLL = sum([len(line) for line in textList]) / len(textList)

  for line in textList:
    if (line.strip().endswith('!') or line.strip().endswith('.') or line.strip().endswith('?')) and not line.strip().endswith('-'):
      if averageLL - len(line) > 7:
        temp += '{{ paragraph }}' + line + '\n'
      else:
        temp += line + '\n'
    else:
      temp += line + '\n'

  return temp.replace(' -\n', '').replace('-\n', '').replace(' \n', '').replace('\n', ' ').replace('{{ paragraph }}', '\n\n      ')

Qualcuno ha qualche suggerimento come come potrei ricreare questo layout? Sto lavorando con i vecchi libri, quindi speravo di ricupersarli con LaTex, poiché è abbastanza semplice creare una sceneggiatura Python per farlo.

Grazie!

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow