Domanda

Sto eseguendo OCR usando Tesseract 2.04 in alcune immagini e ora ho per ottenere la posizione precisa del testo ocearizzato. Ma questa versione non restituisce queste informazioni.

Ho bisogno di questo per generare un file PDF ricercabile. Ho già imparato a stampare un testo in un livello sotto il PDF, ma ho bisogno della posizione per timbrare questo testo. La mia prima idea è eseguire OCR nel PDF, ottenere il testo e la posizione del testo, per timbrare il PDF con API ITEXT.

È stato utile?

Soluzione

Internamente a Itext abbiamo anche esaminato l'OCR. Ed è possibile (usando tesseract).

flusso di lavoro:

  1. Estrai tutte le immagini dal PDF usando iText
  2. Estrai il testo (e le coordinate, il carattere, ecc.) Usando Tesseract
  3. Applicare le trasformazioni di coordinate (poiché il sistema di coordinate di tesseract e il sistema di coordinate ITEXT non sono gli stessi)
  4. Aggiungi un livello al PDF (Canvas.beginLayer)
  5. Disegna tutto il testo in questo livello nella posizione corretta

Ci sono molte altre ottimizzazioni che potresti fare. Un breve elenco di suggerimenti:

  • basale corretta
  • Carattere corretto
  • Corretti errori di ortografia
  • stimare il colore
  • stimare il colore di sfondo

Questo non è un compito facile. Ma certamente possibile.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top