Dizionario ad-hoc

https://stackoverflow.com//questions/25047110

21-12-2019
|

Domanda

Sto attualmente lavorando su un piccolo progetto con FineReader 11 SDK.Per migliorare i miei risultati mi piace lavorare con un dizionario ad-hoc.Il contenuto del dizionario è basato sulla prima parola di una determinata riga

Esempio:

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

La mia idea è di ricomporre la prima parola (Samsung o Apple) e riempire il dizionario con tutte le parole possibili in base al primo (per Samsung: Galaxy, S3, ...)

Qualche idea come risolverlo con FineReader

Saluti

Soluzione

Grazie per il chiarimento. Quindi ecco cosa puoi fare a mio avviso. Questo vale per la linea di prodotti FineReader e, naturalmente, nell'SDK hai un controllo più specifico tramite API.

FineReader OCR ha questi dizionari:

Dizionario incorporato - Grande set di parole comuni e le loro varianti, uno dei punti di forza della tecnologia ABBYY OCR. Non contiene parole specializzate, come "Samsung" e "S3", per esempio. Selezionando la lingua popolare, si accende automaticamente il dizionario incorporato per quella lingua.

Dizionario personalizzato - Questo è un dizionario che puoi costruire e utilizzare da solo o in combinazione con il dizionario integrato.

Quindi per il tuo progetto, credo che abbia senso usare il dizionario incorporato, perché le tue frasi potrebbero avere parole inglesi standard (non hai fornito frasi complete per me da vedere, quindi decidi su questo stesso). Io credo anche di essere necessario creare un dizionario personalizzato con marchi e modelli, ecc. Se hai questa opzione, e suona come te. Migliorerà notevolmente il riconoscimento, specialmente per le parole non naturali, come "S3", poiché le norme comuni della lingua indicano lettere e numeri non devono essere miscelati. Questo è molto facile da fare.

Attualmente non vedo il vantaggio di leggere ogni riga con un dizionario separato, a meno che non credi di avere un'intersezione di parole molto simili applicabili a linee diverse, e vorresti quelle parole in dizionari separati e relativi a ciascuna riga . Quindi puoi creare dizionari separati e attivare ogni dizionario per riconoscimento secondario in base alla parola iniziale. Tuttavia, per ottenere ciò, è necessario per la prima volta separare in righe (in memoria o effettivamente ritagliare le immagini) per poter elaborare ciascuna separatamente con il dizionario unico. Questo è possibile solo in SDK con una notevole quantità di lavoro.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow