Come calcolare le probabilità dalle matrici di confusione?Hai bisogno di denominatore, matrici di caratteri

https://stackoverflow.com//questions/10708852

13-12-2019
|

Domanda

Questo documento contiene matrici di confusione per gli errori di ortografia in acanale rumoroso.Descrive come correggere gli errori in base alle proprietà condizionali.

Il calcolo della probabilità condizionale è a pagina 2, colonna sinistra.Nella nota 4, pagina 2, colonna sinistra, gli autori dicono: "Le matrici dei caratteri possono essere facilmente replicate e sono quindi omesse dall'appendice."Non riesco a capire come possono essere replicati!

Come replicarli?Ho bisogno del corpus originale?Oppure, gli autori significarono che potrebbero essere raccomandati dal materiale nel foglio stesso?

Soluzione

Guardando la carta, devi solo calcolarli usando un corpus, lo stesso o uno pertinente per la tua applicazione.

Nel replicare le matrici, notare che definiscono implicitamente due diverse matrici chars: un vettore e una matrice N-By-N. Per ogni carattere x, il vettore chars contiene un conteggio del numero di volte che il carattere x si è verificato nel corpus. Per ogni sequenza di caratteri xy, la matrice chars contiene un conteggio del numero di volte in cui la sequenza si è verificata nel corpo.

chars[x] rappresenta una ricerca di x nel vettore; chars[x,y] rappresenta una ricerca della sequenza xy nella matrice. Nota che chars[x]= la somma su chars[x,y] per ciascun valore di y.

Nota che i loro conteggi sono tutti basati sul 1988 AP newswire Corpus ( Disponibile dal LDC ). Se non riesci a usare il loro corpo esatto, non penso che sarebbe irragionevole usare un altro testo dallo stesso genere (cioè un altro newswire corpus) e ridimensiona i tuoi conteggi tali da adattarsi ai dati originali. Cioè, la frequenza di un determinato personaggio non dovrebbe variare troppo da un testo all'altro se sono abbastanza simili, quindi se hai un corpus di 22 milioni di parole di Newswire, potresti contare i personaggi in quel testo e Quindi raddoppiali per approssimare i loro conteggi originali.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow