Compressione dei dati - Entropia
-
29-09-2020 - |
Domanda
Diciamo che ho un alfabeto $$ \ Sigma={A, B, C, D, E \} $$
con probabilità $$ P (A)= P (B)= P (c)= 0,25 \ Testo {e} P (D)= P (E)= 0,125. $$
So che l'entropia è allora: $$ H (\ Sigma)= 3 \ clot 0,25 \ cdot \ log 4 + 2 \ clot 0.125 \ cdot \ log 8= 2,25. $$
La mia domanda ora è: cosa significa in relazione al limite inferiore della compressione?Quanti bit avrò almeno bisogno di comprimere un testo che consiste nell'alfabeto sopra?
Soluzione
L'idea è di decodificare i simboli più frequentemente utilizzati con meno numero di bit rispetto a quelli meno usati
Quindi il tuo esempio significa che possiamo comprimere di più se decodifichiamo a, b, c in meno bit rispetto a E, D Decodifica piuttosto che attrezzatura Da Huffman Codificing A, B, C è rappresentato da 2 bit (questo registro 4);Mentre D, E prendi 3 bit (log 8) In questo modo la dimensione di codifica prevista è minima (2,25 * lunghezza del testo) perché ti aspetti che il tuo file abbia 0,25 dei suoi personaggi come a, ... 0.125 come E, ...
Spero che questo lo rende chiaro ...