Datenkomprimierung - Entropie

https://cs.stackexchange.com/questions/124550

29-09-2020
|

Frage

Lassen Sie uns sagen, dass ich ein Alphabet habe $$ \ Sigma= {A, B, C, D, E \} $$

mit Wahrscheinlichkeiten $$ p (a)= p (b)= p (c)= 0,25 \ text {und} p (d)= p (e)= 0,125. $$

Ich weiß, dass die Entropie dann ist: $$ H (\ Sigma)= 3 \ CDOT 0.25 \ CDOT \ log 4 + 2 \ CDOT 0.125 \ CDOT \ log 8= 2,25. $$

Meine Frage jetzt ist: Was bedeutet das in Bezug auf die untere Kompressionsgrenze?Wie viele Bits muss ich zumindest einen Text komprimieren, der aus dem obigen Alphabet besteht?

Lösung

Die Idee ist, die häufiger verwendeten Symbole mit weniger Bits zu decodieren, als die weniger verwendeten

Ihr Beispiel bedeutet, dass wir mehr komprimieren können, wenn wir A, B, C in weniger Bits als E, D eher als ausgerüstbare Dekodierung dekodieren können Durch Huffman-Codierung A, B, C wird durch 2 Bits (das Protokoll 4) dargestellt ist;während d, e nehme 3 Bits (log 8) Auf diese Weise ist Ihre erwartete Codierungsgröße minimal (2,25 * Textlänge), da Sie erwarten, dass Sie Ihre Datei erwarten, dass Sie 0,25 seiner Zeichen als, ... 0,125 als E, ...

Ich hoffe, das macht es klar ...

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit cs.stackexchange