データ圧縮 - エントロピー

https://cs.stackexchange.com/questions/124550

29-09-2020
|

質問

アルファベットがあると言ってみましょう $$ \ sigma={a、b、c、d、e \} $$

確率を持つ $$ p（a）= p（b）= p（c）= 0.25 \テキスト{およびd）= p（e）= 0.125。$$

エントロピーが次のとおりです。 $$ h（\ sigma）= 3 \ CDOT 0.25 \ CDOT \ log 4 + 2 \ CDOT 0.125 \ CDOT \ log 8= 2.25。$$

私の質問は今のところ、圧縮の下限に関してこれはどういう意味ですか？少なくとも上記のアルファベットからなるテキストを圧縮する必要がありますか？

解決

アイデアは、使用されていないものより少ないビット数でより頻繁に使用されるシンボルを復号することです

SO URの例とは、RequibleBable DecodingではなくE、B、Cをe、dよりも小さいビットで復号すると、より多くの圧縮できることを意味します。ハフマン符号化A、B、Cは2ビット（それはログ4）で表される。D、Eは3ビットを取ります（ログ8）このように、UR予想符号化サイズは、URファイルがその文字として0.25を設定することを期待しているため、最小限（2.25 *テキスト長）、... 0.125 e、...

私はこれがそれを明確にすることを願っています...

ライセンス： CC-BY-SA と帰属

所属していません cs.stackexchange