让我们说我有一个字母表 $$ \ sigma={a,b,c,d,e \} $$

具有概率 $$ p(a)= p(b)= p(c)= 0.25 \ text {and} p(d)= p(e)= 0.125。$$

我知道那个熵是: $$ h(\ sigma)= 3 \ cdot 0.25 \ cdot \ log 4 + 2 \ cdot 0.125 \ cdot \ log 8= 2.25。$$

现在我的问题是:这与压缩的下限有何意义?我将至少需要压缩由上述字母组成的文本?

有帮助吗?

解决方案

这个想法是解码更频繁使用的符号,比使用少量比率

所以你的例子意味着如果我们在比e,d而不是eciprobable解码中解码a,b,c的解码,我们可以压缩更多 通过霍夫曼编码A,B,C由2位表示(即log 4);而D,E需要3位(log 8) 这样你的预期编码大小是最小的(2.25 *文本长度),因为你希望你的文件有0.25个字符作为一个,... 0.125,...

我希望这可以清除...

许可以下: CC-BY-SA归因
不隶属于 cs.stackexchange
scroll top