题
让我们说我有一个字母表 $$ \ sigma={a,b,c,d,e \} $$
具有概率 $$ p(a)= p(b)= p(c)= 0.25 \ text {and} p(d)= p(e)= 0.125。$$
我知道那个熵是: $$ h(\ sigma)= 3 \ cdot 0.25 \ cdot \ log 4 + 2 \ cdot 0.125 \ cdot \ log 8= 2.25。$$
现在我的问题是:这与压缩的下限有何意义?我将至少需要压缩由上述字母组成的文本?
解决方案
这个想法是解码更频繁使用的符号,比使用少量比率
所以你的例子意味着如果我们在比e,d而不是eciprobable解码中解码a,b,c的解码,我们可以压缩更多 通过霍夫曼编码A,B,C由2位表示(即log 4);而D,E需要3位(log 8) 这样你的预期编码大小是最小的(2.25 *文本长度),因为你希望你的文件有0.25个字符作为一个,... 0.125,...我希望这可以清除...
不隶属于 cs.stackexchange