Сжатие данных - энтропия

https://cs.stackexchange.com/questions/124550

29-09-2020
|

Вопрос

Давайте скажем, у меня есть алфавит $$ \ sigma={a, b, c, d, e \} $$

с вероятностями $$ p (a)= p (b)= p (c)= 0,25 \ text {и} p (d)= p (e)= 0,125. $$

Я знаю, что энтропия тогда: $$ h (\ sigma)= 3 \ cdot 0.25 \ cdot \ log 4 + 2 \ cdot 0.125 \ cdot \ log 8= 2.25. $$

Мой вопрос сейчас есть: Что это означает в отношении более низкого предела сжатия?Сколько битов будет ли я по крайней мере надо сжать текст, который состоит из вышеуказанного алфавита?

Решение

Идея состоит в том, чтобы декодировать более часто используемые символы с меньшим количеством битов, чем менее используемые из них

Таким образом, ваш пример означает, что мы можем сжать больше, если мы декодируем a, b, c в меньшем количестве битов, чем e, d, возникающих, чем equiprobable декодирование Под кодированием Хаффмана A, B, C представлено 2 битами (это журнал 4);Пока D, E принимать 3 бита (журнал 8) Таким образом, ваш ожидаемый размер кодирования минимален (2.25 * Длина текста), потому что вы ожидаете, что ваш файл будет иметь 0,25 его символов как A, ... 0.125 AS E, ...

Я надеюсь, что это устраивает ...

Лицензировано под: CC-BY-SA с атрибуция

Не связан с cs.stackexchange