데이터 압축 - 엔트로피

https://cs.stackexchange.com/questions/124550

29-09-2020
|

문제

알파벳이 있다고 가정 해 봅시다. $$ \ SIGMA={A, B, C, D, E \} $$

확률 $$ P (a)= p (b)= p (c)= 0.25 \ text {and} p (d)= p (e)= 0.125. $$

나는 엔트로피가 다음과 같다는 것을 압니다. $$ H (\ SIGMA)= 3 \ CDOT 0.25 \ CDOT \ LOG 4 + 2 \ CDOT 0.125 \ CDOT \ LOG 8= 2.25. $$

내 질문은 다음과 같습니다. 이는 압축의 하한과 관련하여 무엇을 의미합니까?적어도 위의 알파벳으로 구성된 텍스트를 압축해야합니까?

해결책

아이디어는 사용되지 않는 비트 수보다 적은 비트 수가 적은 비트 수를 덜 사용하는 것입니다

그래서 UR 예제는 우리가 E, B, C를 디코딩하는 경우, e, d보다 적은 비트에서, d, d보다 더 많은 것을 압축 할 수 있다는 것을 의미합니다. Huffman 코딩 A, B, C가 2 비트 (로그 4)로 표시됩니다.d, e는 3 비트를 섭취합니다 (로그 8) 이 방법은 UR 파일이 0.25의 캐릭터가 0.25 인 것으로 기대되기 때문에 예상되는 코딩 크기가 최소 (2.25 * 텍스트 길이)입니다. ... 0.125 e, ...

이것을 분명하게 만듭니다 ...

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 cs.stackexchange