適応算術符号化混乱

https://cs.stackexchange.com/questions/127347

29-09-2020
|

質問

適応算術符号化の点について混乱しています。

静的算術符号化は、プロセス全体の間に静的なままであるシンボルのプリセット確率を使用することを理解しています。また、適応算術符号化は、各シンボルに遭遇した後にすべての確率を変更することも理解しています。

しかし、各シンボルの後の確率を変えるという点は何ですか？最初にファイル全体を通過して確率を決定し、次に第2パスとして算術符号化を行い、その確率を決定したのはなぜだろうか。

さらに、シンボルの確率の変化が圧縮にどのように影響するかを理解していませんか。私たちが圧縮しているファイル内のシンボルの真の確率を知っていれば、ファイルを小さくするのでしょうか。

解決

まず、「ファイル全体を通過する」を検討してください。ここで考える価値があるいくつかの仮定があります。

ファイルは非常に大きくてもよく、2回を横断することができます。これが、ほとんどの現実的な圧縮規格がブロックまたは窓の周りに基づいている理由の1つです。

通信チャネルのように、「ファイル全体」が始まっていない状況があります。 TLS （少なくとも1.3前）は、例えば圧縮をサポートします。

ファイルは必ずしも同質ではありません。アーカイブ（例えば、 tar ）は、Pointの場合です。ファイルの一部に適した統計モデルは、他の部分に適していない可能性があります。適応コーディングはこれにも適応します。

あなたの最終的な質問に関して、エンコーダとデコーダの両方が私たちが圧縮しているファイル内のシンボルの真の確率を知っていた場合、それは送信される必要はありません。そして、確かに、私たちは時々現実の世界でこれを行います。たとえば、JPEG規格は、それらが適切な場合にデフォルトのコーディングテーブルを指定し、エンコーダがそれらがそうでないときに自分自身を供給させることを可能にします。

静的符号化テーブルを効率的に送信する（すなわち圧縮）は、特に大きなコードアルファベットのための非通の問題である。よく設計された方式では、テーブルを送信するコストは、適応コードを使用する「学習コスト」と等しくなければならない。

ライセンス： CC-BY-SA と帰属

所属していません cs.stackexchange