Сжатие DCT - Размер блока, Выбираемые Коэффициенты

https://stackoverflow.com/questions/1955663

21-09-2019
|

Вопрос

Я пытаюсь понять влияние размера блока и наилучшую стратегию выбора коэффициентов при сжатии DCT.В принципе, я хочу спросить, что я здесь написал:

Сжатие видео:Что такое дискретное косинусное преобразование?

Давайте предположим самое примитивное сжатие.Создание блока изображения.Выполнение DCT для каждого блога и обнуление некоторых коэффициентов.

Насколько я понимаю, чем меньше блок, тем лучше.Меньшие блоки означают, что пиксели более коррелированы, следовательно, энергия в спектре DCT более "Компактна".Это должно быть более подчеркнуто в быстро меняющихся изображениях (Высокая частота).

Допустим, мы обнулим определенный процент коэффициентов, что приведет к наилучшему качеству изображения, маленькие или большие блоки?Допустим, мы сохраняем, 10%, 25%, 50%, 75%, вы бы сказали, что это другой ответ для другого процента?

Другой вопрос заключается в том, как выбрать коэффициенты, которые вы оставляете нетронутыми.Допустим, я должен принимать решение, основанное на местоположении, а не на энергии.Не могли бы вы взять квадрат из верхнего левого угла?Я усреднил многие блоки в спектре DCT и пришел к выводу, что лучшим было бы взять треугольник из верхнего левого угла.А ты как думаешь?

Надеюсь, у нас получится эффективная дискуссия.

Решение

Суть вашего вопроса, по-видимому, сводится к качеству изображения.По этому вопросу было подготовлено значительное количество литературы, и в результате качество изображения трудно определить.

Стандартные математические показатели погрешности, такие как отношение сигнал / шум (SNR) и среднеквадратичная ошибка (MSE), могут дать количественный ответ, но хорошо известно, что они плохо коррелируют с субъективными мнениями зрителей, которые должны быть нашим окончательным авторитетом.Никакие другие методы, даже те, которые основаны на психовизуальных моделях зрителя (например, S.A.Карунасекера и Н.Г.Кингсбери, “Мера искажения для блокирования артефактов на изображениях, основанная на зрительной чувствительности человека”, IEEE Trans.на изображении Proc.вып.4, нет.6, Июнь 1995, стр.713 –724;и М.Мияхара, К.Котани и В.R.Алгази, “Объективная шкала качества изображения (PQS) для кодирования изображений”, перевод IEEE.по связи.вып.46, нет.9 сентября.1998, стр.1215 -1226), зарекомендовали себя лучше, чем SNR.

Более того, когда вы меняете тип изображения (линейный рисунок, мультфильм, фотография, портрет и т.д.), определенные типы искажений при сжатии становятся более очевидными.Шум от комаров может быть нежелательным на одном изображении, в то время как шум лестницы может быть причиной на другом.

Короче говоря, однозначного ответа на ваш вопрос "что привело бы к наилучшему качеству изображения?" нет.

С учетом сказанного, мы можем сказать некоторые вещи о DCT, которые имеют отношение к делу.Пиксели в DCT блока переходят от низкой вариации к высокой вариации в виде зигзагообразного рисунка от верхнего левого угла [(0,0)->(0,1)->(1,0)->(2,0)->(1,1)->(0,2)-> и т.д.], что соответствует вашему выбору треугольника.Чем ближе пиксель к верхнему левому углу, тем более сглажена содержащаяся в нем информация [фактически, значение DCT (0,0) является средним значением для всего блока], и чем дальше от этого угла вы удаляетесь, тем больше деталей "высокой частоты" вы получите.Чем ближе к верхней и левой части изображения, тем больше горизонтальных и вертикальных деталей вы будете представлять с помощью этого коэффициента DCT, и чем ближе к диагонали блока, тем больше у вас будет диагональных деталей.

Короче говоря, сжатие с потерями обычно влечет за собой удаление некоторых "деталей", которые могут быть незаметны глазу.(Исключение "более плавных" значений DCT приводит к серьезным искажениям.) Чем больше значений DCT вы отбрасываете, тем выше будет ваша степень сжатия, но также и тем большие искажения вы вызовете.

Что касается размера блока, то все зависит от обстоятельств.Чем больше дисперсий и деталей в блоке, тем больше вы потеряете, отбрасывая коэффициенты.Некоторые алгоритмы сжатия адаптивно используют различные размеры блоков в пределах одного и того же изображения, так что области с высокой детализацией получают больше блоков меньшего размера, а гладкие области - меньше блоков большего размера.

Для алгоритмов, использующих размер одного блока, 8x8, 16x16 и 32x32 являются общими для таких файлов, как JPEG и MPEG.Обработка, необходимая для их сжатия, будет меньше, чем размер адаптивного блока, но качество в целом также будет ниже.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow