Compressão do DCT - tamanho do bloco, escolhendo coeficientes

https://stackoverflow.com/questions/1955663

21-09-2019
|

Pergunta

Estou tentando entender o efeito do tamanho do bloco e a melhor estratégia de escolher os coeficientes na compactação do DCT. Basicamente, quero perguntar o que escrevi aqui:

Compressão em vídeo: O que é transformar discreto cosseno?

Vamos supor a compressão mais primitiva. Fazendo bloco de uma imagem. Realizando um DCT em cada blog e eliminando alguns coeficientes.

Para minha compreensão, quanto menor o bloco, melhor. Blocos menores significam que os pixels estão mais correlacionados, portanto, a energia no espectro DCT é mais "compacta". Deve ser mais enfatizado em imagens variadas rápidas (alta frequência).

Digamos que tenhamos uma certa porcentagem dos coeficientes, o que resultaria em melhor qualidade de imagem, pequenos ou grandes blocos? Digamos que mantemos, 10%, 25%, 50%, 75%, você diria que é uma resposta diferente para uma porcentagem diferente?

Outra questão é como escolher os coeficientes que você deixa intocado. Para que não diga que tenho que tomar uma decisão com base na localização e não na energia. Você faria um quadrado do canto superior esquerdo? Eu calculei a média de muitos blocos no espectro DCT e concluí o melhor levar um triângulo do canto superior esquerdo. O que você acha?

Espero ter uma discussão eficaz.

Solução

A essência da sua pergunta parece ser sobre qualidade da imagem. Houve uma literatura considerável produzida sobre o assunto, e o resultado é que a qualidade da imagem é uma coisa difícil de determinar.

Medidas de erro matemático padrão como a relação sinal / ruído (SNR) e erro quadrado médio (MSE) podem dar uma resposta quantitativa, mas é sabido que eles não se correlacionam bem com as opiniões subjetivas dos espectadores, que devem ser nossos autoridade final. Nenhum outro método, mesmo aqueles fundados em modelos psicovisuais do espectador (por exemplo, sa karunasekera e ng kingsbury, “uma medida de distorção para bloquear artefatos em imagens baseadas na sensibilidade visual humana”, IEEE Trans. Na imagem Proc. , nº 6, junho de 1995, pp. 713 –724; e M. Miyahara, K. Kotani e VR Algazi, “Escala de qualidade de imagem objetiva (PQS) para codificação de imagem”, IEEE Trans. On Comm. Vol. 46, 9, setembro de 1998, pp. 1215 –1226), provaram ser melhores que o SNR.

Além disso, quando você varia o tipo de imagem (desenho de linha, desenho animado, foto, retrato etc.), certos tipos de distorção de compressão se tornam mais evidentes. O ruído de mosquito pode ser censurável em uma imagem, enquanto o ruído da escada pode ser o culpado em outro.

Em suma, não há resposta PAT para sua pergunta: "O que resultaria em melhor qualidade de imagem?"

Dito isto, podemos dizer algumas coisas sobre o DCT que são de relevância. Os pixels em um DCT de um bloco vão de baixa variação para alta variação em um padrão em zig-zag no canto superior esquerdo [(0,0)-> (0,1)-> (1,0)-> (2 , 0)-> (1,1)-> (0,2)-> etc.], como seus espelhos de seleção de triângulo. Quanto mais próximo um pixel estiver do canto superior esquerdo, mais suave a informação contida nela [de fato, o valor (0,0) do DCT é a média de todo o bloco], e quanto mais longe daquele canto você fica, mais Detalhes de "alta frequência" que você receberá. Quanto mais perto da parte superior e à esquerda da imagem, mais detalhes horizontais e verticais você representará por esse coeficiente de DCT e mais perto da diagonal do bloco, mais detalhes diagonais você terá.

Em resumo, a compressão com perdas geralmente implica jogar fora alguns dos "detalhes" que podem não ser perceptíveis aos olhos. (Jogando fora os valores de DCT "mais suaves" resulta em distorção grave.) Quanto mais valores de DCT você jogar fora, maior será a sua taxa de compressão, mas também maior distorção você induzirá.

Quanto ao tamanho do bloco, tudo depende. Quanto mais variação e detalhes houver em um bloco, mais você perderá jogando fora coeficientes. Alguns algoritmos de compressão usam de forma adaptável tamanhos de blocos diferentes na mesma imagem, para que as regiões de alto detalhamento recebam mais e menores blocos e regiões suaves recebem cada vez maiores blocos.

Para algoritmos que usam um único tamanho de bloco, 8x8, 16x16 e 32x32 são comuns para coisas como JPEG e MPEG. O processamento necessário para comprimi -los será menor que um tamanho de bloco adaptativo, mas a qualidade também será menor em geral.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow