سؤال

أحاول أن أفهم تأثير حجم الكتلة وأفضل استراتيجية لاختيار المعاملات في ضغط DCT.في الأساس أريد أن أسأل ما الذي كتبته هنا:

ضغط الفيديو:ما هو تحويل جيب التمام المنفصلة؟

لنفترض الضغط الأكثر بدائية.صنع كتلة من الصورة.إجراء DCT على كل مدونة وتصفية بعض المعاملات.

حسب فهمي، كلما كانت الكتلة أصغر كلما كان ذلك أفضل.الكتل الأصغر تعني أن البكسلات أكثر ارتباطًا وبالتالي فإن الطاقة في طيف DCT تكون أكثر "إحكاما".ينبغي التأكيد عليه بشكل أكبر في الصور المتغيرة بسرعة (التردد العالي).

لنفترض أننا قمنا بتصفية نسبة معينة من المعاملات، ما الذي قد يؤدي إلى أفضل جودة للصورة، كتل صغيرة أم كبيرة؟لنفترض أننا احتفظنا بـ 10%، 25%، 50%، 75%، هل تعتقد أنها إجابة مختلفة لنسبة مئوية مختلفة؟

هناك مشكلة أخرى وهي كيفية اختيار المعاملات التي تتركها دون تغيير.لنفترض أنه يتعين علي اتخاذ قرار بناءً على الموقع وليس الطاقة.هل يمكنك أخذ مربع من الزاوية اليسرى العليا؟لقد قمت بحساب متوسط ​​العديد من الكتل في طيف DCT وخلصت إلى أن الأفضل هو أخذ مثلث من الزاوية اليسرى العليا.ماذا تعتقد؟

نأمل أن تكون لدينا مناقشة فعالة.

هل كانت مفيدة؟

المحلول

يبدو أن جوهر سؤالك يتعلق بجودة الصورة.لقد تم إنتاج عدد كبير من المؤلفات حول هذا الموضوع، والنتيجة هي أنه من الصعب تحديد جودة الصورة.

يمكن لمقاييس الخطأ الرياضي القياسية مثل نسبة الإشارة إلى الضوضاء (SNR) والخطأ التربيعي المتوسط ​​(MSE) أن تعطي إجابة كمية، ولكن من المعروف أن هذه لا ترتبط جيدًا بآراء المشاهدين الذاتية، والتي يجب أن تكون لدينا السلطة النهائية.لا توجد طرق أخرى، حتى تلك المبنية على نماذج نفسية بصرية للمشاهد (على سبيل المثال، S.A.كاروناسيكيرا وإن جي.كينجسبري، "مقياس تشويه لحجب القطع الأثرية في الصور بناءً على الحساسية البصرية البشرية"، IEEE Trans.على الصورة بروك.المجلد.4، لا.6 يونيو 1995، ص.713 -724؛و م.ميهارا، ك.كوتاني، و V.ر.الغازي، "مقياس جودة الصورة الموضوعي (PQS) لترميز الصورة"، IEEE Trans.على بالاتصالات.المجلد.46، لا.9 سبتمبر.1998، ص.1215 – 1226)، أثبتوا أنهم أفضل من SNR.

علاوة على ذلك، عندما تقوم بتغيير نوع الصور (رسم خطي، رسوم متحركة، صورة فوتوغرافية، صورة شخصية، وما إلى ذلك)، تصبح أنواع معينة من تشويه الضغط أكثر وضوحًا.قد تكون ضوضاء البعوض مرفوضة في إحدى الصور، بينما قد تكون ضوضاء الدرج هي السبب في صورة أخرى.

باختصار، لا توجد إجابة واضحة لسؤالك، "ما الذي سيؤدي إلى أفضل جودة للصورة؟"

ومع ذلك، يمكننا أن نقول بعض الأشياء ذات الصلة بـ DCT.تنتقل وحدات البكسل الموجودة في DCT للكتلة من التباين المنخفض إلى التباين العالي في نمط متعرج من الزاوية اليسرى العليا [(0,0)->(0,1)->(1,0)->(2 ,0)->(1,1)->(0,2)->إلخ.]، كانعكاس للمثلث الذي حددته.كلما اقترب البكسل من الزاوية اليسرى العليا، كلما كانت المعلومات الواردة فيه أكثر سلاسة [في الواقع، قيمة DCT (0,0) هي متوسط ​​الكتلة بأكملها]، وكلما ابتعدت عن تلك الزاوية، كلما زادت تفاصيل "عالية التردد" ستحصل عليها.كلما اقتربت من أعلى الصورة ويسارها، زادت التفاصيل الأفقية والرأسية التي ستمثلها بمعامل DCT، وكلما اقتربت من قطر الكتلة، زادت التفاصيل القطرية التي ستحصل عليها.

باختصار، عادةً ما يستلزم الضغط مع فقدان البيانات التخلص من بعض "التفاصيل" التي قد لا تكون مرئية للعين.(يؤدي التخلص من قيم DCT "الأكثر سلاسة" إلى تشويه شديد.) كلما زاد عدد قيم DCT التي تتخلص منها، زادت نسبة الضغط لديك، ولكن أيضًا زاد التشويه الذي ستحدثه.

أما بالنسبة لحجم الكتلة، كل هذا يتوقف.كلما زاد التباين والتفاصيل الموجودة في الكتلة، زادت خسارتك من خلال التخلص من المعاملات.تستخدم بعض خوارزميات الضغط بشكل تكيفي أحجام كتل مختلفة داخل نفس الصورة بحيث تتلقى المناطق ذات التفاصيل العالية كتلًا أكثر وأصغر وتتلقى المناطق الناعمة كتلًا أقل وأكبر.

بالنسبة للخوارزميات التي تستخدم حجم كتلة واحدة، فإن 8x8 و16x16 و32x32 شائعة في أشياء مثل JPEG وMPEG.ستكون المعالجة المطلوبة لضغطها أصغر من حجم الكتلة التكيفية، لكن الجودة ستكون أيضًا أقل بشكل عام.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top