Red de conocimientos turísticos - Curso de fotografía - Solicitar un artículo sobre tecnología multimedia de unas 3200 palabras.

Solicitar un artículo sobre tecnología multimedia de unas 3200 palabras.

Tecnología de compresión de imágenes multimedia

La tecnología de compresión de datos multimedia es una de las tecnologías clave para el desarrollo de las redes modernas. Debido a las diversas redundancias presentes en las señales de imagen y sonido, los datos se pueden comprimir. Hay dos tipos de tecnologías de compresión de datos: compresión sin pérdidas y compresión con pérdidas, y estas tecnologías de compresión tienen estándares diferentes.

1. Tecnología de compresión de datos multimedia

Cuando C.E. Shannon fundó la teoría de la información, propuso que los datos deberían considerarse como una combinación de información y redundancia. La compresión de datos temprana se convirtió en parte de la teoría de la información porque implicaba redundancia. Los datos se pueden comprimir debido a varias redundancias. Entre ellos, se encuentran la redundancia de tiempo, la redundancia espacial, la redundancia de entropía de la información, la redundancia de conocimiento previo y otras redundancias. La redundancia temporal es una redundancia común en el habla y las imágenes de secuencia, y existe una fuerte correlación entre dos fotogramas en las imágenes en movimiento. Al utilizar la compensación de movimiento entre cuadros, se puede reducir considerablemente la velocidad a la que se pueden comprimir los datos de la imagen. Lo mismo ocurre con la pronunciación. Especialmente en el segmento sonoro, la señal de voz muestra una fuerte periodicidad durante un tiempo prolongado (de varias a decenas de milisegundos) y se puede obtener una alta relación de compresión mediante predicción lineal. La redundancia espacial se utiliza para representar algunas regularidades espaciales en datos de imágenes, como una gran redundancia espacial en un fondo grande y uniforme. La redundancia de entropía de la información se refiere a la redundancia causada por no seguir una codificación óptima en el sentido de la teoría de la información en la representación simbólica de las fuentes de información. Esta redundancia se puede comprimir mediante codificación de entropía, como la codificación de Huff-man. La redundancia del conocimiento previo significa que la comprensión de los datos tiene una relación considerable con el conocimiento previo. Por ejemplo, cuando el receptor sabe que las primeras letras de una palabra son administrador, puede adivinar inmediatamente que la última letra es r, por lo que en este caso la última letra no contiene ninguna información, es a priori redundancia de conocimiento. Otra redundancia se refiere a la redundancia causada por información que no se siente subjetivamente.

Generalmente, la tecnología de compresión de datos se puede dividir en compresión sin pérdidas (también llamada compresión redundante) y compresión con pérdidas (también llamada compresión de entropía). La compresión sin pérdidas elimina o reduce la redundancia de los datos, pero la redundancia se puede reinsertar en los datos para que no haya distorsión. Este método se utiliza generalmente para la compresión de datos de texto y puede garantizar la recuperación completa de los datos originales. Su desventaja es una relación de compresión baja (su relación de compresión es generalmente de 2: 1 a 5: 1). La compresión con pérdida comprime la entropía, por lo que hay un cierto grado de distorsión, se utiliza principalmente para comprimir datos como sonido, imágenes, videos dinámicos, etc., con una relación de compresión relativamente alta (generalmente la relación de compresión es tan alta como 20: 1). La última tecnología de compresión llamada "e-igen-ID" puede comprimir datos genéticos 65.438 millones de veces. Para imágenes multimedia, existen estándares de compresión de imágenes estáticas (estándar JPEG, estándar "JointPhotographicExpertGroup") y estándares de compresión de imágenes dinámicas (estándar MPEG, estándar "MovingPictureExpertGroup").

JPEG aprovecha las características psicológicas y fisiológicas del ojo humano y sus limitaciones para comprimir color, contonos monocromáticos y multiescala de grises, imágenes estáticas e imágenes digitales, lo que lo hace ideal para fuentes menos complejas y generales que las reales. situación.

Imágenes de escenas reales. Define dos algoritmos de compresión básicos: uno es un algoritmo de compresión basado en distorsión y el otro es un algoritmo de compresión sin pérdidas basado en predicción lineal espacial (DPCM). Para satisfacer diversas necesidades, ha desarrollado cuatro modos de trabajo: compresión sin pérdidas, modo de trabajo secuencial basado en DCT, modo de trabajo progresivo y modo de trabajo en capas.

MPEG se utiliza para comprimir imágenes en movimiento. El estándar MPEG consta de tres partes: (1) vídeo MPEG, (2) audio MPEG y (3) sistema MP (sincronización de vídeo y audio). El vídeo MPEG es el núcleo del estándar. Utiliza un método combinado de compresión intra e intercuadros, basado en transformación residual discreta (DCT) y compensación de movimiento. MPEG puede comprimir imágenes a más de 1/100 manteniendo la misma calidad de imagen. El algoritmo de compresión de audio MPEG se basa en la función de filtrado de enmascaramiento del oído humano.

Utilizando los principios básicos de la psicología del sonido, es decir, cuando se reproduce audio de una determinada frecuencia, el sonido de esa frecuencia no se puede escuchar y la señal de audio redundante que es inaudible o básicamente inaudible se comprime. La relación de compresión de la señal de audio final alcanza. 8: 1 o superior, la calidad del sonido es realista, comparable a la de los discos CD. Según el estándar MPEG, el flujo de datos MPEG contiene datos de la capa del sistema y de la capa de compresión. La capa del sistema incluye señales de temporización, sincronización de imágenes y sonido y sincronización múltiple.

Distribución y otra información. La capa de compresión contiene la imagen comprimida y los datos de sonido reales. Después de combinar y sincronizar las señales de video y audio, la velocidad de transmisión de datos es de 1,5 MB/s. La velocidad de transmisión de datos de imágenes comprimidas es de 1,2 M y la velocidad de transmisión de sonido comprimido es de 0,2 MB/s.

Estándar MPEG El desarrollo ha pasado por diferentes niveles, como MPEG-1, MPEG-2, MPEG-4, MPEG-7 y MPEG-21. Entre los diferentes estándares MPEG, cada estándar se basa en el estándar anterior y es compatible con el estándar anterior. Actualmente, el estándar MPEG-4 se utiliza ampliamente para la compresión de imágenes. MPEG-4 es una gran expansión basada en MPEG-2 y su objetivo principal son las aplicaciones multimedia. En el estándar MPEG-2, nuestro concepto es una única imagen, que contiene todos los elementos de una imagen. Según el estándar MPEG-4, nuestro concepto se convierte en elementos de múltiples imágenes, y cada elemento de múltiples imágenes se codifica de forma independiente. El estándar contiene instrucciones para el receptor, diciéndole cómo formar la imagen final.

La figura anterior no solo muestra el concepto del decodificador MPEG-4, sino que también representa claramente el propósito de cada componente. Aquí, en lugar de utilizar un único decodificador de vídeo o audio, se utilizan varios decodificadores, cada uno de los cuales recibe sólo elementos de imagen (o sonido) específicos y completa la operación de decodificación. Cada búfer de decodificación recibe solo su propio flujo de datos confidenciales y los reenvía al decodificador. La memoria compuesta almacena los elementos de la imagen y los envía a la ubicación adecuada en la pantalla. Lo mismo ocurre con el audio, pero la diferencia obvia es que todos los elementos deben estar disponibles al mismo tiempo. Las marcas de tiempo en los datos garantizan que estos elementos se sincronicen correctamente de manera oportuna. El estándar MPEG-4 distingue y especifica elementos naturales (imágenes físicas) y elementos sintéticos, de los cuales la animación generada por computadora es un ejemplo. Por ejemplo, una imagen completa podría contener una imagen de fondo real precedida por una animación u otra imagen natural. Estas imágenes pueden comprimirse de forma óptima y transmitirse al receptor independientemente unas de otras, y el receptor sabe cómo combinar estos elementos. En el estándar MPEG-2, las imágenes se comprimen en su totalidad. Según el estándar MPEG-4, cada elemento de la imagen está optimizado y comprimido. No es necesario comprimir los fondos estáticos en el siguiente fotograma I; de lo contrario, el uso del ancho de banda será muy reducido. Si la imagen de fondo permanece estacionaria durante 10 segundos, solo es necesario transmitirla una vez (suponiendo que no tengamos que preocuparnos de que alguien corte este canal durante este tiempo), y solo es necesario transmitir continuamente elementos de imagen relativamente pequeños en primer plano. transmitido. Para algunos tipos de programas, esto ahorrará mucho ancho de banda. El estándar MPEG-4 maneja el audio de la misma manera. Por ejemplo, hay un solista acompañado de un sintetizador electrónico. Según el estándar MPEG-2, el solista y el sintetizador primero se mezclan y luego la señal de audio sintetizada se comprime y transmite. Según el estándar MPEG-4, podemos comprimir el solo por separado y luego transmitir la señal del canal de la interfaz digital del instrumento musical, permitiendo que el extremo receptor reconstruya el sonido. Por supuesto, el receptor debe poder soportar la reproducción MIDI. La transmisión de señales solistas y datos MIDI por separado ahorra mucho ancho de banda en comparación con la transmisión de señales sintetizadas. Se podrían adoptar disposiciones similares para otros tipos de programas. El estándar MPEG-7 también se denomina estándar de interfaz de descripción de contenido multimedia. Las imágenes se pueden describir mediante parámetros como color, textura, forma, movimiento, etc. El estándar MPEG-7 se basa en una serie de parámetros para clasificar imágenes y sonidos y consultar sus bases de datos.

2. Métodos de implementación de la tecnología de compresión de datos multimedia

Actualmente, existen casi cien métodos de implementación de la tecnología de compresión multimedia, incluidos métodos de compresión basados ​​en la codificación de la teoría de la fuente, la transformada de coseno discreto y La tecnología de descomposición de wavelets es relativamente representativa.

La tecnología Wavelet rompe las limitaciones de los métodos de compresión tradicionales e introduce nuevas ideas para la eliminación de la redundancia de correlación local y global. Tiene un gran potencial, por lo que ha atraído a muchos investigadores en los últimos años. En la tecnología de compresión wavelet, una imagen se puede descomponer en varias áreas, llamadas "mosaicos" en cada película, y la imagen se descompone en varios componentes de baja y alta frecuencia después del filtrado. Los componentes de baja frecuencia se pueden cuantificar con diferentes resoluciones, es decir, la parte de baja frecuencia de la imagen requiere una gran cantidad de bits binarios para mejorar la relación señal-ruido de la reconstrucción de la imagen. Los componentes de baja frecuencia se pueden cuantificar finamente y los componentes de alta frecuencia se pueden cuantificar de forma aproximada, porque no es fácil ver el ruido y los errores en las áreas cambiantes. Además, se han propuesto técnicas de segmentación como métodos de compresión, que se basan en la naturaleza repetitiva de los gráficos reales. La compresión de imágenes mediante tecnología de bloqueo consume muchos recursos de la computadora, pero puede lograr buenos resultados. Con la ayuda de la tecnología de reconocimiento de patrones desarrollada a partir de la investigación de secuencias de ADN, se puede reducir el tráfico a través de enlaces WAN, con una relación de compresión de hasta 90, proporcionando así una mayor relación de compresión para la transmisión de imágenes y sonidos en la red, reduciendo la carga de la red y Realizar mejor la difusión de la información en red.

En tercer lugar, principio de compresión

Debido a que existe cierta redundancia entre los datos de la imagen, los datos se pueden comprimir. Shannon, el fundador de la teoría de la información, propuso que los datos deberían verse como una combinación de información y redundancia. La llamada redundancia se debe a que existe una gran correlación entre los píxeles de una imagen, que se pueden eliminar utilizando algunos métodos de codificación para lograr el propósito de reducir los datos comprimidos redundantes. Para eliminar la redundancia en los datos, a menudo es necesario considerar las características estadísticas de la fuente de la señal o establecer un modelo estadístico de la fuente de la señal. La redundancia de imágenes incluye lo siguiente:

(1) Redundancia espacial: correlación entre píxeles.

(2) Redundancia temporal: la redundancia entre dos fotogramas consecutivos de una imagen en movimiento.

(3) Redundancia de entropía de la información: la información de la unidad es mayor que su entropía.

(4) Redundancia estructural: hay una estructura de textura muy fuerte en el área de la imagen.

(5) Redundancia de conocimiento: Existe una estructura fija, como una cabeza humana.

(6) Redundancia visual: Algunas distorsiones de la imagen son imperceptibles para el ojo humano.

La compresión de imágenes digitales suele utilizar dos principios básicos:

(1) Correlación de imágenes digitales. Generalmente existe una fuerte correlación entre los píxeles adyacentes en la misma fila de una imagen y los píxeles correspondientes en fotogramas adyacentes de una imagen en movimiento. Eliminar o reducir estas correlaciones también eliminará o reducirá la redundancia en la información de la imagen, es decir, logrará la compresión de la imagen digital.

(2) Características psicológicas visuales de las personas. La visión humana es insensible a los cambios bruscos de los bordes (efecto de enmascaramiento visual) y tiene una resolución de color débil. Usando estas características, la precisión de la codificación se puede reducir apropiadamente en las partes correspondientes, de modo que las personas no sientan visualmente la disminución en la calidad de la imagen, logrando así el propósito de la compresión de imágenes digitales.

Existen muchos métodos de codificación y compresión, y existen diferentes métodos de clasificación desde diferentes perspectivas. Por ejemplo, desde la perspectiva de la teoría de la información, se pueden dividir en dos categorías:

(1) Métodos de compresión redundantes, también conocidos como compresión sin pérdidas, codificación de preservación de información o codificación de entropía. Específicamente, la imagen decodificada es exactamente la misma que la imagen antes de la codificación por compresión sin distorsión. Matemáticamente, esta es una operación reversible.

(2) Método de compresión de información, también conocido como compresión con pérdida, codificación de distorsión o codificación de entropía. Es decir, la imagen decodificada es diferente a la imagen original, permitiendo cierta distorsión.

Los métodos de codificación y compresión de imágenes aplicados en multimedia se pueden dividir en:

(1) ¿Qué tipo de codificación de compresión sin pérdidas? ¿6?1 codificación Huffman? ¿Codificación aritmética 6?1? ¿Codificación de longitud de ejecución 6?1? 6?1 codificación empel zev

(2) ¿Qué tipo de codificación de compresión con pérdida? 6?1 Codificación predictiva: DPCM, compensación de movimiento? 6?1 Método de dominio de frecuencia: codificación de transformación de texto (como DCT), codificación de subbanda? 6?1 Métodos de dominio espacial: ¿Codificación estadística de grupos? 6?1 Método del modelo: ¿codificación fractal, codificación basada en modelos? 6?1 Según importancia: filtrado, submuestreo, asignación de bits y cuantificación vectorial.

(3) ¿Codificación mixta? 6?1JBIG, H261, JPEG, MPEG y otros estándares técnicos.

Un indicador importante para medir la calidad de un método de codificación de compresión

(1) La relación de compresión es mayor, varias veces, docenas de veces, cientos de veces o incluso miles de veces. ;

(2) La velocidad de compresión y descompresión debe ser rápida, el algoritmo debe ser simple y la implementación del hardware debe ser fácil

(3) La calidad de la imagen descomprimida es mejor; .

Cuarto, algoritmo de compresión de imágenes JPEG

1...Proceso de compresión JPEG

La compresión JPEG se implementa en cuatro pasos:

1 .Conversión y muestreo del modo de color;

2. Transformación DCT;

3.

2.1. Conversión y muestreo del modo de color

El sistema de color RGB es la forma más utilizada para representar colores. JPEG utiliza el sistema de color YCbCr. Si desea utilizar el método de compresión básico JPEG para procesar imágenes a todo color, primero debe convertir los datos de imagen del modo de color RGB a datos del modo de color YCbCr. y representa el brillo, Cb y Cr representan el tono y la saturación. La conversión de datos se puede completar mediante la siguiente fórmula de cálculo.

y = 0.2990 r 0.5870g 0.1140 b

CB =-0.1687 r-0.3313G 0.5000 b 128

Cr = 0.5000 r-0.4187g-0.0813B 128

El ojo humano es más sensible a los datos de baja frecuencia que a los de alta frecuencia. De hecho, los ojos humanos también son mucho más sensibles a los cambios de brillo que a los cambios de color, lo que significa que los datos del componente Y son más importantes. Dado que los datos del componente Cb y del componente Cr son relativamente poco importantes, solo se puede tomar una parte de los datos para su procesamiento. para aumentar la relación de compresión. JPEG suele tener dos métodos de muestreo: YUV411 y YUV422, que representan las velocidades de muestreo de datos de Y, Cb y Cr respectivamente.

2.2. Transformada DCT

El nombre completo de transformada DCT es transformada de coseno discreta, que se refiere a convertir un conjunto de datos de intensidad de luz en datos de frecuencia para comprender los cambios en la intensidad de la luz. Si modificamos los datos de alta frecuencia y luego los convertimos nuevamente a los datos originales, obviamente serán diferentes de los datos originales, pero el ojo humano no los reconocerá fácilmente.

Al comprimir, los datos de la imagen original se dividen en una matriz de unidades de datos de 8 × 8. Por ejemplo, el contenido de la primera matriz de valores de brillo es el siguiente:

JPEG. divide toda la matriz de brillo, croma. La matriz Cb y la matriz de saturación Cr sirven como una unidad básica, llamada MCU. Cada MCU contiene no más de 10 matrices. Por ejemplo, si la proporción de muestras de fila y columna es 4:2:2, entonces cada MCU contendrá cuatro matrices de brillo, una matriz de croma y una matriz de saturación.

Al dividir los datos de la imagen en una matriz de 8*8, cada valor debe restarse por 128 y luego sustituirse en la fórmula de transformación DCT, para que se pueda lograr el propósito de la transformación DCT. El valor de los datos de la imagen se debe restar de 128 porque la fórmula de conversión DCT acepta números que van desde -128 hasta 127.

Fórmula de transformación DCT:

xey representan la posición de las coordenadas de un determinado valor en la matriz de datos de la imagen.

F(x, y) representa varios valores en la matriz de datos de la imagen.

u y v representan la posición de las coordenadas de un determinado valor en la matriz después de la transformación DCT.

F(u, v) representa un determinado valor en la matriz después de la transformación DCT.

U=0 y v = 0 c(u)c(v)= 1/1.414.

u gt0 o v gt0 c(u)c(v)=1

Los números naturales de los datos matriciales después de la transformación DCT son coeficientes de frecuencia y el valor máximo de estos coeficientes es f (0,0), llamado DC. Los 63 coeficientes de frecuencia restantes son en su mayoría números de punto flotante positivos y negativos cercanos a 0, denominados colectivamente AC.

3.3. Cuantización

Después de que los datos de la imagen se convierten en coeficientes de frecuencia, antes de que puedan entrar en la etapa de codificación, deben someterse a un proceso de cuantificación.

En la etapa de cuantificación, se necesitan dos datos de matriz de 8 * 8, uno es para procesar el coeficiente de frecuencia de brillo y el otro es

Para el coeficiente de frecuencia de croma, dividir por el coeficiente de frecuencia Cuantiza los valores de la matriz para obtener el número entero más cercano al cociente.

Se completa la cuantificación.

Al cuantificar el coeficiente de frecuencia, el coeficiente de frecuencia se convierte de un número de punto flotante a un número entero, lo cual es más conveniente para la ejecución

después de la codificación. Pero después de la etapa de cuantificación, todos los datos siguen siendo sólo aproximaciones enteras y se pierden nuevamente.

La tabla de cuantificación proporcionada por JPEG es la siguiente:

2.4 Codificación

La codificación de Huffman no tiene derechos de patente y se ha convertido en el método de codificación más utilizado en JPEG. La codificación Huffman suele implementarse mediante un microcontrolador completo.

Al codificar, el valor de CC y los 63 valores de CA de cada dato de matriz utilizarán diferentes tablas de codificación de Huffman. La luminancia y el croma también requieren diferentes tablas de codificación de Huffman, por lo que se requieren * * *4 tablas de codificación. para completar con éxito la codificación JPEG.

Codificación DC

DC es un método de codificación diferencial que modula el color mediante codificación de pulso diferencial, es decir, la diferencia entre cada valor DC y el valor DC anterior se obtiene en la misma imagen componente. La diferencia está codificada. La razón principal por la que DC utiliza codificación de pulso diferencial es que en imágenes de tonos continuos, las diferencias son en su mayoría más pequeñas que los valores originales, y la cantidad de bits necesarios para codificar las diferencias será mucho menor que la cantidad de bits necesarios para codificar el original. valores. Por ejemplo, si la diferencia es 5, su representación binaria es 101. Si la diferencia es -5, primero cámbielo a un entero positivo 5 y luego conviértalo en binario a complemento a 1. El llamado código complemento a 1 significa que si el valor de cada bit es 0, se cambia a 1; cuando el bit es 1, se convierte en 0. El número de bits que se deben reservar para la diferencia 5 es 3. La siguiente tabla enumera la cantidad de dígitos que deben reservarse para los valores delta en comparación con el contenido del valor delta.

Agregue algunos valores de código Huffman diferentes antes de la diferencia. Por ejemplo, si la diferencia de brillo es 5 (101), el número de dígitos es 3, entonces el valor del código Huffman debe ser 100 y los dos juntos son 1001. Las dos tablas siguientes son tablas de codificación para la diferencia de brillo y croma de CC, respectivamente. Según el contenido de estas dos tablas, el valor del código Huffman se puede agregar a la diferencia DC para completar la codificación DC.

Codificación CA

El método de codificación CA es ligeramente diferente al de CC. Antes de la codificación de CA, los 63 valores de CA deben ordenarse en forma de zigzag, es decir, concatenarse en el orden que muestran las flechas en la figura siguiente.

Si se organizan 63 valores de AC, convierta el coeficiente de AC en un símbolo intermedio y expréselo como RRRR/SSSS se refiere al número de AC con un valor de 0 antes de AC distinto de cero. y SSSS se refiere al número de dígitos requerido del valor AC. La relación correspondiente entre el rango del coeficiente AC y SSSS es similar a la tabla de comparación de dígitos diferenciales DC y contenido diferencial.

Si el número de AC con ceros consecutivos es mayor que 15, entonces 16 ceros se representan por 15/0, que se denomina ZRL (longitud cero del ron), y (0/0) se denomina EOB ( de bloque) Enel) para representar lo siguiente.

El resto de coeficientes AC son iguales a 0. Utilizando el valor del símbolo medio como valor de índice, busque el valor del código Huffman apropiado en la tabla de codificación de CA correspondiente y luego conéctelo con el valor de CA.

Por ejemplo, el brillo del carácter del medio en un determinado grupo es 5/3 y el valor AC es 4. Primero, utilice 5/3 como valor del índice. Encuentre 1111111110065438 en la tabla de codificación de brillo AC de Huffman. Código Huffman 1111111110065438.

Debido a que las tablas de codificación de Huffman de brillo AC y croma AC son relativamente largas, se omiten aquí. Aquellos que estén interesados ​​pueden consultar libros relevantes.

Completa los cuatro pasos anteriores para completar la compresión JPEG de una imagen.