Red de conocimientos turísticos - Conocimientos sobre calendario chino - ¿Qué son la digitalización de audio y la digitalización de imágenes? Explique en detalle.

¿Qué son la digitalización de audio y la digitalización de imágenes? Explique en detalle.

Literalmente hablando, digitalización significa usar números para representarlo, como registrar el largo y ancho de una mesa y los ángulos entre piezas de madera. Este es un tipo de digitalización. Una palabra que se utiliza a menudo junto con digital es analógica, que tiene un significado similar. Por ejemplo, tomar tres vistas de una mesa con una cámara tradicional es un registro analógico.

Dos conceptos:

1. Decibel (dB): unidad de medida de la amplitud del sonido, una medida logarítmica no absoluta, no lineal. El sonido más bajo que el oído humano puede oír es de 1 dB y el sonido máximo que puede causar daño al oído humano es de 100 dB. La conversación de voz humana normal es de unos 20 dB. 10 dB significa que el volumen se amplifica 10 veces, mientras que 20 dB no son 20 veces, sino 100 veces (10 veces).

2. Frecuencia (Hz): Las personas pueden percibir el tono del sonido. La voz masculina es de 180 Hz, la voz femenina que canta es de 600 Hz, la tecla C a La del piano es de 440 Hz, el sonido emitido por el televisor es escuchado por las personas a 17 kHz y la frecuencia de sonido más alta que el oído humano puede percibir es 20 kHz.

La digitalización del audio es en realidad la digitalización del sonido. El método más común es la modulación de código de pulso (PCM). Así es como funciona. Primero, consideremos el sonido que pasa a través de un micrófono y se convierte en una serie de cambios de voltaje, como se muestra en la Figura 1. La abscisa está en segundos y la ordenada en voltaje. La forma de convertir esta señal al formato PCM es dividirla en intervalos de tiempo iguales. Supongamos que dividimos la señal cada 0,01 segundos, esta es la Figura 2.

Cuando registramos las coordenadas de la intersección de la línea divisoria y el patrón de señal, podemos obtener la siguiente información: (0.01,11.65), (0.02,14.00), (0.03,16.00), ( 0.04,17.74) .. ..(0.18,15.94), (0.19,17.7), (0.20,20). Bien, ahora hemos grabado digitalmente esta forma de onda. Como ya sabemos que el intervalo de tiempo está fijo en 0,01 segundos, solo necesitamos registrar la coordenada vertical para obtener 11,65 14,00 16,00 17,74 19,00 19,89 20,34 20,07 19,44 18,59 17,47 16,31 15,23 14,43 13,89 1 14,4 9 15,94 17,70 20,00 Esta cadena de números es la señal de la señal anterior. Esta cadena de números es el resultado de la digitalización de la señal anterior. Mira, en realidad estamos grabando digitalmente. En el ejemplo anterior, nuestra frecuencia de muestreo es 100 Hz (1/0,01 segundo). De hecho, el contenido del archivo .WAV en la computadora es similar a este. El encabezado del archivo registra la frecuencia de muestreo y la amplitud de grabación máxima permitida, seguido de una serie de números que indican la amplitud positiva y negativa. Por lo general, el CD se graba en formato PCM, con una frecuencia de muestreo de 44100 Hz y una precisión/dígito de muestreo de amplitud de 16 bits, lo que significa que la amplitud mínima puede ser -32768 (-2 ^ 16/2) y la amplitud máxima puede ser + 32767(2^ 16/2-1). Los CD se almacenan en forma de espiral desde adentro hacia afuera y pueden almacenar hasta 74 minutos de música. ¿Por qué las especificaciones de los tocadiscos de CD son 44,1 kHz, 16 bits? Se eligió el número 44,1 kHz por dos razones. En primer lugar, el rango de audición del oído humano es de 20 Hz a 20 kHz y, según la función Nyquist, las señales por debajo de 20 kHz en teoría pueden grabarse con una frecuencia de muestreo superior a 40 kHz. Entonces, ¿por qué 44,1 kHz? Esto se debe a que antes de la invención del CD, los discos duros eran muy caros, por lo que el principal medio de almacenamiento para las señales de audio digital era la cinta de vídeo, que grababa ceros y unos en blanco y negro. El formato de la cinta de video en ese momento era de 30 cuadros por segundo. Una imagen se podía dividir en 490 líneas. Cada línea podía almacenar 3 señales de muestra, por lo que había 30*490*3=44100 puntos de muestreo por segundo. Para facilitar la investigación y el desarrollo, el reproductor de CD también hereda esta especificación, de aquí provienen los 44,1 kHz.

Desde aquí podemos ver que no importa cuán alta sea la precisión del muestreo/el número de puntos de muestreo, siempre hay un error entre el número registrado y el tamaño real de la señal, por lo que la digitalización no registra completamente la señal original. A esto lo llamamos distorsión causada por distorsión de cuantificación de digitalización.

------------------------------------------- ----- -------------------------------------

El El mayor beneficio de la digitalización es que es menos probable que se produzca distorsión durante la transmisión y el almacenamiento de datos. Mientras el tamaño de los bits no cambie, el contenido de los datos grabados no cambiará. Si utilizamos métodos analógicos tradicionales para registrar las señales anteriores, como usar la intensidad del campo magnético en la superficie de una cinta de casete para representar la amplitud, al copiar datos, no importa cuán riguroso sea el diseño del circuito, la intervención del ruido no puede ser evitado. Este ruido pasará a formar parte de los datos copiados, causando distorsión, y cuantas más veces se copie la cinta, la relación señal-ruido (relación entre el tamaño de la señal y el tamaño del ruido) será cada vez menor y los datos tendrán menos y menos detalles. Si ha copiado cintas muchas veces, esta experiencia le resultará familiar. En el mundo digital, esta cadena de números se convierte a binario y se utilizan voltajes para leer 1 y 0. También se pueden agregar varios códigos de verificación para que la posibilidad de error sea muy baja. Por lo tanto, en términos generales, no importa cuántas copias. de una cinta, cada vez, el contenido de los datos es el mismo, logrando así el propósito de no distorsión de los datos.

Entonces, ¿cómo convertir información digital en señales de audio originales? Un chip en la tarjeta de sonido de la computadora se llama DAC (Convertidor digital a analógico), que en chino se llama convertidor digital a analógico. La función de un DAC, como su nombre indica, es convertir señales digitales nuevamente en señales analógicas. Podemos pensar en el DAC como 16 resistencias pequeñas, cada una con un valor múltiplo de 2. Cuando el DAC recibe la señal PCM binaria de la computadora, cuando encuentre 0, la resistencia correspondiente se activará y cuando encuentre 1, la resistencia correspondiente no funcionará, de modo que cada lote de señales digitales de 16 bits se pueda volver a convertir. al voltaje de tamaño correspondiente. Como puedes imaginar, este voltaje parece una escalera, que será algo diferente de la señal suave original, por lo que pasará por un filtro de paso bajo antes de la salida para filtrar los armónicos de alto orden, haciendo así el sonido más suave.

Como se puede ver en el contenido anterior, la digitalización de audio es un proceso de digitalización de formas de onda de sonido analógicas (continuas) (discretas) y su procesamiento con una computadora digital. Los parámetros principales incluyen la frecuencia de muestreo (frecuencia de muestreo). y Hay dos aspectos: número de muestreo/precisión de muestreo (cuantización, también conocido como nivel de cuantificación). Estos dos aspectos determinan la calidad digital del audio digital. La frecuencia de muestreo se refiere al número de veces que se muestrea una forma de onda de sonido por segundo. Según este método de muestreo, la frecuencia de muestreo es el doble de la frecuencia del sonido reproducible. El límite de frecuencia superior del oído humano es de aproximadamente 2 kHz. Para garantizar que el sonido no se distorsione, la frecuencia de muestreo debe ser de aproximadamente 4 kHz. Las frecuencias de muestreo más utilizadas son 11,025 kHz, 22,05 kHz y 44,1 kHz. Cuanto mayor sea la frecuencia de muestreo, menor será la distorsión del sonido y mayor será la cantidad de datos de audio. El número de bits de muestreo se refiere al rango de datos de respuesta dinámica de amplitud de cada punto de muestreo. Los más utilizados son 8 bits, 12 bits y 16 bits. Por ejemplo, un nivel de cuantificación de 8 bits significa que cada punto de muestra puede representar 256 (0-255) valores de cuantificación diferentes, mientras que un nivel de cuantificación de 16 bits puede representar 65536 valores de cuantificación diferentes. Cuanto mayor sea el número de bits de cuantificación de muestreo, mejor será la calidad del sonido y mayor será la cantidad de datos.

Otro factor que refleja la calidad de la digitalización de audio es el número de canales (o canales de sonido). Al grabar sonido, si se genera una onda de sonido cada vez, se llama monofónico; si se generan dos ondas de sonido cada vez, se llama estéreo (el sonido estéreo puede reflejar mejor la experiencia auditiva de las personas).

Además de los factores anteriores, la calidad del audio digital también se ve afectada por otros factores (como la calidad de los altavoces, micrófonos, A/D y D/A (analógico/digital, digital/analógico). ) de la tarjeta de sonido de la computadora La calidad del chip de conversión, el efecto de blindaje de las líneas de conexión de varios dispositivos, etc.).

En resumen, cuanto mayor sea la frecuencia de muestreo y el nivel de cuantización de la digitalización del sonido, más cercano será el resultado al sonido original, pero el espacio de almacenamiento necesario para grabar sonido digital también aumentará.

La siguiente fórmula se puede utilizar para estimar el espacio de almacenamiento requerido por segundo después de digitalizar el sonido (suponiendo que no haya compresión):

Espacio de almacenamiento = (frecuencia de muestreo * número de bits de muestreo)/8 (número de bytes)

Si utilizas la grabación binaural, el espacio de almacenamiento se duplicará. Por ejemplo, la frecuencia de muestreo estándar del disco láser digital (CD-DA, estándar del Libro Rojo) es 44,lkHz, el número de muestreo es de 16 bits y es estéreo. Puede reproducir sonidos con frecuencias de hasta 22 kHz casi sin distorsión. , que es el sonido de mayor frecuencia que los humanos pueden oír. La cantidad de almacenamiento necesaria para reproducir un minuto de música en un disco láser es:

44,1*1000*l6*2*60/8=10.584.000 (bytes) = 10,584 MBytes

Este El valor numérico es el espacio en disco ocupado por los archivos de sonido WAVE (.WAV) en el disco duro de los sistemas Microsoft Windows. El formato de archivo de sonido WAV desarrollado por MICROSOFT es uno de los tipos de archivos de sonido más comunes en las computadoras actuales. Cumple con la especificación de archivos RIFF para guardar recursos de información de audio de la plataforma WINDOWS y es ampliamente compatible con las aplicaciones de máquina de la plataforma WINDOWS. Además, el formato WAVE admite algoritmos de compresión como MSADPCM, CCIPTALAW y CCIPT-LAW, y admite una variedad de bits de audio, frecuencias de muestreo y canales. Sin embargo, su desventaja es que el tamaño del archivo es grande y no es adecuado. grabación a largo plazo. Por lo tanto, han surgido una variedad de tecnologías de codificación/decodificación de compresión de audio, como MP3, RM, WMA, VQF, ASF, etc. Cada uno tiene sus propias áreas de aplicación y compiten constantemente en el desarrollo.

ed.