Categorized under: Audio

MP3 mitos y realidad

MP3 es un formato de audio digital comprimido con pérdida desarrollado por el Moving Picture Experts Group (MPEG) para formar parte de la versión 1 (y posteriormente ampliado en la versión 2) del formato de video MPEG. Su nombre es el acrónimo de MPEG-1 Audio Layer 3. Este formato fue trabajado principalmente por Karlheinz Brandenburg, director de tecnologías de medios electrónicos del Instituto Franuhofer, de Alemania.

¿Formato de COMPRESIÓN CON PÉRDIDA? Quiere decir, que elimina todo aquel rango de frecuencia que no es perceptible por el oído humano. Además, el formato MP3 se convierte en estándar y es utilizado para streaming de audio, compresión de audio de alta calidad, y demás, gracias a la posibilidad de ajustar la calidad de la compresión, proporcional al tamaño por segundo (bitrate), y por tanto el tamaño final del archivo, que podía llegar a ocupar 12 e incluso 15 veces menos que el archivo original sin comprimir.

La gran ventaja del MP3 es que en un sólo CD-R se pueden almacenar hasta 11 horas continuas de música del alta calidad. Además de ser el primer formato de compresión de audio popularizado gracias a Internet y en el momento se desarrollan reproductores autónomos, portátiles o integrados en cadenas musicales (estéreos), lo que lanza el formato MP3 más allá del mundo de la informática

Introducción

Trataremos de explicar brevemente que se esconde tras un MP3 y en que se basan sus capacidades. Para saber como funciona, no tenemos (ni queremos) porque llegar a las matemáticas profundas del modelo psicoacústico, solo nos basta con entender algunos conceptos relativamente sencillos.

Además para disfrutar de un MP3 no es en absoluto necesario saber como funciona

Si no te gusta leer te bastará con saber lo siguiente: Un MP3 es un sistema de compresión de audio con el cual podemos almacenar musica con calidad CD en 1/12 del espacio original.

La mayoría de nuestras fuentes están en internet, procuraremos añadir enlaces con páginas en las que se pueda profundizar sobre estos temas para el que le pueda interesar.

MPEG 1 layer 3

Las siglas MP3 responden a una abreviación de MPEG 1 layer 3. Es un algoritmo de codificación perceptual desarrollado por el consorcio MPEG (Moving Picture Expert Group) junto con el Instituto Tecnológico Fraunhofer que finalmente se ha estandarizado como norma ISO-MPEG Audio Layer 3 (IS 11172-3 y IS 13818-3) y que viene a ser un avance importante sobre los anteriores desarrollos (Layer 1 y Layer 2).

El hecho de que haya sido adoptado como una norma ISO es más importante de lo que cabría suponer. Las normas ISO definen muchos estándares del mercado y tienen peso frente a la industria. Además eso habilita a las personas que quieran desarrollar aplicaciones o cualquier otra cosa dado que tiene a su alcance el funcionamiento del sistema.

Esta tecnología no es nueva, realmente ya lleva desarrollandose más de 10 años, lo que ocurre es que ahora es el momento en el que la velocidad de proceso de los ordenadores la han hecho asequible para el usuario medio.

Codificación Perceptual y Oído Humano

El sistema de codificación perceptual es un sistema de compresión con pérdida, esto quiere decir que el sonido original y el comprimido no son exactamente iguales. Estas pérdidas responden al funcionamiento del oido humano, así aunque los sonidos no son iguales si los percibimos como si lo fuesen.

Se suele comparar el sistema de compresión perceptual del sonido con los sistemas de compresión gráficos JPEG. Estos se diferencian de otros como el BMP o TIFF porque no mantiene la imagen inalterada sino que realizan “aproximaciones” al original en pos de una mayor compresión.

El rango de frecuencias que percibe el oído humano esta aproximadamente entre los 20Hz y los 20kHz siendo más sensible entre los 2Hz y 4Hz. Además cuando tenemos una señal de un volumen alto en una frecuencia y otra de un volumen más bajo en una frecuencia cercana esta queda “tapada” por la anterior. Esto es lo que se llama efecto enmascaramiento.

Así pues, de lo que se trata es de aprovechar los “defectos” del oído humano para desechar todo aquello que realmente no vamos a oír. Por supuesto cada uno tiene su oído y por eso para probar el éxito de estos sistemas se utilizan métodos estadísticos.

Codificación de Sub Bandas

Para aprovechar estas características se utiliza un sistema denominado Codificación de Sub Bandas. En este proceso la señal original se descompone en sub bandas mediante un banco de filtros o algún método parecido.Estas sub bandas son comparadas con el original mediante el modelo psicoacústico que determina que bandas son importantes cuales no y cuales pueden ser eliminadas.

Dependiendo del bitrate al que vayamos a producir la codificación este proceso eliminara más o menos datos siguiendo el modelo psicoacústico hasta lograr la compresión necesaria.

Luego se cuantifican y codifican las sub bandas restantes y el resultado es finalmente comprimido mediante un algoritmo standard Huffman oLZW.

Cifras.

Dentro del formato MP3 podemos comprimir con distinto ancho de banda, modo y bitrate obteniendo distintas calidades según para que vayamos a utilizar ese sonido.

Calidad del sonido Ancho de banda Modo Bitrate Ratio de compresión
Sonido telefónico 2.5 kHz mono 8 kbps 96:1
Mejor que onda corta 4.5 kHz mono 16 kbps 48:1
Mejor que radio AM 7.5 kHz mono 32 kbps 24:1
Similar a radio FM 11 kHz estéreo 56…64 kbps 26…24:1
Cercano al CD 15 kHz estéreo 96 kbps 16:1
CD >15 kHz estéreo 112..128 kbps 14..12:1

Tabla tomada del Instituto Tecnológico Fraunhofer

En un disco compacto tenemos una onda de 44.1kHz 16bit estéreo, eso significa aproximadamente 1400Kbps (44100 x 16 x 2 bits por segundo). Codificandolo por ejemplo a un MP3 de 128kbps obtenemos una reducción en torno al 1/12 del espacio inicial.

También se puede optar por compresiones a mayor bitrate llegando a 192 o incluso 256kbps. Pero el más popular es el de 128kbps con el que se consigue una calidad excelente con una compresión sobresaliente.

Comments

  1. Error en este párrafo:

    El rango de frecuencias que percibe el oído humano esta aproximadamente entre los 20Hz y los 20kHz siendo más sensible entre los 2Hz y 4Hz. Además cuando tenemos una señal de un volumen alto en una frecuencia y otra de un volumen más bajo en una frecuencia cercana esta queda “tapada” por la anterior. Esto es lo que se llama efecto enmascaramiento.

    2kHz y 4 kHz, ésta es la parte más sensible, Entre 2 y 4Hz, no percibe nada el oído humano.


    Adenar
    enero 17th, 2010

Security Code:

RSSSubscríbete a nuestro Feed.
-->