El estándar MPEG-7 define varios tipos de descriptores para los metadatos (etiquetas) de las señales que contienen. Como se ha podido ver en otros artículos (véase descriptores visuales, descriptores de audio del MPEG-7, descriptores básicos de audio del MPEG-7) el estándar divide los diferentes descriptores según el tipo de señal que describen, bien sea de video o audio. En este artículo se procurará profundizar algo más sobre los descriptores de audio del MPEG-7 y en concreto se detallarán los descriptores de timbre.
Los descriptores de timbre tienen por objetivo describir las características de percepción del sonido de un instrumento. El timbre se refiere a las características que permiten a uno distinguir dos sonidos que son iguales en el tono, el volumen y la duración subjetiva. Dentro de los descriptores de timbre podemos distinguir dos tipos distintos:
Los descriptores temporales de timbre son extraídos de la envolvente de la señal en el dominio temporal. La envolvente de la señal describe los cambios de energía en la señal y son el equivalente al llamado ADSR (Attack, Decay, Sustain, Release) de un sonido musical.
Forma general del ADSR de la envolvente de un sonido. Donde cada fase del sonido se define como:
La extracción de la envolvente de la señal (Env) no es normativo. Un sencillo método para la extracción, consiste en calcular cuadro a cuadro el RMS de la señal original s(n):
Dentro de los descriptores espectrales de timbre podemos encontrar los de ataque de tiempo diario (LAT) y los de centroide temporal:
El Log Attack Time (LAT) se define como el tiempo que tarda en alcanzar el máximo de la amplitud de una señal a partir de un umbral mínimo de tiempo (McAdams, 1999). Su principal motivación es la de describir los inicios de muestras individuales de sonido de diferentes instrumentos musicales. En el estándar MPEG-7, LAT se define como el logaritmo ( en base decimal) de la duración del tiempo Tstart cuando la señal empieza hasta el tiempo Tstop cuando alcanza su valor máximo (para un sonido de percusión) o es parte de un sostenido. Se define como:
El TC se define como el promedio de tiempo de la energía de la envolvente de la señal. El resultado basado en el centroide temporal se define como:
(Artículo inacabado)