Formante

Summary

Un formante es el pico de intensidad en el espectro de un sonido; se trata de concentración de energía (amplitud de onda) que se da en una determinada frecuencia. En el habla se determinan por el proceso de filtrado por resonancia que se produce en el tracto vocal por la configuración de los órganos articuladores.

Mediciones de los primeros formantes de las vocales del español (Bradlow, 1995).
Espectrograma de las vocales inglesas [i, u, ɑ]: f1, f1.
Formantes de las vocales del galés.

Técnicamente los formantes son bandas de frecuencia donde se concentra la mayor parte de la energía sonora de un sonido.

Historia

editar

Desde el punto de vista acústico, la fonética enfrentaba un grave problema con la idea de que la longitud efectiva del tracto vocal cambiara las vocales. De hecho, cuando la longitud del tracto vocal cambia, todos los resonadores acústicos formados por las cavidades bucales se escalan, y también lo hacen sus frecuencias de resonancia. Por lo tanto, no estaba claro cómo las vocales podían depender de frecuencias cuando hablantes con diferentes longitudes del tracto vocal —por ejemplo, cantantes bajo y soprano— pueden producir sonidos que se perciben como pertenecientes a la misma categoría fonética. Tenía que existir alguna manera de normalizar la información espectral que sustenta la identidad vocálica.

Hermann propuso una solución a este problema en 1894, acuñando el término “formante”. Según él, una vocal es un fenómeno acústico especial, que depende de la producción intermitente de un parcial especial, o “formante”, o rasgo característico (“caractéristique”). La frecuencia del formante puede variar ligeramente sin alterar el carácter de la vocal. Para la letra i (y, a veces, la ye), por ejemplo, el formante de frecuencia más baja puede variar entre 350 y 440 Hz incluso en la misma persona.

Fonética

editar

Los formantes permiten distinguir los sonidos del habla humana, sobre todo las vocales y otros sonidos sonorantes. También sirven para los sistemas de reconocimiento de voz y las transposiciones de altura del audio digital. Esto es posible porque cada sonido del habla humana tiene una marca característica de formantes, es decir, hace un reparto diferente de la energía sonora entre los diferentes formantes, lo cual permite clasificarlos o categorizarlos. El oído humano puede hacer ese análisis de formantes de manera inconsciente, y es por eso que podemos distinguir los sonidos de nuestra lengua materna.

Por ejemplo en muchas lenguas los dos formantes principales permiten distinguir la mayoría de sonidos vocálicos del habla. Típicamente el primer formante, el de frecuencia más baja está relacionada con la abertura de la vocal que en última instancia está relacionada con la frecuencia de las ondas estacionarias que vibran verticalmente en la cavidad. El segundo formante está relacionado con la vibración en la dirección horizontal y está relacionado con si la vocal es anterior, central o posterior.

Origen

editar

La mayoría de los formantes de los sonidos del habla se producen por la resonancia del tracto vocal (aunque algunos tonos silbantes se derivan del colapso periódico de zonas de baja presión debido al efecto Venturi). La vibración de las cuerdas vocales produce ondas sonoras con un espectro de frecuencia bastante distribuido; estas son filtradas por el tracto vocal y algunas frecuencias son reforzadas y otras atenuadas. Las frecuencias fuertemente reforzadas son precisamente los formantes principales de la emisión sonora.

El formante de frecuencia más baja se denomina F1; el segundo, F2; el tercero, F3, etc. Normalmente solo se necesitan los dos primeros para caracterizar una vocal, sobre todo en las lenguas con menos de seis vocales; sin embargo, en ciertos casos pueden necesitarse hasta seis formantes para caracterizar adecuadamente una vocal. Los formantes posteriores determinan propiedades acústicas como el timbre. Las consonantes aproximantes se caracterizan por variaciones dinámicas de la frecuencia de los formantes principales. En las oclusivas y fricativas, los formantes son menos claros y esos sonidos se perciben en gran medida gracias al efecto ejercido en las vocales adyacentes, donde los formantes involucran más energía sonora o sonoridad.

En las vocales, los dos primeros formantes se determinan principalmente por la posición de la lengua. F1 tiene una frecuencia más alta cuanto más baja está la lengua; es decir, cuanta mayor abertura tenga una vocal, mayor es la frecuencia en que aparece el F1. El F2 tiene mayor frecuencia cuanto más hacia delante está posicionada la lengua, es decir, cuanto más anterior es una vocal, mayor es el F2.

No todos los sonidos humanos se componen de formantes definidos. Tan solo aparecen en sonantes, que incluyen los sonidos pulmonares que incluyen vocales, aproximantes y nasales. Las nasales tienen un formante adicional (F3) en torno a los 1500 Hz. Las consonantes róticas, por su parte, presentan pequeñas oclusiones y, en el caso de la múltiple ([r] como en río) aparecen formantes vocálicos.

Si la frecuencia fundamental es mayor que la frecuencia de los formantes, entonces el carácter del sonido se perderá, de manera que, por ejemplo, en el canto de una soprano las vocales suelen ser difíciles de distinguir, tendiendo hacia la vocal neutra.

Centro formántico de las vocales
Vocal Formante F1 Formante F2
u 320 Hz 800 Hz
o 500 Hz 1000 Hz
å 700 Hz 1150 Hz
a 1000 Hz 1400 Hz
ö 500 Hz 1500 Hz
ü 320 Hz 1650 Hz
ä 700 Hz 1800 Hz
e 500 Hz 2300 Hz
i 320 Hz 3200 Hz


Formantes vocálicos
Vocal Región principal formántica
/u/ 200 a 400 Hz
/o/ 400 a 600 Hz
/a/ 800 a 1200 Hz
/e/ 400 a 600 y 2200 a 2600 Hz
/i/ 200 a 400 y 3000 a 3500 Hz

Estimación de los formantes

editar

Los formantes, ya sea que se consideren resonancias acústicas del tracto vocal o como máximos locales en el espectro del habla (como si fueran filtros pasa banda), se definen por su frecuencia y por su ancho espectral (bandwidth).

Existen diferentes métodos para obtener esta información.

Las frecuencias de los formantes, según su definición acústica, pueden estimarse a partir del espectro de frecuencia del sonido, utilizando un espectrograma (como en la figura) o un analizador de espectro.

Sin embargo, para estimar las resonancias acústicas del tracto vocal (es decir, la definición fonética de los formantes) a partir de una grabación de voz, se puede emplear la técnica de codificación predictiva lineal (linear predictive coding, LPC).

Un enfoque intermedio consiste en extraer la envolvente espectral neutralizando primero la frecuencia fundamental, y luego buscando máximos locales en dicha envolvente.

Diagramas de formantes

editar
 
Diagrama de los formantes promedio indicados en la tabla superior.

Los dos primeros formantes son fundamentales para determinar la calidad vocálica, y con frecuencia se dice que corresponden a las dimensiones de abierta/cerrada (o baja/alta) y anterior/posterior, que tradicionalmente se asocian con la forma y posición de la lengua.

Así, el primer formante (F1) tiene una frecuencia más alta para una vocal abierta o baja como [a], y una frecuencia más baja para una vocal cerrada o alta como [i] o [u]. El segundo formante (F2) tiene una frecuencia más alta para una vocal anterior como [i], y una frecuencia más baja para una vocal posterior como [u].

Las vocales casi siempre presentan cuatro o más formantes distinguibles, y a veces más de seis.

No obstante, los dos primeros formantes son los más importantes para determinar la calidad vocálica, y frecuentemente se representan gráficamente entre sí en diagramas vocálicos, aunque esta simplificación no capta completamente ciertos aspectos como el redondeo labial.

Muchos autores han abordado el problema de encontrar una alineación óptima entre las posiciones de las vocales en los diagramas de formantes y en el cuadrilátero vocálico tradicional.

El trabajo pionero de Ladefoged utilizó la escala Mel, ya que se afirma que esta escala se corresponde más estrechamente con la escala auditiva del tono percibido que con la medida acústica de la frecuencia fundamental en Hertz.

Dos alternativas a la escala Mel son la escala Bark y la escala ERB-rate.

Otra estrategia ampliamente adoptada es graficar la diferencia entre F1 y F2 en lugar de F2 en el eje horizontal.

Formante del cantante

editar

Los estudios del espectro de frecuencia de oradores entrenados y cantantes clásicos, especialmente hombres, indican la presencia clara de un formante alrededor de los 3000 Hz (entre 2800 y 3400 Hz) que está ausente en el habla común o en los espectros de cantantes no entrenados.

Se cree que este formante está asociado con una o más de las resonancias superiores del tracto vocal.

Es este aumento de energía en los 3000 Hz lo que permite que los cantantes sean escuchados y entendidos por encima de una orquesta.

Este formante se desarrolla activamente mediante el entrenamiento vocal, por ejemplo con los ejercicios conocidos como “voce di strega” o “voz de bruja”, y se produce cuando una parte del tracto vocal actúa como resonador.

En la música clásica y la pedagogía vocal, este fenómeno también es conocido como squillo.

Referencias

editar

Bibliografía

editar

Enlaces externos

editar
  • PRAAT, aplicación para análisis acústico (en inglés)
  • Información sobre formantes en la página web de Joaquim Llisterri
  • Formantes y pedales wah-wah
  • ¿Qué es un formante?
  •   Datos: Q1414685
  •   Multimedia: Formants / Q1414685