análisis acústico en la voz cantada, un análisis objetivo

8/10/2019 Anlisis Acstico en la Voz Cantada, un anlisis objetivo

1/12

Computacin y Sistemas Vol. 15 No. 1, 2011 pp 39-50ISSN 1405-5546

Evocanto: Programa de cmputo para analizarla voz cantada mediante tcnicas

de procesamiento digital de seales

Evocanto: Computer Program for Analyzing the Singing Voiceusing Digital Signal Processing

Gisela Gracida Olvera y Felipe Ordua BustamanteGrupo de Acstica y Vibraciones, Centro de Ciencias Aplicadas y Desarrollo Tecnolgico (CCADET),

Universidad Nacional Autnoma de Mxico (UNAM),Circuito Exterior CU, Apdo. postal 70-186, CP 04510, Mxico D.F.,

[email protected], [email protected]

Artculo recibido el 29 de agosto de 2010; aceptado el 15 de enero de 2011

Resumen Se presenta el desarrollo de un programade cmputo multiplataforma, con una interfaz grficaamigable, orientada a estudiantes y maestros decanto, como auxiliar didctico en la enseanza de latcnica vocal. El programa capta la seal de vozmediante un micrfono y una interfaz de audio y lasomete a procedimientos de anlisis espectral,mediante los cuales se determinan los elementosnecesarios para estimar la configuracin del tractovocal, as como caractersticas acsticas de la vozcantada, tales como la entonacin, el vibrato y laresonancia. El programa muestra representacionesgrficas del espectro y su anlisis, lo que permite

realizar una valoracin objetiva. La interaccin entiempo real hace que el usuario pueda experimentaradecuaciones de su propia tcnica vocal y observarinmediatamente los efectos manifestados en la sealacstica, por lo que se obtiene informacin adicionala las indicaciones tcnicas y musicales del maestro decanto.Palabras clave Voz cantada, anlisis digital y espectro.

Abstract The article presents the development of acomputer program, with a friendly user interface,intended as a didactic tool for the study and teachingof the singing voice and vocal technique. Theprogram captures the acoustic signal with amicrophone and a digital audio interface, spectral

analysis is performed and acoustic descriptors oftuning, vibrato and resonance of the singing voice arecalculated. The program displays the spectral analysisand other parameters, allowing for an objectiveevaluation. Real-time interaction allows usersimmediate feedback of the effects of their own vocaltechnique on the acoustic singing voice signal; this, in

addition to technical and musical indications providedby the singing teacher.Keywords Singing voice, digital analysis andspectrum.

1 Introduccin

Aunado al desarrollo de procedimientos paraevaluar la calidad de la voz, surge la necesidadde proporcionar instrumentos auxiliares delanlisis, que sean cada vez ms accesibles alos diferentes tipos de demandas de usuarios.

Es en la ltima dcada cuando ocurre un rpidoincremento en la oferta de programas para estosfines, de los que sobresale la caracterstica deutilizar las capacidades estndar de lascomputadoras personales y porttiles, sin tenerque adquirir aparatos ms especializados.

Cabe mencionar que la industria informticadel canto ha producido una gran cantidad deaplicaciones y programas que utilizan losprincipios de la investigacin tcnica y cientficasobre la voz, pero que estn hechos con unafinalidad comercial y de entretenimiento, talescomo diversos tipos de sistemas de karaoke y

transformadores de distintas caractersticasvocales, que cambian el timbre o la entonacin,as como aplicaciones para videojuegos.

Sin embargo, han sido pocos los trabajosenfocados a la educacin en el canto, por lo queel software que se presenta aqu es nico por


2/12

40 Gisela Gracida Olvera y Felipe Ordua Bustamante


sus caractersticas, donde se logra un punto deconexin del anlisis digital integral de la vozcantada, para su aplicacin en la

profesionalizacin del canto.

2 Modelo fsico y anlisis acstico dela seal de voz

La seal de voz es una onda acstica de presinsonora que se origina a partir de movimientosvoluntarios del sistema fsico de produccin dela voz, que est conformado por los rganosanatmicos, cuya fisiologa corresponde a losprocesos de respiracin, fonacin y resonancia[Bunch, 1997].

La produccin de la voz ha sido integrada enun modelo fsico, ampliamente aceptado por lacomunidad cientfica: la denominada teora de lafuente y el filtro.Aunque su origen es anterior, eldesarrollo matemtico se debe al sueco GunnarFant (1960). La materia prima acstica se creaen la fuente, o punto donde se genera el sonidobsico que luego habr de ser filtrado. Estafuente se sita en las cuerdas vocales si se tratade sonidos sonoros como las vocales yconsonantes sonoras. En el caso de lasconsonantes sordas, la fuente est en el puntobucal donde se produce el ruido consonntico.Durante los periodos estables o estacionarios de

los sonidos de tipo vocal, la onda generadarepite el mismo ciclo a intervalos regulares detiempo, por lo que es una onda peridica ycumple el Teorema de Fourier: est formada poruna serie infinita de armnicos [Fant, 1997]. Elprimer armnico es la frecuencia fundamentalF0, y corresponde al tono de la voz; el segundotiene una frecuencia doble de la fundamental, eltercero, triple, y as sucesivamente.

El sonido generado en la fuente se propaga atravs del tracto vocal y, de acuerdo con losprincipios de la fsica de tubos [Stanley, 1958],sufre un proceso complejo de filtrado, donde

unas frecuencias se refuerzan y otras seatenan. El tracto vocal es el rea que iniciadesde la parte superior de la laringe y terminaen los labios. Los rganos articulatorios, que sonlos labios, la mandbula, la lengua y el velo delpaladar, permiten concentrar la energa en

determinadas frecuencias, actuando comoresonadores. Estas frecuencias que sepotencian o atenan, reciben el nombre de

formantes. Las frecuencias formantes mssignificativas del tracto vocal, en cuanto a laacstica de la voz hablada y cantada, son lasprimeras cinco (F1, F2, F3, F4 y F5).Dependiendo de la relacin que se establezcaentre las diversas formantes, es que se percibeun determinado timbre de voz o calidad vocal.La frecuencia F0, que corresponde a lafrecuencia fundamental de la voz, no se asociacon una formante, ya que no se origina comouna resonancia del tracto vocal [Stanley, 1958].

Las dos primeras formantes (F1 y F2)permiten la identificacin de las vocales. Lasformantes agudas (F3, F4, F5) determinan el

color de la voz. En las vocales, la primeraformante (F1) controla la amplitud del sonido ydepende de la forma de la cavidad farngea:cuanto ms estrecha, mayor frecuencia yviceversa. La segunda formante (F2) controla lainteligibilidad del sonido y se supedita a laposicin de la lengua: si se eleva en la parteanterior, la frecuencia subir en relacin directacon la altura y la anterioridad alcanzadas; si esen la parte posterior, descender en relacininversa con la altura. La tercera formante (F3)est relacionada con la accin de los labios. Suvalor en frecuencia es ms alto si stos estn

estirados y ms bajo si estn redondeados.Las formantes F4 y F5 varan con la anchura

y longitud del tracto vocal; cuanto ms corto yestrecho el tracto, ms agudas estas formantes.

Fig. 1.Curvas espectrales defrecuencias formantes


3/12

Evocanto: Programa de cmputo para analizar la voz cantada mediante tcnicas 41


3 Parmetros del canto en relacincon el anlisis acstico de la vozcantada

3.1 Frecuencia fundamental

La frecuencia fundamental F0 corresponde a lafrecuencia en la cual vibran las cuerdas vocales.Las propiedades de longitud, masa y elasticidadde las cuerdas vocales, son controladas por lamusculatura larngea. El acortamiento de lacuerda vocal provoca la disminucin de latensin y aumenta la masa de la superficievibrtil, por lo que la frecuencia fundamentalser disminuida. La elongacin de la cuerdavocal produce un aumento en la frecuenciafundamental, al tensar la cuerda vocal ydisminuir la masa y la superficie de contacto.

La fuente de voz humana puede operar endiferentes modos de oscilacin, que son losllamados registros vocales. De acuerdo a Titze(2002), estos registros dependen de unainteraccin entre las resonancias subglotales ylas vibraciones de las cuerdas vocales. SegnJohan Sundberg (1987), la definicin mscomn de registro es: "un rango de frecuenciasfonadas en el cual todos los tonos sonpercibidos como producidos de una formasemejante y con un timbre semejante". Variosautores como Van den Berg (1968), Large

(1973) y Hollien (1971) describen la existenciade tres o cuatro registros bsicos o principales:el glottal fry (registro de frote glotal o registrode pulso); el registro modal que incluye losdenominados "registro medio" y "de cabeza"; elfalsete y un cuarto registro, el registro flauta osilbido, en la zona de agudos.

Rigurosamente, un cantante bajo es capazde cantar aproximadamente a 80 Hz (tono E2) yhasta 330 Hz (E4), un tenor entre 123 Hz (C3) y520 Hz (C5), una contralto entre 175 Hz (F3) y700 Hz (F5), y una soprano entre 260 Hz (C4) y1300 Hz (E6) [Sundberg, 1987].

3.2 Formante del cantante

Un cantante bien entrenado puede lograrconformar su tracto vocal para hacer que lasformantes F3, F4 y F5 formen un grupo

aglutinado estrechamente en frecuencia. A estaagrupacin de formantes se le llama formantedel cantante. Como las separaciones defrecuencia entre ellas estn as disminuidas, sus

niveles individuales incrementan y de ah seobtiene un alto pico espectral entre 2500 y 3000Hz. Esto es til al cantar con acompaamientode una orquesta.

Por un lado, la formante del cantante se debea un factor perceptual, ya que el odo humanogoza de especial percepcin a estas frecuenciasy, por otro lado, destacan por encima delenorme sonido de una orquesta, pues lamayora de los instrumentos no generan estasfrecuencias de manera intensa. La existencia deuna distancia constante entre armnicos,permite que el odo humano reconstruya las

frecuencias enmascaradas y perciba lafrecuencia fundamental.La frecuencia central de la formante del

cantante vara ligeramente entre las diferentesclasificaciones de voz. El centro de frecuenciade la formante del cantante de bajos, bartonos ytenores est alrededor de 2.4, 2.6 y 2.8 kHz,respectivamente. Estas pequeas diferenciasson bastante relevantes para los timbres tpicosde voz de estas tesituras. Su origen es debidoprobablemente a diferencias en la longitud deltracto vocal; los bajos tienden a tener un tractovocal ms largo que los bartonos, quienes a suvez tienen un tracto vocal ms largo que lostenores [Sundberg, 1987].

Es difcil que la formante del cantanteaparezca en registros agudos de voz, como lassopranos. Esto se explica por el hecho de quecantan con una alta F0, tienen parcialesextensamente espaciados en el espectro y elgrupo de F3, F4 y F5, que es el que produceuna formante del cantante, es bastante estrechoen frecuencia. Por lo tanto, la formante delcantante es una caracterstica comn decantantes de registros graves (bajos, bartonos,tenores, incluso contraltos y mezzosopranos[Benade,1990]) y entrenados profesionalmente.

3.3 Sintona formante armnico

En el canto femenino de registro agudo, comoes el caso de las voces de sopranos, se puedeobtener un equivalente de formante del


4/12



cantante, al lograr la llamada voz resonanteque se obtieneabriendo mucho la mandbula deforma que se sintoniza F1 o F2 con F0 o con

alguno de sus armnicos; es decir, ocurre ladenominada sintonizacin de formantes conarmnicos. Eso explica que la inteligibilidad delas vocales sea menor a altas F0, como en elcaso de la soprano, pues va variando ladisposicin de la lengua y la mandbula parapoder acercar F1 o F2 a F0 o sus armnicos. Elresto de formantes normalmente no sintonizacon los armnicos de la fuente, y ya no guardanlas mismas relaciones que en el habla. Estefenmeno puede ser no privativo de lassopranos, pues es probable que sea unatendencia natural de los cantantes profesionales

el sintonizar las frecuencias de alguno de losformantes con las frecuencias de los armnicos[Sundberg, 1987], [Benade, 1990].

3.4 Vibrato

La modulacin (variacin cclica sistemtica deun parmetro) de frecuencia y/o amplitud de lavoz del cantante, constituye el vibrato. Elmecanismo primario es la modulacin de lafrecuencia fundamental y secundariamente seve afectada la amplitud. La frecuenciafundamental y sus armnicos varan

cclicamente, mientras que las formantes noexperimentan cambios. La variacin sincrnicacon F0, hace que los armnicos se acerquen oalejen de las formantes, vindose ms o menosreforzados, de forma que la modulacin enamplitud sobreviene pasivamente cuandocoinciden con las zonas de resonancia de lafuncin de transferencia del tracto vocal[Seashore, 1932].

Cuando existe nicamente modulacin deamplitud, en el canto se le denomina trmolo. Esconsiderado un defecto, pero ocurre en raroscasos. Si la modulacin de la frecuenciafundamental es producida nicamente en laglotis, el vibrato tendr una frecuencia entre 6.5y 8.0 Hz, que en ingls se denomina bleat. Escomn que sea producido por cantantes sinentrenamiento o por cantantes jvenes en losprimeros aos de su formacin. Tambin es

posible que el vibrato se genere desde eldiafragma (por falta de control o tono muscular)y que tenga una frecuencia menor a 5 Hz. Este

tipo de vibrato frecuentemente afecta la claridaddel canto. Es uno de los defectos en vocesenvejecidas. En ingls, se denomina wobble. Elsistema vocal de un cantante bien entrenado enel repertorio clsico occidental, posee unatendencia natural de producir un vibrato cuyafrecuencia se encuentra entre 5 y 7 Hz[Sundberg, 2000], [Titze et al., 2002].

4 Anlisis de requerimientos

El programa Evocanto est dirigidoprincipalmente a estudiantes de canto

profesional y a profesores de la misma rea, quedeseen incorporarlo en sus clases o en sumetodologa de enseanza. El objetivo msimportante del programa Evocantoes realizar unanlisis comprensible de la voz cantada, siendoposible evaluar ciertas cualidades vocales. Paraello, Evocanto es fcilmente manipulable por elusuario, quien puede utilizarlo como herramientacomplementaria en el estudio y comprensin dela tcnica vocal.

Una vez activado el funcionamiento delprograma, y con el uso de un micrfono paracaptar la seal de voz, el usuario cantar una

nota, con una vocal, sostenindola durantealgunos segundos. Al mismo tiempo, en elprograma Evocanto son llevados a cabo lossiguientes procesos:

Anlisis acstico de la voz cantada, queconsiste en la obtencin del espectro de laseal de voz y, a partir de l, la deteccin dearmnicos y la envolvente espectral; ladeterminacin de la frecuencia fundamentalF0 y de las frecuencias formantes F1, F2,..

Verificacin de la existencia de formante delcantante y del grado de sintonizacin deformantes con armnicos.

Evaluacin de entonacin y vibrato,proporcionando la informacincorrespondiente a la nota musical cantada ya la cantidad o frecuencia de vibrato.

Representacin del tracto vocal, medianteuna imagen.


5/12



Al existir interactividad entre el usuario y elprograma, el manejo de Evocanto se tornacmodo e interesante. Por ello, Evocanto,adems de poder ser usado con facilidad

operacional, proporciona una gran interaccinvisual, para que el usuario verifique lo que estocurriendo con su voz en el momento de cantar.Esto proporciona al cantante la facultad deexperimentar cambios en la postura corporal, enla colocacin de la voz, los movimientos delabios y mandbula; as como ajustes en laentonacin y el vibrato de la nota cantada.

5 Herramientas de programacin

Para elaborar Evocanto, fue necesario elegir unentorno de programacin adecuado. Esto

incluye un lenguaje de programacin conherramientas para desarrollar la interfaz grfica,as como algunas bibliotecas de apoyoespecializadas, en las cuales se posibilita elmanejo de seales de audio y anlisis espectral.De esa manera, fueron seleccionadas lassiguientes bibliotecas multiplataforma de cdigolibre, desarrolladas en C++:

SndObj, para la adquisicin de audio yanlisis espectral, y

WxWidgets, para la interfaz grfica

Sin embargo, se opt por no utilizar

directamente el lenguaje C++, sino el lenguajePhyton [Van Rossum, 2003]. Porque ofrece msventajas y se puede utilizar de modo interactivo,lo que facilita hacer experimentos durante eldesarrollo del programa. Adicionalmente poseeuna sintaxis clara y sencilla.Debido a las caractersticas de dichasherramientas, Evocanto posee las siguientesventajas:

Es multiplataforma: puede ejecutarse bajocualquier sistema operativo de uso comn.

Presenta una apariencia visual nativa (lapropia de cada sistema operativo) y ofrece

un alto rendimiento grfico.Combina eficiencia con sencillez de uso.

6 Diseo y desarrollo del programa

El programa Evocanto est conformado por dosprocesos principales: digitalizacin de la sealde audio y anlisis espectral de la sealdigitalizada. Ms adelante se ilustran los dosprocesos en forma grfica.

6.1 Conformacin de la seal de entrada

La configuracin tpica de la entrada de audioconsta de un micrfono y una intefaz de sonido.Puede ser utilizada la propia interfaz de lacomputadora y un micrfono convencional paracomputadora. Sin embargo, esta configuracintiene el inconveniente de captar ruidoproveniente de la misma computadora, que

interfiere en el buen funcionamiento delprograma, por lo que es recomendable utilizaruna interfaz de audio externa de buena calidady, de esta manera, poder utilizar tambin unmicrfono de mayor calidad, con mejorcaptacin de voz.

Para digitalizar y obtener el espectro de laseal de entrada, Evocantoutiliza varias clases(objetos computacionales) de la bibliotecaSndObj [Lazzarini, 2000]. Los objetos de lasclases SndRTIO y SndIn, dan acceso a lainterfaz de audio definida por omisin en elsistema operativo, con referencia especfica a la

seal de entrada de audio nmero 1. Un objetode la clase HammingWindow se utiliza paradefinir una ventana de ponderacin que seaplicar a cada bloque de muestras de la sealde entrada de audio. Finalmente, un objeto de laclase FFT implementa la Transformada Rpidade Fourier. Los objetos indicados previamentese enlazan en una secuencia o hilo deprocesamiento, utilizando un objeto de la claseSndThread, e intervienen en la clase FFT paratransformar cada bloque de muestras de laseal de tiempo, en un espectro de frecuencia.La seal de entrada es determinada por el

tamao de bloque que se va tomando de lainterfaz de audio, luego es ponderada enamplitud (ventaneada), transformada por la FFTy escalada. Este proceso ocurre a intervalosregulares, determinados por el tamaoespecificado para el bloque de muestras de la


6/12



entrada de audio. La salida proporciona unvector con datos de la FFT, conteniendo un parreal-imaginario para cada punto de frecuencia

sobre el lado positivo del espectro.La mxima frecuencia que se muestra en el

espectro de Evocanto, se estableci en 5000Hz, debido a que este lmite es suficiente paraincluir las formantes superiores ms relevantesen el anlisis de la voz.

Cada componente del espectro estconformado por un nmero complejorepresentado por un punto con una componente

x (parte real) y una componente y (parteimaginaria). Su correspondiente magnitudcuadrtica, normalizada al tamao de bloque, escalculada mediante la frmula:

N

yxS

222

(1)

donde Ses la magnitud y Nel tamao de bloquede la seal.

Esta magnitud cuadrtica en unidadeslineales; es decir, no logartmicas como en elcaso de los decibeles, se utiliza posteriormentepara calcular la frecuencia de vibrato. Seconvierte a decibeles (NPS: nivel de presinsonora), mediante la frmula:

NPS = 10 log10(S2) (2)

para poder conformar el espectro en unidadeslogartmicas (decibeles). En esta aplicacin(Evocanto) no es necesario que el NPS secalibre en unidades fsicas de presin sonora.

6.2 Anlisis espectral de la seal de vozcantada

Una vez obtenido el espectro, se detectan lospicos espectrales, los cuales corresponden a

mximos en el rango de frecuencia y con unumbral de magnitud. Estos se utilizan pararealizar una estimacin de la frecuenciafundamental F0, de manera aproximada,identificando la serie armnica que mejor explicalos picos espectrales observados. A

continuacin se mejora esa estimacin inicialcalculando la frecuencia promedio, ponderadapor las magnitudes espectrales. Es decir, se

obtiene el centroide de frecuencia [Potter, 1950],con la siguiente frmula:

i

ii

w

fwF0 (3)

donde i es la frecuencia del i-simocomponente de frecuencia cercana a laestimacin inicial de F0; w i es un factor queindica la cantidad de dB que el i-simocomponente est debajo del mximo, y equivalea la relacin Si/S0, entre amplitudes, expresada

en decibeles. Para mayores detalles acerca delprocedimiento utilizado para determinar F0, ver[Rabiner, 1978] y [Gracida, 2010].

La frecuencia fundamental calculada seobtiene en hertz y entonces se calcula suequivalencia en trminos de notas musicales,as como la diferencia en cents c, en relacincon la nota musical A5de440 Hz, basando losclculos en la siguiente frmula:

Hz440

F0log1200c 2 (4)

Para determinar la nota, el ndice de octava yla desviacin en cents, se procede como en elsiguiente ejemplo:

Si F0 = 600 Hz, entonces c= 537 cents porarriba del A5de 440 Hz. Este valor en cents seexpresa como un mltiplo de 100, en este caso500 cents (cinco semitonos), y un residuo de 37cents. Por lo tanto, la nota resultante est cincosemitonos arriba del A5, con una desviacin de37 cents. Esto corresponde a la nota D6con unadesviacin de +37 cents. En este caso, el ndicede octava se incrementa de 5 a 6.

Un procedimiento general que equivale alejemplo mostrado, se encuentra programado enel cdigo de Evocanto.

La frecuencia de vibrato de F0, esdeterminada utilizando un mtodo indirecto, setoma en cuenta la anchura espectral como un


7/12



valor aproximado del vibrato, sin distinguirmodulaciones de amplitud o modulaciones defrecuencia. La anchura espectral se calculamediante la frmula [Cordourier-Maruri, 2009]:

2

1

2

1

)(

)(2

N

Nn

N

Nn

n

ncn

fS

fSff

f (5)

Se ubican los armnicos, primero en formaaproximada, tomando mltiplos de la frecuenciafundamental F0. Posteriormente se mejora laaproximacin, determinando los mximos picosespectrales ms cercanos a estos mltiplos.

Para localizar los picos de las frecuenciasformantes F1, F2, , se utiliza un proceso dedeteccin de mximos y mnimos en lascomponentes armnicas del espectro [Gracida,2010; Ordua, 2010]. Se comparanprogresivamente las amplitudes de losarmnicos para determinar si la envolventeespectral sube o baja. En los puntos de mximaamplitud se localizan las formantes. Seestableci un valor F1 mnimo de 200 Hz, paraconsiderar una formante.

El centroide de frecuencias de armnicospara F1 (similarmente para F2, F3, etc.), seobtiene con la siguiente frmula:

1

1

1

1

)(

)(

1Fi

i

i

i

i

ii

fS

fSf

(6)

fi corresponde a la frecuencia y S(fi) a lamagnitud, de cada armnico.

La sintona de las formantes F1 y F2 conarmnicos, se establece de la siguiente manera,

para F1:

F1 = (F1 Fi) / F0 * 100% (7)

Con una frmula similar para F2.

Es decir, equivale a la diferencia de frecuenciasentre la formante correspondiente y el armnicoalto Fi ms cercano a F1. Se multiplica por100% para calcular la sintona formante-

armnico como el porcentaje de desviacin odesajuste, entre -50% y +50%; los signosnegativo (-) o positivo (+), indican,respectivamente, que la formante est debajo oencima del armnico.

El criterio utilizado para determinar si existeformante del cantante, es constituido por dosvalores importantes. El primero es la frecuenciafundamental F0 mxima, establecida enEvocanto en 300 Hz. El segundo es la terceraformante F3, que debe ser mayor que 2400 Hz.Con base en los parmetros de las formantes F1y F2, se establecen los criterios de articulacin

vocal. F1 indica el grado de apertura de la bocay F2 el grado de retraccin del cuerpo de lalengua. La relacin entre las formantes F1 y F2es utilizada como una aproximacin paradeterminar la configuracin del tracto vocal, deacuerdo a la siguiente grfica de regionesvoclicas para el idioma espaol:

Debidoa la diversidad de factores adicionalesque existen (incluso perceptuales) para

establecer y distinguir con precisin cualquiervocal [Potter, 1950], [Ladefoged, 1989], [Neary,1989], en Evocanto no se indica la vocalcorrespondiente.

Fig. 2.Regiones voclicas del idioma espaol

/


8/12



7 Ejemplo de aplicacin

Una vez instalado Evocanto, se comprob sufuncionamiento al ser utilizado por diferentescantantes.Para llevar a cabo las pruebas, se le pidi acada cantante entonar al micrfono una nota delregistro bajo, una del registro medio y una delregistro agudo, con las cinco vocales,sosteniendo cada una por aproximadamentecinco segundos. Despus, se les pidi a loscantantes entonar algunas notas de distintosregistros y con diferentes vocales, sosteniendocada una por cinco segundos aproximadamente,sin vibrato y con vibrato exagerado.

A continuacin se ilustran algunos de los

resultados obtenidos. En las figuras 3, 4 y 5 semuestran las capturas de pantalla de Evocantoque corresponden a la vocal /a/, cantada en losregistros grave, medio y agudo de un cantantebartono profesional. Las diferenciasdeterminadas en los espectros, muestrancambios en la amplitud; sin embargo laconfiguracin del tracto vocal es semejante enlos tres casos, por tratarse de la misma vocal.Se observa que, conforme se dirige la voz alregistro agudo, se va extendiendo la distribucinde los armnicos, es decir, se presentan msespaciados entre s.

Las figuras 6 y 7 presentan las capturas depantalla de Evocanto, con diferencias en lacantidad de vibrato de la vocal /o/, cantadas porel mismo bartono, en una nota del registromedio de la voz. Se aprecian ligeros cambios en

el espectro de una a otra figura. Existe un buencontrol del vibrato a voluntad, por parte delcantante, pues las configuraciones del tractovocal se conservan.Fig. 3. Vocal /a/ cantada en el registro grave de

voz bartono

Fig. 4. Vocal /a/ cantada en el registro medio devoz bartono

Fig. 5. Vocal /a/ cantada en el registro agudo devoz bartono


9/12



8 Pruebas de opinin

Adicionalmente, se elabor un cuestionario paraobtener la opinin de los usuarios de Evocanto,de acuerdo a los siguientes criterios dedesempeo del programa:

1. Distribucin de los elementos de la interfaz

grfica2. Informacin que ofrece acerca de la voz

cantada3. Facilidad de uso4. Tiempo de respuesta del anlisis

5. Claridad de los conceptos relativos a la vozcantada

6. Evaluacin como herramienta para el estudiodel canto

7. Como herramienta para mejorar lashabilidades vocales

8. Como herramienta para mejorar lashabilidades auditivas

9. Como herramienta didctica para enseanzaen grupo

10. Como ayuda para estudiar en formaindependiente

Para cada uno de los criterios se present lasiguiente escala de calificacin:

Excelente = 4 puntos;Buena = 3 puntos;

Suficiente = 2 puntos;Pobre = 1 punto;Mala = 0 puntos.

Tabla 1.Resultados de las pruebas de opinin,acerca del desempeo de Evocanto

CRITERIOCALIFICACIN

PROMEDIO

Distribucin de los elementos dela interfaz grfica

3.75

Informacin que ofrece acerca dela voz cantada

3.75

Facilidad de uso 3.75

Tiempo de respuesta del anlisis 3.25

Claridad de los conceptosrelativos a la voz cantada

2.62

Evaluacin como herramientapara el estudio del canto

3.62

Como herramienta para mejorarlas habilidades vocales

3.37

Como herramienta para mejorarlas habilidades auditivas

2.87

Como herramienta didctica para

enseanza en grupo

3.37

Como ayuda para estudiar enforma independiente

3.62

Cabe destacar que esta prueba es preliminar yestadsticamente no significativa. El cuestionario

Fig. 6.Vocal /o/ del registro medio con vibratomoderado en voz de bartono

Fig. 7.Vocal /o/ del registro medio con vibratoexagerado en voz de bartono


10/12



se aplic a distintos usuarios (aproximadamente10 sujetos) cantantes profesionales,principiantes y avanzados, despus de haber

utilizado Evocanto en una sesin decapacitacin. La estadstica de los resultadosobtenidos arroj que en opinin de los usuarios,el desempeo del programa en general, esbueno, como se observa en la Tabla 1.

9 Conclus iones

9.1 Aportaciones

Una de las aportaciones ms importantes deeste trabajo, es la de proponer y materializar laidea de elaborar un programa de cmputo queanaliza la voz cantada y que est dirigido acantantes profesionales (alumnos y profesores)como una herramienta de trabajo para ayudaren el desarrollo de la tcnica vocal.

A travs del lenguaje de programacin Python ylas bibliotecas SndObj y WxWidgets, de cdigolibre, se gener Evocanto como un programamultiplataforma, de interfaz grfica amigablehacia el usuario. Mediante este programa elusuario puede observar lo que ocurre con su vozen el momento mismo de cantar, lo que permiteorientarlo hacia un adecuado balance entre lafuncionalidad de las estructuras anatmicas,

particularmente del sistema vocal, y losaspectos esttico-perceptivos implicados en losparmetros acsticos de la voz.El anlisis acstico de la voz cantada, que serealiza en el programa Evocanto, consiste en laobtencin del espectro de la seal de voz paradetectar elementos caractersticos, como son:armnicos, envolvente espectral, la frecuenciafundamental F0 y las frecuencias formantes F1,F2,.. Con estos elementos se logran indicar lossiguientes parmetros de evaluacin del anlisisvocal:

Verificacin de la existencia de formante delcantante y del grado de sintonizacin deformantes con armnicos.

Evaluacin de entonacin y vibrato,proporcionando informacin correspondiente

a la nota musical cantada y a la cantidad ofrecuencia de vibrato.

Nocin de la configuracin del tracto vocal,

mediante una imagen.

Para lograr que Evocanto realice sus funcionescon eficiencia y la mayor exactitud posible,fueron implementados algoritmos particularespara el anlisis del espectro en la obtencin dela frecuencia tonal F0, las frecuencias formantesF1, F2,... y la cantidad de vibrato. Laimplementacin de dichos algoritmos es unaaportacin original de este trabajo. Asimismo, laforma en que se presentan los resultados enEvocanto, es una aportacin original, que serealiz con la finalidad de mantener unacoherente y funcional interfaz grfica.Se evalu Evocantocon distintos tipos de voz yusuarios, aplicando pruebas de opinin, quedieron un resultado aceptable y satisfactorioacerca del desempeo del programa.

9.2 Sugerencias de trabajo a futuro

Las ideas que pueden llevarse a cabo entrabajos posteriores, basados en Evocanto, ocomo continuacin de este trabajo, son:

Utilizar Evocanto en un curso escolar decanto profesional o tcnica vocal.

Integracin de ejercicios vocales de acuerdoa un mtodo progresivo.

Adaptar la interfaz grfica del programaEvocantode acuerdo al nivel de los usuarioscantantes (principiantes, intermedios,avanzados) y/o a las clasificaciones(tesituras) de voz.

Mejorar los esquemas de configuracin deltracto vocal.

Perfeccionar los algoritmos de la deteccinde frecuencia tonal y de formantes.

Determinacin de la vocal que se estcantando.

Crear e incorporar nuevos algoritmos para lamedicin de otros aspectos del vibrato y deltimbre de la voz cantada.


11/12



Realizar una evaluacin completa deEvocanto en funcionamiento, con unamuestra estadstica significativa de usuarios.

Referencias

1. Bunch, M. (1997).Dynamics of the singing voice (4thed.). Viena; New York: Springer.

2. Cordouri er-Maruri, H.A., & Ordua-Bustamante,F. (2009).Active control of periodic fan noise inlaptops: spectral width requirements in a delayed

buffer implementation. Journal of applied research

and technology,7(2), 124-135.

3. Fant, G. (1997).Acoustical Analysis of speech. InCroker, M.J. (ed.) Enciclopedia of Acoustics vol.4

(1589-1598) New York: John Wiley.

4. Gracida, G. (2010). Programa interactivo para

analizar la voz cantada mediante tcnicas deprocesamiento digital de seales. Proyecto de Tesis

de Maestra en Msica. Universidad Nacional

Autnoma de Mxico, Distrito Federal, Mxico.

5. Lazzarini , V. (2000). The Sound Object Library.Cambridge, UK: Cambridge University Press.

6. Ladefoged, P. (1989). A note on Informationconveyed by vowels. The Journal of the Acoustical

Society of America, 85(5).2223 2224.

7. Lindblom, B., Sundberg, J. (2007).The humanvoice in speech and singing. In Rossing, T. (ed.)

Springer handbook of acoustics (669-712). New

York: Springer.

8. Nearey, T.M. (1989).Static, dynamic, and relationalproperties in vowel perception. The Journal of the

Acoustical Society of America, 85(5), 2088 2113.

9. Ordua, B & Gracida, G. (2010). Practicaldetermination of acoustic parameters of the singing

voice implemented in the interactive analysis

software EVOCANTO. Journal of Acoustic Society

of America. 128(4), 2309.

10. Potter , R.K., & Steinberg, J.C. (1950).Toward theSpecification of Speech. The Journal of the

Acoustical Society of America, 22(6), 807-8020.

11. Rabiner, L.R., & Schafer, R.W. (1978). Digitalprocessing of speech signals. New Jersey: Prentice

Hall.

12. Seashore, C.E. (1932). The vibrato. Iowa City:University of Iowa.

13. Stanley, D. (1958). The science of voice: anapplication of the laws of acoustics, anatomy,

physiology and psychology to the problems of vocal

technic (5thed.).New York: Carl Fischer.

14. Sundberg, J. (1987). The science of the singingvoice. Illinois: Northern Illinois University.

15. Sundberg, J. (2000). Where does the sound comefrom?.In Potter, J. (ed.). The Cambridge Companion

to Singing. Cambridge: Cambridge University Press.231-247.

16. Titze, I.R., Story, B., Smith , M., & Long, R. (2002).A reflex resonance model of vocal vibrato.Journal of

the Acoustical Society of America, 111(5), 2272-

2282.

17. Van Rossum, G. (2003). The Python LanguageReference Manual. Bristol: Network Theory Limited

Felipe Ordua Bus tamante

Es Investigador Titular ``A'' del Grupo de Acstica yVibraciones, CCADET-UNAM. Tiene Licenciatura enFsica (UNAM, 1987), Maestra y Doctorado en Sonido yVibraciones (Universidad de Southampton, Inglaterra,1990 y 1995). Trabaja en temas de control activo desonido y vibraciones, procesamiento digital de seales,acstica y tecnologa musical. Autor de artculos,memorias y patentes citados en el Science CitationIndex. Es miembro de la Acoustical Society of America,

Audio Engineering Society y otras asociacionesacadmicas. Tutor y profesor de posgrado en Ingenieray Msica, iniciador de las reas de Instrumentacin y deTecnologa Musical. Msico aficionado, toca la guitarraclsica, la flauta transversa barroca, la flauta de pico einstrumentos de teclado; tambin ha hecho msica porcomputadora y canto coral.

Gisela Gracida Olvera

Estudi la Carrera de Ingeniera en Computacin en laUniversidad Autnoma del Estado de Mxico (agosto1996 febrero 2001) y la Carrera en Msica en la


12/12



escuela de Bellas Artes de Texcoco (1994 1999).Desde 1994, ha presentado recitales de piano, de flautay de canto, en diversas instituciones del Estado de

Mxico, Hidalgo y Tlaxcala, como: escuelas yuniversidades, Casas de Cultura y Centros Regionalesde Cultura, Centros Preventivos y de ReadaptacinSocial. A partir del ao 2000 ha impartido cursos ytalleres de Msica y Canto en diversas institucioneseducativas y culturales del Estado de Mxico. Sudesarrollo profesional tambin incluye trabajos contecnologa de audio, Sistemas de Informacin, Softwarey Hardware, as como gestin de proyectos decomputacin aplicada, en el mbito pblico y privado. Enel ao 2007 y hasta el 2009, curs la Maestra enTecnologa Musical, en la Escuela Nacional de Msica yel Centro de Ciencias Aplicadas y Desarrollo Tecnolgicode la Universidad Nacional Autnoma de Mxico, por lacual tuvo la oportunidad de participar en los Coloquios dealumnos del posgrado en Msica, as como en el Sexto

Congreso Estudiantil de Posgrado y Licenciatura de laUNAM (en 2008), las Segundas Jornadas deInstrumentacin en la Torre de Ingeniera de CiudadUniversitaria, el Congreso Nacional de InstrumentacinSOMI XXIV en Mrida, Yucatn, en el 2009 y en el. 2ndPan-American/Iberian Meeting on Acoustics, AcousticSociety of America 2010; dando a conocer el desarrollode su investigacin como trabajo de Tesis: Programadidctico interactivo para analizar la voz cantadamediante tcnicas de procesamiento digital de seales.Actualmente, en el Doctorado est desarrollando eltrabajo de investigacin denominado Caracterizacinacstica y perceptual de la calidad vocal en el cantooperstico clsico.

análisis acústico en la voz cantada, un análisis objetivo

Documents