autor: jaime andrés arango villamilrepository.unimilitar.edu.co/bitstream/10654/15327/3... ·...
TRANSCRIPT
ALGORITMO PARA IDENTIFICACIÓN DE HABLANTES CON FINES DE AUDIO FORENSE
Autor: Jaime Andrés Arango Villamil
UNIVERSIDAD MILITAR NUEVA GRANADA
FACULTAD DE INGENIERIA
INGENIERIA EN TELECOMUNICACIONES
BOGOTÁ
2016
Página 1
ALGORITMO PARA IDENTIFICACIÓN DE HABLANTES CON FINES DE AUDIO FORENSE
Autor: Jaime Andrés Arango Villamil
Trabajo de grado para optar por el título de ingeniero en telecomunicaciones
Tutor: Ing. Dora María Ballesteros, PhD
UNIIVERSIDAD MILITAR NUEVA GRANADA
FACULTAD DE INGENIERIA
INGENIERIA EN TELECOMUNICACIONES
BOGOTÁ
2016
Página 2
I. Tabla de contenido
I. Tabla de contenido .................................................................................................................. 2
II. Lista de figuras......................................................................................................................... 3
III. Lista de tablas ...................................................................................................................... 4
IV. GLOSARIO ............................................................................................................................ 5
1. INTRODUCCIÓN ........................................................................................................................... 6
1.1. PROBLEMA ............................................................................................................................... 7
1.2 OBJETIVOS ................................................................................................................................. 7
1.2.1. Objetivo General ............................................................................................................... 7
1.2.2. Objetivos específicos ......................................................................................................... 8
2. ESTADO DEL ARTE ....................................................................................................................... 9
3. MÉTODO PROPUESTO ............................................................................................................... 11
3.1. Estudio preliminar de las señales de voz ............................................................................... 13
3.1.1. Grabación y pre-procesamiento de los audios. ........................................................ 13
3.1.2. Generación de espectrogramas y espectros. ............................................................ 14
3.1.3. Cálculo de correlaciones. .......................................................................................... 15
3.1.4. Análisis de correlaciones. .......................................................................................... 15
3.2. SISTEMA DIFUSO ............................................................................................................... 18
3.2.1. Funciones de membresía .......................................................................................... 18
3.2.2. Reglas difusas ............................................................................................................ 22
3.2.3. Resultado del sistema ............................................................................................... 23
4. VALIDACIÓN DEL MÉTODO PROPUESTO ................................................................................... 25
4.1. Protocolo de pruebas ........................................................................................................ 25
4.2. Resultados del método ..................................................................................................... 27
5. CONCLUSIONES ......................................................................................................................... 28
REFERENCIAS ..................................................................................................................................... 29
Página 3
II. Lista de figuras
Figura 1 Método propuesto para la identificación de hablantes. _________________________________ 12
Figura 2 Gráfica en el dominio del tiempo del registro de voz hablante 1 ___________________________ 13
Figura 3 Extracción de vocales. _____________________________________________________________ 14
Figura 4 Espectrograma de las vocales hablante 1._____________________________________________ 14
Figura 5 Combinaciones posibles para el cálculo de las correlaciones vocal “a”.______________________ 15
Figura 6 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para hablantes
diferentes. _____________________________________________________________________________ 16
Figura 7 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para hablantes
diferentes. _____________________________________________________________________________ 16
Figura 8 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para el mismo
hablante. ______________________________________________________________________________ 17
Figura 9 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para el mismo hablante.
______________________________________________________________________________________ 17
Figura 10 Funciones de membresía trapezoidal. ______________________________________________ 19
Figura 11 Funciones de membresía de las vocales para espectrograma. ___________________________ 20
Figura 12 Funciones de membresía de las vocales para espectrograma y espectro. __________________ 21
Figura 13 Ejemplo de selección de conjunto según la correlación de entrada. _______________________ 23
Página 4
III. Lista de tablas
Tabla 1 Reglas sistema difuso. _____________________________________________________________ 22
Tabla 2 Clasificación de puntajes obtenidos. __________________________________________________ 24
Tabla 3 Resultados obtenidos. ______________________________________________________________ 27
Página 5
IV. GLOSARIO
Identificación de hablante Consiste en dada una muestra de audio donde participan
varios hablantes establecer cuál de los hablantes fue el que
dijo algo en específico [1].
Correlación Operación estadística la cual permite determinar la similitud
existente entre dos variables.
Espectrograma Es la representación tiempo vs frecuencia de una señal,
utilizando colores que representan la amplitud del dato.
Espectro Es la representación de una señal en el dominio de la
frecuencia y la amplitud
Lógica Difusa Es una alternativa a la lógica clásica, la cual acepta mayor
flexibilidad en las reglas que está evaluando. Permite el
mapeo de un conjunto de entradas difuso en un conjunto de
salidas, de acuerdo a reglas difusas que utilizan funciones de
membresía [2].
Página 6
1. INTRODUCCIÓN
En este documento se presenta el diseño, desarrollo y validación de un sistema que
permite la identificación de hablante con fines de audio forense, en un entorno de solución semi-
automática. Es decir, se necesita una etapa previa de procesamiento por parte de un experto en el
área de señales, y posteriormente los audios ingresan al sistema que identifica al hablante.
Para la elaboración de este proyecto se establecieron varias etapas.
I. La primera etapa consistió en buscar información acerca de los métodos de
identificación existentes.
II. La segunda etapa consistió en realizar un estudio preliminar de las señales de
voz que permitiera la identificación/caracterización de patrones.
III. En la tercera etapa se desarrolló el algoritmo para la identificación del hablante.
IV. En la cuarta etapa se realizaron las pruebas pertinentes para verificar el
funcionamiento del algoritmo implementado.
V. En la quinta etapa se elaboró el presente documento.
El Trabajo de Grado hizo parte del proyecto IMP-ING-2136 de la Universidad Militar Nueva
Granada-Vicerrectoría de Investigaciones.
Cualquier información adicional, pueden contactarse con [email protected] y
Página 7
1.1. PROBLEMA
Actualmente los delitos en los cuales se ve implicada la voz (extorsiones, suplantaciones,
amenazas, acosos entre otros), han tendido a aumentar y por lo general queda una evidencia la cual
puede ser usada en un proceso judicial para ratificar la culpabilidad o inocencia de un sospechoso.
Identificar a un hablante no es una tarea sencilla ya que la voz de las personas se puede
alterar bien sea de manera voluntaria para evitar ser identificado, o de manera involuntaria cuando
el hablante presenta algún problema físico que le afecta la voz.
Como consecuencia de esta problemática se decidió proponer un método de identificación
de hablantes que incluyera técnicas de procesamiento digital de señales y algún método de
inteligencia artificial.
1.2 OBJETIVOS
En esta sección se presentan los objetivos aprobados por el Comité de Opción de grado del
programa de ingeniería en telecomunicaciones de la universidad Militar Nueva Granada el día 21 de
septiembre de 2015.
1.2.1. Objetivo General
Proponer una solución de audio forense con fines de identificación de los hablantes en una
conversación.
Página 8
1.2.2. Objetivos específicos
1. Realizar levantamiento de información acerca de la identificación de hablantes en un
registro de voz.
2. Proponer un esquema (o modelo matemático) que permita establecer si un sospechoso
participa en una conversación.
3. Programar en Matlab el esquema propuesto para la identificación de hablantes en un
registro de voz.
4. Validar el esquema propuesto en términos de efectividad en la identificación de hablantes
(verdadero negativo, falso negativo, falso positivo, verdadero positivo).
Página 9
2. ESTADO DEL ARTE
En esta sección se presenta el estudio preliminar referente a algunas de las formas de
identificación de hablantes actuales.
Algunos de los métodos encontrados para identificar los hablantes fueron los siguientes:
“Forensic Speaker Verification Using Formant Features and Gaussian Mixture Models”: En este
artículo publicado en el año 2008. Los autores Becker, Jessen y Grigoras presentan un método para
la verificación de hablantes basado principalmente en las frecuencias de los formantes; el método
propuesto realizaba comparaciones de muestras de voz y las expresaba como un cociente de
probabilidad, el cual se relacionaba a las configuraciones del tracto vocal de un hablante. Para
verificar el sistema propuesto realizaron pruebas para registros del mismo hablante y entre registros
de hablantes diferentes. Los autores señalan que el método propuesto se adapta a la configuración
del tracto vocal y por tal razón también contempla las variaciones que un hablante específico intente
realizar [3].
“Reconocimiento de voz basado en MFCC, SBC y Espectrogramas”: En el año 2013 los autores
Martínez y Aguilar, proponen un método de reconocimiento de voz utilizando tres algoritmos los
cuales son: MFCC (Coeficientes Cepstrales en las Frecuencias de Mel), SBC (Los parámetros
Cepstrales Basados en Sub-banda) y el espectrograma.
Inicialmente establecen una base de datos de 19 personas, cada persona pronuncio 17 oraciones
en 4 tonos diferentes. El sistema propuesto evalúa cada oración en los tres algoritmos y asigna un
Página 10
puntaje por cada uno de los algoritmos, finalmente según el puntaje obtenido en la suma de las
evaluaciones se determinara si la persona fue la que dijo la frase de referencia con la cual está
comparando en el sistema. Este método de reconocimiento presento un 93% de acierto [4].
“Speaker identification using vowels features through a combined method of formants, wavelets,
and neural network classifiers”: En el año 2015 Daqrouq y Tutunji plantean un método de
identificación de hablantes basado en la extracción de características de las vocales de los hablantes.
El sistema estaba basado en la extracción de los formantes y la entropía de Shannon, luego de
extraer esos paramentos los utilizaría como entradas para una Red Neuronal FWENN la cual
clasificaría los datos. Con el método propuesto logran alcanzar una alta tasa de reconocimiento para
la verificación e identificación del hablantes, las pruebas realizas fueron para vocales en árabe [5].
Página 11
3. MÉTODO PROPUESTO
En esta sección se presenta el método propuesto de identificación de hablantes con fines de audio
forense.
Para el desarrollo del método se implementó el diagrama de la Figura 1. Inicialmente se tendrán
como entradas al sistema 5 registros de referencia, uno por cada vocal y 20 registros de las vocales
del presunto sospechoso (es decir 4 registros por cada vocal). En seguida se calcula el espectrograma
y espectro para cada una de las entradas, con cada resultado se realiza el cálculo de la correlación
entre el valor obtenido de los registros de referencia y el valor obtenido por los registros del
sospechoso. Posteriormente, los resultados de las correlaciones serán las entradas del sistema
difuso, el cual generara los resultados finales del sistema, que pueden ser: Si hay correspondencia
(fijo si es), no es posible determinar si existe o no correspondencia (no hay suficientes pruebas para
determinar si es o no) y no hay correspondencia (fijo no es).
Página 12
Figura 1 Método propuesto para la identificación de hablantes.
Página 13
3.1. Estudio preliminar de las señales de voz
El objetivo de esta fase consistió en identificar que tan parecidas o diferentes pueden ser dos
registros de voz, que puedan utilizarse para clasificar a un hablante como coincidente o no en
relación a un audio de referencia. La fase incluye los siguientes pasos: Grabación y pre-
procesamiento de los audios, generación de espectrogramas y espectros, cálculo de correlaciones y
análisis de correlaciones.
3.1.1. Grabación y pre-procesamiento de los audios.
Inicialmente se utilizaron diez hablantes, seis (6) hombres y cuatro (4) mujeres, cada uno de los
hablantes pronuncio las vocales [a…u] con una ventana de tiempo de 5 segundos. En la Figura 2 se
muestra la gráfica del registro de voz obtenido del primer hablante.
Figura 2 Gráfica en el dominio del tiempo del registro de voz hablante 1
Después de tener grabados todos los audios necesarios, con ayuda del software Matlab se
separaron cada una de las vocales de manera manual, de cada uno de los audios, y se guardó cada
vocal un registro. En la Figura 3 se muestra el proceso de generación de los 5 registros por hablante.
En total, en esta etapa se contaron con 50 registros.
Página 14
Figura 3 Extracción de vocales.
3.1.2. Generación de espectrogramas y espectros.
El siguiente paso consistió en calcular los espectrogramas y espectros de cada uno de los 50 registros
de voz, pertenecientes a los 10 hablantes (5 vocales por hablante). En la Figura 4 se presenta un
ejemplo de espectrograma del hablante 1, para sus 5 vocales. Como se puede observar en la parte
derecha de la figura, hay una paleta de colores que va entre azul y rojo, el grafico del espectrograma
está basado en esos colores. En la parte inferior de la barra de colores se encuentra el color azul el
cual hace referencia a los momentos en los cuales hay silencios en el registro de voz y los distintos
formantes se observan como zonas más oscuras es decir con colores naranjas y rojos .
Figura 4 Espectrograma de las vocales hablante 1.
Página 15
3.1.3. Cálculo de correlaciones.
Una vez se tienen los 50 espectrogramas y 50 espectros, el siguiente paso consistió en calcular
correlaciones cruzadas entre los diferentes hablantes. Para calcular las correlaciones se comparó el
valor obtenido de espectrograma de la vocal “a” de la primera persona con el valor obtenido de
espectrograma la vocal “a” de las otras nueve personas, luego se comparó el valor obtenido de
espectrograma de la vocal “a” de la segunda persona con las otras ocho personas restantes sin
contar la primera persona porque con ella ya se comparó y así sucesivamente hasta que se realizaran
todas las posibles combinaciones es decir un total 45 combinaciones por vocal, de igual forma se
debía efectuar el mismo procedimiento para las demás vocales. La Figura 5 presenta la organización
de las 45 comparaciones realizadas para la vocal “a”.
Figura 5 Combinaciones posibles para el cálculo de las correlaciones vocal “a”.
Para el espectro se realizó el mismo procedimiento descrito anteriormente.
3.1.4. Análisis de correlaciones.
Con los 45 resultados de las correlaciones entre hablantes, se procedió en representar
estadísticamente su comportamiento, utilizando gráficas de tendencia, como la presentada en la
Página 16
Figura 6 y Figura 7. Este tipo de gráficas consiste en identificar el mínimo valor de los datos, el
máximo valor, y la región en la cual se agrupan el 95% de los resultados.
Figura 6 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para hablantes diferentes.
De acuerdo a la Figura 6, para el sonido “a” el valor máximo de correlación entre hablantes es de
0,5, y el mínimo es de 0.03. La mayoría de los resultados se encuentran en el rango [0,10 0,17].
Figura 7 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para hablantes diferentes.
De acuerdo a la Figura 7, para el sonido “a” el valor máximo de correlación entre hablantes es de
0,13, y el mínimo es de 0.00004. La mayoría de los resultados se encuentran en el rango [0,03 0,05].
El ejercicio anterior se realizó con registros provenientes del mismo hablante, y se obtuvieron los
resultados de la Figura 8 y la Figura 9.
0
0.2
0.4
0.6
0.8
1
a e i o u
0
0.2
0.4
0.6
0.8
a e i o u
Página 17
Figura 8 Rangos de confianza de las correlaciones cruzadas de Espectrograma de vocales para el mismo hablante.
En la Figura 8 se observa que para el sonido “a” el valor máximo de correlación entre el mismo
hablante es de 0,66, y el mínimo es de 0.13. La mayoría de los resultados se encuentran en el rango
[0,28 0,5 5].
Figura 9 Rangos de confianza de las correlaciones cruzadas de Espectro de vocales para el mismo hablante.
Conforme a la Figura 9, para el sonido “a” el valor máximo de correlación entre hablantes es de
0,64, y el mínimo es de 0.24. La mayoría de los resultados se encuentran en el rango [0,30 0,57].
De acuerdo a los resultados de la Figura 6 y la Figura 7 (espectrograma con diferente e igual
hablante) ya la Figura 8 y Figura 9 (espectro con diferente e igual hablante), se deduce que algunos
valores de correlación, para una misma vocal, pueden pertenecer tanto al conjunto de datos de
0
0.2
0.4
0.6
0.8
1
a e i o u
0
0.2
0.4
0.6
0.8
1
a e i o u
Página 18
correlaciones entre hablantes, como al conjunto de datos de correlaciones del mismo hablante. Es
decir, que la pertenencia a cada conjunto es difusa. Por lo anterior, se decide utilizar un sistema
difuso para la clasificación de los hablantes.
3.2. SISTEMA DIFUSO
En esta sección se presenta el sistema difuso propuesto. El diseño se hizo a medida y no se utilizó
el toolbox de Lógica Difusa de Matlab, sino directamente se programó el sistema, con el fin de tener
una herramienta software fácilmente ajustable a las necesidades del proyecto.
Para el desarrollo del sistema difuso se siguieron los siguientes pasos.
3.2.1. Funciones de membresía
Para cada vocal se establece una función de membresía (μ) utilizando como referencia los valores
obtenidos en las gráficas de rango de confianza de espectrograma y espectro, desde la Figura 7
hasta la Figura 9. Los conjuntos se tomaron de acuerdo al análisis estadístico que se realizó
preliminarmente de las diez personas utilizadas como prueba. Se utilizó la función de membresía de
tipo trapezoidal trampf, debido a que este tipo de función es no simétrica como se muestra en la
Figura 10.
Página 19
Figura 1010 Funciones de membresía trapezoidal.
Para establecer las funciones de membresía de espectrograma y de espectro se siguió el
procedimiento que se explica a continuación.
1. Inicialmente se analiza la gráfica correspondiente al espectrograma de vocales para hablantes
diferentes. Se toma el valor máximo del rango de confianza de la vocal bajo análisis; que para el caso
de la Figura 11 vocal “a” corresponde al valor 0.17. Este valor es el límite del umbral denominado
baja similitud.
2. Posteriormente, en el grafico espectrograma de vocales del mismo hablante se toma el mínimo valor
del rango de confianza de la vocal bajo análisis, que para el caso de la Figura 11 vocal “a” corresponde
a 0.28. Este valor corresponde al límite del umbral denominado alta similitud.
3. Finalmente, la zona entre los dos umbrales anteriores se denomina mediana similitud.
4. El procedimiento anterior se repite por vocal y por parámetro de evaluación (es decir por
espectrograma y por espectro, para cada una de las cinco vocales, para un total de 10 conjuntos de
membresía).
Página 20
Figura 11 Funciones de membresía de las vocales para espectrograma.
Como resultado, se obtienen las 10 funciones que se presentan en la Figura 12. Para todos los casos,
el eje x de la gráfica corresponde a la correlación y el eje y corresponde a la pertenencia.
Página 21
Figura 122 Funciones de membresía de las vocales para espectrograma y espectro.
Cada vocal tiene tres membresías para las correlaciones de los espectrogramas y tres membresías
para las correlaciones de los espectros. Los conjuntos se denominan Baja similitud (conjunto azul),
mediana similitud (conjunto naranja) y alta similitud (conjunto amarillo).
Página 22
3.2.2. Reglas difusas
Se utilizaron 10 reglas difusas, de acuerdo a la pertenencia a los conjuntos de similitud (baja,
mediana, alta), tanto de los espectrogramas, como de los espectros. La Tabla 1 presenta las reglas
propuestas. Las reglas se aplican por vocal.
SIMILITUD ESPECTROGRAMA SIMILITUD ESPECTRO PUNTAJE
B M A B M A
0
0
0
0
0.5
1
0
1
1
Tabla 1 Reglas sistema difuso.
El valor de una correlación puede pertenecer a los tres conjuntos difusos, la pertenencia final
corresponderá al conjunto con mayor probabilidad de pertenencia. Por ejemplo, suponga que se
tiene los siguientes conjuntos, y el valor de correlación es 0.11 correspondiente a la línea punteada
Página 23
que se observa en Figura 13. Como condición del sistema se tiene que la pertenencia debe ser
mayor a [0.7], para este ejemplo se empleó la función de membresía de espectro para la vocal a. En
el conjunto de Alta similitud se tendrá un una pertenencia de 0, para el conjunto de mediana
similitud se tendrá una pertenencia de 0.2 y finalmente para el conjunto de Baja similitud se tendrá
un pertenecía de 0.8. Por consiguiente si el valor de correlación de entrada es 0.11, el sistema
asignara la pertenencia final al conjunto de baja similitud, porque tiene la mayor probabilidad de
pertenencia.
Figura 13 Ejemplo de selección de conjunto según la correlación de entrada.
3.2.3. Resultado del sistema
Después de realizar el cálculo de todas las reglas de la Tabla 1 a cada vocal y por criterio de
evaluación, se suman los puntajes obtenidos en cada regla, y según ese puntaje se determina si el
Página 24
registro de voz bajo prueba coincide con el registro de voz de referencia. De acuerdo al problema
bajo estudio (audio forense) en el cual la respuesta de identificación debe ser “si corresponde”, “no
corresponde” o “no es posible determinar la correspondencia”, se trabaja con los umbrales de la
Tabla 2, para cada uno de los tres casos de salida.
Debido a que el máximo puntaje posible que puede tener un sospechoso es de 20 (5 vocales de
referencia con 4 sistemas difusos en paralelo), los umbrales se definen entre 1 y 20.
Puntaje final/20 Resultados mostrados en la salida
del sistema
Mayor a 16 Si hay correspondencia
Entre 14 y 16 No es posible determinar si existe o no
correspondencia
Menor a 14 No hay correspondencia
Tabla 2 Salida del sistema de acuerdo al puntaje final obtenido por el sistema difuso.
Página 25
4. VALIDACIÓN DEL MÉTODO PROPUESTO
En esta sección se presentan los resultados obtenidos y la interpretación dada a cada resultado
según el sistema propuesto.
4.1. Protocolo de pruebas
Para verificar el funcionamiento del algoritmo propuesto se escogieron 14 hablantes diferentes
a los utilizados en la etapa anterior. Entre los hablantes seleccionados se encontraban 7 hombres y
7 mujeres. Cada uno de los hablantes debía grabar 4 audios diciendo las vocales es decir se tendrían
originalmente un total de 56 audios.
De cada uno de los audios se extrajeron las 5 vocales y cada vocal se guardó en un nuevo
registro diferente lo cual significa que por cada vocal se tendrían 56 registros para un total de 280
registros sumando los registros de las 5 vocales.
La primera prueba que se realizó consistió en ingresar como entradas al sistema las vocales
extraídas de los 2 de los registros del mismo hablante, esto con el fin de verificar que cuando se
realice la comparación entre registros de la misma persona se obtenga como resultado en la salida
del sistema alguno de los resultados que se muestran en la Tabla 2 . Al realizar esta prueba se
obtuvieron 84 resultados.
Página 26
La segunda prueba realizada consistió en tomar los 5 registros de vocales un hablante como
referencia con 20 registros (es decir 4 por vocal) del sospechoso como entradas al sistema. Para
que el sistema determine si los registros de referencia pertenecen o no al sospechoso. Al realizar
esta prueba se obtuvieron 364 resultados.
Página 27
4.2. Resultados del método
Los resultados obtenidos del método propuesto se pueden clasificar en:
Verdaderos positivos: Si el sospechoso coincide con el audio de referencia y el sistema lo
logró identificar.
Falsos positivo: El sistema identifico a un sospechoso que realmente no correspondía con
el audio de referencia.
Verdadero negativo: El sospechoso no corresponde con el audio de referencia y el sistema
no lo detectó.
Falso negativo: El sistema indica que el sospechoso no corresponde con el audio de
referencia, pero realmente si coincide.
A continuación en la Tabla 3 se muestran los resultados obtenidos de todas las pruebas realizadas.
Resultados Numero obtenido/Pruebas realizadas
Verdaderos positivos
77.38%
Falsos positivo
0%
Verdadero negativo
100%
Falso negativo
22.62%
Tabla 3 Resultados obtenidos.
Página 28
5. CONCLUSIONES
Se verificó que el espectro y el espectrograma permiten caracterizar a un hablante y
diferenciarlo de otro, incluso si se pronuncian los mismos fonemas.
El sistema diseñado premia la correcta identificación sobre la falsa identificación, de tal forma
que es preferible no identificar a un correcto sospechoso que identificar a un falso sospechoso.
Con el método propuesto no se identificó a ningún sospechoso que no correspondiera con el
audio de referencia. Se trabajó con una tasa de falsos positivos del 0%.
El sistema identificó correctamente al sospechoso en el 77% de las pruebas. En los otros casos,
ningún sospechoso (real e incorrecto) fue identificado.
Como trabajo futuro se pueden incluir otros métodos de caracterización de los hablantes y/o
modificar el umbral para identificar a un sospechoso.
Página 29
REFERENCIAS
[1] Drygajlo, A. (2012). Automatic speaker recognition for forensic case assessment and
interpretation. In Forensic Speaker Recognition (pp. 21-39). Springer New York.
[2] Jang, J. R., & Gulley, N. (1995). Fuzzy logic toolbox user’s guide. The Mathworks Inc, 1(995),
19.
[3] Becker, T., Jessen, M., & Grigoras, C. (2008). Forensic speaker verification using formant
features and Gaussian mixture models. In Interspeech (pp. 1505-1508).
[4] Mascorro, G. A. M., & Torres, G. A. (2013). Reconocimiento de voz basado en MFCC, SBC y
Espectrogramas. Ingenius, (10).
[5] Daqrouq, K., & Tutunji, T. A. (2015). Speaker identification using vowels features through a
combined method of formants, wavelets, and neural network classifiers. Applied Soft
Computing, 27, 231-239.