new reconocimiento de locutor (biometría...
Post on 24-Oct-2020
5 Views
Preview:
TRANSCRIPT
-
1
Reconocimiento de Locutor(Biometría Vocal)
Daniel Ramos Castrodaniel.ramos@uam.es
ATVS – Biometric Recognition Grouphttp://atvs.ii.uam.es
Universidad Autónoma de Madrid
2Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Sumario•• Introducción: voz e identidadIntroducción: voz e identidad
•• Reconocimiento de locutor Reconocimiento de locutor multinivelmultinivel
Reconocimiento acústico (bajo nivel)Reconocimiento acústico (bajo nivel)
GMMGMM
SVMSVM--GLDSGLDS
Reconocimiento de alto nivelReconocimiento de alto nivel
FonéticoFonético
ProsódicoProsódico
FusiónFusión
•• Evaluaciones NISTEvaluaciones NIST
•• Desafíos Actuales y Últimas TendenciasDesafíos Actuales y Últimas Tendencias
•• ConclusionesConclusiones
-
2
3Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Información de identidad en la señal de voz
4Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Señal de Voz e Información de Identidad
•• Las personas somos capaces de identificar locutores Las personas somos capaces de identificar locutores a partir de sus vocesa partir de sus voces
Durante toda nuestra vida Durante toda nuestra vida ““adquirimosadquirimos”” vocesvoces
Inconscientemente creamos un “modelo” de cada Inconscientemente creamos un “modelo” de cada locutorlocutor
•• Por tanto, la señal de voz conlleva información de Por tanto, la señal de voz conlleva información de identidad del hablanteidentidad del hablante
•• ¿Dónde se encuentra esa información?¿Dónde se encuentra esa información?
•• ¿Cómo podemos extraerla, caracterizarla y ¿Cómo podemos extraerla, caracterizarla y compararla?compararla?
-
3
5Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Niveles de Identidad en la Voz
•• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz
Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…
6Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Niveles de Identidad en la Voz
•• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz
Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…
Su timbreSu timbre
-
4
7Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Niveles de Identidad en la Voz
•• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz
Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…
Su timbreSu timbre
Su uso de los sonidosSu uso de los sonidos
8Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Niveles de Identidad en la Voz
•• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz
Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…
Su timbreSu timbre
Su uso de los sonidosSu uso de los sonidos
Su forma de entonarSu forma de entonar
……
•• Identidad en varios niveles (Identidad en varios niveles (fusiónfusión))
•• Esa combinación es dependiente del locutor a Esa combinación es dependiente del locutor a reconocerreconocer
-
5
9Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Niveles de Identidad en la Voz
Niv
el m
ás a
lto
•• Las diferentes características de la voz se Las diferentes características de la voz se agrupan en niveles (lingüística)agrupan en niveles (lingüística)
•• ……
•• Fonético: utilización de diferentes sonidos, Fonético: utilización de diferentes sonidos, pronunciación, etc.pronunciación, etc.
•• Prosódico: entonación particular, variación Prosódico: entonación particular, variación de energía, pausas entre frases o palabras, de energía, pausas entre frases o palabras, etc.etc.
•• Espectral: configuración (resonancia) del Espectral: configuración (resonancia) del tracto vocal, tracto vocal, coco--articulación, nasalidad, etc. articulación, nasalidad, etc.
•• … …
10Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Estrategia en Biometría Vocal•• En biometría vocal tendrán que tenerse en cuenta:En biometría vocal tendrán que tenerse en cuenta:
1.1. La información extraída a diferentes nivelesLa información extraída a diferentes niveles
Estrategia Estrategia multinivelmultinivel
Y de diferente forma en cada nivelY de diferente forma en cada nivel
Estrategia Estrategia multisistemamultisistema
Rec. espectral 1
Rec. Fonético
Rec. espectral 2
Rec.Prosódico
-
6
11Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Estrategia en Biometría Vocal•• En biometría vocal tendrán que tenerse en cuenta:En biometría vocal tendrán que tenerse en cuenta:
1.1. La información extraída a diferentes nivelesLa información extraída a diferentes niveles
Estrategia Estrategia multinivelmultinivel
Y de diferente forma en cada nivelY de diferente forma en cada nivel
Estrategia Estrategia multisistemamultisistema
2.2. La combinación de esa informaciónLa combinación de esa información
Fusión Fusión multinivelmultinivel
FusiónFusión multisistemamultisistemaRec. espectral 1
Rec. Fonético
Rec. espectral 2
Rec.Prosódico
Fusión(capítulo de
multibiometría)
12Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Problema: Variabilidad•• Problema fundamental en la señal de vozProblema fundamental en la señal de voz
•• Debida a múltiples (y comunes) factores:Debida a múltiples (y comunes) factores:
•• Factores internos intrínsecos: Factores internos intrínsecos: Permanentes: sexo, edad, sesión, tipo y cantidad de Permanentes: sexo, edad, sesión, tipo y cantidad de hablahabla
Transitorios: estado emocional, patologías Transitorios: estado emocional, patologías fonatoriasfonatorias
•• Factores internos forzados: Factores internos forzados: Efecto ‘Lombard’ (voz en ambiente ruidoso)Efecto ‘Lombard’ (voz en ambiente ruidoso)
Efecto ‘cocktailEfecto ‘cocktail--party’ (voz en voces concurrentes)party’ (voz en voces concurrentes)
•• Factores externos: Factores externos: Canal (Canal (electro)acústicoelectro)acústico: ruido acústico, reverberación, : ruido acústico, reverberación, microfoníamicrofonía, distancia, distancia
Canal de comunicaciones: ruido eléctrico, ancho de Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificaciónbanda, margen dinámico, distorsión, codificación
-
7
13Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Arquitectura básica de un sistemade reconocimiento de locutores
14Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento automático
Reconocimientoautomáticode locutor
Identidad A
scoreIdentidad B
•• La gran mayoría de sistemas calcula puntuaciones (La gran mayoría de sistemas calcula puntuaciones (scoresscores))
•• Similitud entre las identidades en dos fragmentos de vozSimilitud entre las identidades en dos fragmentos de voz
•• Idealmente (y sin perder generalidad):Idealmente (y sin perder generalidad):
•• Si A y B son la misma identidad, Si A y B son la misma identidad, scorescore más altomás alto
•• Si A y B son identidades diferentes, Si A y B son identidades diferentes, scorescore más bajomás bajo
•• Un Un scorescore permite permite discriminardiscriminar
-
8
15Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Cálculo de una puntuación (score): etapas
Modelo AExtracción decaracterísticas ModeladoA
•• Paso 1: modelado de característicasPaso 1: modelado de características
16Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Cálculo de una puntuación (score): etapas
score
Modelo AExtracción decaracterísticas Modelado
Modelo A
Comparación
Extracción decaracterísticas
A
B
•• Paso 1: modelado de característicasPaso 1: modelado de características
•• Paso 2: cálculo de la puntuación (Paso 2: cálculo de la puntuación (scorescore))
-
9
17Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Detección (verificación) de locutor
Reconocimientoautomáticode locutor
Ascore
B> τ A y B son iguales
< τ A y B son diferentes
•• Tarea básicaTarea básica
•• ¿Es la identidad de ambos fragmentos de voz la misma?¿Es la identidad de ambos fragmentos de voz la misma?
•• Típicamente en dos pasos:Típicamente en dos pasos:
1.1. Cálculo de la puntuaciónCálculo de la puntuación
2.2. Comparación con un umbralComparación con un umbral
18Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento multinivelde locutores
(independiente de texto)
-
10
19Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento de locutor multinivel•• Tradicionalmente (años 90), sólo sistemas basados en Tradicionalmente (años 90), sólo sistemas basados en
parámetros “espectrales”parámetros “espectrales”
Diferentes estrategias:Diferentes estrategias:
DynamicDynamic Time Time WarpingWarping (DTW)(DTW)
Vector Vector QuantizationQuantization (VQ)(VQ)
Artificial Artificial NeuralNeural NetworkNetwork (ANN)(ANN)
HiddenHidden MarkovMarkov ModelsModels (HMM)(HMM)
GaussianGaussian Mixture Mixture ModelsModels (GMM)(GMM)
•• Los sistemas de alto nivel proporcionan posibilidadesLos sistemas de alto nivel proporcionan posibilidades
•• Especialmente para longitudes de entrenamento Especialmente para longitudes de entrenamento grandes (>10min.)grandes (>10min.)
•• Para longitudes de entrenamiento pequeñas (
-
11
21Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Referencia: SuperSID:D. A. Reynolds, et al., “The SuperSID Project: Exploiting High-level Information for High-accuracy Speaker Recognition”, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP 2003
Fusión de sistemas a distintos niveles:AcústicoProsódicoFonéticoLéxicoConversacional…
Reconocimiento de locutor multinivel
22Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento de locutora nivel espectral
-
12
23Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento acústico de locutor•• Los sistemas acústicos basan el reconocimiento en las Los sistemas acústicos basan el reconocimiento en las
características espectrales de la señal de vozcaracterísticas espectrales de la señal de voz
•• Y en la variación de esas características a lo largo del Y en la variación de esas características a lo largo del tiempotiempo
s i e t e c e r o
0 1 2 3 4 5 6 7 8-70
-60
-50
-40
-30
-20
-10
0
Frecuencia(KHz)
Ampl
itud(
dB)
24Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Mecanismo de producción de voz•• El espectro de la señal de voz está directamente El espectro de la señal de voz está directamente
relacionado conrelacionado con
La señal de excitación procedente de las cuerdas La señal de excitación procedente de las cuerdas vocalesvocales
La configuración de tracto vocalLa configuración de tracto vocal
-
13
25Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
•• Las cuerdas vocales generan el sonidoLas cuerdas vocales generan el sonido
Señal de excitaciónSeñal de excitación
Si las cuerdas vibran, señal sonora (estructura Si las cuerdas vibran, señal sonora (estructura periódica subyacente)periódica subyacente)
Si las cuerdas no vibran, señal sorda (ruido, sin Si las cuerdas no vibran, señal sorda (ruido, sin periodicidad)periodicidad)
Cuerdas vocales: excitación
Ciclo de Ciclo de VibraciónVibración
26Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Espectro: Sonidos Sordos•• Si las cuerdas vocales no vibran…Si las cuerdas vocales no vibran…
Espectro ruidoso de alta frecuenciaEspectro ruidoso de alta frecuencia
Ejemplo: “s sorda”, “f”, “z”…Ejemplo: “s sorda”, “f”, “z”…
-
14
27Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Espectro: Sonidos Sonoros•• Si las cuerdas vocales vibran…Si las cuerdas vocales vibran…
Tono (Tono (pitchpitch) + formantes (envolvente)) + formantes (envolvente)
Señal Señal cuasicuasi--periódica: pitchperiódica: pitch
Ejemplo: vocales, “m”, “l”…Ejemplo: vocales, “m”, “l”…
0 5 10 15 20 25 30 35 40 45
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
Tiempo(ms)
Estructura periódica, alta energía
0 1 2 3 4 5 6 7 8-70
-60
-50
-40
-30
-20
-10
0
Frecuencia(KHz)
Ampl
itud(
dB)
Estructura fina (armónicos) y formantes
28Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
•• La señal de excitación define la frecuencia fundamental La señal de excitación define la frecuencia fundamental de vibración (de vibración (pitchpitch))
•• Sin embargo, la forma del espectro (formantes) está Sin embargo, la forma del espectro (formantes) está definida por la configuración de los órganos articulatorios definida por la configuración de los órganos articulatorios (tracto vocal)(tracto vocal)
Tracto vocal: articulación
•• El tracto vocal de cada ser El tracto vocal de cada ser humano genera formantes humano genera formantes ligeramente diferentes para un ligeramente diferentes para un mismo sonidomismo sonido
•• Por tanto, de la forma del Por tanto, de la forma del espectro se puede extraer espectro se puede extraer información que permite información que permite discriminar entre personasdiscriminar entre personas
-
15
29Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Pulso glotal y resonanciaTracto vocal(resonancia)
Pulso glotal(vibración, periódica)
Envolvente espectral:
estructura del tracto vocal
(particular de cada locutor)
30Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Extracción de características•• Primer paso para el reconocimiento: Primer paso para el reconocimiento:
extracción de característicasextracción de características
Modelo AExtracción decaracterísticas ModeladoA
-
16
31Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
•• El espectro de la señal de voz tiene mucha variabilidad El espectro de la señal de voz tiene mucha variabilidad temporaltemporal
Un análisis del espectro total de la voz (Un análisis del espectro total de la voz (a largo plazoa largo plazo) ) no resulta práctico, porque los espectros de los no resulta práctico, porque los espectros de los diferentes sonidos no se distinguiríandiferentes sonidos no se distinguirían
Análisis a corto plazo
s i e t e c e r o
32Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
•• Sin embargo, a corto plazo (entre 5 y 30 Sin embargo, a corto plazo (entre 5 y 30 msms)…)…
•• Sonidos sonoros se pueden considerar “periódicos”Sonidos sonoros se pueden considerar “periódicos”
•• Sonidos sordos se pueden considerar “estacionarios”Sonidos sordos se pueden considerar “estacionarios”
Estrategia: muchas “muestras” de la señal a corto Estrategia: muchas “muestras” de la señal a corto plazo (enventanado)plazo (enventanado)
Análisis a corto plazo
0.26 0.265 0.27 0.275 0.28 0.285 0.29 0.295Time (seconds)
3.2 3.21 3.22 3.23 3.24 3.25Time (seconds)
/a/ (sonora) /s/ (sorda)
-
17
33Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
•• Primer paso: Primer paso: enventanadoenventanado
Se obtienen “trozos” de la señal con solapamientoSe obtienen “trozos” de la señal con solapamiento
•• Segundo paso: Segundo paso: parametrizaciónparametrización
Se obtienen características (parámetros) de cada ventanaSe obtienen características (parámetros) de cada ventana
•• Se obtiene una Se obtiene una secuencia de vectores de parámetrossecuencia de vectores de parámetros
Una secuencia por cada locuciónUna secuencia por cada locución
Parametrización acústica
o1
o2
o3
o4
o5
ot
oT
AnalysisWindows
FeatureVectors
34Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
•• Objetivo: extraer información discriminante de cada Objetivo: extraer información discriminante de cada ventana de voz en la locuciónventana de voz en la locución
•• De cada ventana se obtiene un vector de característicasDe cada ventana se obtiene un vector de características
Generalmente de longitud fijaGeneralmente de longitud fija
•• Diversos tiposDiversos tipos•• MelMel FrequencyFrequency CepstralCepstral CoefficientsCoefficients (MFCC)(MFCC)
•• Linear Linear PredictionPrediction CepstalCepstal CoefficientsCoefficients (LPCC)(LPCC)
Parametrización acústica
0 1 2 3 4 5 6 7 8-70
-60
-50
-40
-30
-20
-10
0
Frecuencia(KHz)
Ampl
itud(
dB)
Parametrización
…
-
18
35Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Mel Frequency Cepstral Coefficients (MFCC)•• Banco de filtros Banco de filtros MelMel
La escala La escala MelMel está basada en la percepción logarítmica está basada en la percepción logarítmica del oído humanodel oído humano
Frequency
m1 m2 mp...
Cepstraltransform
f1 f2 fD...
•• Trasformada Trasformada cepstralcepstral•• Propiedades Propiedades interesatnesinteresatnes
•• DeconvolucíónDeconvolucíón
•• OrtogonalizaciónOrtogonalización
•• Parte de esos coeficientes Parte de esos coeficientes cepstralescepstrales serán el vector serán el vector de parámetros de esa de parámetros de esa ventana ventana
36Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Linear Prediction Cepstral Coefficients (LPCC)
•• La envolvente de la ventana La envolvente de la ventana bajo análisis se estima bajo análisis se estima utilizando un filtro de utilizando un filtro de predicción linealpredicción lineal
•• La transformada La transformada cepstralcepstral de de los coeficientes de dicho filtro los coeficientes de dicho filtro genera unos coeficientes genera unos coeficientes transformadostransformados
•• Parte de esos coeficientes Parte de esos coeficientes cepstralescepstrales serán el vector de serán el vector de parámetros de esa ventana parámetros de esa ventana
-
19
37Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Siete hablantes españoles Un hablante por idioma
Espacio de características espectrales•• El espacio de características es compartido por cada El espacio de características es compartido por cada
locutor y hay solapamiento entre elloslocutor y hay solapamiento entre ellos
•• Además, existe variabilidad dentro del mismo locutor por Además, existe variabilidad dentro del mismo locutor por diversos factoresdiversos factores
38Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Modelado•• Una vez extraídos los parámetros, será necesario crear Una vez extraídos los parámetros, será necesario crear
un modelo para cada locutorun modelo para cada locutor
•• La puntuación se obtendrá comparando la locución de La puntuación se obtendrá comparando la locución de prueba con el modelo creado (prueba con el modelo creado (entrenadoentrenado))
•• Veremos dos tipos de modelado y cálculo de puntuación Veremos dos tipos de modelado y cálculo de puntuación de características espectralesde características espectrales
•• GMMGMM
•• SVMSVM--GMMGMM
Modelo AExtracción decaracterísticas ModeladoA
-
20
39Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Modelos de mezclas de gaussianas(Gaussian Mixture Models, GMM)
40Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Modelos de Mezclas de Gaussianas (GMM)•• Función densidad de probabilidad multidimensionalFunción densidad de probabilidad multidimensional
•• Modela la probabilidad de obtener características de un Modela la probabilidad de obtener características de un locutor determinado en el espaciolocutor determinado en el espacio
•• Suma ponderada de densidades de probabilidad Suma ponderada de densidades de probabilidad gaussianasgaussianas
•• Función densidad de probabilidadFunción densidad de probabilidad
•• Ejemplo:Ejemplo:
•• M=4M=4 componentes componentes (mezclas) (mezclas) gaussianasgaussianas
•• Espacio de características Espacio de características de de D=2D=2 dimensionesdimensiones
•• Detalles en [Reynolds00]Detalles en [Reynolds00]
-
21
41Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
0.2
0.2
0.2
0.20.2
0.2
0.2 0.
2
0.2
0.4
0.4
0.4
0.4
0.4
0.4
0.4
0.6
0.60.6
0.60.8
0.8
0.81
1
1.21.4
0 0.5 1 1.5 2 2.5 30
0.5
1
1.5
2
2.5
3
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
Modelos de Mezclas de Gaussianas (GMM)Vector de medias (mezcla i): μp={μip}
Matriz de covarianzas (mezcla i): Σ p={Σip}
Vector de pesos (mezcla i): ω p={ωip}, Σi ωip=1
Modelo del locutor p: λp={μip,Σip,ωip}
( ) ( )1
M
p ip ipi
p gλ ω=
=∑o o( ) ( ),ip ip ipg N= Σo μ
•• Regiones diferentes del Regiones diferentes del espacio corresponden a espacio corresponden a configuraciones diferentes configuraciones diferentes del tracto vocaldel tracto vocal
•• Valores diferentes de Valores diferentes de las característicaslas características
•• GMM representa bien muy GMM representa bien muy diversas distribuciones de diversas distribuciones de característicascaracterísticas
42Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Entrenamiento GMM
ci
cj
xx
x
x
x
x x
x
x
x
x
xx
x
A
Extracción decaracterísticas
•• A partir de datos de A partir de datos de entrenamientoentrenamiento
-
22
43Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
ci
cj
xx
x
x
x
x x
x
x
x
x
xx
x
•• A partir de datos de A partir de datos de entrenamientoentrenamiento
•• Inicialización del modeloInicialización del modelo
Entrenamiento GMM
44Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cici
cj
xx
x
x
x
x x
x
x
x
x
xx
x
•• A partir de datos de A partir de datos de entrenamientoentrenamiento
•• Inicialización del modeloInicialización del modelo
•• Maximum Likelihood (ML)Maximum Likelihood (ML)•• Ajuste a datosAjuste a datos
•• IterativamenteIterativamente
•• Algoritmo Expectation Algoritmo Expectation Maximization (EM)Maximization (EM)
Entrenamiento GMM
-
23
45Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cici
cj
xx
x
x
x
x x
x
x
x
x
xx
x
•• A partir de datos de A partir de datos de entrenamientoentrenamiento
•• Inicialización del modeloInicialización del modelo
•• Maximum Likelihood (ML)Maximum Likelihood (ML)•• Ajuste a datosAjuste a datos
•• IterativamenteIterativamente
•• Algoritmo Expectation Algoritmo Expectation Maximization (EM)Maximization (EM)
Entrenamiento GMM
46Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
ci
cj
xx
x
x
x
x x
x
x
x
x
xx
x
•• A partir de datos de A partir de datos de entrenamientoentrenamiento
•• Inicialización del modeloInicialización del modelo
•• Maximum Likelihood (ML)Maximum Likelihood (ML)•• Ajuste a datosAjuste a datos
•• IterativamenteIterativamente
•• Algoritmo Expectation Algoritmo Expectation Maximization (EM)Maximization (EM)
•• Modelo GMM A entrenadoModelo GMM A entrenado
Entrenamiento GMM
-
24
47Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
B
Cálculo del score utilizando GMM
( )1
( ) tT
At
Ap pλ λ=
= ∏O o
o1
o2
o3o4o5
o6
cj
(o1,...,o6)
Extracción decaracterísticas
ciModelo GMM de AModelo GMM de A
•• Partimos del modelo GMM entrenado con el habla de Partimos del modelo GMM entrenado con el habla de identidad Aidentidad A
•• Extraemos características del habla de Extraemos características del habla de identidad Bidentidad B
•• Cálculo del Cálculo del scorescore::
•• Probabilidad de las muestras de Probabilidad de las muestras de BB suponiendo el modelo de suponiendo el modelo de AA
•• Asumiendo independencia entre muestrasAsumiendo independencia entre muestras
48Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Adaptación desde modelo universal•• El habla de entrenamiento en general es limitadaEl habla de entrenamiento en general es limitada
•• Pueden entrenarse modelos de locutor no generalesPueden entrenarse modelos de locutor no generales
•• SobreajusteSobreajuste a datos de entrenamientoa datos de entrenamiento
•• Universal Background Universal Background ModelModel (UBM)(UBM)•• Entrenado con habla de muchos individuosEntrenado con habla de muchos individuos
•• Intenta modelar la máxima variabilidad para la aplicación dadaIntenta modelar la máxima variabilidad para la aplicación dada
•• Idea:Idea:•• UBM representa distribuciones de características UBM representa distribuciones de características comunes a todos comunes a todos
los locutoreslos locutores
•• El modelo de locutor se adapta desde el UBMEl modelo de locutor se adapta desde el UBM
•• Características de entrenamiento: distribución particular del Características de entrenamiento: distribución particular del locutorlocutor
•• Las regiones del espacio en las que no hay características del Las regiones del espacio en las que no hay características del locutor mantienen la distribución común a todos (UBM)locutor mantienen la distribución común a todos (UBM)
•• Robustez frente a pocos datos de entrenamientoRobustez frente a pocos datos de entrenamiento
-
25
49Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cj
ci
Extracción
x
x
x
xx x
xxx x
xx
xx
xx xx
xx
x
x
x
xx
x
xx
•• Características de un conjunto grande de locutoresCaracterísticas de un conjunto grande de locutores
•• Representa la variabilidad en la aplicación objetivoRepresenta la variabilidad en la aplicación objetivo
Adaptación desde UBM
50Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cj
ciUBMUBM
x
x
x
xx x
xxx x
xx
xx
xx xx
xx
x
x
x
xx
x
xx
Extracción
•• Entrenamiento de UBMEntrenamiento de UBM
•• ML con algoritmo EMML con algoritmo EM
Adaptación desde UBM
-
26
51Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cj
ciUBMUBM
Adaptación desde UBM•• Entrenamiento de UBMEntrenamiento de UBM
•• ML con algoritmo EMML con algoritmo EM
52Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cj
ci
Feature extraction
A
xx
x
xx xxcj
ciUBMUBM
Adaptación desde UBM•• Características del habla de entrenamiento (A)Características del habla de entrenamiento (A)
•• Pueden ser escasasPueden ser escasas
-
27
53Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cj
ciSpeaker Model ASpeaker Model A
xx
x
xx xxcj
ciUBMUBM
Feature extraction
A
Adaptación desde UBM•• Adaptación a partir del UBMAdaptación a partir del UBM
•• Máximo A Posteriori (MAP)Máximo A Posteriori (MAP)
•• Utilizando de nuevo el algoritmo EMUtilizando de nuevo el algoritmo EM
•• El modelo cambiará en las regiones El modelo cambiará en las regiones con datos de entrenamientocon datos de entrenamiento
•• En el resto de regiones el modelo En el resto de regiones el modelo se mantiene como el UBMse mantiene como el UBM
54Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Puntuación GMM-UBM
( )1
( )UBM UT
tBMtp pλ λ
=
=∏O o
B Extracción
PuntuaciónModelo A
PuntuaciónUBM
/
( )1
( ) tT
At
Ap pλ λ=
=∏O o
( )
( )1
1
score logt
t
T
U
t
B
T
A
Mt
p
p
λ
λ
=
=
⎛ ⎞⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎝ ⎠
∏
∏
o
o
•• Puntuación frente al modelo con respecto a puntuación frente al Puntuación frente al modelo con respecto a puntuación frente al UBMUBM
•• Resalta especificidades del locutor con respecto al universoResalta especificidades del locutor con respecto al universo
-
28
55Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Máquinas de vectores soporte (SVM)utilizando supervectores GMM
56Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Máquinas de vectores soporte (SVM)utilizando supervectores GMM
1( , ..., )A M=x µ µ
cj
ciGMM locución AGMM locución A
•• SVM: plano de separación óptimo entre características de clases SVM: plano de separación óptimo entre características de clases distintasdistintas•• Pero las características espectrales son difíciles de separar coPero las características espectrales son difíciles de separar con un plano…n un plano…
•• Espacio de características alternativo: supervectores GMM [CampbEspacio de características alternativo: supervectores GMM [Campbell06]ell06]•• Paso 1: Se entrena un GMM por cada locuciónPaso 1: Se entrena un GMM por cada locución
•• Paso 2: construcción del Paso 2: construcción del supervectorsupervectorcon los vectores de medias del GMM con los vectores de medias del GMM concatenadosconcatenados
•• Nuevo espacio de Nuevo espacio de dimensiondimension D x MD x M
•• D es la dimensión del espacio D es la dimensión del espacio originaloriginal
•• M es el número de mezclas del GMMM es el número de mezclas del GMM
-
29
57Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
cj
ciModelo GMM AModelo GMM A
cj
ciModelo GMM BModelo GMM B
A
B
Paso 1: modelado
Paso 2: cálculo del scorex
B
Modelo SVM A(hiperplano de
separación)
Score(distancia alhiperplano)
Máquinas de vectores soporte (SVM)utilizando supervectores GMM
xA
Impostores
58Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Sistemas de Alto Nivel:Fonético
-
30
59Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento Fonético•• Discrimina locutores por el uso que hacen de los sonidosDiscrimina locutores por el uso que hacen de los sonidos
Diferentes locutores emplearán sonidos diferentesDiferentes locutores emplearán sonidos diferentes
•• Objetivo: medida de similitud entre secuencias de fonemas Objetivo: medida de similitud entre secuencias de fonemas reconocidosreconocidos
•• ¿Qué necesitamos?:¿Qué necesitamos?:
1.1. Reconocedor fonético (uno o varios, diferentes Reconocedor fonético (uno o varios, diferentes configuracionsconfiguracions y/ó idiomas)y/ó idiomas)
transcripcióntranscripción fonéticafonética
2.2. Modelado de lenguaje con nModelado de lenguaje con n--gramas gramas
bigrambigram, trigram, 4, trigram, 4--gramgram……
60Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocedor Fonético•• Como entrada recibe la señal de vozComo entrada recibe la señal de voz
•• Como salida devuelve una secuencia de fonemas Como salida devuelve una secuencia de fonemas reconocidosreconocidos
•• Basado en modelos de fonemaBasado en modelos de fonema
•• Alto coste computacionalAlto coste computacional
•• No exento de erroresNo exento de errores
•• Sensible a variabilidad en el hablaSensible a variabilidad en el habla
Locución deentrada:“casa”
Reconocedorfonético
/k/ /a/ /s/ /a/
-
31
61Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Modelo de lenguaje•• Trata de representar la frecuencia de ocurrencia de Trata de representar la frecuencia de ocurrencia de
secuencias de fonemas o “nsecuencias de fonemas o “n--gramas”gramas”
•• Un nUn n--grama es una secuencia de n fonemas seguidos en la grama es una secuencia de n fonemas seguidos en la cadena reconocidacadena reconocida
•• A partir de una locución de entrenamiento se obtiene:A partir de una locución de entrenamiento se obtiene:
•• La probabilidad de que una secuencia de fonemas de La probabilidad de que una secuencia de fonemas de testtestla haya pronunciado el locutor “i” se obtiene a partir de la la haya pronunciado el locutor “i” se obtiene a partir de la probabilidad de cada nprobabilidad de cada n--grama en la secuenciagrama en la secuencia
Generalmente se asume independencia (producto)Generalmente se asume independencia (producto)
/k/ /a/ /s/ /a/ … Modelado den-gramas
Probabilidades decada n-grama
para el locutor “i”
62Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Sistema fonético•• Cálculo del Cálculo del scorescore
-
32
63Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Sistemas de Alto Nivel:Prosódico
64Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Información prosódica
Pausas y declinación
Duración Pitch (F0) Energía
Semántica, Léxico …
Estilo de habla
Leída
Espontánea
Conversación
Susurro
…
Estado:
Edad
Sexo
Ánimo
…
Prosodia = f (semántica, léxico… , edad, emoción, … , estilo de habla, …. )
Lingüístico Extralingüístico
-
33
65Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento Prosódico•• Discrimina locutores por el uso que hacen de la prosodiaDiscrimina locutores por el uso que hacen de la prosodia
Diferentes locutores emplearán la prosodia de manera Diferentes locutores emplearán la prosodia de manera diferentediferente
•• Objetivo: medida de similitudes entre la prosodia de dos Objetivo: medida de similitudes entre la prosodia de dos locucioneslocuciones
Variación de la energíaVariación de la energía
Variación de la frecuencia Variación de la frecuencia funcamentalfuncamental ((pitchpitch, f0), f0)
……
66Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Reconocimiento Prosódico
•• ¿Qué necesitamos?:¿Qué necesitamos?:
1.1. Extraer la variación de la energía y la F0Extraer la variación de la energía y la F0
2.2. Modelado estadístico mediante nModelado estadístico mediante n--gramas gramas
bigrambigram, trigram, 4, trigram, 4--gramgram……
-
34
67Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Parametrización prosódica: F0 y energía
68Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
1 2 43 5 6 7 8
Contornos de F0 y Energía
ContornosAprox. Lineal
O Puntos de inflexiónO Comienzo-final
-
35
69Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
*+S+F+S+F-F-F-S-F-S-F-S-F+S+F+S+FE
UV-S-S-F-F+S+S+F+F-S-S-F-F+S+S+F+FFO
1716151413121110987654321TOKEN
F0
Log E
+F=Fast-rising; +S=Slow-rising; -F=Fast-falling; -S=Slow-falling; UV=Unvoiced
Cuantificación•• Se detectan tipos de contornoSe detectan tipos de contorno
Sube rápido, baja rápido, sube despacio…Sube rápido, baja rápido, sube despacio…
•• A cada tipo de contorno se le asigna una clase (A cada tipo de contorno se le asigna una clase (tokentoken))
70Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Modelo de n-gramas•• Trata de representar la frecuencia de ocurrencia de Trata de representar la frecuencia de ocurrencia de
secuencias de secuencias de tokenstokens o “no “n--gramas”gramas”
•• Un nUn n--grama es una secuencia de n grama es una secuencia de n tokenstokens seguidos en la seguidos en la cadena cuantificadacadena cuantificada
•• A partir de una locución de entrenamiento se obtiene:A partir de una locución de entrenamiento se obtiene:
•• ScoringScoring igual que en reconocimiento fonéticoigual que en reconocimiento fonético
T8 T16 T5 T3 … Modelado den-gramas
Probabilidades decada n-grama
para el locutor “i”
-
36
71Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Compensación de variabilidadentre sesiones
72Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Variabilidad: el desafío
•• El reconocimiento espectral supera ampliamente en El reconocimiento espectral supera ampliamente en rendimiento al de alto nivelrendimiento al de alto nivel
•• Pero la Pero la variabilidadvariabilidad sigue siendo un problemasigue siendo un problema
Aún muy dañina (micro vs. teléfono, alto ruido o Aún muy dañina (micro vs. teléfono, alto ruido o reverberación, etc.)reverberación, etc.)
Técnicas de Técnicas de compensacióncompensación
-
37
73Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Compensación: factor analysis y cía.•• Variabilidad entre sesionesVariabilidad entre sesiones
74Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Compensación: factor analysis y cía.•• Idea sencilla: búsqueda y compensación de direcciones de Idea sencilla: búsqueda y compensación de direcciones de
variación no deseadasvariación no deseadas
•• Implementación no tan sencilla…Implementación no tan sencilla…
eigen
( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )1 11
KT Ts s s s s s sm m m t m m m m
s m t s m t kt j t w k j kγ γ− −
=
⎧ ⎫= ⎨ ⎬⎩ ⎭
∑∑∑ ∑∑∑ ∑e Σ o e Σ e
-
38
75Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Compensación: factor analysis y cía.
•• ““Y cía.” (Y cía.” (sicsic) porque existen muchas variantes) porque existen muchas variantes
Factor Factor analysisanalysis
JointJoint factor factor analysisanalysis
NuissanceNuissance AttributeAttribute ProjectionProjection
ChannelChannel factorsfactors
Speaker Speaker FactorsFactors
......
Vendrán más, es un campo en actual ebulliciónVendrán más, es un campo en actual ebullición
•• Factor Factor analysisanalysis ha revolucionado la compensación de canalha revolucionado la compensación de canal
76Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Estado del Arte y tendencias
-
39
77Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Estado del Arte•• Dominio de los sistemas Dominio de los sistemas espectralesespectrales
•• Superan a los sistemas de alto nivelSuperan a los sistemas de alto nivel
•• [Reynolds00, Campbell06][Reynolds00, Campbell06]
•• Compensación de Compensación de variabilidadvariabilidad entre sesionesentre sesiones
•• Intensa actividad investigadora en la actualidadIntensa actividad investigadora en la actualidad
•• [Kenny07,Vogt07][Kenny07,Vogt07]
•• FusiónFusión de diferentes sistemasde diferentes sistemas
•• Explotar información complementariaExplotar información complementaria
•• [Brummer07][Brummer07]
•• Tema de Tema de multibiometríamultibiometría
78Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Desafíos actuales•• VariabilidadVariabilidad de la voz entre sesionesde la voz entre sesiones
•• Sigue siendo muy problemático en condiciones Sigue siendo muy problemático en condiciones extremas extremas
•• [Kenny07,Vogt07][Kenny07,Vogt07]
•• Degradación del rendimiento con Degradación del rendimiento con poco materialpoco material de vozde voz
•• Locuciones cortas (típicamente de prueba)Locuciones cortas (típicamente de prueba)
•• [Vogt08,Fauve08][Vogt08,Fauve08]
•• Desajuste de base de datosDesajuste de base de datos
•• El sistema se entrena con datos en condiciones muy El sistema se entrena con datos en condiciones muy diferentes a la de funcionamiento real (ruido, estilo de diferentes a la de funcionamiento real (ruido, estilo de habla, reverberación, etc.)habla, reverberación, etc.)
•• [Ramos08][Ramos08]
-
40
79Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Evaluaciones NIST dereconocimiento de locutor
80Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Evaluaciones NIST•• Realizadas anualmente por el NIST americano (Realizadas anualmente por el NIST americano (NationalNational
InstituteInstitute ofof StandardsStandards andand TechnologyTechnology))
•• Objetivo: fomentar el desarrollo de la tecnología de Objetivo: fomentar el desarrollo de la tecnología de reconocimiento de locutorreconocimiento de locutor
•• Primera edición en 1998Primera edición en 1998
ATVS ha participado de manera exitosa desde 2001 ATVS ha participado de manera exitosa desde 2001 salvo en la edición de 2003salvo en la edición de 2003
•• Impulso radical en la tecnología de reconocimiento de Impulso radical en la tecnología de reconocimiento de locutorlocutor
Bases de datosBases de datos
Protocolos comunesProtocolos comunes
Foro científico muy competitivoForo científico muy competitivo
•• www.nist.govwww.nist.gov//speechspeech
-
41
81Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
ATVS-UAM en NIST SRE 2008•• Sistema primario ATVS1Sistema primario ATVS1
•• Fusión de sistemas espectrales con compensación de Fusión de sistemas espectrales con compensación de variabilidadvariabilidad
•• GMM, SVMGMM, SVM--GMM, SVMGMM, SVM--GLDSGLDS
•• SubSub--condición teléfono (entrenamiento) vs. teléfono (condición teléfono (entrenamiento) vs. teléfono (testtest))
82Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
ATVS-UAM en NIST SRE 2008•• SubSub--condición micrófono (entrenamiento) vs. micrófono condición micrófono (entrenamiento) vs. micrófono
((testtest))
•• 8 diferentes tipos de micrófono, muy diversas calidades8 diferentes tipos de micrófono, muy diversas calidades
•• Diferentes estilos de habla (conversación, entrevista)Diferentes estilos de habla (conversación, entrevista)
-
42
83Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Teléfono vs. micrófono Micrófono vs. teléfono
ATVS-UAM en NIST SRE 2008•• Condiciones de desajuste muy fuerteCondiciones de desajuste muy fuerte
•• RobustezRobustez
84Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Efecto y compensación de variabilidad
Desajuste de base de datos(datos microfónicos)
Compensación devariabilidad entre sesiones
Eliminación de ruido(filtrado de Wiener)
•• Desarrollo NIST SRE 2008, hombresDesarrollo NIST SRE 2008, hombres
-
43
85Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Conclusiones
86Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Conclusiones•• Señal de voz: gran cantidad de información sobre hablanteSeñal de voz: gran cantidad de información sobre hablante
Distintos niveles de identidadDistintos niveles de identidad
Muy alta variabilidadMuy alta variabilidad
•• EstrategisEstrategis en biometría vocal:en biometría vocal:
Combinación de múltiples extractores de informaciónCombinación de múltiples extractores de información
Fusión Fusión multinivelmultinivel
Fusión Fusión multisistemamultisistema
Algoritmos de compensación de variabilidadAlgoritmos de compensación de variabilidad
Problema de difícil resoluciónProblema de difícil resolución
Gran actividad investigadoraGran actividad investigadora
•• Evaluaciones NIST: claves en el desarrollo de la tecnología Evaluaciones NIST: claves en el desarrollo de la tecnología de reconocimiento de locutorde reconocimiento de locutor
-
44
87Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Muchas Gracias
Referencias
-
45
89Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Referencias[Reynolds00] D. A. Reynolds et al., 2000. “Speaker verification using adapted Gaussian mixture models,” Digital Signal Processing, v. 10, pp. 19–41, 2000.[Campbell06] W. M. Campbell et al., 2006. “Support vector machines using GMM supervectors for speaker verification”. Signal Processing Letters, v. 13(5), pp. 308-311.[Reynolds03] D. A. Reynolds et al., 2003. “The SuperSID project: Exploiting high-level information for high-accuracy speaker recognition”. Proc. of ICASSP 2003, Hong Kong, China.[Karajarekar04] S. Kajarekar et al., 2004. “Modelling NERFs for Speaker Recognition”. Proc. of Odyssey 2004, Toledo, Spain.[Rabiner07] L. Rabiner, 2007. “HMMs and Related Speech Technologies.” In Springer Handbook of Speech Technologies (ISBN: 978-3-540-49125-5). J. Benesty, M. M. Sondhi, Y. Huang (Eds.).[Stolcke06] A. Stolcke et al., 2005. “MLLR Transforms as Features in Speaker Recognition”. Proc. of Interspeech 2005, Lisbon, Portugal.
90Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Referencias[Campbell06b] W. M. Campbell et al., 2006. “Support vector machines for speaker and language recognition”. Computer Speech and Language, v. 20(2-3), pp. 210-229.[Lopez07] I. Lopez-Moreno et al. “Support Vector Regression for Speaker Verification.” Proc. of Interspeech 2007, pp. 306-309. Antwerp, Belgium.[Auckenthaller00] R. Auckenthaler et al., 2000. “Score normalization for text-independent speaker verification systems.” Digital Signal Processing, vol. 10, pp. 42–54.[Brummer07] N. Brümmer et al., 2007. “Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006.” IEEE Transactions on Audio, Speech and Signal Processing, vol. 15, no. 7, pp. 2072–2084.[Kenny07] P. Kenny et al., 2007. “Speaker and session variability in GMM-based speaker verification.” IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 4, pp. 1448–1460.
-
46
91Técnicas biométricas aplicadas a la seguridad
Reconocimiento de locutor
Referencias
[Vogt07] R. Vogt and S. Sridharan, 2007. “Explicit modelling of session variability for speaker verification.” Computer Speech and Language, vol. 22, no. 1, pp. 17–38.[Vogt08] R. Vogt et al., 2008. “Factor Analysis Modelling for Speaker Verification with Short Utterances.” Proc. of Odyssey 2008, Stellenbosch, South Africa.[Fauve08] B. Fauve et al., 2008. “Improving the performance of text-independent short duration SVM- and GMM-based speaker verification.” Proc. Of Odyssey, Stellenbosch, South Africa.[Ramos08] D. Ramos et al., 2008. “Addressing database mismatch in forensic speaker recognition with Ahumada III: a public real-casework database in Spanish.” Proc. of Interspeech 2008, Brisbane, Australia.
Reconocimiento de Locutor(Biometría Vocal)
Daniel Ramos Castrodaniel.ramos@uam.es
ATVS – Biometric Recognition Grouphttp://atvs.ii.uam.es
Universidad Autónoma de Madrid
top related