new reconocimiento de locutor (biometría...

1

Reconocimiento de Locutor(Biometría Vocal)

Daniel Ramos Castrodaniel.ramos@uam.es

ATVS – Biometric Recognition Grouphttp://atvs.ii.uam.es

Universidad Autónoma de Madrid

2Técnicas biométricas aplicadas a la seguridad

Reconocimiento de locutor

Sumario•• Introducción: voz e identidadIntroducción: voz e identidad

•• Reconocimiento de locutor Reconocimiento de locutor multinivelmultinivel

Reconocimiento acústico (bajo nivel)Reconocimiento acústico (bajo nivel)

GMMGMM

SVMSVM--GLDSGLDS

Reconocimiento de alto nivelReconocimiento de alto nivel

FonéticoFonético

ProsódicoProsódico

FusiónFusión

•• Evaluaciones NISTEvaluaciones NIST

•• Desafíos Actuales y Últimas TendenciasDesafíos Actuales y Últimas Tendencias

•• ConclusionesConclusiones

2



Información de identidad en la señal de voz



Señal de Voz e Información de Identidad

•• Las personas somos capaces de identificar locutores Las personas somos capaces de identificar locutores a partir de sus vocesa partir de sus voces

Durante toda nuestra vida Durante toda nuestra vida ““adquirimosadquirimos”” vocesvoces

Inconscientemente creamos un “modelo” de cada Inconscientemente creamos un “modelo” de cada locutorlocutor

•• Por tanto, la señal de voz conlleva información de Por tanto, la señal de voz conlleva información de identidad del hablanteidentidad del hablante

•• ¿Dónde se encuentra esa información?¿Dónde se encuentra esa información?

•• ¿Cómo podemos extraerla, caracterizarla y ¿Cómo podemos extraerla, caracterizarla y compararla?compararla?

3



Niveles de Identidad en la Voz

•• Existen diferentes niveles en los que la identidad del Existen diferentes niveles en los que la identidad del hablante se encuentra en la señal de vozhablante se encuentra en la señal de voz

Cuando reconocemos a alguien por la voz Cuando reconocemos a alguien por la voz tenemos en cuenta…tenemos en cuenta…






Su timbreSu timbre

4






Su timbreSu timbre

Su uso de los sonidosSu uso de los sonidos






Su timbreSu timbre

Su uso de los sonidosSu uso de los sonidos

Su forma de entonarSu forma de entonar

……

•• Identidad en varios niveles (Identidad en varios niveles (fusiónfusión))

•• Esa combinación es dependiente del locutor a Esa combinación es dependiente del locutor a reconocerreconocer

5




Niv

el m

ás a

lto

•• Las diferentes características de la voz se Las diferentes características de la voz se agrupan en niveles (lingüística)agrupan en niveles (lingüística)

•• ……

•• Fonético: utilización de diferentes sonidos, Fonético: utilización de diferentes sonidos, pronunciación, etc.pronunciación, etc.

•• Prosódico: entonación particular, variación Prosódico: entonación particular, variación de energía, pausas entre frases o palabras, de energía, pausas entre frases o palabras, etc.etc.

•• Espectral: configuración (resonancia) del Espectral: configuración (resonancia) del tracto vocal, tracto vocal, coco--articulación, nasalidad, etc. articulación, nasalidad, etc.

•• … …



Estrategia en Biometría Vocal•• En biometría vocal tendrán que tenerse en cuenta:En biometría vocal tendrán que tenerse en cuenta:

1.1. La información extraída a diferentes nivelesLa información extraída a diferentes niveles

Estrategia Estrategia multinivelmultinivel

Y de diferente forma en cada nivelY de diferente forma en cada nivel

Estrategia Estrategia multisistemamultisistema

Rec. espectral 1

Rec. Fonético

Rec. espectral 2

Rec.Prosódico

6



Estrategia en Biometría Vocal•• En biometría vocal tendrán que tenerse en cuenta:En biometría vocal tendrán que tenerse en cuenta:

1.1. La información extraída a diferentes nivelesLa información extraída a diferentes niveles

Estrategia Estrategia multinivelmultinivel

Y de diferente forma en cada nivelY de diferente forma en cada nivel

Estrategia Estrategia multisistemamultisistema

2.2. La combinación de esa informaciónLa combinación de esa información

Fusión Fusión multinivelmultinivel

FusiónFusión multisistemamultisistemaRec. espectral 1

Rec. Fonético

Rec. espectral 2

Rec.Prosódico

Fusión(capítulo de

multibiometría)



Problema: Variabilidad•• Problema fundamental en la señal de vozProblema fundamental en la señal de voz

•• Debida a múltiples (y comunes) factores:Debida a múltiples (y comunes) factores:

•• Factores internos intrínsecos: Factores internos intrínsecos: Permanentes: sexo, edad, sesión, tipo y cantidad de Permanentes: sexo, edad, sesión, tipo y cantidad de hablahabla

Transitorios: estado emocional, patologías Transitorios: estado emocional, patologías fonatoriasfonatorias

•• Factores internos forzados: Factores internos forzados: Efecto ‘Lombard’ (voz en ambiente ruidoso)Efecto ‘Lombard’ (voz en ambiente ruidoso)

Efecto ‘cocktailEfecto ‘cocktail--party’ (voz en voces concurrentes)party’ (voz en voces concurrentes)

•• Factores externos: Factores externos: Canal (Canal (electro)acústicoelectro)acústico: ruido acústico, reverberación, : ruido acústico, reverberación, microfoníamicrofonía, distancia, distancia

Canal de comunicaciones: ruido eléctrico, ancho de Canal de comunicaciones: ruido eléctrico, ancho de banda, margen dinámico, distorsión, codificaciónbanda, margen dinámico, distorsión, codificación

7



Arquitectura básica de un sistemade reconocimiento de locutores



Reconocimiento automático

Reconocimientoautomáticode locutor

Identidad A

scoreIdentidad B

•• La gran mayoría de sistemas calcula puntuaciones (La gran mayoría de sistemas calcula puntuaciones (scoresscores))

•• Similitud entre las identidades en dos fragmentos de vozSimilitud entre las identidades en dos fragmentos de voz

•• Idealmente (y sin perder generalidad):Idealmente (y sin perder generalidad):

•• Si A y B son la misma identidad, Si A y B son la misma identidad, scorescore más altomás alto

•• Si A y B son identidades diferentes, Si A y B son identidades diferentes, scorescore más bajomás bajo

•• Un Un scorescore permite permite discriminardiscriminar

8



Cálculo de una puntuación (score): etapas

Modelo AExtracción decaracterísticas ModeladoA

•• Paso 1: modelado de característicasPaso 1: modelado de características



Cálculo de una puntuación (score): etapas

score

Modelo AExtracción decaracterísticas Modelado

Modelo A

Comparación

Extracción decaracterísticas

A

B

•• Paso 1: modelado de característicasPaso 1: modelado de características

•• Paso 2: cálculo de la puntuación (Paso 2: cálculo de la puntuación (scorescore))

9



Detección (verificación) de locutor

Reconocimientoautomáticode locutor

Ascore

B> τ A y B son iguales

< τ A y B son diferentes

•• Tarea básicaTarea básica

•• ¿Es la identidad de ambos fragmentos de voz la misma?¿Es la identidad de ambos fragmentos de voz la misma?

•• Típicamente en dos pasos:Típicamente en dos pasos:

1.1. Cálculo de la puntuaciónCálculo de la puntuación

2.2. Comparación con un umbralComparación con un umbral



Reconocimiento multinivelde locutores

(independiente de texto)

10



Reconocimiento de locutor multinivel•• Tradicionalmente (años 90), sólo sistemas basados en Tradicionalmente (años 90), sólo sistemas basados en

parámetros “espectrales”parámetros “espectrales”

Diferentes estrategias:Diferentes estrategias:

DynamicDynamic Time Time WarpingWarping (DTW)(DTW)

Vector Vector QuantizationQuantization (VQ)(VQ)

Artificial Artificial NeuralNeural NetworkNetwork (ANN)(ANN)

HiddenHidden MarkovMarkov ModelsModels (HMM)(HMM)

GaussianGaussian Mixture Mixture ModelsModels (GMM)(GMM)

•• Los sistemas de alto nivel proporcionan posibilidadesLos sistemas de alto nivel proporcionan posibilidades

•• Especialmente para longitudes de entrenamento Especialmente para longitudes de entrenamento grandes (>10min.)grandes (>10min.)

•• Para longitudes de entrenamiento pequeñas (

11



Referencia: SuperSID:D. A. Reynolds, et al., “The SuperSID Project: Exploiting High-level Information for High-accuracy Speaker Recognition”, IEEE Intl. Conf. on Acous. Speech and Signal Proc., ICASSP 2003

Fusión de sistemas a distintos niveles:AcústicoProsódicoFonéticoLéxicoConversacional…

Reconocimiento de locutor multinivel



Reconocimiento de locutora nivel espectral

12



Reconocimiento acústico de locutor•• Los sistemas acústicos basan el reconocimiento en las Los sistemas acústicos basan el reconocimiento en las

características espectrales de la señal de vozcaracterísticas espectrales de la señal de voz

•• Y en la variación de esas características a lo largo del Y en la variación de esas características a lo largo del tiempotiempo

s i e t e c e r o

0 1 2 3 4 5 6 7 8-70

-60

-50

-40

-30

-20

-10

0

Frecuencia(KHz)

Ampl

itud(

dB)



Mecanismo de producción de voz•• El espectro de la señal de voz está directamente El espectro de la señal de voz está directamente

relacionado conrelacionado con

La señal de excitación procedente de las cuerdas La señal de excitación procedente de las cuerdas vocalesvocales

La configuración de tracto vocalLa configuración de tracto vocal

13



•• Las cuerdas vocales generan el sonidoLas cuerdas vocales generan el sonido

Señal de excitaciónSeñal de excitación

Si las cuerdas vibran, señal sonora (estructura Si las cuerdas vibran, señal sonora (estructura periódica subyacente)periódica subyacente)

Si las cuerdas no vibran, señal sorda (ruido, sin Si las cuerdas no vibran, señal sorda (ruido, sin periodicidad)periodicidad)

Cuerdas vocales: excitación

Ciclo de Ciclo de VibraciónVibración



Espectro: Sonidos Sordos•• Si las cuerdas vocales no vibran…Si las cuerdas vocales no vibran…

Espectro ruidoso de alta frecuenciaEspectro ruidoso de alta frecuencia

Ejemplo: “s sorda”, “f”, “z”…Ejemplo: “s sorda”, “f”, “z”…

14



Espectro: Sonidos Sonoros•• Si las cuerdas vocales vibran…Si las cuerdas vocales vibran…

Tono (Tono (pitchpitch) + formantes (envolvente)) + formantes (envolvente)

Señal Señal cuasicuasi--periódica: pitchperiódica: pitch

Ejemplo: vocales, “m”, “l”…Ejemplo: vocales, “m”, “l”…

0 5 10 15 20 25 30 35 40 45

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

Tiempo(ms)

Estructura periódica, alta energía

0 1 2 3 4 5 6 7 8-70

-60

-50

-40

-30

-20

-10

0

Frecuencia(KHz)

Ampl

itud(

dB)

Estructura fina (armónicos) y formantes



•• La señal de excitación define la frecuencia fundamental La señal de excitación define la frecuencia fundamental de vibración (de vibración (pitchpitch))

•• Sin embargo, la forma del espectro (formantes) está Sin embargo, la forma del espectro (formantes) está definida por la configuración de los órganos articulatorios definida por la configuración de los órganos articulatorios (tracto vocal)(tracto vocal)

Tracto vocal: articulación

•• El tracto vocal de cada ser El tracto vocal de cada ser humano genera formantes humano genera formantes ligeramente diferentes para un ligeramente diferentes para un mismo sonidomismo sonido

•• Por tanto, de la forma del Por tanto, de la forma del espectro se puede extraer espectro se puede extraer información que permite información que permite discriminar entre personasdiscriminar entre personas

15



Pulso glotal y resonanciaTracto vocal(resonancia)

Pulso glotal(vibración, periódica)

Envolvente espectral:

estructura del tracto vocal

(particular de cada locutor)



Extracción de características•• Primer paso para el reconocimiento: Primer paso para el reconocimiento:

extracción de característicasextracción de características


16



•• El espectro de la señal de voz tiene mucha variabilidad El espectro de la señal de voz tiene mucha variabilidad temporaltemporal

Un análisis del espectro total de la voz (Un análisis del espectro total de la voz (a largo plazoa largo plazo) ) no resulta práctico, porque los espectros de los no resulta práctico, porque los espectros de los diferentes sonidos no se distinguiríandiferentes sonidos no se distinguirían

Análisis a corto plazo

s i e t e c e r o



•• Sin embargo, a corto plazo (entre 5 y 30 Sin embargo, a corto plazo (entre 5 y 30 msms)…)…

•• Sonidos sonoros se pueden considerar “periódicos”Sonidos sonoros se pueden considerar “periódicos”

•• Sonidos sordos se pueden considerar “estacionarios”Sonidos sordos se pueden considerar “estacionarios”

Estrategia: muchas “muestras” de la señal a corto Estrategia: muchas “muestras” de la señal a corto plazo (enventanado)plazo (enventanado)

Análisis a corto plazo

0.26 0.265 0.27 0.275 0.28 0.285 0.29 0.295Time (seconds)

3.2 3.21 3.22 3.23 3.24 3.25Time (seconds)

/a/ (sonora) /s/ (sorda)

17



•• Primer paso: Primer paso: enventanadoenventanado

Se obtienen “trozos” de la señal con solapamientoSe obtienen “trozos” de la señal con solapamiento

•• Segundo paso: Segundo paso: parametrizaciónparametrización

Se obtienen características (parámetros) de cada ventanaSe obtienen características (parámetros) de cada ventana

•• Se obtiene una Se obtiene una secuencia de vectores de parámetrossecuencia de vectores de parámetros

Una secuencia por cada locuciónUna secuencia por cada locución

Parametrización acústica

o1

o2

o3

o4

o5

ot

oT

AnalysisWindows

FeatureVectors



•• Objetivo: extraer información discriminante de cada Objetivo: extraer información discriminante de cada ventana de voz en la locuciónventana de voz en la locución

•• De cada ventana se obtiene un vector de característicasDe cada ventana se obtiene un vector de características

Generalmente de longitud fijaGeneralmente de longitud fija

•• Diversos tiposDiversos tipos•• MelMel FrequencyFrequency CepstralCepstral CoefficientsCoefficients (MFCC)(MFCC)

•• Linear Linear PredictionPrediction CepstalCepstal CoefficientsCoefficients (LPCC)(LPCC)

Parametrización acústica

0 1 2 3 4 5 6 7 8-70

-60

-50

-40

-30

-20

-10

0

Frecuencia(KHz)

Ampl

itud(

dB)

Parametrización

…

18



Mel Frequency Cepstral Coefficients (MFCC)•• Banco de filtros Banco de filtros MelMel

La escala La escala MelMel está basada en la percepción logarítmica está basada en la percepción logarítmica del oído humanodel oído humano

Frequency

m1 m2 mp...

Cepstraltransform

f1 f2 fD...

•• Trasformada Trasformada cepstralcepstral•• Propiedades Propiedades interesatnesinteresatnes

•• DeconvolucíónDeconvolucíón

•• OrtogonalizaciónOrtogonalización

•• Parte de esos coeficientes Parte de esos coeficientes cepstralescepstrales serán el vector serán el vector de parámetros de esa de parámetros de esa ventana ventana



Linear Prediction Cepstral Coefficients (LPCC)

•• La envolvente de la ventana La envolvente de la ventana bajo análisis se estima bajo análisis se estima utilizando un filtro de utilizando un filtro de predicción linealpredicción lineal

•• La transformada La transformada cepstralcepstral de de los coeficientes de dicho filtro los coeficientes de dicho filtro genera unos coeficientes genera unos coeficientes transformadostransformados

•• Parte de esos coeficientes Parte de esos coeficientes cepstralescepstrales serán el vector de serán el vector de parámetros de esa ventana parámetros de esa ventana

19



Siete hablantes españoles Un hablante por idioma

Espacio de características espectrales•• El espacio de características es compartido por cada El espacio de características es compartido por cada

locutor y hay solapamiento entre elloslocutor y hay solapamiento entre ellos

•• Además, existe variabilidad dentro del mismo locutor por Además, existe variabilidad dentro del mismo locutor por diversos factoresdiversos factores



Modelado•• Una vez extraídos los parámetros, será necesario crear Una vez extraídos los parámetros, será necesario crear

un modelo para cada locutorun modelo para cada locutor

•• La puntuación se obtendrá comparando la locución de La puntuación se obtendrá comparando la locución de prueba con el modelo creado (prueba con el modelo creado (entrenadoentrenado))

•• Veremos dos tipos de modelado y cálculo de puntuación Veremos dos tipos de modelado y cálculo de puntuación de características espectralesde características espectrales

•• GMMGMM

•• SVMSVM--GMMGMM


20



Modelos de mezclas de gaussianas(Gaussian Mixture Models, GMM)



Modelos de Mezclas de Gaussianas (GMM)•• Función densidad de probabilidad multidimensionalFunción densidad de probabilidad multidimensional

•• Modela la probabilidad de obtener características de un Modela la probabilidad de obtener características de un locutor determinado en el espaciolocutor determinado en el espacio

•• Suma ponderada de densidades de probabilidad Suma ponderada de densidades de probabilidad gaussianasgaussianas

•• Función densidad de probabilidadFunción densidad de probabilidad

•• Ejemplo:Ejemplo:

•• M=4M=4 componentes componentes (mezclas) (mezclas) gaussianasgaussianas

•• Espacio de características Espacio de características de de D=2D=2 dimensionesdimensiones

•• Detalles en [Reynolds00]Detalles en [Reynolds00]

21



0.2

0.2

0.2

0.20.2

0.2

0.2 0.

2

0.2

0.4

0.4

0.4

0.4

0.4

0.4

0.4

0.6

0.60.6

0.60.8

0.8

0.81

1

1.21.4

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

1.3

Modelos de Mezclas de Gaussianas (GMM)Vector de medias (mezcla i): μp={μip}

Matriz de covarianzas (mezcla i): Σ p={Σip}

Vector de pesos (mezcla i): ω p={ωip}, Σi ωip=1

Modelo del locutor p: λp={μip,Σip,ωip}

( ) ( )1

M

p ip ipi

p gλ ω=

=∑o o( ) ( ),ip ip ipg N= Σo μ

•• Regiones diferentes del Regiones diferentes del espacio corresponden a espacio corresponden a configuraciones diferentes configuraciones diferentes del tracto vocaldel tracto vocal

•• Valores diferentes de Valores diferentes de las característicaslas características

•• GMM representa bien muy GMM representa bien muy diversas distribuciones de diversas distribuciones de característicascaracterísticas



Entrenamiento GMM

ci

cj

xx

x

x

x

x x

x

x

x

x

xx

x

A


•• A partir de datos de A partir de datos de entrenamientoentrenamiento

22



ci

cj

xx

x

x

x

x x

x

x

x

x

xx

x


•• Inicialización del modeloInicialización del modelo

Entrenamiento GMM



cici

cj

xx

x

x

x

x x

x

x

x

x

xx

x



•• Maximum Likelihood (ML)Maximum Likelihood (ML)•• Ajuste a datosAjuste a datos

•• IterativamenteIterativamente

•• Algoritmo Expectation Algoritmo Expectation Maximization (EM)Maximization (EM)

Entrenamiento GMM

23



cici

cj

xx

x

x

x

x x

x

x

x

x

xx

x






Entrenamiento GMM



ci

cj

xx

x

x

x

x x

x

x

x

x

xx

x






•• Modelo GMM A entrenadoModelo GMM A entrenado

Entrenamiento GMM

24



B

Cálculo del score utilizando GMM

( )1

( ) tT

At

Ap pλ λ=

= ∏O o

o1

o2

o3o4o5

o6

cj

(o1,...,o6)


ciModelo GMM de AModelo GMM de A

•• Partimos del modelo GMM entrenado con el habla de Partimos del modelo GMM entrenado con el habla de identidad Aidentidad A

•• Extraemos características del habla de Extraemos características del habla de identidad Bidentidad B

•• Cálculo del Cálculo del scorescore::

•• Probabilidad de las muestras de Probabilidad de las muestras de BB suponiendo el modelo de suponiendo el modelo de AA

•• Asumiendo independencia entre muestrasAsumiendo independencia entre muestras



Adaptación desde modelo universal•• El habla de entrenamiento en general es limitadaEl habla de entrenamiento en general es limitada

•• Pueden entrenarse modelos de locutor no generalesPueden entrenarse modelos de locutor no generales

•• SobreajusteSobreajuste a datos de entrenamientoa datos de entrenamiento

•• Universal Background Universal Background ModelModel (UBM)(UBM)•• Entrenado con habla de muchos individuosEntrenado con habla de muchos individuos

•• Intenta modelar la máxima variabilidad para la aplicación dadaIntenta modelar la máxima variabilidad para la aplicación dada

•• Idea:Idea:•• UBM representa distribuciones de características UBM representa distribuciones de características comunes a todos comunes a todos

los locutoreslos locutores

•• El modelo de locutor se adapta desde el UBMEl modelo de locutor se adapta desde el UBM

•• Características de entrenamiento: distribución particular del Características de entrenamiento: distribución particular del locutorlocutor

•• Las regiones del espacio en las que no hay características del Las regiones del espacio en las que no hay características del locutor mantienen la distribución común a todos (UBM)locutor mantienen la distribución común a todos (UBM)

•• Robustez frente a pocos datos de entrenamientoRobustez frente a pocos datos de entrenamiento

25



cj

ci

Extracción

x

x

x

xx x

xxx x

xx

xx

xx xx

xx

x

x

x

xx

x

xx

•• Características de un conjunto grande de locutoresCaracterísticas de un conjunto grande de locutores

•• Representa la variabilidad en la aplicación objetivoRepresenta la variabilidad en la aplicación objetivo

Adaptación desde UBM



cj

ciUBMUBM

x

x

x

xx x

xxx x

xx

xx

xx xx

xx

x

x

x

xx

x

xx

Extracción

•• Entrenamiento de UBMEntrenamiento de UBM

•• ML con algoritmo EMML con algoritmo EM

Adaptación desde UBM

26



cj

ciUBMUBM

Adaptación desde UBM•• Entrenamiento de UBMEntrenamiento de UBM

•• ML con algoritmo EMML con algoritmo EM



cj

ci

Feature extraction

A

xx

x

xx xxcj

ciUBMUBM

Adaptación desde UBM•• Características del habla de entrenamiento (A)Características del habla de entrenamiento (A)

•• Pueden ser escasasPueden ser escasas

27



cj

ciSpeaker Model ASpeaker Model A

xx

x

xx xxcj

ciUBMUBM

Feature extraction

A

Adaptación desde UBM•• Adaptación a partir del UBMAdaptación a partir del UBM

•• Máximo A Posteriori (MAP)Máximo A Posteriori (MAP)

•• Utilizando de nuevo el algoritmo EMUtilizando de nuevo el algoritmo EM

•• El modelo cambiará en las regiones El modelo cambiará en las regiones con datos de entrenamientocon datos de entrenamiento

•• En el resto de regiones el modelo En el resto de regiones el modelo se mantiene como el UBMse mantiene como el UBM



Puntuación GMM-UBM

( )1

( )UBM UT

tBMtp pλ λ

=

=∏O o

B Extracción

PuntuaciónModelo A

PuntuaciónUBM

/

( )1

( ) tT

At

Ap pλ λ=

=∏O o

( )

( )1

1

score logt

t

T

U

t

B

T

A

Mt

p

p

λ

λ

=

=

⎛ ⎞⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎝ ⎠

∏

∏

o

o

•• Puntuación frente al modelo con respecto a puntuación frente al Puntuación frente al modelo con respecto a puntuación frente al UBMUBM

•• Resalta especificidades del locutor con respecto al universoResalta especificidades del locutor con respecto al universo

28



Máquinas de vectores soporte (SVM)utilizando supervectores GMM




1( , ..., )A M=x µ µ

cj

ciGMM locución AGMM locución A

•• SVM: plano de separación óptimo entre características de clases SVM: plano de separación óptimo entre características de clases distintasdistintas•• Pero las características espectrales son difíciles de separar coPero las características espectrales son difíciles de separar con un plano…n un plano…

•• Espacio de características alternativo: supervectores GMM [CampbEspacio de características alternativo: supervectores GMM [Campbell06]ell06]•• Paso 1: Se entrena un GMM por cada locuciónPaso 1: Se entrena un GMM por cada locución

•• Paso 2: construcción del Paso 2: construcción del supervectorsupervectorcon los vectores de medias del GMM con los vectores de medias del GMM concatenadosconcatenados

•• Nuevo espacio de Nuevo espacio de dimensiondimension D x MD x M

•• D es la dimensión del espacio D es la dimensión del espacio originaloriginal

•• M es el número de mezclas del GMMM es el número de mezclas del GMM

29



cj

ciModelo GMM AModelo GMM A

cj

ciModelo GMM BModelo GMM B

A

B

Paso 1: modelado

Paso 2: cálculo del scorex

B

Modelo SVM A(hiperplano de

separación)

Score(distancia alhiperplano)


xA

Impostores



Sistemas de Alto Nivel:Fonético

30



Reconocimiento Fonético•• Discrimina locutores por el uso que hacen de los sonidosDiscrimina locutores por el uso que hacen de los sonidos

Diferentes locutores emplearán sonidos diferentesDiferentes locutores emplearán sonidos diferentes

•• Objetivo: medida de similitud entre secuencias de fonemas Objetivo: medida de similitud entre secuencias de fonemas reconocidosreconocidos

•• ¿Qué necesitamos?:¿Qué necesitamos?:

1.1. Reconocedor fonético (uno o varios, diferentes Reconocedor fonético (uno o varios, diferentes configuracionsconfiguracions y/ó idiomas)y/ó idiomas)

transcripcióntranscripción fonéticafonética

2.2. Modelado de lenguaje con nModelado de lenguaje con n--gramas gramas

bigrambigram, trigram, 4, trigram, 4--gramgram……



Reconocedor Fonético•• Como entrada recibe la señal de vozComo entrada recibe la señal de voz

•• Como salida devuelve una secuencia de fonemas Como salida devuelve una secuencia de fonemas reconocidosreconocidos

•• Basado en modelos de fonemaBasado en modelos de fonema

•• Alto coste computacionalAlto coste computacional

•• No exento de erroresNo exento de errores

•• Sensible a variabilidad en el hablaSensible a variabilidad en el habla

Locución deentrada:“casa”

Reconocedorfonético

/k/ /a/ /s/ /a/

31



Modelo de lenguaje•• Trata de representar la frecuencia de ocurrencia de Trata de representar la frecuencia de ocurrencia de

secuencias de fonemas o “nsecuencias de fonemas o “n--gramas”gramas”

•• Un nUn n--grama es una secuencia de n fonemas seguidos en la grama es una secuencia de n fonemas seguidos en la cadena reconocidacadena reconocida

•• A partir de una locución de entrenamiento se obtiene:A partir de una locución de entrenamiento se obtiene:

•• La probabilidad de que una secuencia de fonemas de La probabilidad de que una secuencia de fonemas de testtestla haya pronunciado el locutor “i” se obtiene a partir de la la haya pronunciado el locutor “i” se obtiene a partir de la probabilidad de cada nprobabilidad de cada n--grama en la secuenciagrama en la secuencia

Generalmente se asume independencia (producto)Generalmente se asume independencia (producto)

/k/ /a/ /s/ /a/ … Modelado den-gramas

Probabilidades decada n-grama

para el locutor “i”



Sistema fonético•• Cálculo del Cálculo del scorescore

32



Sistemas de Alto Nivel:Prosódico



Información prosódica

Pausas y declinación

Duración Pitch (F0) Energía

Semántica, Léxico …

Estilo de habla

Leída

Espontánea

Conversación

Susurro

…

Estado:

Edad

Sexo

Ánimo

…

Prosodia = f (semántica, léxico… , edad, emoción, … , estilo de habla, …. )

Lingüístico Extralingüístico

33



Reconocimiento Prosódico•• Discrimina locutores por el uso que hacen de la prosodiaDiscrimina locutores por el uso que hacen de la prosodia

Diferentes locutores emplearán la prosodia de manera Diferentes locutores emplearán la prosodia de manera diferentediferente

•• Objetivo: medida de similitudes entre la prosodia de dos Objetivo: medida de similitudes entre la prosodia de dos locucioneslocuciones

Variación de la energíaVariación de la energía

Variación de la frecuencia Variación de la frecuencia funcamentalfuncamental ((pitchpitch, f0), f0)

……



Reconocimiento Prosódico

•• ¿Qué necesitamos?:¿Qué necesitamos?:

1.1. Extraer la variación de la energía y la F0Extraer la variación de la energía y la F0

2.2. Modelado estadístico mediante nModelado estadístico mediante n--gramas gramas

bigrambigram, trigram, 4, trigram, 4--gramgram……

34



Parametrización prosódica: F0 y energía



1 2 43 5 6 7 8

Contornos de F0 y Energía

ContornosAprox. Lineal

O Puntos de inflexiónO Comienzo-final

35



*+S+F+S+F-F-F-S-F-S-F-S-F+S+F+S+FE

UV-S-S-F-F+S+S+F+F-S-S-F-F+S+S+F+FFO

1716151413121110987654321TOKEN

F0

Log E

+F=Fast-rising; +S=Slow-rising; -F=Fast-falling; -S=Slow-falling; UV=Unvoiced

Cuantificación•• Se detectan tipos de contornoSe detectan tipos de contorno

Sube rápido, baja rápido, sube despacio…Sube rápido, baja rápido, sube despacio…

•• A cada tipo de contorno se le asigna una clase (A cada tipo de contorno se le asigna una clase (tokentoken))



Modelo de n-gramas•• Trata de representar la frecuencia de ocurrencia de Trata de representar la frecuencia de ocurrencia de

secuencias de secuencias de tokenstokens o “no “n--gramas”gramas”

•• Un nUn n--grama es una secuencia de n grama es una secuencia de n tokenstokens seguidos en la seguidos en la cadena cuantificadacadena cuantificada

•• A partir de una locución de entrenamiento se obtiene:A partir de una locución de entrenamiento se obtiene:

•• ScoringScoring igual que en reconocimiento fonéticoigual que en reconocimiento fonético

T8 T16 T5 T3 … Modelado den-gramas

Probabilidades decada n-grama

para el locutor “i”

36



Compensación de variabilidadentre sesiones



Variabilidad: el desafío

•• El reconocimiento espectral supera ampliamente en El reconocimiento espectral supera ampliamente en rendimiento al de alto nivelrendimiento al de alto nivel

•• Pero la Pero la variabilidadvariabilidad sigue siendo un problemasigue siendo un problema

Aún muy dañina (micro vs. teléfono, alto ruido o Aún muy dañina (micro vs. teléfono, alto ruido o reverberación, etc.)reverberación, etc.)

Técnicas de Técnicas de compensacióncompensación

37



Compensación: factor analysis y cía.•• Variabilidad entre sesionesVariabilidad entre sesiones



Compensación: factor analysis y cía.•• Idea sencilla: búsqueda y compensación de direcciones de Idea sencilla: búsqueda y compensación de direcciones de

variación no deseadasvariación no deseadas

•• Implementación no tan sencilla…Implementación no tan sencilla…

eigen

( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )1 11

KT Ts s s s s s sm m m t m m m m

s m t s m t kt j t w k j kγ γ− −

=

⎧ ⎫= ⎨ ⎬⎩ ⎭

∑∑∑ ∑∑∑ ∑e Σ o e Σ e

38



Compensación: factor analysis y cía.

•• ““Y cía.” (Y cía.” (sicsic) porque existen muchas variantes) porque existen muchas variantes

Factor Factor analysisanalysis

JointJoint factor factor analysisanalysis

NuissanceNuissance AttributeAttribute ProjectionProjection

ChannelChannel factorsfactors

Speaker Speaker FactorsFactors

......

Vendrán más, es un campo en actual ebulliciónVendrán más, es un campo en actual ebullición

•• Factor Factor analysisanalysis ha revolucionado la compensación de canalha revolucionado la compensación de canal



Estado del Arte y tendencias

39



Estado del Arte•• Dominio de los sistemas Dominio de los sistemas espectralesespectrales

•• Superan a los sistemas de alto nivelSuperan a los sistemas de alto nivel

•• [Reynolds00, Campbell06][Reynolds00, Campbell06]

•• Compensación de Compensación de variabilidadvariabilidad entre sesionesentre sesiones

•• Intensa actividad investigadora en la actualidadIntensa actividad investigadora en la actualidad

•• [Kenny07,Vogt07][Kenny07,Vogt07]

•• FusiónFusión de diferentes sistemasde diferentes sistemas

•• Explotar información complementariaExplotar información complementaria

•• [Brummer07][Brummer07]

•• Tema de Tema de multibiometríamultibiometría



Desafíos actuales•• VariabilidadVariabilidad de la voz entre sesionesde la voz entre sesiones

•• Sigue siendo muy problemático en condiciones Sigue siendo muy problemático en condiciones extremas extremas

•• [Kenny07,Vogt07][Kenny07,Vogt07]

•• Degradación del rendimiento con Degradación del rendimiento con poco materialpoco material de vozde voz

•• Locuciones cortas (típicamente de prueba)Locuciones cortas (típicamente de prueba)

•• [Vogt08,Fauve08][Vogt08,Fauve08]

•• Desajuste de base de datosDesajuste de base de datos

•• El sistema se entrena con datos en condiciones muy El sistema se entrena con datos en condiciones muy diferentes a la de funcionamiento real (ruido, estilo de diferentes a la de funcionamiento real (ruido, estilo de habla, reverberación, etc.)habla, reverberación, etc.)

•• [Ramos08][Ramos08]

40



Evaluaciones NIST dereconocimiento de locutor



Evaluaciones NIST•• Realizadas anualmente por el NIST americano (Realizadas anualmente por el NIST americano (NationalNational

InstituteInstitute ofof StandardsStandards andand TechnologyTechnology))

•• Objetivo: fomentar el desarrollo de la tecnología de Objetivo: fomentar el desarrollo de la tecnología de reconocimiento de locutorreconocimiento de locutor

•• Primera edición en 1998Primera edición en 1998

ATVS ha participado de manera exitosa desde 2001 ATVS ha participado de manera exitosa desde 2001 salvo en la edición de 2003salvo en la edición de 2003

•• Impulso radical en la tecnología de reconocimiento de Impulso radical en la tecnología de reconocimiento de locutorlocutor

Bases de datosBases de datos

Protocolos comunesProtocolos comunes

Foro científico muy competitivoForo científico muy competitivo

•• www.nist.govwww.nist.gov//speechspeech

41



ATVS-UAM en NIST SRE 2008•• Sistema primario ATVS1Sistema primario ATVS1

•• Fusión de sistemas espectrales con compensación de Fusión de sistemas espectrales con compensación de variabilidadvariabilidad

•• GMM, SVMGMM, SVM--GMM, SVMGMM, SVM--GLDSGLDS

•• SubSub--condición teléfono (entrenamiento) vs. teléfono (condición teléfono (entrenamiento) vs. teléfono (testtest))



ATVS-UAM en NIST SRE 2008•• SubSub--condición micrófono (entrenamiento) vs. micrófono condición micrófono (entrenamiento) vs. micrófono

((testtest))

•• 8 diferentes tipos de micrófono, muy diversas calidades8 diferentes tipos de micrófono, muy diversas calidades

•• Diferentes estilos de habla (conversación, entrevista)Diferentes estilos de habla (conversación, entrevista)

42



Teléfono vs. micrófono Micrófono vs. teléfono

ATVS-UAM en NIST SRE 2008•• Condiciones de desajuste muy fuerteCondiciones de desajuste muy fuerte

•• RobustezRobustez



Efecto y compensación de variabilidad

Desajuste de base de datos(datos microfónicos)

Compensación devariabilidad entre sesiones

Eliminación de ruido(filtrado de Wiener)

•• Desarrollo NIST SRE 2008, hombresDesarrollo NIST SRE 2008, hombres

43



Conclusiones



Conclusiones•• Señal de voz: gran cantidad de información sobre hablanteSeñal de voz: gran cantidad de información sobre hablante

Distintos niveles de identidadDistintos niveles de identidad

Muy alta variabilidadMuy alta variabilidad

•• EstrategisEstrategis en biometría vocal:en biometría vocal:

Combinación de múltiples extractores de informaciónCombinación de múltiples extractores de información

Fusión Fusión multinivelmultinivel

Fusión Fusión multisistemamultisistema

Algoritmos de compensación de variabilidadAlgoritmos de compensación de variabilidad

Problema de difícil resoluciónProblema de difícil resolución

Gran actividad investigadoraGran actividad investigadora

•• Evaluaciones NIST: claves en el desarrollo de la tecnología Evaluaciones NIST: claves en el desarrollo de la tecnología de reconocimiento de locutorde reconocimiento de locutor

44



Muchas Gracias

Referencias

45



Referencias[Reynolds00] D. A. Reynolds et al., 2000. “Speaker verification using adapted Gaussian mixture models,” Digital Signal Processing, v. 10, pp. 19–41, 2000.[Campbell06] W. M. Campbell et al., 2006. “Support vector machines using GMM supervectors for speaker verification”. Signal Processing Letters, v. 13(5), pp. 308-311.[Reynolds03] D. A. Reynolds et al., 2003. “The SuperSID project: Exploiting high-level information for high-accuracy speaker recognition”. Proc. of ICASSP 2003, Hong Kong, China.[Karajarekar04] S. Kajarekar et al., 2004. “Modelling NERFs for Speaker Recognition”. Proc. of Odyssey 2004, Toledo, Spain.[Rabiner07] L. Rabiner, 2007. “HMMs and Related Speech Technologies.” In Springer Handbook of Speech Technologies (ISBN: 978-3-540-49125-5). J. Benesty, M. M. Sondhi, Y. Huang (Eds.).[Stolcke06] A. Stolcke et al., 2005. “MLLR Transforms as Features in Speaker Recognition”. Proc. of Interspeech 2005, Lisbon, Portugal.



Referencias[Campbell06b] W. M. Campbell et al., 2006. “Support vector machines for speaker and language recognition”. Computer Speech and Language, v. 20(2-3), pp. 210-229.[Lopez07] I. Lopez-Moreno et al. “Support Vector Regression for Speaker Verification.” Proc. of Interspeech 2007, pp. 306-309. Antwerp, Belgium.[Auckenthaller00] R. Auckenthaler et al., 2000. “Score normalization for text-independent speaker verification systems.” Digital Signal Processing, vol. 10, pp. 42–54.[Brummer07] N. Brümmer et al., 2007. “Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006.” IEEE Transactions on Audio, Speech and Signal Processing, vol. 15, no. 7, pp. 2072–2084.[Kenny07] P. Kenny et al., 2007. “Speaker and session variability in GMM-based speaker verification.” IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 4, pp. 1448–1460.

46



Referencias

[Vogt07] R. Vogt and S. Sridharan, 2007. “Explicit modelling of session variability for speaker verification.” Computer Speech and Language, vol. 22, no. 1, pp. 17–38.[Vogt08] R. Vogt et al., 2008. “Factor Analysis Modelling for Speaker Verification with Short Utterances.” Proc. of Odyssey 2008, Stellenbosch, South Africa.[Fauve08] B. Fauve et al., 2008. “Improving the performance of text-independent short duration SVM- and GMM-based speaker verification.” Proc. Of Odyssey, Stellenbosch, South Africa.[Ramos08] D. Ramos et al., 2008. “Addressing database mismatch in forensic speaker recognition with Ahumada III: a public real-casework database in Spanish.” Proc. of Interspeech 2008, Brisbane, Australia.

Reconocimiento de Locutor(Biometría Vocal)

Daniel Ramos Castrodaniel.ramos@uam.es

ATVS – Biometric Recognition Grouphttp://atvs.ii.uam.es

Universidad Autónoma de Madrid

new reconocimiento de locutor (biometría...

Documents

comparaciÓn de fÓrmulas biomÉtricas para el …

face.unt.edu.ar matematica financiera.pdfconcepto de seguro...

capacitores reconocimiento reconocimiento unidad de medida....

medidas biométricas

soluciones biométricas aplicadas a procesos de negocios

técnicas biométricas aplicadas a la seguridad evaluación...

estudio sobre las tecnologías biométricas aplicadas a la...

imagen escaneada...ayres, frank, jr. - matemáticas...

identificaciÓn de las caracterÍsticas biomÉtricas de …

sistemas biométricos para la valoración de la evidencia...

tecnologías biométricas aplicadas a la ciberseguridad...en...

estudio de tÉcnicas biomÉtricas y cÁlculo de la …

tecnologías biométricas aplicadas a la seguridad...

1 nuevas tecnologías biométricas - informáticas dinámica...

soluciones biométricas sistema de gestión de asistencia,...

secretaria de hacienda y crÉdito pÚblico comisiÓn...

apuntes de variable compleja y análisis de fourier 2...

reconocimiento u1

actosresolutivos.unlpam.edu.aractosresolutivos.unlpam.edu.ar/static_ecs/media/... ·...

profundizar en la biometría - grupovision.org · android y...