universidad de santiago de chile facultad de ingeniería dr. enrique alberto san juan urrutia...
TRANSCRIPT
Universidad de Santiago de Chile
Facultad de Ingeniería
Dr. Enrique Alberto San Juan UrrutiaDr. Enrique Alberto San Juan Urrutia
Ingeniero Civil en TelecomunicacionesIngeniero Civil en Telecomunicaciones
Sistemas de Compresión y Reconocimiento de Voz(experiencia investigativa en la USACH)
Colombia
chile
UNIVERSIDAD DE SANTIAGO DE CHILE
UNIVERSIDAD DE SANTIAGO DE CHILE
DEPARTAMENTO DE INGENIERÍA ELÉCTRICA
UNIVERSIDAD DE SANTIAGO DE CHILE
Objetivo generalObjetivo generalI. Dar a conocer una de las líneas de investigación
del Área de Telecomunicaciones del Departamento de Ingeniería Eléctrica de la USACH.
II. Dar a conocer el por qué el equipo ha considerado la importancia del procesamiento Digital de la Voz y la necesidad de compresión y el reconocimiento de la voz.
III. Entregar en forma breve las principales técnicas para el procesamiento Digital de la voz.
IV. Mostrar algunas aplicaciones desarrolladas en compresión y en el reconocimiento de voz.
Objetivos
I- Principales Líneas de Investigación del área de Telecomunicaciones
1. Procesamiento digital de señales, en especial el procesamiento digital de Voz.
2. Voz sobre redes de Paquetes3. Calidad de Servicio sobre Redes IP4. Wireless sensor network, channel coding, network coding.5. Robot móviles, manipuladores y androides6. Control de sistemas complejos mediante técnicas de redes neuronales.7. Identificación de sistemas tipo caja-gris.8. Análisis de estabilidad de modelos no lineales iterativos
Objetivos
II. Importancia del procesamiento Digital de la Voz en lo relacionado con:
La Compresión para el transporte sobre redes de paquetes
El Reconocimiento de voz orientado a la ayuda de personas con dificultades de audición.
Objetivos
III. Técnicas para el procesamiento Digital de la Voz
De manera resumida se entregan los conceptos y técnicas asociadas para el procesamiento, análisis y compresión de la voz.
Objetivos
IV. Las Aplicaciones se muestran al final de esta ponencia y están orientadas en mostrar:
Un modelo de compresión de voz usando formatos de compresión de imágenes .
Y dos desarrollos orientados al reconocimiento de voz para la generación de un sistema computarizado de ayuda a personas con dificultades auditivas.
Objetivos
Introducción
•El Universo es todo, sin excepciones.
Materia, energía, espacio y tiempo, todo lo que existe forma parte del Universo.
• Los Astrónomos indican que es muy grande y puede contener millones de galaxias, pero no es infinito, esta autocontenido. Si lo fuera, habría infinita materiae infinitas estrellas, y no es así.
• En cuanto a la materia, el universo es, sobre todo, espacio vacío.
Materia, Energía e Información
• Materia-Energía
+ Información+ Información2
2
c
EmmcE
La información La información pertenece al Universo pertenece al Universo pero no es Masa ni pero no es Masa ni Energía ni tampoco Energía ni tampoco ocupa un lugar en el ocupa un lugar en el espacioespacio
INFORMACIÓN Tercer componente del Universo.
A) Concepto:
Es un conocimiento de hechos, acontecimientos,
cambios, procesos, etc., por su naturaleza no
determinística (en sentido de la teoría de probabilidades).
B) Unidad de medida de información: el “bit” (binary digit)
Materia, Energía e Información
Nuestro interésNuestro interés
MENSAJE
Secuencia de símbolos o estados, que sirven para transmitir la información (lenguaje, música, valores numéricos, diagramas, etc.) SEÑAL.
Representación física del mensaje por medio de la variación de uno o de varios parámetros de alguna magnitud física. Los parámetros de la magnitud física que varían (dependen) de acuerdo con el mensaje, se denominan parámetros de la señal.
Una señal puede ser: transmitida, procesada o almacenada
Nuestro interés son las señales, Nuestro interés son las señales, las que debemos formalizar en su las que debemos formalizar en su
conceptualizaciónconceptualización
Alexander Graham Bell, creó el lenguaje de señas e inventó autómatas rústicos sintetizadores de voz y el teléfono.
En los años 20, AT&T Bell Laboratorios, construye la primera máquina capaz de reconocer voz (basada en <plantillas>) de los 10 dígitos del Inglés.
Estudios a través del Estudios a través del tiempotiempo
La técnica de plantillas ha sido ampliamente utilizada. El almacenamiento de patrones característicos de las muestras tomadas como plantillas ha sido la forma de trabajo hasta la década de los 90.
Durante los años 70 y 80 se desarrolla muy fuertemente el estudio de Análisis y Síntesis de Voz, principalmente gracias a Rabiner, Makhoul y otros.
A mediados de los años 90 comienzan a aparecer los primeros estudios formales que involucran a las Wavalet para procesamiento y compresión, además de las redes neuronales artificiales para el reconocimiento de la voz.
Estudios a través del Estudios a través del tiempotiempo
¿Qué es compresión?¿Qué es compresión?
Principalmente porque día a día son más las aplicaciones en este contexto que requieren de un amplio rango de calidad y performance de acuerdo a los requerimientos de usuarios heterogéneos. La alternativa, es que sea posible la compresión masiva de los datos antes de efectuar su transmisión.
Afortunadamente, un gran número de investigaciones durante las últimas décadas han desrollado muchas técnicas y algoritmos de compresión que hacen factible la transmisión de multimedia.
Es improbable pensar en este tiempo la conveniencia de realizar transmisión de información multimedialmultimedial en formato sin compresión.
¿Qué es reconocimiento de voz?¿Qué es reconocimiento de voz?
Al hablar de reconocimiento de voz, podemos imaginarnos varios campos de aplicación. Desde la domótica hasta la inteligencia artificial.
Reconocimiento de palabras aisladasReconocimiento de voz continua
Dependiente o independiente del locutor Con gramática amplia 0 restringida
Todo depende de la aplicación que queramos. Por ejemplo, si queremos poder apagar o encender las luces de nuestra casa, bastará un sistema que reconozca un número limitado de palabras, está claro entonces que grabando unos cuantos ejemplos que servirán de patrones, se podrá resolver el problema .
Imaginemos que en vez de algunas pocas palabras queremos tratar un vocabulario completo y no sólo eso, “queremos poder hablar connaturalidad y que el sistema identifique las palabras, las frases y el significado”.
“Es decir, queremos que un robot nos entienda, para ello el nivel de complejidad se eleva a un nivel casi impensable.”
¿Qué es reconocimiento de voz?¿Qué es reconocimiento de voz?
Sistemas que reconozcan en forma eficiente la palabra pronunciada sin que exista entrenamiento previo del locutor son aún un desafío.
Es por ello que las Redes Neuronales Artificiales adquieren cada vez más protagonismo en el estudio de la voz humana, basándose en que éstas simulan al mejor sistema: es decir el ser humano, para interpretar, reconocer y discriminar la voz.
Asimismo, la transformada de Wavelet se posiciona en el ámbito del procesamiento digital de señales e imágenes como una poderosa herramienta de análisis.
Numerosos estudios centran la atención en estos métodos como la solución al reconocimiento de voces independientes del locutor.
¿Qué es reconocimiento de voz?¿Qué es reconocimiento de voz?
Parámetros Característicos de Señales de Voz
Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz
Parámetros Característicosde Señales Voz
Período Fundamental(PITCH)
FORMANTES
Período Fundamental(Pitch)
Es el tiempo transcurrido entre dos aperturas sucesivas de las cuerdas vocales.
La velocidad de vibración de la cuerdas, se denomina Frecuencia Fundamental de la fonación y es el inverso del Pitch.
Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz
FormantesFormantes
•Los Formantes son resonancias naturales del tracto vocal que toman diferentes valores de frecuencia a medida que éste cambia su estructura.
Formantes representativos
Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz
Vocal/Formante
(Hz)
F1 F2
/a/ 689 1458
/e/ 527 2025
/i/ 284 2430
/o/ 608 1215
/u/ 243 770
Valores frecuenciales de los dos Valores frecuenciales de los dos primeros formantes de las primeros formantes de las
vocales españolas.vocales españolas.
Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz
Clasificación de Clasificación de sonidos sonidos
• Sonidos sonoros (Voiced)
• Sonidos sordos (Unvoiced)
a, e, i, o, u, b, d, g, l, ll, m, n, ñ, r, rr, v, w, y
ch, f, h, j, k, p, s, t, z
Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz
Análisis localizado, características de Análisis localizado, características de estacionariedadestacionariedad
• La voz no es estacionaria.La voz no es estacionaria.• La voz es cuasi-estacionaria en intervalos La voz es cuasi-estacionaria en intervalos
cortos de tiempo.cortos de tiempo.
Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Energía y Magnitud Promedio en corto Energía y Magnitud Promedio en corto tiempotiempoLa amplitud de segmentos sordos generalmente es más pequeña que la amplitud de segmentos sonoros.
La energía en corto tiempo de la señal de voz proporciona una representación conveniente, que refleja estas variaciones de amplitud. En general, nosotros podemos definir la energía en corto tiempo como:
La mayor importancia de la energía en corto tiempo, es que distingue los segmentos de voz sonora de los distingue los segmentos de voz sonora de los segmentos de voz segmentos de voz sorda.sorda.
1
0
2])[][(M
mn mnwmSE
Técnicas para el análisis de VozTécnicas para el análisis de Voz
Métodos para determinación Métodos para determinación del periodo fundamental del periodo fundamental
(pitch)(pitch)
Técnicas para el análisis de VozTécnicas para el análisis de Voz
Método de AutocorrelaciónMétodo de Autocorrelación Cuando es dificultoso encontrar la componente fundamental de una señal , es conveniente buscar la periodicidad examinando su función de autocorrelación.
Técnicas para el análisis de VozTécnicas para el análisis de Voz
1||
)()(kM
inxx lnsnslr
Características de la Características de la AutocorrelaciónAutocorrelación
En una señal periódica, la autocorrelación mostrará un periodo igual al período de la señal.Presenta un máximo absoluto en el origen.Robusto frente al ruido.
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Métodos para determinación Métodos para determinación de Formantesde Formantes
1. Método de Raíces.
2. Método Peak-Picking
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Método de Método de RaícesRaíces
P
K
KK za
GzA
GzH
1
1)(
)( 01)(1
P
K
KK zazA
iyxraiz x
yyxr 122 tan,
S
ii T
F
2
Cálculo de la Frecuencia Central del Formante (i)
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Método Peak-Método Peak-PickingPicking
• Algoritmo de búsqueda de picos en la envolvente espectral de H(z).
• Su gran debilidad son las mezclas de los Formantes.
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Determinación de formantesDeterminación de formantes
Predicción Lineal
Técnicas para el análisis Técnicas para el análisis de Vozde Voz
kn
p
kkn sas
1
Principales supuestos:
Naturaleza Cuasiestacionaria de la voz en segmentos cortos de tiempo.
Correlación no nula entre muestras consecutivas de voz.
Predicción LinealPredicción Lineal
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Predicción LinealPredicción Lineal• Modelo autorregresivo (AR) o todo-polos
de la señal de voz:
P
K
KK za
GzH
1
1)(
P
KnKnKn UGSaS
1
Un
Sn
Técnicas para el análisis de Técnicas para el análisis de VozVoz
nnn SSe 1, 00
aSaeP
KknKn
nenS
P
K
kK zazA
0
)(
Dada una señal de voz “Sn” (considerada estacionaria) un predictor de orden p se define como:
Filtro Inverso
)()(
zAG
zH
P
KKnKn SaS
1
Predicción Predicción LinealLineal
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Se desea minimizar el error Se desea minimizar el error total al cuadrado, luego se total al cuadrado, luego se tiene:tiene:
1
0
1
0 1
22 )(N
n
N
n
p
kknknn saseE (7
)
Predicción Predicción LinealLineal
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Cálculo de minimización del Cálculo de minimización del error:error:
01
01
1
0
N
nnin
p
k
N
nknink
i
ssssaa
E
pi 1
(8)
Predicción Predicción LinealLineal
Técnicas para el análisis de Técnicas para el análisis de VozVoz
in
iN
nni ssR
1
0
1
0
N
nkninki ssR
Coeficientes de Autocorrelación:Coeficientes de Autocorrelación:
Predicción Predicción LinealLineal
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Aplicando estas definiciones se Aplicando estas definiciones se tiene:tiene:
iRp
k kiRkai
a
E
1
pi 1
iRp
k kiRka 1
pR
3R
2R
1R
pa
3a
2a
1a
0R3pR2pR1pR
3pR0R1R2R
2pR1R0R1R
1pR2R1R0R
Predicción Predicción LinealLineal
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Para resolver este sistema se pueden Para resolver este sistema se pueden usar variados algoritmos, entre los usar variados algoritmos, entre los algoritmos propuestos están:algoritmos propuestos están:
Algoritmo Recursivo de Levison-DurbinAlgoritmo Recursivo de Levison-Durbin
Algoritmo del Gradiente.Algoritmo del Gradiente.
Predicción Predicción LinealLineal
Técnicas para el análisis de Técnicas para el análisis de VozVoz
MmmkHkXmXN
ki ,,2,1.ln'
1
MlmM
lmXlc
M
m
,,2,12
1cos'
1
Los coeficientes Cepstrales en la Escala de Frecuencias de Mel, adaptan las frecuencias de fonemas a la manera que el oído humano percibe los sonidos.La literatura indica que son Coeficientes más robustos que los coeficientes LPC y Cepstrums.
Calcula una serie de parámetros de transición denotados por
.
Aplicar a los parámetros de transición la Transformada Discreta del Coseno (DCT).
Técnicas para el análisis de Técnicas para el análisis de VozVoz
COEFICIENTES CEPSTRALES EN LA ESCALA DE FRECUENCIAS MEL (MFCC)
Transformada de Wavalet TW
La TW es una forma de representar una señal compleja de manera simple. Lo que la convierte en una herramienta útil desde el punto de vista práctico.
A diferencia de la transformada de
Fourier, en donde se realiza una representación a nivel de frecuencia de una señal,
La transformada wavelet introduce la
innovación de representarla tanto en dominio de la frecuencia como en el dominio del tiempo.
Transformada de Wavalet
En otras palabras, la transformada de Fourier
permite analizar una señal globalmente,
Mientras que la TW permite analizarla de forma
global y local, lo que le da la propiedad de entregar el
comportamiento de la señal en cada instante de
tiempo
El análisis de Fourier divide la señal en ondas
sinusoidales de diferentes frecuencias de duración
infinita.
Del mismo modo, el análisis mediante wavelets
consiste en dividir una señal en un determinado
número de ondas o combinaciones lineales de
señales de duración finita resultantes de la traslación
y escalado de una función wavelet madre (Walter,
1999).
Transformada de Wavalet
Análisis Multiresolución
El análisis multiresolución wavelet, permite descomponer la señal original en distintos niveles de resolución. En los detalles se encuentran aquellas componentes finas que contienen información a distintas frecuencias.
Transformadas de Wavalet TWC
S= +
a1= +
a2= +
S= + + +a3 d3 d2 d1
0 300
0 150 0 150
0 75 0 75
0 37 0 37
La señal puede ser reconstruida en su totalidad con la aproximación de mayor nivel y todos los detalles.
•Si se hacen cero algunos detalles se logrará algún grado de compresión.
•Si se minimizan aquellos detalles que representan ruido, entonces se filtrará el ruido.
Por Qué: Transformada de Wavalet
Técnicas para el análisis de Técnicas para el análisis de VozVoz
Redes Neuronales ArtificialesRedes Neuronales Artificiales
¿Por qué Redes Neuronales?Porque simulan a las redes neuronales biológicas.
Elemento principal: Neurona Conexiones entre neuronas: Sinapsis
El advenimiento de la tecnología de Redes Neuronales Artificiales para el procesamiento digital de señales, llega a romper muchas de las limitaciones existentes en las técnicas tradicionales, principalmente en lo relacionado con el reconocimiento de la voz.
Redes Neuronales ArtificialesRedes Neuronales Artificiales
• Las redes neuronales están basadas en el funcionamiento de la neurona biológica residente en el sistema nervioso central, sus orígenes se remontan a los primeros años de la informática.
Redes Neuronales ArtificialesRedes Neuronales Artificiales
Una red neuronal artificial es un modelo computacional que puede ser considerada como un sistema de procesamiento de información con características como aprendizaje, a través de ejemplos, adaptabilidad, robustez, capacidad de generalización y tolerancia a fallos.
Una Red Neuronal Artificial permite que una vez procesadas digitalmente las señales sonoras de voz, no se tenga que establecer reglas o realizar análisis estadísticos complejos para la determinación del fonema en proceso de reconocimiento.
Redes Neuronales ArtificialesRedes Neuronales Artificiales
Compresión de VozCompresión de Voz
Compresión de VozCompresión de Voz
En los últimos años se ha dado un aumento espectacular tanto de la capacidad de almacenamiento de los computadores/ordenadores como de la velocidad de procesamiento de éstos.
A esto lo acompaña una baja de los precios de memoria RAM y discos duros, así como también un aumento de velocidad de estos dispositivos. Esto nos hace preguntarnos ¿para qué la compresión?
Sin embargo, el uso que tienen las redes de computadores/ordenadores hace que cada vez más usuarios pidan más prestaciones a la red sobre la que están conectados.
Cuando hablamos de prestaciones nos referimos principalmente a la velocidad de transferencia de información. Este es el principal problema al que se enfrentan todas las redes.
Compresión de VozCompresión de Voz
• Todos los sistemas de compresión requieren dos algoritmos, uno para la compresión de los datos en el origen y otro para la descompresión en el destino.
• En la literatura estos algoritmos se conocen como algoritmos de codificación y decodificación respectivamente.
• Para muchas aplicaciones un documento multimedia sólo se codificará una vez al almacenarse en el servidor, pero se puede decodificar miles de veces al ser vista por los clientes.
• Esta asimetría permite que el algoritmo de codificación sea lento y requiera hardware costoso, siempre y cuando el algoritmo de decodificación sea rápido y no requiera un hardware de alto costo.
Compresión de VozCompresión de Voz
Por otra parte, para los multimedia de tiempo real, como las videoconferencias y la voz sobre IP, la codificación lenta es inaceptable.
Por ejemplo, al comprimir, transmitir y descomprimir un archivo de datos el usuario espera recibir en forma correcta hasta el último bit de la información original.
Compresión de VozCompresión de Voz
• Por otra parte en multimedia por lo general, es aceptable que la señal después de codificar y decodificar sea ligeramente diferente de la original.
• Los sistemas de codificación con pérdidas son importantes porque aceptar una pequeña pérdida de información puede ofrecer ventajas enormes en la relación de compresión posible, como por ejemplo, el algoritmo de compresión de imágenes JPEG y el de compresión de voz LPC.
Compresión de VozCompresión de Voz
Analicemos este hecho mediante
una útil ecuación.
Proceso de
compresión-transmisión-descompresión
Este proceso se justifica porque en general es más rápido que el proceso de transmisión sin compresión .
Compresión de VozCompresión de Voz
122
c
rcb
bD
brD
cD
: Es la relación entre tiempo que se tardaría para transmitir comprimiendo y sin comprimir (en tanto por uno).
r : Radio medio de compresión del algoritmo utilizado, que se puede escribir como bits comprimidos / bits totales.
Compresión de VozCompresión de Voz
Compresión de VozCompresión de Voz
•c es la velocidad de compresión en bit/s (se supone igual a la velocidad de descompresión y depende del algoritmo) •D es el número de bits que componen el mensaje a transmitir,• b es la velocidad de transferencia de la línea en bit/s
La ecuación evidencia que para se justifica la transmisión con compresión.
1
122
c
rcb
bD
brD
cD
• Pero no sólo para la transmisión se usa la compresión.
• También para el almacenamiento masivo de datos
• La necesidad de almacenamiento también crece por encima de las posibilidades del crecimiento de los discos duros o memoria.
• Nos basta pensar, por ejemplo, en el proyecto del Genoma Humano ó en los grandes servidores de vídeo en demanda con cientos o miles de películas, ocupando cada una varios Gigabytes
Compresión de VozCompresión de Voz
Principales Estándares de Principales Estándares de Compresión de VozCompresión de Voz
Compresión de VozCompresión de Voz
Los estándares recomendados por H.323 para la compresión de la voz, son los siguientes:
•G.711: Modulación por impulsos Codificados PCM a 64kbit/s.
G.723: Códec de voz de doble velocidad para la transmisión en comunicaciones multimediosa 5,3 y 6,3 kbit/s.G.726: Modulación por impulsos codificados diferencial adaptivo ADPCM, a 16, 24, 32, 40 kbit/s.
G.728 (Codificación de señales vocales a 16 kbit/s utilizando predicción lineal).G.729: Codificador de la voz mediante predicción lineal a 8 kbit/s
Estándares de Compresión de VozEstándares de Compresión de Voz
Compresión de VozCompresión de Voz
64
6,3 5,3
16
32
816
48
0
10
20
30
40
50
60
70
bit
rat
e en
kb
it/s
G.711 G.723 G.723 G.726 G.726 G.729 G.728 G.722
Estándar
Principales Estándares de codificación de Voz
G.711
G.723
G.723
G.726
G.726
G.729
G.728
G.722
Compresión de VozCompresión de Voz
G.722 G.728 G.711 G.723
Fuente: Magenta <www.magenta.cl>
Estándares de Compresión de VozEstándares de Compresión de Voz
Compresión de VozCompresión de Voz
PuntuaciónPuntuación Esfuerzo necesario para Esfuerzo necesario para comprender el significado de comprender el significado de
las fraseslas frases5 Audición perfecta; ningún esfuerzo
4 Cierta atención es necesaria; ningún esfuerzo apreciable
3 Esfuerzo moderado
2 Esfuerzo considerable
1 Significado incomprensible, aun con el mayor esfuerzo
Evaluación de los codificadoresMOS (Mean Opinion Score) ITU P.800
Compresión de VozCompresión de Voz
Sistemas de reconocimiento de Voz Sistemas de reconocimiento de Voz
Un sistema de reconocimiento de voz podrá operar identificando:Palabras aisladasFonemas (mayor complejidad)
Éste último podrá utilizarse para reconocer palabras, frases, etc. Es altamente deseable un reconocimiento continuo de la voz
Sistemas de reconocimiento de Voz
Reconocimiento de Voz
Reconocimiento de voz empleando comparación de patrones
Establecimientode características
espectrales
Comparador de patrones
Regla de decisión
Base de datos depatrones
Muestra de voz
Se establece una distancia matemática entre vectores, de tal manera que se pueda calcular que tan cercano se está de cada patrón.
De todos modos, existe la necesidad de aplicar este sistema única y exclusivamente a ciertos casos donde el número de palabras necesarias sea pequeño.
Reconocimiento de Voz
Reconocimiento de voz empleando comparación de patrones
En la actualidad el empleo de las Redes Neuronales Artificiales (RNA) en el reconocimiento de voz ofrece una muy buena alternativa, debido a que las RNA intentan simular el comportamiento de las redes neuronales biológicas, con lo cual es posible evitar las grandes bases de datos exigidas mediante métodos por comparación de patrones, como el mostrado anteriormente y tiempo de procesamiento de señales bajo las técnicas clásicas.
Reconocimiento de voz usando Redes Neuronales
Reconocimiento de Voz
La cantidad de patrones para el entrenamiento puede ser considerablemente alto, como dato se menciona que para patrones de voz de 10 ms compuestos de 80 muestras, para identificar las 5 vocales, se debería disponer de 4350 ejemplos en total, es decir 870 por cada vocal, lo que demanda gran tiempo y recursos.
Por lo que en este ámbito es muy importante reducir la cantidad de muestras para el entrenamiento (70%), pruebas (20%) y validación” (10%), esta reducción será mostrada más adelante a través de un modelo desarrollado por el equipo de la Usach .
Reconocimiento de Voz
Reconocimiento de Voz usando Redes
Neuronales
• A continuación se muestran dos ejemplos de desarrollo, tanto como para la compresión de voz como para la identificación de la voz
• En primer lugar, se muestra un trabajo sobre compresión de voz, lo que llevó a una publicación ISI-
• Posteriormente la identificación de sílabas mediante un proceso de segmentación y análisis focalizado usando comparación de patrones
• Y finalmente la identificación a través de un modelo Wavalet-LPC-RNA .
Desarrollos Prácticos
Modelo de compresión de Voz mediante la utilización de la Transformada Rápida de
Fourier y la aplicación de formatos de Compresión de imágenes
Compresión de VozCompresión de Voz
Kaschel, H., San Juan, E. & Carrasco, R. (2006) “Analysis and voice synthesis by means of image compression” The Mediterranean Journal of Computers and Networks,Volume 2, N°3
Kaschel, H., Watkins, F. & San Juan, E. (2005) “Compresión de voz mediante técnicas digitales para el procesamiento de señales y aplicación de formatos de Compresión de Imágenes” Revista de la facultad de Ingeniería, Vol. 13, N° 3, septiembre-diciembre
El presente trabajo muestra la formulación y simulación de El presente trabajo muestra la formulación y simulación de
un modelo de compresión de voz, realizando un proceso de un modelo de compresión de voz, realizando un proceso de
análisis y síntesis mediante el uso de técnicas digitales análisis y síntesis mediante el uso de técnicas digitales
para procesamiento de señales y de la aplicación de para procesamiento de señales y de la aplicación de
formatos de compresión de imágenes. formatos de compresión de imágenes.
El modelo formulado transforma tramas de voz en imágenes El modelo formulado transforma tramas de voz en imágenes
comprimidas, las cuales son transmitidas a través del canal, comprimidas, las cuales son transmitidas a través del canal,
para luego realizar en el receptor un proceso de para luego realizar en el receptor un proceso de
recuperación de la voz.recuperación de la voz.
Modelo de compresión de vozModelo de compresión de voz
Presentación General
LLa compresión de la voz bajo a compresión de la voz bajo
este esquema logra una este esquema logra una
reducción significativa de la reducción significativa de la
cantidad de bytes y de la cantidad de bytes y de la
consiguiente disminución de la consiguiente disminución de la
velocidad en bit/s necesaria para velocidad en bit/s necesaria para
la transmisión de la información.la transmisión de la información.
Hipótesis de Hipótesis de InvestigaciónInvestigación Disminución Disminución
de Bytesde Bytes
Menor Ancho Menor Ancho de banda en de banda en
bit/s necesarios bit/s necesarios para la para la
transmisión de transmisión de la vozla voz
Modelo de compresión de vozModelo de compresión de voz
Modelo de Compresión de Vozen el transmisor (análisis)
Ingreso de la voz
Filtro pasabanda 1
Adaptación aformato de Imagen de
Compresiónde la
Imagen
Compresiónde la
Imagen
)(
)()(
1
11 zA
zBzH
)(nx
Filtro pasabanda 2
)(nx
)(nx
Filtro pasabanda M)(nx
)(
)()(
2
22 zA
zBzH
)(
)()(
zA
zBzH
M
MM
Voz filtrada por el banco de
filtros
)(1 nxF
)(2 nxF
M
iiFF nxnx
1 )()(
)(nxFM
1
0
)()(N
n
nkNFF Wnxkx
)(Re kxF
)(Im kxF
)(Re kxF
Adaptación aformato de Imagen de
)(Im kxF
Transmisiónde la imagen comprimidade la parteReal de la
FFT
Transmisiónde la imagen comprimidade la parteImaginaria de la FFT
CanalDFT
Mediante la
FFT
Njn eWcon /2
Modelo de compresión de vozModelo de compresión de voz
Síntesis en el Receptor en el Receptor
Descompresión de la imagen
parte real de la FFT
Recuperaciónparte Realde la FFT
Recuperaciónparte
Imaginariade la FFT
Aplicaciónde la IFFT
Recuperaciónde
la voz
Canal )(~ kxF )(~ nxF
1
0
)(~1)(~
N
n
knNFF Wkx
Nnx
Reconstrucciónde la FFT
Recepciónde la imagen comprimidade la parteReal de la
FFT
Recepciónde la imagen comprimidade la parteImaginaria de la FFT
Descompresión de la imagen
parte Imaginariade la FFT
Modelo de compresión de vozModelo de compresión de voz
Interfaz gráfica diseñadaInterfaz gráfica diseñada
Modelo de compresión de vozModelo de compresión de voz
Señal original antes de ser procesada
Aplicación de la simulación
Modelo de compresión de vozModelo de compresión de voz
Espectros de frecuencias parte real e imaginaria en el proceso de análisis
Aplicación de la simulación
Modelo de compresión de vozModelo de compresión de voz
Imágenes Parte real e imaginaria de la FFT en el transmisor antes de comprimir
Aplicación de la simulación
Modelo de compresión de vozModelo de compresión de voz
Proceso de transmisión
Aplicación de la simulación
CanalCanalTramas de vozTramas de voz Tramas de imágenes Tramas de imágenes
comprimidascomprimidasTramas de imágenes Tramas de imágenes
comprimidascomprimidas
Modelo de compresión de vozModelo de compresión de voz
Imágenes Parte real e imaginaria de la FFT en el receptor después de descomprimir
Aplicación de la simulación
Modelo de compresión de vozModelo de compresión de voz
Recuperación de la parte real y parte imaginaria de la FFT en el receptor
Aplicación de la simulación
Modelo de compresión de vozModelo de compresión de voz
Señal recuperada en el receptor
Aplicación de la simulación
Modelo de compresión de vozModelo de compresión de voz
Conclusiones
Modelo de compresión de vozModelo de compresión de voz
4,2
4,3
4,4
4,5
4,6
4,7
MO
S
P NG J P EG 75 J P EG 50 LP C G.723 ADP CM
Esquema de compresión
Comparación del modelo
PNG
JPEG 75
JPEG 50
LPC
G.723
ADPCM
ConclusionesBuenos resultados en relación con el MOSBuenos resultados en relación con el MOS
Modelo de compresión de vozModelo de compresión de voz
15,5 16
32
6,3
0
510
1520
2530
35
bit
rat
e en
kb
it/s
CVI LPC ADPCM G.723
Esquema de compresión
Comparación entre los esquemas
CVI
LPC
ADPCM
G.723
ConclusionesBuenos resultados en cuanto a velocidadBuenos resultados en cuanto a velocidad
Modelo de compresión de vozModelo de compresión de voz
Modelo para reconocimiento de la voz a nivel de sílabas a través de patrones visuales
Modelo para reconocimiento de voz por comparación de patrones
Objetivo de la investigación Objetivo de la investigación • Busca entregar al usuario en rehabilitación
índices que le ayuden a aprender y a mejorar su pronunciación, basándose en la correlación de los parámetros propios de cada hablante con respecto a parámetros patrones almacenados en el sistema.
Modelo para reconocimiento de voz por comparación de patrones
La Retroalimentación que permite el aprendizaje de las palabras, no se produce a través de la audición. Pero se puede usar otro sentido: la vista
Modelo para reconocimiento de voz por comparación de patrones
• Periodo fundamental (Pitch)• Formantes• Coeficientes LPC• Coeficientes Cepstrales en la Escala
de Frecuencias Mel (Mel Frequency Cepstral Coefficient – MFCC)
Parámetros característicos considerados en este trabajo
Modelo para reconocimiento de voz por comparación de patrones
Coeficiente de Coeficiente de correlación usado como correlación usado como criterio de evaluacióncriterio de evaluación
n
i
n
iii
n
iii
yyxx
yyxxr
1 1
2
1
Modelo para reconocimiento de voz por comparación de patrones
• Consideraciones previas– Cantidad de sílabas– Consonantes con igual sonido– Base de datos
• Metodología planteada– Segmentación consonante/vocal de una sílaba– Comparación de vocales– Comparación de Consonantes
Metodología a nivel de sílabas a nivel de fonemas
Modelo para reconocimiento de voz por comparación de patrones
Segmentación Segmentación consonante/vocalconsonante/vocal
de una sílabade una sílaba
Modelo para reconocimiento de voz por comparación de patrones
• Formantes• Coeficientes LPC• MFCC
• Coeficientes LPC• MFCC
Obtención de Parámetros
Modelo para reconocimiento de voz por comparación de patrones
Implementación Implementación computacional: Interfaz computacional: Interfaz gráficagráfica
Modelo para reconocimiento de voz por comparación de patrones
• Se reproducen videos de una persona pronunciando la sílaba en entrenamiento.
Características Multimediales
Modelo para reconocimiento de voz por comparación de patrones
Modelo para el reconocimiento de Modelo para el reconocimiento de patrones voz mediante el empleo de patrones voz mediante el empleo de wavelets, predicción lineal y redes wavelets, predicción lineal y redes
backpropagationbackpropagation
San Juan, Jamett, Kaschel, Watkins, Sanchez, Leiva “Uso de wavelets, predicción lineal y redes backpropagation para el reconocimiento de patrones de voz “, Universidad de Santiago de Chile, (próximo a someterse a evaluación)
Desarrollo de un software de análisis de sílabas y de fonemas orientado al apoyo del aprendizaje del lenguaje hablado para personas con problemas auditivos. Mediante integración de los siguientes métodos aplicados para el reconocimiento de voz restringidos a sílabas y fonemas: -Transformada de Wavelet-Coeficientes LPC -Redes Neuronales
Objetivo de la investigación Objetivo de la investigación
Modelo para el reconocimiento de Modelo para el reconocimiento de patrones de voz mediante el empleo de patrones de voz mediante el empleo de
wavelets, predicción lineal y redes wavelets, predicción lineal y redes backpropagationbackpropagation
4350 ejemplos
870 ejemplos x vocalNe=Neuronas entrada
Nco=Neuronas Capa OcultaNs=Neuronas Capa Salida
12 de 13 coeficientes LPC
950Ejemplos
190 ej.x vocal
Wavelet daubechies 6 de 3 niveles
+ + +a3 d2 d1S=
LPC: La voz puede modelarse como una combinación de p muestras anteriores más una señal de error.
4350
5)15(5)180(10
)1()1(10
ejemplosdeNúmero
NtpejemplosdeNúmero
NsNcoNcoNeNtpejemplosdeNúmero
Detalle d3:
2700 ejemplos
540’ ejemplos por vocal
6 de 7 coeficientes LPC
650Ejemplos
140 ej.x vocal.
Red Neuronal + Wavelet +LPC
Vocal “a”:
d3
LPC
Modelo desarrollado
Modelo para el reconocimiento de Modelo para el reconocimiento de patrones de voz mediante el empleo de patrones de voz mediante el empleo de
wavelets, predicción lineal y redes wavelets, predicción lineal y redes backpropagationbackpropagation
Red de sílabas ya/lla/te/pi/bu/vu “RED1”
Aciertos en total por cada sílaba en 36
muestras (ideal 100%)
Promedio resultados 36 muestras x sílaba
(ideal 1).ya te pi bu ya te pi bu
ya23 9 3 2
0,57 0,37 0,13 0,0864% 25% 8% 6%
te8 27 1 0
0,24 0,63 0,08 0,0322% 75% 3% 0%
pi2 0 25 6
0,17 0,05 0,58 0,336% 0% 69% 17%
bu3 0 7 28
0,14 0,04 0,29 0,618% 0% 19% 78%
total 36 36 36 36 -- -- -- --Promedi
o72%
de asertivo 0,60
(60% de similitud)
•Cantidad de ejemplos para las pruebas (20% )
Resultados de Resultados de pruebaspruebas
Modelo para el reconocimiento de Modelo para el reconocimiento de patrones de voz mediante el empleo de patrones de voz mediante el empleo de
wavelets, predicción lineal y redes wavelets, predicción lineal y redes backpropagationbackpropagation
Software de ayuda a discapacitados auditivos.
MUCHAS GRACIAS