universidad de santiago de chile facultad de ingeniería dr. enrique alberto san juan urrutia...

Universidad de Santiago de Chile

Facultad de Ingeniería

Dr. Enrique Alberto San Juan UrrutiaDr. Enrique Alberto San Juan Urrutia

Ingeniero Civil en TelecomunicacionesIngeniero Civil en Telecomunicaciones

Sistemas de Compresión y Reconocimiento de Voz(experiencia investigativa en la USACH)

Colombia

chile

UNIVERSIDAD DE SANTIAGO DE CHILE

DEPARTAMENTO DE INGENIERÍA ELÉCTRICA

UNIVERSIDAD DE SANTIAGO DE CHILE

Objetivo generalObjetivo generalI. Dar a conocer una de las líneas de investigación

del Área de Telecomunicaciones del Departamento de Ingeniería Eléctrica de la USACH.

II. Dar a conocer el por qué el equipo ha considerado la importancia del procesamiento Digital de la Voz y la necesidad de compresión y el reconocimiento de la voz.

III. Entregar en forma breve las principales técnicas para el procesamiento Digital de la voz.

IV. Mostrar algunas aplicaciones desarrolladas en compresión y en el reconocimiento de voz.

Objetivos

I- Principales Líneas de Investigación del área de Telecomunicaciones

1. Procesamiento digital de señales, en especial el procesamiento digital de Voz.

2. Voz sobre redes de Paquetes3. Calidad de Servicio sobre Redes IP4. Wireless sensor network, channel coding, network coding.5. Robot móviles, manipuladores y androides6. Control de sistemas complejos mediante técnicas de redes neuronales.7. Identificación de sistemas tipo caja-gris.8. Análisis de estabilidad de modelos no lineales iterativos

Objetivos

II. Importancia del procesamiento Digital de la Voz en lo relacionado con:

La Compresión para el transporte sobre redes de paquetes

El Reconocimiento de voz orientado a la ayuda de personas con dificultades de audición.

Objetivos

III. Técnicas para el procesamiento Digital de la Voz

De manera resumida se entregan los conceptos y técnicas asociadas para el procesamiento, análisis y compresión de la voz.

Objetivos

IV. Las Aplicaciones se muestran al final de esta ponencia y están orientadas en mostrar:

Un modelo de compresión de voz usando formatos de compresión de imágenes .

Y dos desarrollos orientados al reconocimiento de voz para la generación de un sistema computarizado de ayuda a personas con dificultades auditivas.

Objetivos

Introducción

•El Universo es todo, sin excepciones.

Materia, energía, espacio y tiempo, todo lo que existe forma parte del Universo.

• Los Astrónomos indican que es muy grande y puede contener millones de galaxias, pero no es infinito, esta autocontenido. Si lo fuera, habría infinita materiae infinitas estrellas, y no es así.

• En cuanto a la materia, el universo es, sobre todo, espacio vacío.

Materia, Energía e Información

• Materia-Energía

+ Información+ Información2

2

c

EmmcE

La información La información pertenece al Universo pertenece al Universo pero no es Masa ni pero no es Masa ni Energía ni tampoco Energía ni tampoco ocupa un lugar en el ocupa un lugar en el espacioespacio

INFORMACIÓN Tercer componente del Universo.

A) Concepto:

Es un conocimiento de hechos, acontecimientos,

cambios, procesos, etc., por su naturaleza no

determinística (en sentido de la teoría de probabilidades).

B) Unidad de medida de información: el “bit” (binary digit)

Materia, Energía e Información

Nuestro interésNuestro interés

MENSAJE

Secuencia de símbolos o estados, que sirven para transmitir la información (lenguaje, música, valores numéricos, diagramas, etc.) SEÑAL.

Representación física del mensaje por medio de la variación de uno o de varios parámetros de alguna magnitud física. Los parámetros de la magnitud física que varían (dependen) de acuerdo con el mensaje, se denominan parámetros de la señal.

Una señal puede ser: transmitida, procesada o almacenada

Nuestro interés son las señales, Nuestro interés son las señales, las que debemos formalizar en su las que debemos formalizar en su

conceptualizaciónconceptualización

Alexander Graham Bell, creó el lenguaje de señas e inventó autómatas rústicos sintetizadores de voz y el teléfono.

En los años 20, AT&T Bell Laboratorios, construye la primera máquina capaz de reconocer voz (basada en <plantillas>) de los 10 dígitos del Inglés.

Estudios a través del Estudios a través del tiempotiempo

La técnica de plantillas ha sido ampliamente utilizada. El almacenamiento de patrones característicos de las muestras tomadas como plantillas ha sido la forma de trabajo hasta la década de los 90.

Durante los años 70 y 80 se desarrolla muy fuertemente el estudio de Análisis y Síntesis de Voz, principalmente gracias a Rabiner, Makhoul y otros.

A mediados de los años 90 comienzan a aparecer los primeros estudios formales que involucran a las Wavalet para procesamiento y compresión, además de las redes neuronales artificiales para el reconocimiento de la voz.

Estudios a través del Estudios a través del tiempotiempo

¿Qué es compresión?¿Qué es compresión?

Principalmente porque día a día son más las aplicaciones en este contexto que requieren de un amplio rango de calidad y performance de acuerdo a los requerimientos de usuarios heterogéneos. La alternativa, es que sea posible la compresión masiva de los datos antes de efectuar su transmisión.

Afortunadamente, un gran número de investigaciones durante las últimas décadas han desrollado muchas técnicas y algoritmos de compresión que hacen factible la transmisión de multimedia.

Es improbable pensar en este tiempo la conveniencia de realizar transmisión de información multimedialmultimedial en formato sin compresión.

¿Qué es reconocimiento de voz?¿Qué es reconocimiento de voz?

Al hablar de reconocimiento de voz, podemos imaginarnos varios campos de aplicación. Desde la domótica hasta la inteligencia artificial.

Reconocimiento de palabras aisladasReconocimiento de voz continua

Dependiente o independiente del locutor Con gramática amplia 0 restringida

Todo depende de la aplicación que queramos. Por ejemplo, si queremos poder apagar o encender las luces de nuestra casa, bastará un sistema que reconozca un número limitado de palabras, está claro entonces que grabando unos cuantos ejemplos que servirán de patrones, se podrá resolver el problema .

Imaginemos que en vez de algunas pocas palabras queremos tratar un vocabulario completo y no sólo eso, “queremos poder hablar connaturalidad y que el sistema identifique las palabras, las frases y el significado”.

“Es decir, queremos que un robot nos entienda, para ello el nivel de complejidad se eleva a un nivel casi impensable.”


Sistemas que reconozcan en forma eficiente la palabra pronunciada sin que exista entrenamiento previo del locutor son aún un desafío.

Es por ello que las Redes Neuronales Artificiales adquieren cada vez más protagonismo en el estudio de la voz humana, basándose en que éstas simulan al mejor sistema: es decir el ser humano, para interpretar, reconocer y discriminar la voz.

Asimismo, la transformada de Wavelet se posiciona en el ámbito del procesamiento digital de señales e imágenes como una poderosa herramienta de análisis.

Numerosos estudios centran la atención en estos métodos como la solución al reconocimiento de voces independientes del locutor.


Parámetros Característicos de Señales de Voz

Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz

Parámetros Característicosde Señales Voz

Período Fundamental(PITCH)

FORMANTES

Período Fundamental(Pitch)

Es el tiempo transcurrido entre dos aperturas sucesivas de las cuerdas vocales.

La velocidad de vibración de la cuerdas, se denomina Frecuencia Fundamental de la fonación y es el inverso del Pitch.


FormantesFormantes

•Los Formantes son resonancias naturales del tracto vocal que toman diferentes valores de frecuencia a medida que éste cambia su estructura.

Formantes representativos


Vocal/Formante

(Hz)

F1 F2

/a/ 689 1458

/e/ 527 2025

/i/ 284 2430

/o/ 608 1215

/u/ 243 770

Valores frecuenciales de los dos Valores frecuenciales de los dos primeros formantes de las primeros formantes de las

vocales españolas.vocales españolas.


Clasificación de Clasificación de sonidos sonidos

• Sonidos sonoros (Voiced)

• Sonidos sordos (Unvoiced)

a, e, i, o, u, b, d, g, l, ll, m, n, ñ, r, rr, v, w, y

ch, f, h, j, k, p, s, t, z


Análisis localizado, características de Análisis localizado, características de estacionariedadestacionariedad

• La voz no es estacionaria.La voz no es estacionaria.• La voz es cuasi-estacionaria en intervalos La voz es cuasi-estacionaria en intervalos

cortos de tiempo.cortos de tiempo.


Técnicas para el análisis de Técnicas para el análisis de VozVoz

Energía y Magnitud Promedio en corto Energía y Magnitud Promedio en corto tiempotiempoLa amplitud de segmentos sordos generalmente es más pequeña que la amplitud de segmentos sonoros.

La energía en corto tiempo de la señal de voz proporciona una representación conveniente, que refleja estas variaciones de amplitud. En general, nosotros podemos definir la energía en corto tiempo como:

La mayor importancia de la energía en corto tiempo, es que distingue los segmentos de voz sonora de los distingue los segmentos de voz sonora de los segmentos de voz segmentos de voz sorda.sorda.

1

0

2])[][(M

mn mnwmSE

Técnicas para el análisis de VozTécnicas para el análisis de Voz

Métodos para determinación Métodos para determinación del periodo fundamental del periodo fundamental

(pitch)(pitch)


Método de AutocorrelaciónMétodo de Autocorrelación Cuando es dificultoso encontrar la componente fundamental de una señal , es conveniente buscar la periodicidad examinando su función de autocorrelación.


1||

)()(kM

inxx lnsnslr

Características de la Características de la AutocorrelaciónAutocorrelación

En una señal periódica, la autocorrelación mostrará un periodo igual al período de la señal.Presenta un máximo absoluto en el origen.Robusto frente al ruido.


Métodos para determinación Métodos para determinación de Formantesde Formantes

1. Método de Raíces.

2. Método Peak-Picking


Método de Método de RaícesRaíces

P

K

KK za

GzA

GzH

1

1)(

)( 01)(1

P

K

KK zazA

iyxraiz x

yyxr 122 tan,

S

ii T

F

2

Cálculo de la Frecuencia Central del Formante (i)


Método Peak-Método Peak-PickingPicking

• Algoritmo de búsqueda de picos en la envolvente espectral de H(z).

• Su gran debilidad son las mezclas de los Formantes.


Determinación de formantesDeterminación de formantes

Predicción Lineal

Técnicas para el análisis Técnicas para el análisis de Vozde Voz

kn

p

kkn sas

1

Principales supuestos:

Naturaleza Cuasiestacionaria de la voz en segmentos cortos de tiempo.

Correlación no nula entre muestras consecutivas de voz.

Predicción LinealPredicción Lineal


Predicción LinealPredicción Lineal• Modelo autorregresivo (AR) o todo-polos

de la señal de voz:

P

K

KK za

GzH

1

1)(

P

KnKnKn UGSaS

1

Un

Sn


nnn SSe 1, 00

aSaeP

KknKn

nenS

P

K

kK zazA

0

)(

Dada una señal de voz “Sn” (considerada estacionaria) un predictor de orden p se define como:

Filtro Inverso

)()(

zAG

zH

P

KKnKn SaS

1

Predicción Predicción LinealLineal


Se desea minimizar el error Se desea minimizar el error total al cuadrado, luego se total al cuadrado, luego se tiene:tiene:

1

0

1

0 1

22 )(N

n

N

n

p

kknknn saseE (7

)



Cálculo de minimización del Cálculo de minimización del error:error:

01

01

1

0

N

nnin

p

k

N

nknink

i

ssssaa

E

pi 1

(8)



in

iN

nni ssR

1

0

1

0

N

nkninki ssR

Coeficientes de Autocorrelación:Coeficientes de Autocorrelación:



Aplicando estas definiciones se Aplicando estas definiciones se tiene:tiene:

iRp

k kiRkai

a

E

1

pi 1

iRp

k kiRka 1

pR

3R

2R

1R

pa

3a

2a

1a

0R3pR2pR1pR

3pR0R1R2R

2pR1R0R1R

1pR2R1R0R



Para resolver este sistema se pueden Para resolver este sistema se pueden usar variados algoritmos, entre los usar variados algoritmos, entre los algoritmos propuestos están:algoritmos propuestos están:

Algoritmo Recursivo de Levison-DurbinAlgoritmo Recursivo de Levison-Durbin

Algoritmo del Gradiente.Algoritmo del Gradiente.



MmmkHkXmXN

ki ,,2,1.ln'

1

MlmM

lmXlc

M

m

,,2,12

1cos'

1

Los coeficientes Cepstrales en la Escala de Frecuencias de Mel, adaptan las frecuencias de fonemas a la manera que el oído humano percibe los sonidos.La literatura indica que son Coeficientes más robustos que los coeficientes LPC y Cepstrums.

Calcula una serie de parámetros de transición denotados por

.

Aplicar a los parámetros de transición la Transformada Discreta del Coseno (DCT).


COEFICIENTES CEPSTRALES EN LA ESCALA DE FRECUENCIAS MEL (MFCC)

Transformada de Wavalet TW

La TW es una forma de representar una señal compleja de manera simple. Lo que la convierte en una herramienta útil desde el punto de vista práctico.

A diferencia de la transformada de

Fourier, en donde se realiza una representación a nivel de frecuencia de una señal,

La transformada wavelet introduce la

innovación de representarla tanto en dominio de la frecuencia como en el dominio del tiempo.

Transformada de Wavalet

En otras palabras, la transformada de Fourier

permite analizar una señal globalmente,

Mientras que la TW permite analizarla de forma

global y local, lo que le da la propiedad de entregar el

comportamiento de la señal en cada instante de

tiempo

El análisis de Fourier divide la señal en ondas

sinusoidales de diferentes frecuencias de duración

infinita.

Del mismo modo, el análisis mediante wavelets

consiste en dividir una señal en un determinado

número de ondas o combinaciones lineales de

señales de duración finita resultantes de la traslación

y escalado de una función wavelet madre (Walter,

1999).

Transformada de Wavalet

Análisis Multiresolución

El análisis multiresolución wavelet, permite descomponer la señal original en distintos niveles de resolución. En los detalles se encuentran aquellas componentes finas que contienen información a distintas frecuencias.

Transformadas de Wavalet TWC

S= +

a1= +

a2= +

S= + + +a3 d3 d2 d1

0 300

0 150 0 150

0 75 0 75

0 37 0 37

La señal puede ser reconstruida en su totalidad con la aproximación de mayor nivel y todos los detalles.

•Si se hacen cero algunos detalles se logrará algún grado de compresión.

•Si se minimizan aquellos detalles que representan ruido, entonces se filtrará el ruido.

Por Qué: Transformada de Wavalet


Redes Neuronales ArtificialesRedes Neuronales Artificiales

¿Por qué Redes Neuronales?Porque simulan a las redes neuronales biológicas.

Elemento principal: Neurona Conexiones entre neuronas: Sinapsis

El advenimiento de la tecnología de Redes Neuronales Artificiales para el procesamiento digital de señales, llega a romper muchas de las limitaciones existentes en las técnicas tradicionales, principalmente en lo relacionado con el reconocimiento de la voz.


• Las redes neuronales están basadas en el funcionamiento de la neurona biológica residente en el sistema nervioso central, sus orígenes se remontan a los primeros años de la informática.


Una red neuronal artificial es un modelo computacional que puede ser considerada como un sistema de procesamiento de información con características como aprendizaje, a través de ejemplos, adaptabilidad, robustez, capacidad de generalización y tolerancia a fallos.

Una Red Neuronal Artificial permite que una vez procesadas digitalmente las señales sonoras de voz, no se tenga que establecer reglas o realizar análisis estadísticos complejos para la determinación del fonema en proceso de reconocimiento.


Compresión de VozCompresión de Voz


En los últimos años se ha dado un aumento espectacular tanto de la capacidad de almacenamiento de los computadores/ordenadores como de la velocidad de procesamiento de éstos.

A esto lo acompaña una baja de los precios de memoria RAM y discos duros, así como también un aumento de velocidad de estos dispositivos. Esto nos hace preguntarnos ¿para qué la compresión?

Sin embargo, el uso que tienen las redes de computadores/ordenadores hace que cada vez más usuarios pidan más prestaciones a la red sobre la que están conectados.

Cuando hablamos de prestaciones nos referimos principalmente a la velocidad de transferencia de información. Este es el principal problema al que se enfrentan todas las redes.


• Todos los sistemas de compresión requieren dos algoritmos, uno para la compresión de los datos en el origen y otro para la descompresión en el destino.

• En la literatura estos algoritmos se conocen como algoritmos de codificación y decodificación respectivamente.

• Para muchas aplicaciones un documento multimedia sólo se codificará una vez al almacenarse en el servidor, pero se puede decodificar miles de veces al ser vista por los clientes.

• Esta asimetría permite que el algoritmo de codificación sea lento y requiera hardware costoso, siempre y cuando el algoritmo de decodificación sea rápido y no requiera un hardware de alto costo.


Por otra parte, para los multimedia de tiempo real, como las videoconferencias y la voz sobre IP, la codificación lenta es inaceptable.

Por ejemplo, al comprimir, transmitir y descomprimir un archivo de datos el usuario espera recibir en forma correcta hasta el último bit de la información original.


• Por otra parte en multimedia por lo general, es aceptable que la señal después de codificar y decodificar sea ligeramente diferente de la original.

• Los sistemas de codificación con pérdidas son importantes porque aceptar una pequeña pérdida de información puede ofrecer ventajas enormes en la relación de compresión posible, como por ejemplo, el algoritmo de compresión de imágenes JPEG y el de compresión de voz LPC.


Analicemos este hecho mediante

una útil ecuación.

Proceso de

compresión-transmisión-descompresión

Este proceso se justifica porque en general es más rápido que el proceso de transmisión sin compresión .


122

c

rcb

bD

brD

cD

: Es la relación entre tiempo que se tardaría para transmitir comprimiendo y sin comprimir (en tanto por uno).

r : Radio medio de compresión del algoritmo utilizado, que se puede escribir como bits comprimidos / bits totales.



•c es la velocidad de compresión en bit/s (se supone igual a la velocidad de descompresión y depende del algoritmo) •D es el número de bits que componen el mensaje a transmitir,• b es la velocidad de transferencia de la línea en bit/s

La ecuación evidencia que para se justifica la transmisión con compresión.

1

122

c

rcb

bD

brD

cD

• Pero no sólo para la transmisión se usa la compresión.

• También para el almacenamiento masivo de datos

• La necesidad de almacenamiento también crece por encima de las posibilidades del crecimiento de los discos duros o memoria.

• Nos basta pensar, por ejemplo, en el proyecto del Genoma Humano ó en los grandes servidores de vídeo en demanda con cientos o miles de películas, ocupando cada una varios Gigabytes


Principales Estándares de Principales Estándares de Compresión de VozCompresión de Voz


Los estándares recomendados por H.323 para la compresión de la voz, son los siguientes:

•G.711: Modulación por impulsos Codificados PCM a 64kbit/s.

G.723: Códec de voz de doble velocidad para la transmisión en comunicaciones multimediosa 5,3 y 6,3 kbit/s.G.726: Modulación por impulsos codificados diferencial adaptivo ADPCM, a 16, 24, 32, 40 kbit/s.

G.728 (Codificación de señales vocales a 16 kbit/s utilizando predicción lineal).G.729: Codificador de la voz mediante predicción lineal a 8 kbit/s

Estándares de Compresión de VozEstándares de Compresión de Voz


64

6,3 5,3

16

32

816

48

0

10

20

30

40

50

60

70

bit

rat

e en

kb

it/s

G.711 G.723 G.723 G.726 G.726 G.729 G.728 G.722

Estándar

Principales Estándares de codificación de Voz

G.711

G.723

G.723

G.726

G.726

G.729

G.728

G.722


G.722 G.728 G.711 G.723

Fuente: Magenta <www.magenta.cl>

Estándares de Compresión de VozEstándares de Compresión de Voz


PuntuaciónPuntuación Esfuerzo necesario para Esfuerzo necesario para comprender el significado de comprender el significado de

las fraseslas frases5 Audición perfecta; ningún esfuerzo

4 Cierta atención es necesaria; ningún esfuerzo apreciable

3 Esfuerzo moderado

2 Esfuerzo considerable

1 Significado incomprensible, aun con el mayor esfuerzo

Evaluación de los codificadoresMOS (Mean Opinion Score) ITU P.800


Sistemas de reconocimiento de Voz Sistemas de reconocimiento de Voz

Un sistema de reconocimiento de voz podrá operar identificando:Palabras aisladasFonemas (mayor complejidad)

Éste último podrá utilizarse para reconocer palabras, frases, etc. Es altamente deseable un reconocimiento continuo de la voz

Sistemas de reconocimiento de Voz

Reconocimiento de Voz

Reconocimiento de voz empleando comparación de patrones

Establecimientode características

espectrales

Comparador de patrones

Regla de decisión

Base de datos depatrones

Muestra de voz

Se establece una distancia matemática entre vectores, de tal manera que se pueda calcular que tan cercano se está de cada patrón.

De todos modos, existe la necesidad de aplicar este sistema única y exclusivamente a ciertos casos donde el número de palabras necesarias sea pequeño.


Reconocimiento de voz empleando comparación de patrones

En la actualidad el empleo de las Redes Neuronales Artificiales (RNA) en el reconocimiento de voz ofrece una muy buena alternativa, debido a que las RNA intentan simular el comportamiento de las redes neuronales biológicas, con lo cual es posible evitar las grandes bases de datos exigidas mediante métodos por comparación de patrones, como el mostrado anteriormente y tiempo de procesamiento de señales bajo las técnicas clásicas.

Reconocimiento de voz usando Redes Neuronales


La cantidad de patrones para el entrenamiento puede ser considerablemente alto, como dato se menciona que para patrones de voz de 10 ms compuestos de 80 muestras, para identificar las 5 vocales, se debería disponer de 4350 ejemplos en total, es decir 870 por cada vocal, lo que demanda gran tiempo y recursos.

Por lo que en este ámbito es muy importante reducir la cantidad de muestras para el entrenamiento (70%), pruebas (20%) y validación” (10%), esta reducción será mostrada más adelante a través de un modelo desarrollado por el equipo de la Usach .


Reconocimiento de Voz usando Redes

Neuronales

• A continuación se muestran dos ejemplos de desarrollo, tanto como para la compresión de voz como para la identificación de la voz

• En primer lugar, se muestra un trabajo sobre compresión de voz, lo que llevó a una publicación ISI-

• Posteriormente la identificación de sílabas mediante un proceso de segmentación y análisis focalizado usando comparación de patrones

• Y finalmente la identificación a través de un modelo Wavalet-LPC-RNA .

Desarrollos Prácticos

Modelo de compresión de Voz mediante la utilización de la Transformada Rápida de

Fourier y la aplicación de formatos de Compresión de imágenes


Kaschel, H., San Juan, E. & Carrasco, R. (2006) “Analysis and voice synthesis by means of image compression” The Mediterranean Journal of Computers and Networks,Volume 2, N°3

Kaschel, H., Watkins, F. & San Juan, E. (2005) “Compresión de voz mediante técnicas digitales para el procesamiento de señales y aplicación de formatos de Compresión de Imágenes” Revista de la facultad de Ingeniería, Vol. 13, N° 3, septiembre-diciembre

El presente trabajo muestra la formulación y simulación de El presente trabajo muestra la formulación y simulación de

un modelo de compresión de voz, realizando un proceso de un modelo de compresión de voz, realizando un proceso de

análisis y síntesis mediante el uso de técnicas digitales análisis y síntesis mediante el uso de técnicas digitales

para procesamiento de señales y de la aplicación de para procesamiento de señales y de la aplicación de

formatos de compresión de imágenes. formatos de compresión de imágenes.

El modelo formulado transforma tramas de voz en imágenes El modelo formulado transforma tramas de voz en imágenes

comprimidas, las cuales son transmitidas a través del canal, comprimidas, las cuales son transmitidas a través del canal,

para luego realizar en el receptor un proceso de para luego realizar en el receptor un proceso de

recuperación de la voz.recuperación de la voz.

Modelo de compresión de vozModelo de compresión de voz

Presentación General

LLa compresión de la voz bajo a compresión de la voz bajo

este esquema logra una este esquema logra una

reducción significativa de la reducción significativa de la

cantidad de bytes y de la cantidad de bytes y de la

consiguiente disminución de la consiguiente disminución de la

velocidad en bit/s necesaria para velocidad en bit/s necesaria para

la transmisión de la información.la transmisión de la información.

Hipótesis de Hipótesis de InvestigaciónInvestigación Disminución Disminución

de Bytesde Bytes

Menor Ancho Menor Ancho de banda en de banda en

bit/s necesarios bit/s necesarios para la para la

transmisión de transmisión de la vozla voz


Modelo de Compresión de Vozen el transmisor (análisis)

Ingreso de la voz

Filtro pasabanda 1

Adaptación aformato de Imagen de

Compresiónde la

Imagen

Compresiónde la

Imagen

)(

)()(

1

11 zA

zBzH

)(nx

Filtro pasabanda 2

)(nx

)(nx

Filtro pasabanda M)(nx

)(

)()(

2

22 zA

zBzH

)(

)()(

zA

zBzH

M

MM

Voz filtrada por el banco de

filtros

)(1 nxF

)(2 nxF

M

iiFF nxnx

1 )()(

)(nxFM

1

0

)()(N

n

nkNFF Wnxkx

)(Re kxF

)(Im kxF

)(Re kxF

Adaptación aformato de Imagen de

)(Im kxF

Transmisiónde la imagen comprimidade la parteReal de la

FFT

Transmisiónde la imagen comprimidade la parteImaginaria de la FFT

CanalDFT

Mediante la

FFT

Njn eWcon /2


Síntesis en el Receptor en el Receptor

Descompresión de la imagen

parte real de la FFT

Recuperaciónparte Realde la FFT

Recuperaciónparte

Imaginariade la FFT

Aplicaciónde la IFFT

Recuperaciónde

la voz

Canal )(~ kxF )(~ nxF

1

0

)(~1)(~

N

n

knNFF Wkx

Nnx

Reconstrucciónde la FFT

Recepciónde la imagen comprimidade la parteReal de la

FFT

Recepciónde la imagen comprimidade la parteImaginaria de la FFT

Descompresión de la imagen

parte Imaginariade la FFT


Interfaz gráfica diseñadaInterfaz gráfica diseñada


Señal original antes de ser procesada

Aplicación de la simulación


Espectros de frecuencias parte real e imaginaria en el proceso de análisis



Imágenes Parte real e imaginaria de la FFT en el transmisor antes de comprimir



Proceso de transmisión


CanalCanalTramas de vozTramas de voz Tramas de imágenes Tramas de imágenes

comprimidascomprimidasTramas de imágenes Tramas de imágenes

comprimidascomprimidas


Imágenes Parte real e imaginaria de la FFT en el receptor después de descomprimir



Recuperación de la parte real y parte imaginaria de la FFT en el receptor



Señal recuperada en el receptor



Conclusiones


4,2

4,3

4,4

4,5

4,6

4,7

MO

S

P NG J P EG 75 J P EG 50 LP C G.723 ADP CM

Esquema de compresión

Comparación del modelo

PNG

JPEG 75

JPEG 50

LPC

G.723

ADPCM

ConclusionesBuenos resultados en relación con el MOSBuenos resultados en relación con el MOS


15,5 16

32

6,3

0

510

1520

2530

35

bit

rat

e en

kb

it/s

CVI LPC ADPCM G.723

Esquema de compresión

Comparación entre los esquemas

CVI

LPC

ADPCM

G.723

ConclusionesBuenos resultados en cuanto a velocidadBuenos resultados en cuanto a velocidad


Modelo para reconocimiento de la voz a nivel de sílabas a través de patrones visuales

Modelo para reconocimiento de voz por comparación de patrones

Objetivo de la investigación Objetivo de la investigación • Busca entregar al usuario en rehabilitación

índices que le ayuden a aprender y a mejorar su pronunciación, basándose en la correlación de los parámetros propios de cada hablante con respecto a parámetros patrones almacenados en el sistema.


La Retroalimentación que permite el aprendizaje de las palabras, no se produce a través de la audición. Pero se puede usar otro sentido: la vista


• Periodo fundamental (Pitch)• Formantes• Coeficientes LPC• Coeficientes Cepstrales en la Escala

de Frecuencias Mel (Mel Frequency Cepstral Coefficient – MFCC)

Parámetros característicos considerados en este trabajo


Coeficiente de Coeficiente de correlación usado como correlación usado como criterio de evaluacióncriterio de evaluación

n

i

n

iii

n

iii

yyxx

yyxxr

1 1

2

1


• Consideraciones previas– Cantidad de sílabas– Consonantes con igual sonido– Base de datos

• Metodología planteada– Segmentación consonante/vocal de una sílaba– Comparación de vocales– Comparación de Consonantes

Metodología a nivel de sílabas a nivel de fonemas


Segmentación Segmentación consonante/vocalconsonante/vocal

de una sílabade una sílaba


• Formantes• Coeficientes LPC• MFCC

• Coeficientes LPC• MFCC

Obtención de Parámetros


Implementación Implementación computacional: Interfaz computacional: Interfaz gráficagráfica


• Se reproducen videos de una persona pronunciando la sílaba en entrenamiento.

Características Multimediales


Modelo para el reconocimiento de Modelo para el reconocimiento de patrones voz mediante el empleo de patrones voz mediante el empleo de wavelets, predicción lineal y redes wavelets, predicción lineal y redes

backpropagationbackpropagation

San Juan, Jamett, Kaschel, Watkins, Sanchez, Leiva “Uso de wavelets, predicción lineal y redes backpropagation para el reconocimiento de patrones de voz “, Universidad de Santiago de Chile, (próximo a someterse a evaluación)

Desarrollo de un software de análisis de sílabas y de fonemas orientado al apoyo del aprendizaje del lenguaje hablado para personas con problemas auditivos. Mediante integración de los siguientes métodos aplicados para el reconocimiento de voz restringidos a sílabas y fonemas: -Transformada de Wavelet-Coeficientes LPC -Redes Neuronales

Objetivo de la investigación Objetivo de la investigación

Modelo para el reconocimiento de Modelo para el reconocimiento de patrones de voz mediante el empleo de patrones de voz mediante el empleo de

wavelets, predicción lineal y redes wavelets, predicción lineal y redes backpropagationbackpropagation

4350 ejemplos

870 ejemplos x vocalNe=Neuronas entrada

Nco=Neuronas Capa OcultaNs=Neuronas Capa Salida

12 de 13 coeficientes LPC

950Ejemplos

190 ej.x vocal

Wavelet daubechies 6 de 3 niveles

+ + +a3 d2 d1S=

LPC: La voz puede modelarse como una combinación de p muestras anteriores más una señal de error.

4350

5)15(5)180(10

)1()1(10

ejemplosdeNúmero

NtpejemplosdeNúmero

NsNcoNcoNeNtpejemplosdeNúmero

Detalle d3:

2700 ejemplos

540’ ejemplos por vocal

6 de 7 coeficientes LPC

650Ejemplos

140 ej.x vocal.

Red Neuronal + Wavelet +LPC

Vocal “a”:

d3

LPC

Modelo desarrollado



Red de sílabas ya/lla/te/pi/bu/vu “RED1”

Aciertos en total por cada sílaba en 36

muestras (ideal 100%)

Promedio resultados 36 muestras x sílaba

(ideal 1).ya te pi bu ya te pi bu

ya23 9 3 2

0,57 0,37 0,13 0,0864% 25% 8% 6%

te8 27 1 0

0,24 0,63 0,08 0,0322% 75% 3% 0%

pi2 0 25 6

0,17 0,05 0,58 0,336% 0% 69% 17%

bu3 0 7 28

0,14 0,04 0,29 0,618% 0% 19% 78%

total 36 36 36 36 -- -- -- --Promedi

o72%

de asertivo 0,60

(60% de similitud)

•Cantidad de ejemplos para las pruebas (20% )

Resultados de Resultados de pruebaspruebas



Software de ayuda a discapacitados auditivos.

MUCHAS GRACIAS

universidad de santiago de chile facultad de ingeniería dr. enrique alberto san juan urrutia...

Documents