universidad de santiago de chile facultad de ingeniería dr. enrique alberto san juan urrutia...

112
Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Ingeniero Civil en Telecomunicaciones Sistemas de Compresión y Reconocimiento de Voz (experiencia investigativa en la USACH)

Upload: atilio-cubero

Post on 15-Jan-2015

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Universidad de Santiago de Chile

Facultad de Ingeniería

Dr. Enrique Alberto San Juan UrrutiaDr. Enrique Alberto San Juan Urrutia

Ingeniero Civil en TelecomunicacionesIngeniero Civil en Telecomunicaciones

Sistemas de Compresión y Reconocimiento de Voz(experiencia investigativa en la USACH)

Page 2: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Colombia

chile

Page 3: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión
Page 4: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

UNIVERSIDAD DE SANTIAGO DE CHILE

Page 5: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

UNIVERSIDAD DE SANTIAGO DE CHILE

Page 6: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

DEPARTAMENTO DE INGENIERÍA ELÉCTRICA

UNIVERSIDAD DE SANTIAGO DE CHILE

Page 7: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Objetivo generalObjetivo generalI. Dar a conocer una de las líneas de investigación

del Área de Telecomunicaciones del Departamento de Ingeniería Eléctrica de la USACH.

II. Dar a conocer el por qué el equipo ha considerado la importancia del procesamiento Digital de la Voz y la necesidad de compresión y el reconocimiento de la voz.

III. Entregar en forma breve las principales técnicas para el procesamiento Digital de la voz.

IV. Mostrar algunas aplicaciones desarrolladas en compresión y en el reconocimiento de voz.

Objetivos

Page 8: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

I- Principales Líneas de Investigación del área de Telecomunicaciones

1. Procesamiento digital de señales, en especial el procesamiento digital de Voz.

2. Voz sobre redes de Paquetes3. Calidad de Servicio sobre Redes IP4. Wireless sensor network, channel coding, network coding.5. Robot móviles, manipuladores y androides6. Control de sistemas complejos mediante técnicas de redes neuronales.7. Identificación de sistemas tipo caja-gris.8. Análisis de estabilidad de modelos no lineales iterativos

Objetivos

Page 9: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

II. Importancia del procesamiento Digital de la Voz en lo relacionado con:

La Compresión para el transporte sobre redes de paquetes

El Reconocimiento de voz orientado a la ayuda de personas con dificultades de audición.

Objetivos

Page 10: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

III. Técnicas para el procesamiento Digital de la Voz

De manera resumida se entregan los conceptos y técnicas asociadas para el procesamiento, análisis y compresión de la voz.

Objetivos

Page 11: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

IV. Las Aplicaciones se muestran al final de esta ponencia y están orientadas en mostrar:

Un modelo de compresión de voz usando formatos de compresión de imágenes .

Y dos desarrollos orientados al reconocimiento de voz para la generación de un sistema computarizado de ayuda a personas con dificultades auditivas.

Objetivos

Page 12: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Introducción

•El Universo es todo, sin excepciones.

Materia, energía, espacio y tiempo, todo lo que existe forma parte del Universo.

• Los Astrónomos indican que es muy grande y puede contener millones de galaxias, pero no es infinito, esta autocontenido. Si lo fuera, habría infinita materiae infinitas estrellas, y no es así.

• En cuanto a la materia, el universo es, sobre todo, espacio vacío.

Page 13: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Materia, Energía e Información

• Materia-Energía

+ Información+ Información2

2

c

EmmcE

La información La información pertenece al Universo pertenece al Universo pero no es Masa ni pero no es Masa ni Energía ni tampoco Energía ni tampoco ocupa un lugar en el ocupa un lugar en el espacioespacio

Page 14: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

INFORMACIÓN Tercer componente del Universo.

A) Concepto:

Es un conocimiento de hechos, acontecimientos,

cambios, procesos, etc., por su naturaleza no

determinística (en sentido de la teoría de probabilidades).

B) Unidad de medida de información: el “bit” (binary digit)

Materia, Energía e Información

Page 15: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Nuestro interésNuestro interés

MENSAJE

Secuencia de símbolos o estados, que sirven para transmitir la información (lenguaje, música, valores numéricos, diagramas, etc.) SEÑAL.

Representación física del mensaje por medio de la variación de uno o de varios parámetros de alguna magnitud física. Los parámetros de la magnitud física que varían (dependen) de acuerdo con el mensaje, se denominan parámetros de la señal.

Una señal puede ser: transmitida, procesada o almacenada

Nuestro interés son las señales, Nuestro interés son las señales, las que debemos formalizar en su las que debemos formalizar en su

conceptualizaciónconceptualización

Page 16: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Alexander Graham Bell, creó el lenguaje de señas e inventó autómatas rústicos sintetizadores de voz y el teléfono.

En los años 20, AT&T Bell Laboratorios, construye la primera máquina capaz de reconocer voz (basada en <plantillas>) de los 10 dígitos del Inglés.

Estudios a través del Estudios a través del tiempotiempo

Page 17: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

La técnica de plantillas ha sido ampliamente utilizada. El almacenamiento de patrones característicos de las muestras tomadas como plantillas ha sido la forma de trabajo hasta la década de los 90.

Durante los años 70 y 80 se desarrolla muy fuertemente el estudio de Análisis y Síntesis de Voz, principalmente gracias a Rabiner, Makhoul y otros.

A mediados de los años 90 comienzan a aparecer los primeros estudios formales que involucran a las Wavalet para procesamiento y compresión, además de las redes neuronales artificiales para el reconocimiento de la voz.

Estudios a través del Estudios a través del tiempotiempo

Page 18: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

¿Qué es compresión?¿Qué es compresión?

Principalmente porque día a día son más las aplicaciones en este contexto que requieren de un amplio rango de calidad y performance de acuerdo a los requerimientos de usuarios heterogéneos. La alternativa, es que sea posible la compresión masiva de los datos antes de efectuar su transmisión.

Afortunadamente, un gran número de investigaciones durante las últimas décadas han desrollado muchas técnicas y algoritmos de compresión que hacen factible la transmisión de multimedia.

Es improbable pensar en este tiempo la conveniencia de realizar transmisión de información multimedialmultimedial en formato sin compresión.

Page 19: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

¿Qué es reconocimiento de voz?¿Qué es reconocimiento de voz?

Al hablar de reconocimiento de voz, podemos imaginarnos varios campos de aplicación. Desde la domótica hasta la inteligencia artificial.

Reconocimiento de palabras aisladasReconocimiento de voz continua

Dependiente o independiente del locutor Con gramática amplia 0 restringida

Todo depende de la aplicación que queramos. Por ejemplo, si queremos poder apagar o encender las luces de nuestra casa, bastará un sistema que reconozca un número limitado de palabras, está claro entonces que grabando unos cuantos ejemplos que servirán de patrones, se podrá resolver el problema .

Page 20: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Imaginemos que en vez de algunas pocas palabras queremos tratar un vocabulario completo y no sólo eso, “queremos poder hablar connaturalidad y que el sistema identifique las palabras, las frases y el significado”.

“Es decir, queremos que un robot nos entienda, para ello el nivel de complejidad se eleva a un nivel casi impensable.”

¿Qué es reconocimiento de voz?¿Qué es reconocimiento de voz?

Page 21: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Sistemas que reconozcan en forma eficiente la palabra pronunciada sin que exista entrenamiento previo del locutor son aún un desafío.

Es por ello que las Redes Neuronales Artificiales adquieren cada vez más protagonismo en el estudio de la voz humana, basándose en que éstas simulan al mejor sistema: es decir el ser humano, para interpretar, reconocer y discriminar la voz.

Asimismo, la transformada de Wavelet se posiciona en el ámbito del procesamiento digital de señales e imágenes como una poderosa herramienta de análisis.

Numerosos estudios centran la atención en estos métodos como la solución al reconocimiento de voces independientes del locutor.

¿Qué es reconocimiento de voz?¿Qué es reconocimiento de voz?

Page 22: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Parámetros Característicos de Señales de Voz

Page 23: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz

Parámetros Característicosde Señales Voz

Período Fundamental(PITCH)

FORMANTES

Page 24: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Período Fundamental(Pitch)

Es el tiempo transcurrido entre dos aperturas sucesivas de las cuerdas vocales.

La velocidad de vibración de la cuerdas, se denomina Frecuencia Fundamental de la fonación y es el inverso del Pitch.

Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz

Page 25: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

FormantesFormantes

•Los Formantes son resonancias naturales del tracto vocal que toman diferentes valores de frecuencia a medida que éste cambia su estructura.

Formantes representativos

Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz

Page 26: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Vocal/Formante

(Hz)

F1 F2

/a/ 689 1458

/e/ 527 2025

/i/ 284 2430

/o/ 608 1215

/u/ 243 770

Valores frecuenciales de los dos Valores frecuenciales de los dos primeros formantes de las primeros formantes de las

vocales españolas.vocales españolas.

Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz

Page 27: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Clasificación de Clasificación de sonidos sonidos

• Sonidos sonoros (Voiced)

• Sonidos sordos (Unvoiced)

a, e, i, o, u, b, d, g, l, ll, m, n, ñ, r, rr, v, w, y

ch, f, h, j, k, p, s, t, z

Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz

Page 28: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Análisis localizado, características de Análisis localizado, características de estacionariedadestacionariedad

• La voz no es estacionaria.La voz no es estacionaria.• La voz es cuasi-estacionaria en intervalos La voz es cuasi-estacionaria en intervalos

cortos de tiempo.cortos de tiempo.

Parámetros Característicos Parámetros Característicos de Señales de Vozde Señales de Voz

Page 29: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 30: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Energía y Magnitud Promedio en corto Energía y Magnitud Promedio en corto tiempotiempoLa amplitud de segmentos sordos generalmente es más pequeña que la amplitud de segmentos sonoros.

La energía en corto tiempo de la señal de voz proporciona una representación conveniente, que refleja estas variaciones de amplitud. En general, nosotros podemos definir la energía en corto tiempo como:

La mayor importancia de la energía en corto tiempo, es que distingue los segmentos de voz sonora de los distingue los segmentos de voz sonora de los segmentos de voz segmentos de voz sorda.sorda.

1

0

2])[][(M

mn mnwmSE

Técnicas para el análisis de VozTécnicas para el análisis de Voz

Page 31: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Métodos para determinación Métodos para determinación del periodo fundamental del periodo fundamental

(pitch)(pitch)

Técnicas para el análisis de VozTécnicas para el análisis de Voz

Page 32: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Método de AutocorrelaciónMétodo de Autocorrelación Cuando es dificultoso encontrar la componente fundamental de una señal , es conveniente buscar la periodicidad examinando su función de autocorrelación.

Técnicas para el análisis de VozTécnicas para el análisis de Voz

1||

)()(kM

inxx lnsnslr

Page 33: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Características de la Características de la AutocorrelaciónAutocorrelación

En una señal periódica, la autocorrelación mostrará un periodo igual al período de la señal.Presenta un máximo absoluto en el origen.Robusto frente al ruido.

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 34: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 35: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Métodos para determinación Métodos para determinación de Formantesde Formantes

1. Método de Raíces.

2. Método Peak-Picking

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 36: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Método de Método de RaícesRaíces

P

K

KK za

GzA

GzH

1

1)(

)( 01)(1

P

K

KK zazA

iyxraiz x

yyxr 122 tan,

S

ii T

F

2

Cálculo de la Frecuencia Central del Formante (i)

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 37: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Método Peak-Método Peak-PickingPicking

• Algoritmo de búsqueda de picos en la envolvente espectral de H(z).

• Su gran debilidad son las mezclas de los Formantes.

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 38: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Determinación de formantesDeterminación de formantes

Page 39: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Predicción Lineal

Técnicas para el análisis Técnicas para el análisis de Vozde Voz

kn

p

kkn sas

1

Page 40: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Principales supuestos:

Naturaleza Cuasiestacionaria de la voz en segmentos cortos de tiempo.

Correlación no nula entre muestras consecutivas de voz.

Predicción LinealPredicción Lineal

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 41: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Predicción LinealPredicción Lineal• Modelo autorregresivo (AR) o todo-polos

de la señal de voz:

P

K

KK za

GzH

1

1)(

P

KnKnKn UGSaS

1

Un

Sn

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 42: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

nnn SSe 1, 00

aSaeP

KknKn

nenS

P

K

kK zazA

0

)(

Dada una señal de voz “Sn” (considerada estacionaria) un predictor de orden p se define como:

Filtro Inverso

)()(

zAG

zH

P

KKnKn SaS

1

Predicción Predicción LinealLineal

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 43: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Se desea minimizar el error Se desea minimizar el error total al cuadrado, luego se total al cuadrado, luego se tiene:tiene:

1

0

1

0 1

22 )(N

n

N

n

p

kknknn saseE (7

)

Predicción Predicción LinealLineal

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 44: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Cálculo de minimización del Cálculo de minimización del error:error:

01

01

1

0

N

nnin

p

k

N

nknink

i

ssssaa

E

pi 1

(8)

Predicción Predicción LinealLineal

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 45: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

in

iN

nni ssR

1

0

1

0

N

nkninki ssR

Coeficientes de Autocorrelación:Coeficientes de Autocorrelación:

Predicción Predicción LinealLineal

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 46: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Aplicando estas definiciones se Aplicando estas definiciones se tiene:tiene:

iRp

k kiRkai

a

E

1

pi 1

iRp

k kiRka 1

pR

3R

2R

1R

pa

3a

2a

1a

0R3pR2pR1pR

3pR0R1R2R

2pR1R0R1R

1pR2R1R0R

Predicción Predicción LinealLineal

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 47: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Para resolver este sistema se pueden Para resolver este sistema se pueden usar variados algoritmos, entre los usar variados algoritmos, entre los algoritmos propuestos están:algoritmos propuestos están:

Algoritmo Recursivo de Levison-DurbinAlgoritmo Recursivo de Levison-Durbin

Algoritmo del Gradiente.Algoritmo del Gradiente.

Predicción Predicción LinealLineal

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 48: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

MmmkHkXmXN

ki ,,2,1.ln'

1

MlmM

lmXlc

M

m

,,2,12

1cos'

1

Los coeficientes Cepstrales en la Escala de Frecuencias de Mel, adaptan las frecuencias de fonemas a la manera que el oído humano percibe los sonidos.La literatura indica que son Coeficientes más robustos que los coeficientes LPC y Cepstrums.

Calcula una serie de parámetros de transición denotados por

.

Aplicar a los parámetros de transición la Transformada Discreta del Coseno (DCT).

Técnicas para el análisis de Técnicas para el análisis de VozVoz

COEFICIENTES CEPSTRALES EN LA ESCALA DE FRECUENCIAS MEL (MFCC)

Page 49: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Transformada de Wavalet TW

La TW es una forma de representar una señal compleja de manera simple. Lo que la convierte en una herramienta útil desde el punto de vista práctico.

A diferencia de la transformada de

Fourier, en donde se realiza una representación a nivel de frecuencia de una señal,

La transformada wavelet introduce la

innovación de representarla tanto en dominio de la frecuencia como en el dominio del tiempo.

Page 50: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Transformada de Wavalet

En otras palabras, la transformada de Fourier

permite analizar una señal globalmente,

Mientras que la TW permite analizarla de forma

global y local, lo que le da la propiedad de entregar el

comportamiento de la señal en cada instante de

tiempo

Page 51: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

El análisis de Fourier divide la señal en ondas

sinusoidales de diferentes frecuencias de duración

infinita.

Del mismo modo, el análisis mediante wavelets

consiste en dividir una señal en un determinado

número de ondas o combinaciones lineales de

señales de duración finita resultantes de la traslación

y escalado de una función wavelet madre (Walter,

1999).

Transformada de Wavalet

Page 52: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Análisis Multiresolución

El análisis multiresolución wavelet, permite descomponer la señal original en distintos niveles de resolución. En los detalles se encuentran aquellas componentes finas que contienen información a distintas frecuencias.

Transformadas de Wavalet TWC

Page 53: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

S= +

a1= +

a2= +

S= + + +a3 d3 d2 d1

0 300

0 150 0 150

0 75 0 75

0 37 0 37

La señal puede ser reconstruida en su totalidad con la aproximación de mayor nivel y todos los detalles.

•Si se hacen cero algunos detalles se logrará algún grado de compresión.

•Si se minimizan aquellos detalles que representan ruido, entonces se filtrará el ruido.

Por Qué: Transformada de Wavalet

Técnicas para el análisis de Técnicas para el análisis de VozVoz

Page 54: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Redes Neuronales ArtificialesRedes Neuronales Artificiales

Page 55: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

¿Por qué Redes Neuronales?Porque simulan a las redes neuronales biológicas.

Elemento principal: Neurona Conexiones entre neuronas: Sinapsis

El advenimiento de la tecnología de Redes Neuronales Artificiales para el procesamiento digital de señales, llega a romper muchas de las limitaciones existentes en las técnicas tradicionales, principalmente en lo relacionado con el reconocimiento de la voz.

Redes Neuronales ArtificialesRedes Neuronales Artificiales

Page 56: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Las redes neuronales están basadas en el funcionamiento de la neurona biológica residente en el sistema nervioso central, sus orígenes se remontan a los primeros años de la informática.

Redes Neuronales ArtificialesRedes Neuronales Artificiales

Una red neuronal artificial es un modelo computacional que puede ser considerada como un sistema de procesamiento de información con características como aprendizaje, a través de ejemplos, adaptabilidad, robustez, capacidad de generalización y tolerancia a fallos.

Page 57: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Una Red Neuronal Artificial permite que una vez procesadas digitalmente las señales sonoras de voz, no se tenga que establecer reglas o realizar análisis estadísticos complejos para la determinación del fonema en proceso de reconocimiento.

Redes Neuronales ArtificialesRedes Neuronales Artificiales

Page 58: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Compresión de VozCompresión de Voz

Page 59: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Compresión de VozCompresión de Voz

En los últimos años se ha dado un aumento espectacular tanto de la capacidad de almacenamiento de los computadores/ordenadores como de la velocidad de procesamiento de éstos.

A esto lo acompaña una baja de los precios de memoria RAM y discos duros, así como también un aumento de velocidad de estos dispositivos. Esto nos hace preguntarnos ¿para qué la compresión?

Page 60: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Sin embargo, el uso que tienen las redes de computadores/ordenadores hace que cada vez más usuarios pidan más prestaciones a la red sobre la que están conectados.

Cuando hablamos de prestaciones nos referimos principalmente a la velocidad de transferencia de información. Este es el principal problema al que se enfrentan todas las redes.

Compresión de VozCompresión de Voz

Page 61: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Todos los sistemas de compresión requieren dos algoritmos, uno para la compresión de los datos en el origen y otro para la descompresión en el destino.

• En la literatura estos algoritmos se conocen como algoritmos de codificación y decodificación respectivamente.

• Para muchas aplicaciones un documento multimedia sólo se codificará una vez al almacenarse en el servidor, pero se puede decodificar miles de veces al ser vista por los clientes.

• Esta asimetría permite que el algoritmo de codificación sea lento y requiera hardware costoso, siempre y cuando el algoritmo de decodificación sea rápido y no requiera un hardware de alto costo.

Compresión de VozCompresión de Voz

Page 62: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Por otra parte, para los multimedia de tiempo real, como las videoconferencias y la voz sobre IP, la codificación lenta es inaceptable.

Por ejemplo, al comprimir, transmitir y descomprimir un archivo de datos el usuario espera recibir en forma correcta hasta el último bit de la información original.

Compresión de VozCompresión de Voz

Page 63: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Por otra parte en multimedia por lo general, es aceptable que la señal después de codificar y decodificar sea ligeramente diferente de la original.

• Los sistemas de codificación con pérdidas son importantes porque aceptar una pequeña pérdida de información puede ofrecer ventajas enormes en la relación de compresión posible, como por ejemplo, el algoritmo de compresión de imágenes JPEG y el de compresión de voz LPC.

Compresión de VozCompresión de Voz

Page 64: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Analicemos este hecho mediante

una útil ecuación.

Proceso de

compresión-transmisión-descompresión

Este proceso se justifica porque en general es más rápido que el proceso de transmisión sin compresión .

Compresión de VozCompresión de Voz

Page 65: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

122

c

rcb

bD

brD

cD

: Es la relación entre tiempo que se tardaría para transmitir comprimiendo y sin comprimir (en tanto por uno).

r : Radio medio de compresión del algoritmo utilizado, que se puede escribir como bits comprimidos / bits totales.

Compresión de VozCompresión de Voz

Page 66: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Compresión de VozCompresión de Voz

•c es la velocidad de compresión en bit/s (se supone igual a la velocidad de descompresión y depende del algoritmo) •D es el número de bits que componen el mensaje a transmitir,• b es la velocidad de transferencia de la línea en bit/s

La ecuación evidencia que para se justifica la transmisión con compresión.

1

122

c

rcb

bD

brD

cD

Page 67: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Pero no sólo para la transmisión se usa la compresión.

• También para el almacenamiento masivo de datos

• La necesidad de almacenamiento también crece por encima de las posibilidades del crecimiento de los discos duros o memoria.

• Nos basta pensar, por ejemplo, en el proyecto del Genoma Humano ó en los grandes servidores de vídeo en demanda con cientos o miles de películas, ocupando cada una varios Gigabytes

Compresión de VozCompresión de Voz

Page 68: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Principales Estándares de Principales Estándares de Compresión de VozCompresión de Voz

Compresión de VozCompresión de Voz

Page 69: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Los estándares recomendados por H.323 para la compresión de la voz, son los siguientes: 

•G.711: Modulación por impulsos Codificados PCM a 64kbit/s.

G.723: Códec de voz de doble velocidad para la transmisión en comunicaciones multimediosa 5,3 y 6,3 kbit/s.G.726: Modulación por impulsos codificados diferencial adaptivo ADPCM, a 16, 24, 32, 40 kbit/s.

G.728 (Codificación de señales vocales a 16 kbit/s utilizando predicción lineal).G.729: Codificador de la voz mediante predicción lineal a 8 kbit/s

Estándares de Compresión de VozEstándares de Compresión de Voz

Compresión de VozCompresión de Voz

Page 70: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

64

6,3 5,3

16

32

816

48

0

10

20

30

40

50

60

70

bit

rat

e en

kb

it/s

G.711 G.723 G.723 G.726 G.726 G.729 G.728 G.722

Estándar

Principales Estándares de codificación de Voz

G.711

G.723

G.723

G.726

G.726

G.729

G.728

G.722

Compresión de VozCompresión de Voz

Page 71: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

G.722 G.728 G.711 G.723

Fuente: Magenta <www.magenta.cl>

Estándares de Compresión de VozEstándares de Compresión de Voz

Compresión de VozCompresión de Voz

Page 72: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

PuntuaciónPuntuación Esfuerzo necesario para Esfuerzo necesario para comprender el significado de comprender el significado de

las fraseslas frases5 Audición perfecta; ningún esfuerzo

4 Cierta atención es necesaria; ningún esfuerzo apreciable

3 Esfuerzo moderado

2 Esfuerzo considerable

1 Significado incomprensible, aun con el mayor esfuerzo

Evaluación de los codificadoresMOS (Mean Opinion Score) ITU P.800

Compresión de VozCompresión de Voz

Page 73: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Sistemas de reconocimiento de Voz Sistemas de reconocimiento de Voz

Page 74: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Un sistema de reconocimiento de voz podrá operar identificando:Palabras aisladasFonemas (mayor complejidad)

Éste último podrá utilizarse para reconocer palabras, frases, etc. Es altamente deseable un reconocimiento continuo de la voz

Sistemas de reconocimiento de Voz

Page 75: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Reconocimiento de Voz

Reconocimiento de voz empleando comparación de patrones

Establecimientode características

espectrales

Comparador de patrones

Regla de decisión

Base de datos depatrones

Muestra de voz

Page 76: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Se establece una distancia matemática entre vectores, de tal manera que se pueda calcular que tan cercano se está de cada patrón.

De todos modos, existe la necesidad de aplicar este sistema única y exclusivamente a ciertos casos donde el número de palabras necesarias sea pequeño.

Reconocimiento de Voz

Reconocimiento de voz empleando comparación de patrones

Page 77: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

En la actualidad el empleo de las Redes Neuronales Artificiales (RNA) en el reconocimiento de voz ofrece una muy buena alternativa, debido a que las RNA intentan simular el comportamiento de las redes neuronales biológicas, con lo cual es posible evitar las grandes bases de datos exigidas mediante métodos por comparación de patrones, como el mostrado anteriormente y tiempo de procesamiento de señales bajo las técnicas clásicas.

Reconocimiento de voz usando Redes Neuronales

Reconocimiento de Voz

Page 78: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

La cantidad de patrones para el entrenamiento puede ser considerablemente alto, como dato se menciona que para patrones de voz de 10 ms compuestos de 80 muestras, para identificar las 5 vocales, se debería disponer de 4350 ejemplos en total, es decir 870 por cada vocal, lo que demanda gran tiempo y recursos.

Por lo que en este ámbito es muy importante reducir la cantidad de muestras para el entrenamiento (70%), pruebas (20%) y validación” (10%), esta reducción será mostrada más adelante a través de un modelo desarrollado por el equipo de la Usach .

Reconocimiento de Voz

Reconocimiento de Voz usando Redes

Neuronales

Page 79: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• A continuación se muestran dos ejemplos de desarrollo, tanto como para la compresión de voz como para la identificación de la voz

• En primer lugar, se muestra un trabajo sobre compresión de voz, lo que llevó a una publicación ISI-

• Posteriormente la identificación de sílabas mediante un proceso de segmentación y análisis focalizado usando comparación de patrones

• Y finalmente la identificación a través de un modelo Wavalet-LPC-RNA .

Desarrollos Prácticos

Page 80: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Modelo de compresión de Voz mediante la utilización de la Transformada Rápida de

Fourier y la aplicación de formatos de Compresión de imágenes

Compresión de VozCompresión de Voz

Kaschel, H., San Juan, E. & Carrasco, R. (2006) “Analysis and voice synthesis by means of image compression” The Mediterranean Journal of Computers  and  Networks,Volume 2, N°3

Kaschel, H., Watkins, F. & San Juan, E. (2005) “Compresión de voz mediante técnicas digitales para el procesamiento de señales y aplicación de formatos de Compresión de Imágenes” Revista de la facultad de Ingeniería, Vol. 13, N° 3,  septiembre-diciembre

Page 81: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

El presente trabajo muestra la formulación y simulación de El presente trabajo muestra la formulación y simulación de

un modelo de compresión de voz, realizando un proceso de un modelo de compresión de voz, realizando un proceso de

análisis y síntesis mediante el uso de técnicas digitales análisis y síntesis mediante el uso de técnicas digitales

para procesamiento de señales y de la aplicación de para procesamiento de señales y de la aplicación de

formatos de compresión de imágenes. formatos de compresión de imágenes.

El modelo formulado transforma tramas de voz en imágenes El modelo formulado transforma tramas de voz en imágenes

comprimidas, las cuales son transmitidas a través del canal, comprimidas, las cuales son transmitidas a través del canal,

para luego realizar en el receptor un proceso de para luego realizar en el receptor un proceso de

recuperación de la voz.recuperación de la voz.

Modelo de compresión de vozModelo de compresión de voz

Presentación General

Page 82: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

LLa compresión de la voz bajo a compresión de la voz bajo

este esquema logra una este esquema logra una

reducción significativa de la reducción significativa de la

cantidad de bytes y de la cantidad de bytes y de la

consiguiente disminución de la consiguiente disminución de la

velocidad en bit/s necesaria para velocidad en bit/s necesaria para

la transmisión de la información.la transmisión de la información.

Hipótesis de Hipótesis de InvestigaciónInvestigación Disminución Disminución

de Bytesde Bytes

Menor Ancho Menor Ancho de banda en de banda en

bit/s necesarios bit/s necesarios para la para la

transmisión de transmisión de la vozla voz

Modelo de compresión de vozModelo de compresión de voz

Page 83: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Modelo de Compresión de Vozen el transmisor (análisis)

Ingreso de la voz

Filtro pasabanda 1

Adaptación aformato de Imagen de

Compresiónde la

Imagen

Compresiónde la

Imagen

)(

)()(

1

11 zA

zBzH

)(nx

Filtro pasabanda 2

)(nx

)(nx

Filtro pasabanda M)(nx

)(

)()(

2

22 zA

zBzH

)(

)()(

zA

zBzH

M

MM

Voz filtrada por el banco de

filtros

)(1 nxF

)(2 nxF

M

iiFF nxnx

1 )()(

)(nxFM

1

0

)()(N

n

nkNFF Wnxkx

)(Re kxF

)(Im kxF

)(Re kxF

Adaptación aformato de Imagen de

)(Im kxF

Transmisiónde la imagen comprimidade la parteReal de la

FFT

Transmisiónde la imagen comprimidade la parteImaginaria de la FFT

CanalDFT

Mediante la

FFT

Njn eWcon /2

Modelo de compresión de vozModelo de compresión de voz

Page 84: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Síntesis en el Receptor en el Receptor

Descompresión de la imagen

parte real de la FFT

Recuperaciónparte Realde la FFT

Recuperaciónparte

Imaginariade la FFT

Aplicaciónde la IFFT

Recuperaciónde

la voz

Canal )(~ kxF )(~ nxF

1

0

)(~1)(~

N

n

knNFF Wkx

Nnx

Reconstrucciónde la FFT

Recepciónde la imagen comprimidade la parteReal de la

FFT

Recepciónde la imagen comprimidade la parteImaginaria de la FFT

Descompresión de la imagen

parte Imaginariade la FFT

Modelo de compresión de vozModelo de compresión de voz

Page 85: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Interfaz gráfica diseñadaInterfaz gráfica diseñada

Modelo de compresión de vozModelo de compresión de voz

Page 86: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Señal original antes de ser procesada

Aplicación de la simulación

Modelo de compresión de vozModelo de compresión de voz

Page 87: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Espectros de frecuencias parte real e imaginaria en el proceso de análisis

Aplicación de la simulación

Modelo de compresión de vozModelo de compresión de voz

Page 88: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Imágenes Parte real e imaginaria de la FFT en el transmisor antes de comprimir

Aplicación de la simulación

Modelo de compresión de vozModelo de compresión de voz

Page 89: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Proceso de transmisión

Aplicación de la simulación

CanalCanalTramas de vozTramas de voz Tramas de imágenes Tramas de imágenes

comprimidascomprimidasTramas de imágenes Tramas de imágenes

comprimidascomprimidas

Modelo de compresión de vozModelo de compresión de voz

Page 90: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Imágenes Parte real e imaginaria de la FFT en el receptor después de descomprimir

Aplicación de la simulación

Modelo de compresión de vozModelo de compresión de voz

Page 91: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Recuperación de la parte real y parte imaginaria de la FFT en el receptor

Aplicación de la simulación

Modelo de compresión de vozModelo de compresión de voz

Page 92: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Señal recuperada en el receptor

Aplicación de la simulación

Modelo de compresión de vozModelo de compresión de voz

Page 93: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Conclusiones

Modelo de compresión de vozModelo de compresión de voz

Page 94: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

4,2

4,3

4,4

4,5

4,6

4,7

MO

S

P NG J P EG 75 J P EG 50 LP C G.723 ADP CM

Esquema de compresión

Comparación del modelo

PNG

JPEG 75

JPEG 50

LPC

G.723

ADPCM

ConclusionesBuenos resultados en relación con el MOSBuenos resultados en relación con el MOS

Modelo de compresión de vozModelo de compresión de voz

Page 95: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

15,5 16

32

6,3

0

510

1520

2530

35

bit

rat

e en

kb

it/s

CVI LPC ADPCM G.723

Esquema de compresión

Comparación entre los esquemas

CVI

LPC

ADPCM

G.723

ConclusionesBuenos resultados en cuanto a velocidadBuenos resultados en cuanto a velocidad

Modelo de compresión de vozModelo de compresión de voz

Page 96: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Modelo para reconocimiento de la voz a nivel de sílabas a través de patrones visuales

Modelo para reconocimiento de voz por comparación de patrones

Page 97: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Objetivo de la investigación Objetivo de la investigación • Busca entregar al usuario en rehabilitación

índices que le ayuden a aprender y a mejorar su pronunciación, basándose en la correlación de los parámetros propios de cada hablante con respecto a parámetros patrones almacenados en el sistema.

Modelo para reconocimiento de voz por comparación de patrones

Page 98: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

La Retroalimentación que permite el aprendizaje de las palabras, no se produce a través de la audición. Pero se puede usar otro sentido: la vista

Modelo para reconocimiento de voz por comparación de patrones

Page 99: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Periodo fundamental (Pitch)• Formantes• Coeficientes LPC• Coeficientes Cepstrales en la Escala

de Frecuencias Mel (Mel Frequency Cepstral Coefficient – MFCC)

Parámetros característicos considerados en este trabajo

Modelo para reconocimiento de voz por comparación de patrones

Page 100: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Coeficiente de Coeficiente de correlación usado como correlación usado como criterio de evaluacióncriterio de evaluación

n

i

n

iii

n

iii

yyxx

yyxxr

1 1

2

1

Modelo para reconocimiento de voz por comparación de patrones

Page 101: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Consideraciones previas– Cantidad de sílabas– Consonantes con igual sonido– Base de datos

• Metodología planteada– Segmentación consonante/vocal de una sílaba– Comparación de vocales– Comparación de Consonantes

Metodología a nivel de sílabas a nivel de fonemas

Modelo para reconocimiento de voz por comparación de patrones

Page 102: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Segmentación Segmentación consonante/vocalconsonante/vocal

de una sílabade una sílaba

Modelo para reconocimiento de voz por comparación de patrones

Page 103: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Formantes• Coeficientes LPC• MFCC

• Coeficientes LPC• MFCC

Obtención de Parámetros

Modelo para reconocimiento de voz por comparación de patrones

Page 104: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Implementación Implementación computacional: Interfaz computacional: Interfaz gráficagráfica

Modelo para reconocimiento de voz por comparación de patrones

Page 105: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

• Se reproducen videos de una persona pronunciando la sílaba en entrenamiento.

Características Multimediales

Modelo para reconocimiento de voz por comparación de patrones

Page 106: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Modelo para el reconocimiento de Modelo para el reconocimiento de patrones voz mediante el empleo de patrones voz mediante el empleo de wavelets, predicción lineal y redes wavelets, predicción lineal y redes

backpropagationbackpropagation

San Juan, Jamett, Kaschel, Watkins, Sanchez, Leiva “Uso de wavelets, predicción lineal y redes backpropagation para el reconocimiento de patrones de voz “, Universidad de Santiago de Chile, (próximo a someterse a evaluación)

Page 107: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Desarrollo de un software de análisis de sílabas y de fonemas orientado al apoyo del aprendizaje del lenguaje hablado para personas con problemas auditivos. Mediante integración de los siguientes métodos aplicados para el reconocimiento de voz restringidos a sílabas y fonemas: -Transformada de Wavelet-Coeficientes LPC -Redes Neuronales

Objetivo de la investigación Objetivo de la investigación

Modelo para el reconocimiento de Modelo para el reconocimiento de patrones de voz mediante el empleo de patrones de voz mediante el empleo de

wavelets, predicción lineal y redes wavelets, predicción lineal y redes backpropagationbackpropagation

Page 108: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

4350 ejemplos

870 ejemplos x vocalNe=Neuronas entrada

Nco=Neuronas Capa OcultaNs=Neuronas Capa Salida

12 de 13 coeficientes LPC

950Ejemplos

190 ej.x vocal

Wavelet daubechies 6 de 3 niveles

+ + +a3 d2 d1S=

LPC: La voz puede modelarse como una combinación de p muestras anteriores más una señal de error.

4350

5)15(5)180(10

)1()1(10

ejemplosdeNúmero

NtpejemplosdeNúmero

NsNcoNcoNeNtpejemplosdeNúmero

Detalle d3:

2700 ejemplos

540’ ejemplos por vocal

6 de 7 coeficientes LPC

650Ejemplos

140 ej.x vocal.

Red Neuronal + Wavelet +LPC

Vocal “a”:

d3

LPC

Page 109: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Modelo desarrollado

Modelo para el reconocimiento de Modelo para el reconocimiento de patrones de voz mediante el empleo de patrones de voz mediante el empleo de

wavelets, predicción lineal y redes wavelets, predicción lineal y redes backpropagationbackpropagation

Page 110: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Red de sílabas ya/lla/te/pi/bu/vu “RED1”

 

Aciertos en total por cada sílaba en 36

muestras (ideal 100%)

Promedio resultados 36 muestras x sílaba

(ideal 1).ya te pi bu ya te pi bu

ya23 9 3 2

0,57 0,37 0,13 0,0864% 25% 8% 6%

te8 27 1 0

0,24 0,63 0,08 0,0322% 75% 3% 0%

pi2 0 25 6

0,17 0,05 0,58 0,336% 0% 69% 17%

bu3 0 7 28

0,14 0,04 0,29 0,618% 0% 19% 78%

total 36 36 36 36 -- -- -- --Promedi

o72%

de asertivo 0,60

(60% de similitud)

•Cantidad de ejemplos para las pruebas (20% )

Resultados de Resultados de pruebaspruebas

Modelo para el reconocimiento de Modelo para el reconocimiento de patrones de voz mediante el empleo de patrones de voz mediante el empleo de

wavelets, predicción lineal y redes wavelets, predicción lineal y redes backpropagationbackpropagation

Page 111: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

Software de ayuda a discapacitados auditivos.

Page 112: Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión

MUCHAS GRACIAS