utilización de trifonemas como modelo acústico para el reconocimiento del habla

28
Introducción - Objetivos y alcance Arquitectura del sistema Fases del reconocimiento del habla Objetivos del proyecto Planificación Módulos del sistema Conclusiones Utilización de trifonemas como modelo acústico para el reconocimiento del habla Proyecto informático Daniel Garrido Garrochena Escuela Técnica Superior de Ingeniería Informática Junio 2009 Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Upload: daniel-garrido

Post on 04-Jul-2015

731 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Utilización de trifonemas como modelo acústicopara el reconocimiento del habla

Proyecto informático

Daniel Garrido Garrochena

Escuela Técnica Superior de Ingeniería Informática

Junio 2009

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 2: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Sumario

Introducción - Objetivos y alcance.Arquitectura del sistema.Fases del reconocimiento del habla.Objetivos del proyecto.Planificación.Módulos del sistema.Conclusiones.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 3: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Introducción - Objetivos y alcance

Desarrollo de un sistema reconocedor de voz (a nivel local).Entrenamiento del sistema con trifonemas.Ampliación del sistema, agregando la posibilidad de reconocera través del protocolo TCP/IP.Permitir que múltiples usuarios puedan emplear el mismosistema reconocedor, con las consiguientes ventajas que elloconlleva.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 4: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Sistema reconocedor de vozReconocimiento de voz sobre TCP/IP

Sistema reconocedor de voz

Reconocimiento de voz: proceso de convertir señales acústicascapturadas por, por ejemplo un micrófono, en texto.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 5: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Sistema reconocedor de vozReconocimiento de voz sobre TCP/IP

Reconocimiento de voz sobre TCP/IP

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 6: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas

Adquisición

Sistema desde el cual se adquieren los datos de entrada alsistema reconocedor, la señal de voz.Por lo general, estos datos son adquiridos desde un micrófono.En este sistema serán adquiridos a través de sockets. Lafuente de generación podría ser un micrófono en otro equipo,un fichero de audio, . . .

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 7: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas

Extracción de características

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 8: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas

Reconocimiento / clasificación probabilística

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 9: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas

Reconocimiento mediante fonemas

Sonidos distinguibles.34 para el español.Representan secuencias de senones. Modelado con cadenasocultas de Markov.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 10: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas

Reconocimiento mediante trifonemas

343 = 39304 trifonemas para el español.En la práctica, alrededor de 5000.Es capaz de diferenciar los sonidos según su contexto.Muy práctico para reconocimiento continuo del habla.Aumento de la tasa de aciertos.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 11: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas

Reconocimiento mediante trifonemas

¿Cómo se modelan el resto de trifonemas?

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 12: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

AdquisiciónExtracción de característicasReconocimiento / clasificación probabilísticaReconocimiento mediante fonemasReconocimiento mediante trifonemas

Reconocimiento mediante trifonemas

¿Cómo se modelan el resto de trifonemas?

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 13: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Objetivos del proyecto

Construir un sistema reconocedor de voz.

Entrenamiento.Reconocimiento.

Tecnologías inexploradas y en auge.Objetivos de carácter:

Técnicos.Personales.Metodológicos.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 14: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Planificación

Concepto Estimado Real REBúsqueda dedocumentación

8 días 6 días -33.33%

Planificación 8 días 9 días 11.11%Adquirir conocimientossobre sistemasreconocedores del habla

40 días 43 días 6.97%

Elicitación de requisitos 10 días 11 días 9.09%Análisis 20 días 19 días -5.26%Diseño 30 días 28 días -7.14%Implementación 60 días 64 días 6.25%

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 15: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Planificación

Concepto Estimado Real REDocumentación 18 días 22 días 18.18%Presentación 2 días 2 días 0%TOTAL 196 días 204 días 0.65%

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 16: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Módulos del sistema

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 17: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Adquisición de datos

Adaptable a diferentes formas/dispositivos de adquisición.Observador y fábrica simple.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 18: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Extracción de características

Patrones de diseño observador y decorador.Encargado de:

Preénfasis.Hamming.MFCC.. . .

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 19: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Extracción de características

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 20: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Modelos ocultos de Markov

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 21: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Entrenamiento

Algoritmo Baum-Welch.Cálculos de avance-retroceso.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 22: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Reconocimiento

Algoritmo de Viterbi.Estructura estática: palabras.Estructura dinámica: proceso del algoritmo.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 23: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Gestor de bases de datos orales

Albayzin.Posibilidad de gestionar otras bases de datos orales.Fábrica abstracta.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 24: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Gestión de la configuración y log

Acceso a los parámetros de configuración.Registro de errores, avisos, . . .

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 25: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Adquisición de datosExtracción de característicasModelos ocultos de MarkovEntrenamientoReconocimientoGestor de bases de datos oralesGestión de la configuración y logComunicaciones

Comunicaciones

Realizan las comunicaciones cliente-servidor/servidor-cliente.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 26: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Posibles mejoras¡Gracias!

Conclusiones

Campo de conocimiento muy amplio y numerosas variantes.

Redes neuronales.Otro modelo acústico.

Motivación personal satisfecha: adquisición de nuevosconocimientos.Objetivos técnicos y metodológicos cumplidos en mayor omenor medida.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 27: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Posibles mejoras¡Gracias!

Posibles mejoras

Implementación para otras plataformas.Inmunidad al ruido de ambiente.Prosodia: expresar emociones.Questions revisadas por especialistas.

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla

Page 28: Utilización de trifonemas como modelo acústico para el reconocimiento del habla

Introducción - Objetivos y alcanceArquitectura del sistema

Fases del reconocimiento del hablaObjetivos del proyecto

PlanificaciónMódulos del sistema

Conclusiones

Posibles mejoras¡Gracias!

¡Gracias!

Daniel Garrido Garrochena Utilización de trifonemas en el reconocimiento del habla