materiales en la webliceu.uab.cat/~joaquim/phonetics/oviedo_03/tecnolhabla.pdf · canal visual...

30
1 Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica Departament de Filologia Espanyola, Universitat Autònoma de Barcelona El an El análisis del plano de la expresi lisis del plano de la expresión LXIII Cursos de Verano Extensi LXIII Cursos de Verano Extensión Universitaria 2003 n Universitaria 2003 Universidad de Oviedo, 17 de julio de 2003 Universidad de Oviedo, 17 de julio de 2003 Fonética y tecnologías del habla Joaquim Llisterri Departament de Filologia Espanyola, Universitat Autònoma de Barcelona [email protected] liceu.uab.es/~joaquim Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica Departament de Filologia Espanyola, Universitat Autònoma de Barcelona El an El análisis del plano de la expresi lisis del plano de la expresión LXIII Cursos de Verano Extensi LXIII Cursos de Verano Extensión Universitaria 2003 n Universitaria 2003 Universidad de Oviedo, 17 de julio de 2003 Universidad de Oviedo, 17 de julio de 2003 Materiales en la web http//liceu.uab.es/ ~joaquim/teaching/ Phonetics/Oviedo_03/ Oviedo_03.html

Upload: others

Post on 09-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

1

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El anEl anáálisis del plano de la expresilisis del plano de la expresióónnLXIII Cursos de Verano ExtensiLXIII Cursos de Verano Extensióón Universitaria 2003n Universitaria 2003

Universidad de Oviedo, 17 de julio de 2003Universidad de Oviedo, 17 de julio de 2003

Fonética y tecnologías del hablaJoaquim Llisterri

Departament de Filologia Espanyola,

Universitat Autònoma de Barcelona

[email protected]

liceu.uab.es/~joaquim

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El anEl anáálisis del plano de la expresilisis del plano de la expresióónnLXIII Cursos de Verano ExtensiLXIII Cursos de Verano Extensióón Universitaria 2003n Universitaria 2003

Universidad de Oviedo, 17 de julio de 2003Universidad de Oviedo, 17 de julio de 2003

Materiales en la webhttp//liceu.uab.es/~joaquim/teaching/Phonetics/Oviedo_03/

Oviedo_03.html

Page 2: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

2

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Fonética y tecnologías del habla

�Las tecnologías del habla�La conversión de texto en

habla�El reconocimiento del habla�Los sistemas de diálogo

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Fonética y tecnologías del habla

�Las tecnologías del habla�La conversión de texto en

habla�El reconocimiento del habla�Los sistemas de diálogo

Page 3: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

3

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La interacción con los ordenadores

• Pantalla• Teclado• Ratón• Lápiz• Tacto

Canal visualLengua escrita

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La interacción humana

• Hace unos 5.000 años queescribimos

… pero hace unos 100.000 añosque hablamos (250.000 -50.000 años según los autores)

Page 4: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

4

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Las nuevas necesidades

• Desarrollo de la Sociedad dela Información “para todos”

• Automatización de serviciostelefónicos: información,transacciones…

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

¿Qué quisiéramos tener?

Un ordenador que…� Habla

� Reconoce

� El habla

� El usuario

� Entiende

�Ayuda alusuario�Traduce�La lengua

escrita�La lengua

oral

Page 5: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

5

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

LingWear - Interactive System Labshttp://www.is.cs.cmu.edu/LingWear/movie.html

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

¿Qué tecnologías necesitamos?

Un ordenador que…

� Habla SSííntesis (CTH)ntesis (CTH)� Reconoce� El habla ReconocimientoReconocimiento� El usuario IdentificaciIdentificacióónn

� “Entiende” Comprensión

Page 6: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

6

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

¿Qué tecnologías necesitamos?

Un ordenador que…

� Ayuda Sistema de diSistema de diáálogologo

� Traduce El escrito TA� El habla TA oralTA oral

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Fonética y tecnologías del habla

�Las tecnologías del habla�La conversión de texto en

habla�El reconocimiento del habla�Los sistemas de diálogo

Page 7: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

7

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La conversión de texto en habla

Del texto… …al habla GTP-UPC

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Esquema general de unconversor de texto en habla

Pre-procesado y normalización

Análisis lingüístico Transcripción fonética

Asignación de prosodia Selección de unidades

Conversión en parámetros acústicos

Page 8: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

8

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Un ejemplo en español

CASTEJÓN LAPEYRA, F.- ESCALADASARDINA, G.- MONZÓN SERRANO, L.-RODRÍGUEZ CRESPO, M.A.- SANZVELASCO, P. (1994) "Un conversor texto-vozpara el español", Comunicaciones de TelefónicaI+D, 5, 2: 114-131.http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic8/8.html

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo normalizador Telefónica I+D (Castejón et al., 1994)

Texto: El Sr. JosTexto: El Sr. Joséé Luis L Luis Lóópez tiene 201 vipez tiene 201 viññas.as.

NORMALIZADORNORMALIZADOR

Frase normalizada: el Sr. josFrase normalizada: el Sr. jos éé luis l luis lóópez tiene 201pez tiene 201viviññas.as.

Formato: mm abr Mm Mm Mm mm mm mm sig

Códigos: mm: palabra en minúscula, Mm: palabra coninicial mayúscula, abr: abreviatura, sig: signoortográfico

Page 9: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

9

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo de preproceso Telefónica I+D (Castejón et al., 1994)

Frase normalizada: el Sr. josé luis lópez tiene 201viñas.

Formato: mm abr Mm Mm Mm mm mm mm sig

PREPROCESOPREPROCESO

Palabras: el se#or josPalabras: el se#or jos ’’e luis le luis l’’opez tiene doscientas unaopez tiene doscientas unavi#as.vi#as.

Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez tio. pez ti’’e.ne dos.e.ne dos.cici’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)

Palab_silab: el se. #or jo. s’e luis l’o. pezti’e.ne dos. ci’en. tas ‘u. na v’i. #as.

CONVERSOR GRAFEMA-ALCONVERSOR GRAFEMA-ALÓÓFONOFONOAlAlóófonos: el se. N~or xo. sfonos: el se. N~or xo. s’’e luis le luis l’’o. peTo. peT

[sil] tj[sil] tj’’e.ne Dos. Tje.ne Dos. Tj’’en. tas en. tas ‘‘u. na Bu. na B’’i. N~asi. N~as[sil][sil]

Page 10: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

10

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo categorizador Telefónica I+D (Castejón et al., 1994)

Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.

Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos.ci’en. tas ‘u. na v’i. #as.

CATEGORIZADORCATEGORIZADOR

CategorCategoríías: ART N NP NP NP V NUM NUM N SIGas: ART N NP NP NP V NUM NUM N SIG

Códigos: ART: artículo, N: nombre, NP: nombre propio,V: verbo, NUM: número, SIG: signo ortográfico

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo de análisis sintáctico Telefónica I+D (Castejón et al., 1994)

Palabras: el se#or jos’e luis l’opez tienedoscientas una vi#as.

Categorías: ART N NP NP NP V NUMNUM N SIG

ESTRUCTURADORESTRUCTURADOR

ÁÁrbol sintrbol sintáácticoctico

Page 11: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

11

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La contribución de las pausas

• Texto sintetizado con pausas

• Texto sintetizado sin pausas

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo pausador Telefónica I+D (Castejón et al., 1994)

Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.

Categorías: ART N NP NP NP V NUM NUM N SIG

PAUSADORPAUSADOR

Palabras: el se#or josPalabras: el se#or jos ’’e luis le luis l’’opez [pau_v] tiene doscientasopez [pau_v] tiene doscientasuna vi#as.una vi#as.

Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez [pau_v] tio. pez [pau_v] ti’’e.nee.nedos. cidos. ci’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.

Códigos: [pau_v]: pausa insertada ante el verbo

Page 12: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

12

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

La contribución de la curva melódica

• Texto sintetizado con variaciones deF0

• Texto sintetizado sin variación de F0

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulo de generación de parámetros prosódicos Telefónica I+D (Castejón et al., 1994)

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]

Categorías: ART N NP NP NP V NUM NUM N SIG

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas

PROSOPROSO

Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60

EntonaciEntonacióón (Hz):n (Hz):

Page 13: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

13

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de conversión en parámetros acústicos para laconversión de texto a habla

Telefónica I+D (Castejón et al., 1994)

Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]

Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60

Entonación (Hz):

PARLAPARLA SelecciSeleccióón de unidades de sn de unidades de sííntesis en elntesis en elinventarioinventario

GeneraciGeneracióón de tramas de sn de tramas de sííntesisntesis

SSÍÍNTESISNTESIS ConversiConversióón en una onda sonora mediante eln en una onda sonora mediante elsintetizadorsintetizador

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Telefónica I+D, Madrid

• Sistema de síntesis por concatenación desubalófonos, difonemas, trifonemas ytetrafonemas codificados mediante LPCmultipulso (MPLPC), basado en tecnologíadesarrollada en AT&T Bell Laboratories

• Primera versión en 1991 Rodríguez et al. (1993)v. 2.6 voz masculina y femenina

Page 14: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

14

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Telefónica I+D, Madrid

• Sistema de conversión de texto en hablabasado en corpus

Voz femenina, castellano (marzo de 2003)Voz femenina, catalán(marzo de 2003)

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Actor 5, Loquendohttp://actor.loquendo.com/actordemo/default.asp

Es, m, f

EsCh, f

EsMx, f

EsAr, m

Cat, f

Page 15: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

15

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Fonética y tecnologías del habla

�Las tecnologías del habla�La conversión de texto en

habla�El reconocimiento del habla�Los sistemas de diálogo

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El reconocimiento del habla

Del habla … … al texto

Page 16: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

16

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Representación simbólica de unaseñal vocal

�Tipo de enunciados�Número de locutores�Tamaño del vocabulario�Entorno

El reconocimiento del habla

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Etapas en el reconocimiento

ADQUISICIÓN DE DATOS

EXTRACCIÓN DECARACTERÍSTICAS

CREACIÓN DE PLANTILLAS DEREFERENCIA

PROCEDIMIENTO DEDECISIÓN

Page 17: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

17

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Reconocimiento de palabras aisladas

DIGITALIZACION DE LA SEÑAL DETECCIÓN DE PRINCIPIO Y FINAL DE PALABRA

CODIFICACIÓN EN FORMA DE PLANTILLADICCIONARIO

DE PLANTILLASDE REFERENCIA

COMPARACICOMPARACIÓÓNN

MEDIDA DE LA DISTANCIA ENTELA PLANTILLA DE REFERENCIAY LA PLANTILLA DE ENTRADA

DECISIÓN SOBRE ELRECONOCIMIENTO

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de reconocimiento de habla continua

voz texto

ENTRENAMIENTO algoritmo de entrenamiento

base de datos de modelos fonéticos

diccionariofonético

COMPILACIÓN DE

MODELOS LÉXICOSgenerador de

modelos léxicos

base de datos de modelos léxicos

RECONOCIMIENTO

algoritmo de reconocimiento

gramática

procesadoracústico

hablasecuencia de

unidades

Mariño (1993)

Page 18: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

18

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

elocución significado

Hz

Mariño, 1999

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

Fonema k-1 Fonema k Fonema k+1

Modelo de Markov

Mariño, 1999

Page 19: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

19

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

Pr{la puerta no estaba abierta} = Pr{la}Pr{puerta/la} Pr{no/la puerta}Pr{estaba/la puerta no} Pr{abierta/lapuerta no estaba} = Pr{la} Pr{puerta/la}Pr{no/la puerta} Pr{estaba/puerta no}Pr{abierta/no estaba}

Bigrama

Mariño, 1999

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Procesadoracústico

Algoritmode reconocimiento

Algoritmode comprensión

Reglasfonológicas

Modelosfonéticos

Diccionarioy gramática

Modelode la tarea

elocución significado

textovozBASE DE DATOS

Modeladofonético

Procesadoracústico

Modeladode lenguaje

ENTRENA-MIENTO

Mariño, 1999

Page 20: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

20

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Fonética y tecnologías del habla

�Las tecnologías del habla�La conversión de texto en

habla�El reconocimiento del habla�Los sistemas de diálogo

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Objetivos de un sistema de diálogo

SLS, Spoken Language System

• Establecimiento decomunicación “natural” einteractiva entre una personay un sistema informático

Page 21: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

21

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogo

Un sistema de diálogo es un conjunto deconjunto demmóódulosdulos� Reconocimiento de habla� Analizador� Base de datos� Generador de unidades lingüísticas� Conversión de texto en habla

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogo

Comprensión del contenido� Comprensión del lenguaje natural (NLU)Eh, pues mire, quería saber a qué horasale la… el último tren, eh… haciaBarcelona, desde Madrid, el sábado

PETICIÓN, DESTINO=“Barcelona”, ORIGEN=“Madrid”, FECHA:DÍA=“28”, HORA=“Último”

Page 22: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

22

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogo

Control del diálogo�coherencia entre la pregunta del

usuario y el sistema�resolución de anáforas y elipsis�predicción de las reacciones del

usuario�...

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Módulos de un sistema de diálogo

Creación de respuestas� Generación de lenguaje natural (NLG)

PETICIÓN, DESTINO=“Barcelona”,ORIGEN=“Madrid”, Fecha:DÍA=“28”, HORA=“Último”

El último tren sale a las 11y 53 minutos de la noche

Page 23: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

23

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Modelo de la tarea

• Especificación del objetivo de la tarea yde sus características específicas� Obtención de información� Transacciones� Negociación

• Discriminación de sub-diálogos nopertenecienes a la tarea

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño a partir de la intuición

• Determinación por parte del investigadorde todas las posibles respuestas a unapregunta

• Problemas� Variabilidad de las respuestas� Limitación de la clase de estructuras

lingüísticas utilizadas por el usuario

Page 24: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

24

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño a partir de la intuición

• Utilizado en determinadas condiciones� Estructuración clara de la tarea� Introducción de frases determinadas

previamente por parte del sistema� Las preguntas del sistema presuponen

una determinada respuesta por partedel usuario

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño a partir de la observación de diálogosnaturales entre hablantes humanos

� Ayuda a la definición devocabularios y modelos lingüísticospropios de una tarea específica

� Diferencias entre la interacciónhumana natural y la interacciónpersona-máquina

Page 25: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

25

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Diseño por simulaciónde la interacción persona-máquina

• Protocolo del Mago de Oz(Wizard of Oz)� Simulación de la interacción

en la que el papel de lamáquina lo realiza un humanosin que lo sepa el interlocutor

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Acceso al ordenador mediante el teléfono

• Portales de voz

Page 26: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

26

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de voz

Grabación previa

Selección por voz

Informaciónsolicitada

RestaurantesRestaurantes

Restaurantes de Ávila

Restaurantes de Ávila

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de voz

Restaurantesde _________

ÁvilaMadrid

SalamancaCuenca…

Page 27: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

27

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de voz

Sistema automático

Selección por voz

Informaciónsolicitada

Farmacias de guardia

Farmacias de guardia

Existe unafarmacia…

Existe unafarmacia…

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Portal de voz

ochoHe encontrado nueve

diez

Existe una farmacia de guardia

Mensajes pregrabadospara insertar palabras

procedentes de unalista

Conversión de texto escrito en habla

Page 28: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

28

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El papel del lingüistaLa conversión de texto en habla

• Tratamiento previo del texto• Análisis lingüístico del texto• Transcripción fonética automática• Diccionarios de unidades de síntesis• Modelos prosódicos• Evaluación de sistemas

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El papel del lingüistaEl reconocimiento del habla

• Selección de locutores para elentrenamiento del sistema

• Segmentación y transcripción delcorpus de entrenamiento

• Diccionarios de pronunciación

Page 29: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

29

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El papel del lingüistaLos sistemas de diálogo

• Estudio de corpus de interacciones naturalesentre personas

• Estudio de corpus de interacciones ficticiasentre personas y sistemas informáticos

• Diseño de estrategias de diálogo

• Adecuación pragmática del diálogo

• Corrección lingüística del sistema

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El papel del lingüista

• Conocimiento de la interacción oralhumana

• Conocimiento de los mecanismos dede producción y percepción delhabla

• Conocimiento del sistema lingüístico

Page 30: Materiales en la webliceu.uab.cat/~joaquim/phonetics/Oviedo_03/TecnolHabla.pdf · Canal visual Lengua escrita Joaquim Llisterri Grup de Fonètica, Seminari de Filologia i Informàtica

30

Joaquim LlisterriGrup de Fonètica, Seminari de Filologia i Informàtica

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

El anEl anáálisis del plano de la expresilisis del plano de la expresióónnLXIII Cursos de Verano ExtensiLXIII Cursos de Verano Extensióón Universitaria 2003n Universitaria 2003

Universidad de Oviedo, 17 de julio de 2003Universidad de Oviedo, 17 de julio de 2003

Materiales en la webhttp//liceu.uab.es/~joaquim/teaching/Phonetics/Oviedo_03/

Oviedo_03.html

¡¡MuchasMuchasgracias!gracias!