introducción a las tecnologías del hablahabla.dc.uba.ar/gravano/ith-2014/01-intro.pdf · r e c u...

Introducción a lasTecnologías del Habla

Profesor: Agustín Gravano

2o cuatrimestre 2014

Departamento de Computación – FCEyN – UBA

2

Objetivo: Construir sistemas informáticos capaces de manipular efectivamente el lenguaje oral.

Procesamiento del Habla

3

Objetivos de la Materia

Estudiar las bases necesarias para construir sistemas muy simples de procesamiento del habla. Reconocimiento automático. Síntesis del habla. Detectores de características del hablante.

Presentar superficialmente diversos temas avanzados de procesamiento del habla.

4

Habla → Secuencia de palabras¿Qué es el habla?

Onda

Espectrograma

frec

uenc

iaReconocimiento Automático

5

s a m a ap o n t

Reconocimiento Automático

6


7

Pre-procesamiento de la entrada: Filtro de ruidos. Segmentación en hablantes.

Post-procesamiento de la salida: Puntuación, mayúsculas, formato de números.

setenta y siete → 77; siglo dieciséis → siglo XVI

Comprensión del lenguaje natural: “Quiero un pasaje de Rosario a Mendoza para el veinte

de noviembre a las seis de la tarde.” de:Rosario a:Mendoza fecha:20/11/09 hora:18:00


8

Secuencia de palabras → HablaHora oficial: 113 [113.wav]

cero horas cero minutos cero segundos una hora un minuto diez segundos dos horas dos minutos veinte segundos ... ... ... veintitrés horas cincuenta y nueve

minutos cincuenta segundos

24 x 60 x 6 = 8640

Síntesis del Habla

9

Dífonos

s a p o

sa ap po o--s

Síntesis del Habla

10

Base de datos de dífonos. Parámetros acústicos de cada dífono.

Ejemplo de síntesis hola mundo → -o ol la am mu un nd do o-

Secuencia que minimiza penalidades.

-o

-o

ol

ol

ol

la

la

la

la

am mu un

un

un

nd

nd

nd

nd

do

do

do

o-

o-

o-

o-

am

Síntesis del Habla

11

Demos AT&T: http://www.research.att.com/~ttsweb/tts Nuance: http://www.nuance.com/.../tts-demo/spanish/ Cepstral: http://www.cepstral.com/en/demos

Ejemplo: (AT&T) [caballo.wav]

TP1 (de años anteriores) [tp1-*.wav]

Síntesis del Habla

http://www.research.att.com/~ttsweb/tts

http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/loquendo-small-business-bundle/tts-demo/spanish/index.htm

http://www.cepstral.com/en/demos

12

Síntesis articulatoria. Simulación del tracto vocal y de

los procesos articulatorios.

Síntesis por formantes.

Síntesis basada en HMMs. [uba_secyt-hsmm*.wav]

Síntesis del HablaOtros enfoques

13

Pre-procesamiento de la entrada: Normalización

110 → ciento diez / uno uno cero DGI → de ge i; AFIP → afip

Palabras fuera de vocabulario; extranjeras. Monroe, Wilde.

Generación de lenguaje natural: Rosario-Mendoza 2014/11/29 18:00, ASIENTOS=[].

“No quedan pasajes de Rosario a Mendoza para el veinte de noviembre a las dieciocho horas.”

Síntesis del Habla

14

Reconocimiento, comprensión, generación, síntesis.

Demo: Sistema de diálogo Let’s Go! (Carnegie Mellon Univ.)http://www.speech.cs.cmu.edu/letsgo/ [letsgo.wav]

S: Thank you for calling the CMU Let's Go! Bus Information System. […] What can I do for you?

U: I would like to go to the airport tomorrow morning.S: To the airport. When do you want to arrive?U: I'd like to arrive at 10:30.S: Arriving at around 10:30 AM. Where do you want to leave from?U: I'd like to leave from Carnegie Mellon.S: From Carnegie Mellon. There is a 28X leaving Forbes Avenue […]

Sistemas de Diálogo

15

Tono de voz. Frecuencia fundamental (f0). Medido en Hertz (Hz).

Intensidad. Volumen, energía, amplitud de onda. Medida en decibeles (dB).

Velocidad. Palabras/seg, sílabas/seg, fonemas/seg.

Calidad de la voz. Susurro, voz tensa, voz rasposa, etc.

Prosodia del Habla

16

Mucha información más allá de las palabras.

¿Cómo varía la prosodia? Afirmación vs. pregunta vs. exclamación.

“hace frío [. ? ! ]” Énfasis, contraste.

“no dije Corea del Sur, dije Corea del Norte” Estructuración del discurso.

“por otra parte…”.

Prosodia del Habla

17

Importante para:

- Que habla sintetizada suene “natural”.

- Desambiguar output de reconocimiento: “no renuncié por el sueldo” “vamos al cine o al teatro” “cuando”

Prosodia del Habla

18


Reconocimiento automático.Síntesis del habla.Sistemas de diálogo hablado.Traducción automática.Identificación del hablante.Interfaces de usuario (PC, auto, celular).Indexación de bases de datos de audio (YouTube).Detección y generación de emociones.

19


Interfaces para personas con capacidades especiales. Stephen Hawking

Manipulación de voces (cambio de identidad). vocalid.org - TED Talk de Rupal Patel

Procesamiento automático de la música. Hatsune Miku

“Habla” de animales (delfines, ballenas, pájaros). Laboratorio de Sistemas Dinámicos (DF)

Adquisición del lenguaje.…

http://www.hawking.org.uk/the-computer.html

http://vocalid.org/

http://on.ted.com/d0MNC

https://www.youtube.com/watch?v=FoTd918zhZc

http://www.lsd.df.uba.ar/

20

Temas del programa Acústica, fonética y prosodia. Procesamiento digital de señales. Modelización acústica, lingüística y prosódica del habla. Sistemas de texto-a-habla (TTS). Sistemas de reconocimiento automático del habla (ASR). Sistemas de diálogo hablado. Evaluación de sistemas de procesamiento del habla. Temas avanzados:

reconocimiento de información del hablante (id, edad, sexo); TP2: Reconocimiento automático del sexo del hablante.

procesamiento del habla afectiva (emociones, mentiras); reconocimiento del idioma o dialecto; traducción automática y generación automática de resúmenes; y otros.

21

Varios Horario de cursada: miércoles 13-17h, labo Turing.

Puntaje para Computación: 3 puntos para Lic y Doc.

Correlativas: Algoritmos y Estructuras de Datos 1; Probabilidad y Estadística (o similares).

Modo de evaluación:

2 parciales. 2 trabajos prácticos en grupos de 2. La materia se aprueba si se aprueba cada una de las

instancias de evaluación (P1, P2, TP1 y TP2). La materia se promociona si (P1+P2+TP1+TP2)/4 ≥ 8.

Mails: gravano@dc ; ith-alu@dc http://habla.dc.uba.ar/gravano/ith/

http://habla.dc.uba.ar/gravano/ith/

22

Bibliografía

Jurafsky & Martin, “Speech and Language Processing”, (2nd ed.). Prentice Hall. 2009. En Biblioteca Central.

Johnson, “Acoustic & Auditory Phonetics”,(2nd ed.). Blackwell. 2003. En Biblioteca Central.

Benesty, Mohan Sondhi & Huang (Eds.), “Springer Handbook of Speech Processing”. Springer-Verlag, 2008. Versión electrónica disponible desde de la red de la UBA (ver web de la materia)

23

Prerrequisitos

Linux manejo de archivos (ls, cd, pwd, cp, mv, rm, mkdir,

rmdir, ...); permisos (chmod, chown, chgrp); procesamiento de archivos de texto (cat, grep, less, sed, awk, cut); man.

http://www.linux.org/forums/beginner-tutorials.53/

Python 2.7.x expresiones, variables, funciones, listas, listas por

comprensión, estructuras de control (if, for, while), iteradores, lectura/escritura de archivos, cómo importar módulos.

https://docs.python.org/2/tutorial/



24

Para hacer ahora...

1) Buscar el nombre de usuario (“ithNN”) en la planilla. Es para usar en Linux, no en Windows.

2) Recordar el nombre de usuario!!!

3)Ingresar y cambiar el password AHORA. Ingresar con usuario y contraseña (ver el pizarrón). Abrir una Terminal. Ingresar “passwd”, ENTER. Seguir las instrucciones.

4)(opcional) Tutorial Linux. http://www.linux.org/forums/beginner-tutorials.53/

5)(opcional) Tutorial Python. https://docs.python.org/2/tutorial/



introducción a las tecnologías del hablahabla.dc.uba.ar/gravano/ith-2014/01-intro.pdf · r e c u...

Documents