acústica, fonética y fonología
TRANSCRIPT
Introducción al Procesamiento del Habla
Prof. Agustín GravanoDepartamento de Computación, FCEyN
Universidad de Buenos Aires
Escuela de Verano RIO 2016Departamento de Computación, FCEFQyN
Universidad Nacional de Río Cuarto
Procesamiento del Habla
● Objetivo de la disciplina: – Construir sistemas informáticos capaces de manipular
efectivamente el lenguaje oral.● Subtítulos, traducciones, interfaces, resúmenes, ...
● Objetivos de este curso:– Estudiar las bases necesarias para construir sistemas de:
● Reconocimiento automático.● Síntesis del habla.● Detección automática de características del hablante: id,
lenguaje, género, edad, etc.
● Programa del curso:– Lunes: Acústica, fonética y fonología.
● Sonido, onda, fono, fonema, espectrograma.
– Martes: Reconocimiento del habla. ● Mezclas de gausianas (GMM), Modelos ocultos de Markov (HMM).
– Miércoles: Síntesis del habla.● Síntesis concatenativa, HMM, articulatoria y de formantes.
– Jueves: Usando el reconocimiento y la síntesis del habla.● Pre- y pos-procesamiento en ASR y TTS. Sistemas de diálogo hablado.
– Viernes: Detección de características del hablante.● Aprendizaje Automático. Detección de id, lenguaje, género, edad, etc.
Procesamiento del Habla
Bibliografía● Jurafsky & Martin, “Speech and Language Processing”, 2nd
ed., Prentice Hall. 2009.● Johnson, “Acoustic and Auditory Phonetics”, 2nd ed.,
Blackwell. 2003.● Benesty, Mohan Sondhi & Huang (Eds.), “Springer
Handbook of Speech Processing”. Springer-Verlag, 2008.
Acústica¿Qué es el sonido?
Sonido
● Fluctuaciones de presión en el aire causadas por fuentes como instrumentos musicales, bocinas de autos, voces, etc.
1) Las ondas se propagan por el aire y llegan al oído.2) El sistema auditivo las traduce a impulsos neuronales.3) El cerebro los interpreta como sonido.
Propagación del Sonido: Analogías
Analogía más adecuada:
Sonidos
● Sonidos periódicos
– Ondas periódicas simples
– Ondas periódicas complejas (o compuestas)
● Sonidos aperiódicos
– Ruido blanco, sonido transitorio.
Ondas Periódicas Simples
● Ondas senoidales.● Ciclo: Cada repetición del patrón senoidal.● Período (T): Duración del ciclo.● Frecuencia (f): Cantidad de ciclos por segundo.
– En otras palabras: Cantidad de veces que el patrón senoidal se repite por segundo.
– Se mide en hertz (Hz). – 1 Hz = 1 ciclo por segundo.– f = 1/T
● Ej: T=0.01s, f=100Hz
Ondas Periódicas Simples
● Amplitud: Desviación máxima de fluctuación de la presión por sobre la presión atmosférica normal.
● Fase: Timing de la forma de onda relativo a algún punto de referencia.
Ejercicio en Python:ej1-acustica.py
Ondas Periódicas Complejas
● Ondas periódicas complejas: Ondas cíclicas formadas por múltiples ondas senoidales.– Ej: onda formada por senoidales de 100 y 1000Hz.
Ondas Periódicas Complejas
Ejemplo: onda compleja formada por 4 senoidales
Sonidos Aperiódicos
No tienen un patrón que se repita regularmente.Ejemplos:● Ruido blanco: Fluctuación aleatoria de presión.
– Espectro plano: igual amplitud para todas las frecuencias.– Estática de radio, viento entre los árboles, [s], [f].
● Ondas transitorias: Fluctuaciones súbitas de presión que no se sostienen ni se repiten.– Portazos, disparos, mouse clicks, [p], [t].
Análisis de Fourier
● Cualquier función puede descomponerse en una suma de ondas senoidales.
● Espectro energético:
● Fast Fourier Transform (FFT)– Algoritmo eficiente para computar el espectro de una
señal a partir de un número de muestras.
Frecuencias
Am
plitu
des
Visualizaciones
● Al agregar una dimensión temporal al espectro energético, obtenemos un espectrograma.
tiempo →
Sonidos Aperiódicos
Ruido blanco Onda transitoria
Ejercicio en Python: ej1-acustica.py
Ond
aEs
pect
rogr
a ma
Procesamiento Digital de Señales
● Señal analógica (continua): La línea de tiempo tiene valores de amplitud con precisión infinita en todos los puntos.
● Señal digital (discreta): La línea de tiempo tiene sólo una secuencia de valores de amplitud con precisión finita.
Procesamiento Digital de Señales
● Un micrófono convierte oscilaciones de presión en el aire (sonido) en oscilaciones de voltaje.– Los dispositivos analógicos (discos de vinilo, cassettes) las
guardan como señales continuas.– Los dispositivos digitales (computadoras, CDs) las
convierten y guardan como señales discretas.● Conversión Analógica-Digital (Digitalización)
1) Muestreo: Discretización del tiempo.● Tasa de muestreo. Ej: 8 kHz (teléfono), 44.1 kHz (CD), 16 kHz.
2) Cuantización: Discretización de la amplitud.● Precisión de las muestras. Ej: 16 bits.
● Escuchar bach.wav (44.1kHz, 16bits)– Fragmento de Partita en Sol Mayor de J. S. Bach.
play FILENAME
● Bajar sampling rate a 16, 8, 4 kHz y comparar.sox IN.WAV -r FREQ OUT.WAV
● Subir sampling rate de 4 kHz a 44.1kHz.– ¿Por qué no vuelve a estar en buena calidad?
● Crear espectrogramas de los audios y comparar.sox IN.WAV -n spectrogram -o OUT.PNG
Ejercicios
Acústica – Resumen● Sonidos periódicos y aperiódicos.
– Ondas periódicas simples y complejas.– Ruido blanco; ondas transitorias.– Análisis de Fourier. FFT. Espectrograma.
● Procesamiento digital de señales.– Tasa de muestreo; precisión.
● Herramientas: sox y Python.
Fonética y Fonología
Los sonidos del lenguaje
¿De estas figuras, cuál se llama Buba y cuál Kiki?
Los sonidos del lenguaje
● ¿Quién estudia los sonidos del habla?– Lingüistas (fonólogos), fonoaudiólogos, lexicógrafos,
cantantes, maestros de idiomas.
● ¿Qué preguntas se hacen?– ¿Cuál es el inventario de un idioma X?– ¿Cómo se producen los sonidos?– ¿Qué sonidos comparten dos idiomas X e Y?– ¿Cómo varía la producción de un sonido según el
contexto en que se produce?
Fonética articulatoria
¿Cómo se producen los sonidos del habla?
Clases de sonidos
● Vocales:– Generalmente sonoras, poca restricción o bloqueo del
flujo del aire (ej: [a] [e] [i] [o] [u]).
● Consonantes:– Restricción o bloqueo del flujo del aire (ej: [s]).
– Sonoras vs. sordas (ej: [m] vs. [s])
● Semiconsonantes: [j] labio, [w] agua.
● Semivocales: reino, causa.
Consonantes: Punto de articulación
labial
dental
alveolarpos-alveolar/palatal
velar
uvular
faríngea
laríngea/glotal
● ¿Dónde se restringe el flujo del aire?
Consonantes: Punto de articulación
● Ejemplos en español:– Labial: bilabial [p] [m]; labiodental [f].– Dental: [θ] zorro en español peninsular.– Alveolar: [s], [n], [t], [r].– Palatal: [ɲ] ñato.
– Velar: [ŋ] hongo, [k] casa, [x] juez.– Laríngea: [h] hasta.
Consonantes: Modo de articulación
● ¿Cómo se restringe el flujo del aire?– Oclusiva: Se bloquea el paso del aire y luego se lo libera:
[p] [t] [k] [g].– Nasal: El aire sale por la nariz: [m] [n].– Fricativa: Se fuerza el aire por un canal angosto,
generando una fricción turbulenta: [f] [s].– Africada: Comienza como una oclusiva, pero termina
como una fricativa: [t∫] techo.– Aproximante: Se restringe poco el flujo del aire, sin
bloquear ni producir fricción turbulenta: [l].– Vibrante: Se hace vibrar la lengua: [r].
● ¿Vibran las cuerdas vocales?– Sí: consonante sonora.
● Ejemplos: [m] [n] [b] [d] [l] [r] [g] ...
– No: consonante sorda.● Ejemplos: [f] [s] [p] [t] [k] [x] [∫] [h] ...
Consonantes sordas vs. sonoras
v
Español
bebé be 'βe dedo 'de ðogagá ga ' aɣenfermo e 'fe moɱ ɾhongo 'oŋ oɣlluvia ' u βia / ' u βia / ' u βia / ' u βiaʃ ʒ ʝʝ ʎ
(Link útil: Teclado IPA http://ipa.typeit.org/full/)
Ejemplos de posibles transcripciones fonéticas:
chancho ' an ottʃ ttʃñoqui ' o kiɲzorro 'so ro / 'θo rojaque 'xa kemosca 'moh ka / 'mos kapatio 'pa tjo
Vocales
● Todas son sonoras.● Apertura o altura: ¿cuán alta está la lengua?
– Abierta [a]; medio [e][o]; cerrada [i][u].● Localización: ¿dónde está su parte más alta?
– Anterior [a][e][i]; centro; posterior [o][u].● ¿Cuán redondeados están los labios?
– Redondeados [o][u]; no redondeados [a][e][i].● Secuencias de sonidos vocálicos.
– Simple [e] vs. diptongo [ej] vs. Triptongo [uej].– Hiato: caer, zoológico, período, chiíta.
Vocales: Disposición de la lengua
Vocales
Demo: [formant.exe] http://www.speech.kth.se/wavesurfer/formant/
IPA para el español: Vocales
● sopa vs. desde vs. mosca vs. “es uno”Diferentes formas de pronunciar la “s”.
● Fonos: Sonidos de un idioma. Not.: [∙]● Fonemas: Clases (abstractas) de sonidos que permiten distinguir
palabras de un idioma. Not.: /∙/● Ejemplos en español:
– desde, sopa, mosca: varios fonos [h], [s], [x] para el fonema /s/.– nada, enfermo: fonos [n], [ɱ]; fonema /n/.– gol vs. agua: fonos [g], [ɣ]; fonema /g/.
– [d] y [δ] son alófonos del fonema /d/ (dado).En inglés, /d/ y /δ/ son dos fonemas (dose vs. those).
– /p/ y /b/ son fonemas (peso vs. beso).En chino mandarín, [p] y [b] son alófonos del mismo fonema.
Fonos y fonemas
Fonos en acción
s a m a ap o n t
Fenómenos fonéticos importantes
● Reducción (o hipoarticulación): acortamiento de los sonidos, por ejemplo por hablar rápido.
● Eliminación (consistente) de fonemas: fósforo.● Hiperarticulación: pronunciación muy marcada
(exagerada) de cada sonido.● Co-articulación: Coordinación de movimientos
articulatorios para la realización de un sonido.– Ejemplo: en pa, la lengua adopta la posición articulatoria
de [a] mientras se está articulando [p].● Asimilación: La pronunciación de una sílaba se
acomoda a la de una vecina: hongo, desde.
Herramientas de Análisis: Praat
● http://www.praat.org
● Creado por Paul Boersma y David Weenink, del Instituto de Ciencias Fonéticas de la Universidad de Amsterdam.
● Herramienta de procesamiento del habla con fines generales.
– Edición, segmentación, rotulado, manipulación de prosodia, batch scripting, y más.
● Mucha documentación online. Buscar “tutorial praat”.
Ejercitación para Praat: ejercicios-praat.pdf
Fonética y Fonología – Resumen
● Fonética: Estudia los sonidos del habla.– Representaciones: Ortografía, IPA, ARPABET.– Fonética articulatoria:
● Cómo se producen los sonidos.● Clases de sonidos: según punto y modo de articulación.
● Fonología: Función de los sonidos en el lenguaje.– Fonemas (ej: /s/) vs. fonos (ej: [s] en sopa, [h] en desde).
ejercicios-fonetica-y-fonologia.pdf(Con soluciones.)