acústica del hablahabla.dc.uba.ar/gravano/ith-2014/02-acustica.pdf · repaso clase anterior...

26
Acústica del Habla Introducción a las Tecnologías del Habla 2 o cuatrimestre 2014 – Agustín Gravano

Upload: phamkien

Post on 27-May-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Acústica del Habla

Introducción a las Tecnologías del Habla

2o cuatrimestre 2014 – Agustín Gravano

Repaso clase anterior Procesamiento del Habla

Construir sistemas informáticos capaces de manipular efectivamente el lenguaje oral. Reconocimiento del habla (ASR). Síntesis del habla (TTS). Sistemas de diálogo. Identificación del hablante. Detección de emociones. Interfaces de usuario. …

Clase de hoy: elementos de acústica

Sonido

Fluctuaciones de presión en el aire causadas por fuentes como instrumentos musicales, bocinas de autos, voces, etc.1) Las ondas se propagan por el aire y llegan al oído.2) El sistema auditivo las traduce a impulsos neuronales.3) El cerebro los interpreta como sonido.

Audición y percepción del sonido: capítulos 3 y 4 del Johnson, “Acoustic & Auditory Phonetics”.

Propagación del Sonido: Analogías

No tan buena analogía... Analogía un poco más adecuada.

Sonidos

Sonidos periódicos

Ondas periódicas simples

Ondas periódicas complejas (o compuestas)

Sonidos aperiódicos

Ruido blanco, sonido transitorio.

Sonidos Periódicos

Ondas periódicas simples Ondas senoidales y(t) = A · sen(2 π f t + Φ)

Definidas por: Frecuencia Amplitud Fase

● http://www.indiana.edu/~emusic/acoustics/phase.htm

Ondas Periódicas Simples

Ciclo: Cada repetición del patrón senoidal. Período (T): Duración del ciclo. Frecuencia (f): Cantidad de ciclos por segundo.

En otras palabras: Cantidad de veces que el patrón senoidal se repite por segundo.

Se mide en hertz (Hz). 1 Hz = 1 ciclo por segundo. f = 1/T

Ej: T=0.01s, f=100Hz

Ondas Periódicas Simples

Amplitud: Desviación máxima de fluctuación de la presión por sobre la presión atmosférica normal.

Fase: Timing de la forma de onda relativo a algún punto de referencia.

ej1.py

Ondas Periódicas Complejas

Ondas periódicas complejas: Ondas cíclicas formadas por múltiples ondas senoidales. Ej: onda formada por senoidales de 100 y 1000Hz.

Ondas Periódicas Complejas

Ejemplo: onda compleja formada por 4 senoidales

Sonidos Aperiódicos

No tienen un patrón que se repita regularmente.Ejemplos: Ruido blanco: Fluctuación aleatoria de presión.

Espectro plano: igual amplitud para todas las frecuencias.

Estática de radio, viento entre los árboles, [s], [f]. Ondas transitorias: Fluctuaciones súbitas de

presión que no se sostienen ni se repiten. Portazos, disparos, mouse clicks, [p], [t].

Análisis de Fourier

Cualquier función puede descomponerse en una suma de ondas senoidales.

Espectro energético:

Fast Fourier Transform (FFT) Algoritmos eficientes para computar el espectro de una

señal a partir de un número de muestras.

Frecuencias

Am

plitu

des

Visualizaciones

Al agregar una dimensión temporal al espectro energético, obtenemos un espectrograma.

tiempo →

Sonidos Aperiódicos

Ruido blanco Onda transitoriaej2.py

Procesamiento Digital de Señales

Señal analógica (continua): La línea de tiempo tiene valores de amplitud con precisión infinita en todos los puntos.

Señal digital (discreta): La línea de tiempo tiene sólo una secuencia de valores de amplitud con precisión finita.

Procesamiento Digital de Señales

Un micrófono convierte oscilaciones de presión en el aire (sonido) en oscilaciones de voltaje. Los dispositivos analógicos (discos de vinilo, cassettes)

las guardan como señales continuas. Los dispositivos digitales (computadoras, CDs) las

convierten y guardan como señales discretas. Conversión Analógica-Digital (Digitalización)

1) Muestreo: Discretización del tiempo.2) Cuantización: Discretización de la amplitud.

Conversión Analógica-Digital

Tasa de muestreo (sampling rate) ¿Cada cuánto hay que tomar muestras de la señal? Es necesario tomar al menos 2 muestras por ciclo para

capturar la periodicidad de una onda (Teorema de Nyquist-Shannon).

Conversión Analógica-Digital

Balance entre muestreo y almacenamiento Oído humano: máxima frecuencia ~20kHz 44.1kHz: calidad de CD de audio ¿Pero realmente necesitamos guardar 44k muestras por

segundo si queremos almacenar habla? Teléfono: 300 Hz – 4kHz (muestreo = 8kHz). Algunos sonidos del lenguajes (fonos) tienen frecuencias

mayores a 4kHz: [s], [f]. Un tasa de muestreo de 16kHz suele alcanzar para el

procesamiento del habla.

sox --info IN.WAV Sample Rate : 16000

Conversión Analógica-Digital

Error de muestreo: aliasing. Ocurre cuando la señal contiene frecuencias mayores a

la mitad de la tasa de muestreo (frec. de Nyquist).

Solución #1: Incrementar la tasa de muestreo. Solución #2: Filtrar las frecuencias superiores (filtro anti-

aliasing).

Filtros Acústicos

Bloquean sonidos de ciertas frecuencias. Filtro pasa-bajos (low-pass): Bloquea las componentes

con frecuencia mayor a un umbral. Filtro pasa-altos (high-pass): Bloquea las componentes

con frecuencia menor a un umbral. Filtro pasa-banda (band-pass): Bloquea las

componentes con frecuencia por fuera de una banda.

sox IN.WAV OUT.WAV lowpass|highpass FREQ sox IN.WAV OUT.WAV bandpass FREQ WIDTH

Conversión Analógica-Digital

Cuantización Las computadoras no tienen precisión infinita. ¿Cuán precisas deben ser las muestras de amplitud de

la señal? 8, 12, 16, 32 bits por muestra

256, 4096, 65536, 4294967296 niveles de amplitud.

sox --info IN.WAV Precision : 16-bit

¿Cuántos niveles es necesario distinguir?

Conversión Analógica-Digital

Balance entre precisión de cuantización y almacenamiento. Los errores de cuantización se reducen aumentando la

precisión, pero a costa de más espacio.

La elección depende de los datos y de la aplicación. Habla: 16kHz, 16bits suele ser razonable.

Conversión Analógica-Digital

Problema derivado de la cuantización: Saturación digital (clipping): La amplitud de la señal es

mayor al rango representable.

Solución #1: Redefinir los niveles de amplitud. Solución #2: Disminuir la amplitud de la fuente.

Escuchar bach.wav (44.1kHz, 16bits) Fragmento de Partita en Sol Mayor de J. S. Bach. play FILENAME

Bajar sampling rate a 16, 8, 4 kHz y comparar. sox IN.WAV -r FREQ OUT.WAV

Subir sampling rate de 4 kHz a 44.1kHz. ¿Por qué no vuelve a estar en buena calidad?

Aplicar filtro high-pass de 8kHz a: Audio original a 44.1 kHz. Audio resampleado a 16 kHz.

Crear espectrogramas de los audios y comparar. sox IN.WAV -n spectrogram -o OUT.PNG

Ejercicios

Resumen

Sonidos periódicos y aperiódicos. Ondas periódicas simples y complejas. Ruido blanco; ondas transitorias. Análisis de Fourier. FFT. Espectrograma.

Procesamiento digital de señales. Tasa de muestreo; precisión.

Herramientas: sox y python.

Próximos temas: fonética y fonología, prosodia, más herramientas (Praat).