principios de audio digital

64
Codificación de audio Enrique Alexandre (@e_alexandre)

Upload: enrique-alexandre

Post on 15-Jul-2015

538 views

Category:

Technology


4 download

TRANSCRIPT

Page 1: Principios de audio digital

Codificación de audio

Enrique Alexandre (@e_alexandre)

Page 2: Principios de audio digital

¿Con o sin pérdidas?

• Codificadores con pérdidas (mp3, aac, wma, etc.):

• Utilizan modelos perceptuales para eliminar la información irrelevante.

• Es imposible reconstruir exactamente la señal original a partir de la codificada.

• Codificadores sin pérdidas (.flac, .alac, .ape, etc.):

• Se limitan a eliminar la información redundante.

• Se puede reconstruir de forma exacta la señal original a partir de la codificada.

Page 3: Principios de audio digital

ATC

ATC-ABS PXFMOCF

ATAC ASPECMUSICAM

Layer I, Layer II Layer III

ATRAC PASC

AC-3

TWIN-VQ

PAC

ASC

MPEG-2 AAC

MPEG-4 AUDIO

1977

1992

1994

1995

1997

1999

Page 4: Principios de audio digital

ISO/IEC MPEG-1

• Estándar “semi-abierto”:

• Partes normativas e informativas.

• Uno o dos canales:

• Un solo canal monofónico

• Dos canales monofónicos independientes

• Dos canales stereo

• Joint-stereo

• Frecuencias de muestreo: 32 kHz (broadcast), 44.1 kHz (consumer) y 48 kHz (professional).

• Bitrates: 32-192 kbps (mono) y 64-384 kbps (stereo).

Page 5: Principios de audio digital

ISO/IEC MPEG-1

• Tres capas independientes con distintas complejidades:

• Capa I:

• Proporciona transparencia a 384 kbps.

• Complejidad media-baja.

• Aplicaciones: Philips Digital Compact Cassette (DCC).

• Capa II:

• Proporciona transparencia a 256 kbps.

• Complejidad media.

• Aplicaciones: DAB, DVB, radiodifusión

Page 6: Principios de audio digital

ISO/IEC MPEG-1

• Capa III (mp3)

• Proporciona transparencia a 192 kbps.

• Complejidad alta.

• Aplicaciones: ISDN (RDSI), Internet.

Page 7: Principios de audio digital

Otras variantes

• mp3PRO

• Proporciona el doble de rendimiento que el mp3

• Compatible hacia atrás con mp3

• mp3HD

• Codificador sin pérdidas compatible hacia atrás con mp3

Page 8: Principios de audio digital

mp3: Licencias

Page 9: Principios de audio digital

ISO/IEC MPEG-2 BC

• Ampliación compatible hacia atrás con MPEG-1.

• Características añadidas:

• Frecuencias de muestreo mitad (24, 22.05 y 16 kHz) para aplicaciones con menor ancho de banda.

• Codificación multicanal (5.1).

• Existe un MPEG-2.5, formato propietario del Fraunhofer, que permite frecuencias de muestreo inferiores (8, 11.025 y 12 kHz).

Page 10: Principios de audio digital

ISO/IEC MPEG-2 NBC / AAC

• Nuevo esquema, no compatible con los anteriores, que proporciona mejor rendimiento de codificación.

• Tres modos de operación:

• LC (Low Complexity)

• Main Profile

• SSR (Scalable Sampling Rate)

• Proporciona transparencia a 128 kbps (stereo) y 320 kbps (5.1)

• Aplicaciones comerciales:

• Apple iTunes, Sony PSP, Operadoras móviles (Movistar, Orange, etc,), DRM (Digital Radio Mondiale), DVB, etc.

Page 11: Principios de audio digital

Variante: HE-AAC ó aacPlus

• La misma idea que el mp3PRO

• Buena calidad de sonido estéreo a 48 kbps

Page 12: Principios de audio digital

ISO/IEC MPEG-4

• No es un nuevo esquema de codificación en sí, sino un conjunto de codificadores ya existentes unificados bajo un mismo estándar.

• Un fichero MPEG-4 puede contener audio, video, audio sintético, etc.

• Extensiones .mp4, .m4a y .3gp

Page 13: Principios de audio digital

Otros codificadores

Ogg VorbisMusepackOtros

Page 14: Principios de audio digital

Ogg Vorbis

• Codificador de audio libre

• Proporciona una calidad muy parecida a un MPEG-2 AAC

• Soporta frecuencias de muestreo desde 8kHz hasta 192 kHz

• Soporta desde 1 canal hasta 255

Page 15: Principios de audio digital

Musepack

• Codec basado en MPEG-1 Capa II

• Pensado para proporcionar muy alta calidad de audio a tasas binarias elevadas

• Extensión: .mpc

Page 16: Principios de audio digital

Otros codecs propietarios

• Windows Media Audio (WMA)

• Free Lossless Audio Codec (FLAC)

• RealAudio

Page 17: Principios de audio digital

Resumen: codificadores con pérdidas

Formato Año Gratis Bitrate Canales Latencia

mp3 1993 No 8-320 kbps 2 > 100ms

AAC 1997 No 8-529 kbps 48 20-405ms

AC-3 1992 No 32-640kbps 6 40.6 ms

Musepack 1997 Si 3-1300 kbps 8 ?

Vorbis 2000 Si Variable 255 > 100ms

WMA 1999 Si (Windows) 8-768 kbps 2 > 100ms

Page 18: Principios de audio digital

Resumen: codificadores sin pérdidas

Formato Velocidad Compresión Híbrido (c/ pérdidas)

Código abierto Multicanal

Wavpack Muy rápido 58 % Si Sí Sí

ALAC Rápido 58.5% No Sí (decod) Sí

FLAC Muy rápido 58.7% No Sí Sí

Monkey’s Rápido 55.5% No Sí Sí

Page 19: Principios de audio digital

• Formatos estándar

• .aif: AIFF, Audio Interchange File Format

• .wav: Waveform Audio

• . bwf: Broadcast wave (extensión al .wav)

• .raw: Raw audio file (Como un .wav pero sin cabecera)

Diccionario de extensiones

Page 20: Principios de audio digital

Diccionario de extensiones

• Codificadores con pérdidas:

• .mp3: MPEG-1 Capa III

• .mp4: MPEG-4 (audio y/o video)

• .m4a: MPEG-4 audio

• .m4p: Ficheros del iTunes con DRM

• .m4v, .mp4v, .cmp, .divx, .xvid: MPEG-4 Video

• .3gp, .3g2: MPEG-4 en móviles

• .wma: Windows Media Audio

• .ogg: Ogg Vorbis

Page 21: Principios de audio digital

Diccionario de extensiones

• Codificadores sin pérdidas

• .flac: FLAC, Free Lossless Audio Coder

• .m4a: Apple Lossless audio coder

Page 22: Principios de audio digital

MIDI

Page 23: Principios de audio digital

MIDI

• Es un sistema de control para equipos musicales.

• Tres tipos de equipos:

• Módulo de sonido: Genera sonidos en función de los mensajes MIDI que llegan

• Controlador MIDI: Genera mensajes MIDI al actuar sobre un interfaz (teclado,...)

• Secuenciador MIDI: Dispara eventos MIDI

Page 24: Principios de audio digital

Conexión hardware

Optoacoplador MIDI IN

Buffer MIDI THRU

Buffer MIDI OUT

Page 25: Principios de audio digital

Conexión sencilla

Cable MIDI

IN THRU OUTIN

THRU

OUT

Page 26: Principios de audio digital

Conexión más compleja

Cable MIDI

IN THRU OUTIN

THRU

OUT

IN THRU OUT IN THRU OUTIN THRU OUT

Page 27: Principios de audio digital

Evaluación de la calidad

Tests objetivosTests subjetivos Modelos objetivos

Page 28: Principios de audio digital

13

2.1 BACK TO THE BEGINNING: CAPTURING SOUND QUALITY

In terms of basic sound quality, claims of accurate reproduction began early. Edison, in 1901, claimed that the phonograph had no “tone” of its own. To prove it, he mounted a traveling show in which his phonograph was demon-strated in “tone tests” that consisted of presentations with a live performer. Morton (2000) reports, “Edison carefully chose singers, usually women, who could imitate the sound of their recordings and only allowed musicians to use the limited group of instruments that recorded best for demonstrations” (p. 23). Of a 1916 demonstration in Carnegie Hall before a capacity audience of “musi-cally cultured and musically critical” listeners, the New York Evening Mail reported that “the ear could not tell when it was listening to the phonograph alone, and when to actual voice and reproduction together. Only the eye could discover the truth by noting when the singer’s mouth was open or closed” (quoted in Harvith and Harvith, 1985, p. 12).

Singers had to be careful not to be louder than the machine, to learn to imitate the sound of the machine, and to sing without vibrato, which Edison (apparently a musically uncultured person) did not like. There were other con-sequences of these tests on recordings. The low sensitivity of the mechanical recording device made it necessary for the performers to crowd around the mouth of the horn and fi nd instruments that could play especially loud. Because

Back to the Beginning: Capturing Sound Quality

FIGURE 2.1 Singer Frieda Hempel stages a tone test at the Edison studios in New York City, 1918. Care was taken to ensure that the test was “blind,” but it is amusing to see that some of the blindfolds also cover the ears. Courtesy of Edison National Historic Site, National Park Service, U.S. Department of the Interior.

Page 29: Principios de audio digital

Criterios objetivos

• Existen diversos criterios objetivos para medir la calidad de una señal de audio:

• Relación señal a ruido (SNR)

• Relación señal a ruido segmental (segSNR)

• Sin embargo, en audio la evaluación de la calidad es una tarea fundamentalmente subjetiva, aunque puede aproximarse mediante modelos objetivos.

Page 30: Principios de audio digital

Criterios subjetivos

• La calidad subjetiva se puede obtener mediante experimentos de escucha, por ejemplo:

• Comparar la señal con una referencia de calidad “perfecta”

• Comparar varios sonidos y ordenarlos por orden de preferencia

• Dar una “puntuación” global en una escala numérica

Page 31: Principios de audio digital

Doble test ciego (A-B-X)

• Se dispone de dos señales A y B, siendo una de ellas la referencia y la otra la señal a testear.

• Al oyente se le presenta una tercera señal, X, y se le pide que identifique si se trata de A o de B.

• El resultado tiene que ser estadísticamente significativo para poder ser tenido en cuenta.

Page 32: Principios de audio digital

Fiabilidad de los resultados

• Para tener un nivel de confianza del 95%:

Número de ensayos 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25Número de aciertos 9 9 10 10 11 12 12 13 13 14 15 15 16 16 17 18

Page 33: Principios de audio digital

Test A-B-C

• También llamado doble test ciego con triple estímulo y referencia oculta.

• La señal A siempre es la referencia. Las otras dos (B y C) contienen, aleatoriamente, la señal de referencia y la de test.

• El oyente tiene que puntuar las dos señales B y C de acuerdo a su calidad en una escala de 1 a 5.

• El resultado final es la diferencia de las dos puntuaciones (SDG, Subjective Difference Grade)

Page 34: Principios de audio digital

Tests subjetivos

Page 35: Principios de audio digital

A tener en cuenta

• Es IMPRESCINDIBLE:

• Que las señales tengan el mismo nivel

• Que estén sincronizadas en tiempo

• Que no se produzcan chasquidos al conmutar entre una y otra

Page 36: Principios de audio digital

Limitaciones de las pruebas subjetivas

• Los resultados están muy influenciados por factores humanos (nivel de reproducción, ruido de fondo, etc.)

• La habilidad y los gustos del oyente también influyen

• Son muy caros

Page 37: Principios de audio digital

Modelos objetivos de calidad percibida

• Existen varios estándares internacionales para evaluar de forma objetiva la calidad percibida de una señal de audio:

• PEAQ (Perceptual Evaluation of Audio Quality)

• PESQ (Perceptual Evaluation of Speech Quality)

• SII (Speech Intelligibility Index)

Page 38: Principios de audio digital

18

AAC LC 96:

Better than MP2 for no items, worse for no items, equivalent for 10 items.

Better than MP3 for 1 item, worse for no items, equivalent for 9 items.

AAC SSR 128:

Better than MP2 for 1 item, worse for no items, equivalent for 9 items.

Better than MP3 for 2 items, worse for no items, equivalent for 9 items.

Thus, we see that only the Main 96 codec is outperformed by any MP2 or MP3 codec for any of

these examples. For many programme items, an AAC coder gives statistically superior results.

Note that for items Tracy Chapman, Ornette Coleman and Dire Straits there were no significant

differences between codecs – all codecs performed the same on these examples.

10.6. Comparison with MPEG-1 codecs

“Is the performance of AAC codecs at the tested bitrate equal to or better than the performance

of MPEG-1 Layer II and Layer III?” The accumulated results by codec are shown in Figure 5

(note the foreshortened vertical scale).

220220220220220220220N =

CODER

MP3 128

MP2 192

AACSSR 128

AAC LC 96

AAC LC 128

AACMain 96

AACMain 128

.2

0.0

-.2

-.4

-.6

-.8

-1.0

-1.2

-1.4

-1.6

-1.8

-2.0

Diffscores

Figure 5. Overall results (averaged across programme items and position) for each coder.

We see from this figure that overall, AAC Main 128, AAC LC 128, and AAC SSR 128 give

significantly better performance than do MP2 192 or MP3 128. In addition, AAC Main 96

gives better results than MP3 128. There is no statistically significant improvement between

AAC LC 96 and the MPEG-1 codecs.

Within the AAC codec group, AAC Main 128, AAC LC 128, and AAC SSR 128 are all

superior to AAC LC 96. In addition, AAC Main 128 and AAC LC 128 are superior to AAC

Main 96.

Comparativa

Page 39: Principios de audio digital

Audio 3D

Page 40: Principios de audio digital

Audición espacial: pistas de detección

• Diferencias interaurales:

• ITD (Interaural Time Differences)

• IID (Interaural Intensity Differences)

• Movimiento relativo cabeza-fuente

• Influencia fisiológica (HRTF)

• Percepción de la distancia (entorno anecoico)

• Influencia de la reverberación

Page 41: Principios de audio digital

ITD e IID

Page 42: Principios de audio digital

Efecto de la cabeza y torso

Page 43: Principios de audio digital

x y

z

a d

c

b e

Cono de

confusión

Cono de confusión

Page 44: Principios de audio digital

HRTFs

• Función de Transferencia fisiológica (HRTF, Head Related Transfer Function)

• Pabellón auditivo

• Torso, hombros, difracción en la cabeza, ...

• Canal auditivo, concha

• Plano medio (z-y): casi simétricas

• Plano frontal (x-z) y horizontal (x-y): asimetrías

• Frecuencias afectadas:

• Longitud de onda 8 cm: 4.3 KHz

• Longitud de onda 4 cm: 8.6 KHz

• Longitud de onda 2 cm: 17 KHz

Page 45: Principios de audio digital

Percepción de la distancia (entorno anecoico)

• La pista primaria es la intensidad de la fuente, que se corresponde en el oyente con la sonoridad (loudness) percibida

• Existe una dependencia frecuencial de la sonoridad percibida

• Otras pistas: coloración del sonido, asociaciones cognoscitivas

Page 46: Principios de audio digital

Atenuación a

10 m (dB)

Porcentaje de humedad

2

20 40 60 80

3

1

4

2 KHz

4 KHz

8 KHz

10 KHz

12 KHz

Percepción de la distancia

Page 47: Principios de audio digital

dBSPL

Distancia (m)

91

88

85

82

79

76

73

70 2 4 6 8

Anecoico

Primeras

reflexiones (ER)

ER+reverberación

Page 48: Principios de audio digital

Detección

ITD

Detección

IID

Información

frecuencial

Convergencia

ITD+IID por bandas de

frecuencia

Localización

espacial

Localización

espacial DEFINITIVA

Datos

visuales

Memoria

previa (cognoscitiva)

Datos de otros

sentidos

Movimientos

cabeza

Percepción espacial

Page 49: Principios de audio digital

Elevación 0º, azimut 0º

HRIRL

HRIRR

• 0 • 0.5 • 1 • 1.5 • 2 • 2.5

• x 10 • 4

• 15

• 20

• 25

• 30

• 35

• 40

• 45

• 50

• 55

HRTFs

Page 50: Principios de audio digital

Elevación 0º, azimut 45º

HRIRL

HRIRR

• 0 • 0.5 • 1 • 1.5 • 2 • 2.5

• x 10 • 4

• 10

• 15

• 20

• 25

• 30

• 35

• 40

• 45

• 50

• 55

HRTFs

Page 51: Principios de audio digital

Medida de las HRTFs

Page 52: Principios de audio digital

)(zSL

)(zHPL

)(zSR

)(zHPR

)(ˆ zSR

)(1 zHPR

)(ˆ zSL

)(1 zHPL

Presentación con auriculares

Page 53: Principios de audio digital

)(zSR

)(zSL

)(zLL

)(ˆ zSL

)(1 zLL

)(ˆ zSR

)(1 zLR

)(zLR

)(zHLL

)(zHRR

)(zHLR

)(zHRL

Presentación con altavoces

Page 54: Principios de audio digital

Altavoces vs. Auriculares

ALTAVOCES AURICULARES

Ergonomía

Usuario “liberado” Incómodos tras un tiempo

No aislan al usuario Aislan al usuario

Requieren instalación Sin instalación

Calidad dependiente de la posición del oyente

Calidad independiente de la posición del oyente

Entorno acústico Sala preparada acústicamente Sala sin requisitos

AlgorítmicaCorrección diafonía

Canales independientesFiltros muy largos en posiciones alejadas

Page 55: Principios de audio digital

Altavoces vs. Auriculares

ALTAVOCES AURICULARES

Calidad obtenida

Experiencias espaciales muy realistas

Mejor forma de presentar el sonido en 3D

Muy sensible a la posición del oyente

Independiente de la posición del oyente

Las posiciones virtuales lejanas de las líneas de los altavoces

son difíciles de conseguirMuy versátil

Externalización y sensación de distancia sencillas de conseguir

Suelen generar sensaciones demasiado

cercanas

Page 56: Principios de audio digital

Otras aplicaciones

Page 57: Principios de audio digital

Palabras clave

• Criptografía: Proteger el contenido de los mensajes

• Esteganografía: Ocultar la información

• Watermarking: Proteger la información oculta.

Page 58: Principios de audio digital

• El objetivo es proteger el contenido de un mensaje, haciéndolo ilegible para todo el mundo excepto emisor y receptor.

• Métodos:

• Clave simétrica

• Clave pública

• La clave pública se utiliza para el encriptado

• La privada para el desencriptado

• La criptografía es la base de los sistemas DRM (Digital Rights Management)

Criptografía

Page 59: Principios de audio digital

DRM en el mundo de la música

• CDs -> No son CDs, sino CD-ROM. No se usa desde 2007

• Online: iTunes, Google Play y Amazon actualmente libres de DRM

• Sí que se usan metadatos con la información del comprador

Page 60: Principios de audio digital

Limitaciones

• El “agujero analógico”

• Obsolescencia. ¿Qué pasa cuando la tecnología cambia?

• ¿Es legal grabar un CD con música?

• No toda la piratería es indeseada (p.e. Microsoft)

• El DRM puede aumentar la piratería

Page 61: Principios de audio digital

Watermarking

• Son técnicas que persiguen introducir información en una señal digital

• Se puede marcar un fichero para luego poder rastrearlo

• Dos tipos:

• Visible

• Invisible

Page 62: Principios de audio digital

Tipos de sistemas

• Ciegos: La señal original no es necesaria para la detección final.

• No ciegos: Se necesita la señal original para poder detectar la marca

• Frágiles: Son sensibles a modificaciones sobre la señal que lleva la marca. Se usan para detectar cambios en la señal (autenticidad)

• Robustos: Son muy resistentes a modificaciones. Se usan para protección de copias o control del copyright.

Page 63: Principios de audio digital

Esteganografía

• El objetivo es ocultar información de modo que nadie pueda ser capaz de saber que existe un “mensaje oculto”. Es una aplicación del watermarking.

• Técnicas típicas:

• Ocultar mensajes en los bits menos significativos de una imagen ruidosa

• Tinta invisible

• Cifrado nulo:News Eight Weather: Tonight increasing snow. Unexpected precipitation smothers eastern

towns. Be extremely cautious and use snowtires especially heading east. The [highway is not] knowingly slippery. Highway evacuation is suspected. Police report emergency situations in

downtown ending near Tuesday

Newt is upset because he thinks he is President

Page 64: Principios de audio digital

Ejemplo

Si eliminamos todos menos los 2 últimos bits de cada componente de

color y aumentamos el brillo