procesos que degradan la seÑal de audio digital

UNIVERSIDAD TECNOLÓGICA VICENTE PÉREZ ROSALES INGENIERÍA DE EJECUCIÓN EN SONIDO

TESIS DE TITULACIÓN ANÁLISIS COMPARATIVO DE LOS PROCESOS QUE DEGRADAN LA SEÑAL

DE AUDIO DIGITAL

ALVARO JAVIER BORAGK LUENGO JUAN JOSÉ YÁÑEZ CISTERNAS

-2002-

2

UNIVERSIDAD TECNOLÓGICA VICENTE PÉREZ ROSALES INGENIERÍA DE EJECUCIÓN EN SONIDO

PROFESOR GUÍA ROBERTO MUÑOZ SOTO

TESIS DE TITULACIÓN ANÁLISIS COMPARATIVO DE LOS PROCESOS QUE DEGRADAN LA SEÑAL

DE AUDIO DIGITAL

TESIS DE TITULACIÓN PRESENTADA COMO PARTE DE LOS REQUISITOS PARA OPTAR AL TÍTULO DE INGENIERO DE EJECUCIÓN EN SONIDO

ALVARO JAVIER BORAGK LUENGO JUAN JOSÉ YÁÑEZ CISTERNAS

SANTIAGO DE CHILE, (2002)

3

INDICE

Capítulo 1. RESUMEN 6 Capítulo 2. INTRODUCCIÓN 7

Capítulo 3. DESARROLLO 10 3.1 Hipótesis 10 3.2 ESTRUCTURA DE LA SEÑAL DE AUDIO DIGITAL (INTERFASE) 11

3.2.1 INTERVALO UNITARIO 14

3.3 SECCIONES DE UN SUBCUADRO 15

3.3.1 PREÁMBULO 16

3.3.2 BLOQUE 17 3.3.3 BIT DE VALIDEZ (VALIDITY) 20 3.3.4 BIT DE USUARIO (USER BIT) 20

3.3.5 BIT DE ESTADO DE CANAL (CHANNEL STATUS BIT) 20 3.3.6 BIT DE PARIDAD 22 3.4 FALENCIAS EN EL DOMINIO DIGITAL 22 3.4.1 ERRORES DE TIEMPO 22 3.4.2 DEFINICIÓN DE JITTER 23 3.4.3 TIPOS DE JITTER 26 3.4.3.1 JITTER INTRÍNSECO 26 3.4.3.1.1 CIRCUITOS PLL Y JITTER 28 3.4.3.2 JITTER INDUCIDO POR CABLE 31

3.4.3.2.1 PATTERN DEPENDENT JITTER 31 3.4.3.3 JITTER PRODUCIDO POR RUIDO DE INTERFERENCIA 33 3.4.4 TOLERANCIA DE JITTER 36 3.4.5 ACUMULACIÓN DE JITTER 37

4

3.4.6 SAMPLING JITTER 39 3.4.6.1 JITTER EN EL DOMINIO DEL TIEMPO 41 3.4.6.2 JITTER EN EL DOMINIO DE LA FRECUENCIA 44 3.4.6.3 CIRCUITOS PLL Y SAMPLING JITTER 47 3.4.6.3.1 RECUPERACIÓN DE CLOCK DE UNA ETAPA 47 3.4.6.3.2 RECUPERACIÓN DE CLOCK DE 2 ETAPAS (DUAL) 49 3.4.6.4 AUDIBILIDAD DEL SAMPLING JITTER 51 3.4.6.4.1 NIVELES ACEPTABLES DE SAMPLING JITTER 53 3.5 ERRORES DE AMPLITUD 53 3.5.1 DISTORSIÓN DE CUANTIZACIÓN 56 3.5.2 DITHER 58 3.5.2.1 UN POCO DE HISTORIA... 58

3.5.2.2 DEFINICIÓN DE DITHER 59

3.5.2.3 TIPOS DE DITHER 65

3.6 DISEÑO DE LOS ESQUEMAS DE MEDICIÓN 70

3.6.1 Medición de THD + N en un convertidor A/D/A (etapa A/D)

70

3.6.1.1Análisis A/D del M-Box 72 3.6.1.2 Análisis A/D de la Motu 1296 73

3.6.2 Medición de THD +N en un convertidor A/D/A (Etapa D/A)

73

3.6.2.1 Medición D/A Motu 1296 75

3.6.3 Medición de THD + N en plugins

75

3.6.4 Medición de distorsión de fase en plugins 77

5

3.6.5 Comparación final: compresor digital v/s compresor análogo 78

Capítulo 4. CONCLUSIONES 79 4.1 VISUALIZACIÓN GRÁFICA Y TABULACIÓN DE LOS RESULTADOS DE LAS MEDICIONES 79 4.2 VISUALIZACIÓN DE DISTORSIÓN DE FASE EN PLUGINS 94 4.3 Conclusiones finales 97

Capítulo 5. APÉNDICE 100 5.1 PUNTO FIJO Y PUNTO FLOTANTE 100

6

Capítulo 1. RESUMEN

En el tratamiento o procesamiento de señales de audio inciden una serie de

factores, así como en el dominio del audio digital nos encontramos con elementos

que influyen directamente en el resultado final de nuestras grabaciones, como lo

son los convertidores A/D/A y los plugins –los que en definitiva operan

directamente sobre la señal digitalizada–. Ahora bien, las incógnitas son ¿Cuáles

son los factores incidentes? ¿Como afectan la señal de audio? ¿Que tan cerca o

lejos está el resultado del proceso digital con respecto al análogo?

Nuestro objetivo es dar respuesta a estas interrogantes revisando los

estudios teóricos que hay al respecto y es así, como definimos los parámetros que

influyen en la degradación de la señal de audio digital, basándonos en el estudio,

análisis y comprensión de libros y documentos normalmente disponibles en inglés,

logrando crear una definición de estos conceptos en nuestro idioma. Realizando

en forma práctica mediciones en el estudio de Post Producción de la Universidad,

las cuales fueron evaluadas en un software llamado SpectraLab, que nos permitió

determinar como se ha afectado nuestra señal de audio.

Las mediciones efectuadas en forma práctica nos muestran una

homogeneidad en los resultados, con excepciones muy puntuales, que nos

permiten constatar tendencias claras en el ámbito del audio digital. Sin embargo,

una vez realizada la comparación con el mundo análogo, hemos constatado que

7

existe una diferencia notoria entre lo digital y lo análogo que pasa por la capacidad

que tiene el audio digital de estar menos contaminado por distorsiones y ruidos

cuando se trabaja con los equipos adecuados y la posibilidad cierta de corregir

defectos si se producen. En cambio, el audio análogo nos presenta registros más

contaminados, pero que son a los que el oído se ha acostumbrado.

Capítulo 2. INTRODUCCIÓN

Para poder entender o profundizar el conocimiento de un fenómeno, un

proceso o una actividad es necesario realizar un estudio exhaustivo sobre la

materia en cuestión. Es así como nuestra inquietud, era conocer qué elementos

afectaban nuestras grabaciones de audio y cómo poder tabular y analizar el

comportamiento de la señal de audio digital en forma cuantitativa, yendo de lo

teórico a lo práctico.

Lo primero fue compilar antecedentes que nos permitieran entender y/o

profundizar ¿qué? y ¿cómo? afecta nuestra señal de audio digital, recurriendo a

los siguientes libros y documentos en busca del conocimiento anhelado:

- Principles of digital audio

(4ª edición) por Ken C. Pohlmann (editorial McGraw-Hill)

· Audioprecision (Technotes) - The AES3 and IEC60958 Digital Interface por Julian Dunn

- Group Delay

- Jitter theory por Julian Dunn

· Journal de la AES

- Fundamentals of modern audio measurement.

8

· AES pre-print - Simple clock jitter and real-time audio over the IEEE1394 high performance serial

bus por Julian Dunn

- Towards common specifications for digital audio interface jitter por Jullian Dunn,

Birry McKibben, Roger Taylor y Chris Travis

- Jitter: specification and assessment in digital audio equipment por Julian Dunn

- The diagnosis and solution of jitter-related problems in digital audio systems por

Julian Dunn y Ian Dennis

· Digido

- Everything you always wanted to know about jitter but were afraid to ask por Bob

Katz

En primer lugar estudiamos la interfase digital, por un motivo muy

razonable: a través de esta interfase viaja la señal entre un equipo y otro, llevando

consigo vital información para su posterior decodificación. Se explica cada una de

las partes de la interfase de audio digital y qué función cumplen en ella.

A continuación, se explica teóricamente los factores claves que influyen en

la degradación de la señal, tales como el jitter –en sus múltiples variantes–,

distorsión de cuantización y de fase, las cuales finalmente se ven reflejadas en la

distorsión armónica.

También se analiza las herramientas que se utilizan para contrarrestar estas

anomalías, tales como el dither y los circuitos Phase Lock Loop en las distintas

etapas de la cadena digital.

En la etapa práctica se hicieron mediciones aisladas de cada componente

de la cadena, dejando el elemento cuestionado (convertidores A/D/A y plugins)

como variable, y los componentes restantes fijos. Esto con el fin de dilucidar en

que etapa de la cadena se produce más degradación.

9

En cada caso se miden los parámetros de distorsión armónica (THD), de

fase –sólo en la evaluación de los plugins– y ruido utilizando señales de prueba. A

su vez se analizará el efecto que tiene transformar una señal de 48 kHz a 44.1

kHz. También se analiza el efecto que tiene en la señal el proceso llamado bounce

to disc.

Paralelamente se miden los mismos parámetros de degradación en un

procesador virtual y su contraparte análoga, en este caso compararemos el

compresor Drawmer y su versión en plugins, con la finalidad de obtener una visión

general de como afecta el procesamiento digital a la señal de audio, dilucidando

que se gana y que se pierde en estos procesos.

10

Capítulo 3. DESARROLLO

3.1 Hipótesis

Una de las principales discusiones que existe en torno al audio digital, es la

comparación con el audio análogo. Donde surge las pregunta: ¿es mejor el sonido

análogo que el digital o es mejor el sonido digital que el análogo?.

Pues bien, nosotros pensamos que es mejor el sonido digital, porque

tendría menos distorsión y una buena relación señal ruido, ya que esto se puede

lograr a partir de algoritmos de programación y convertidores de alto nivel. Sin

embargo, las duda son: ¿por qué los audiófilos prefieren el audio análogo? Y

¿dónde están los principales defectos del audio digital?

11

3.2 ESTRUCTURA DE LA SEÑAL

DE AUDIO DIGITAL (INTERFASE)

Las señales análogas pueden ser llevadas de un aparato a otro con relativa

facilidad, en cambio la transferencia de señales de audio en el dominio digital es

mucho más compleja. Parámetros como frecuencia de sampleo, largo de palabra

–word–, palabras de control, sincronización y codificación deben ser definidos con

exactitud para que la transmisión se lleve a cabo sin errores. Para llevar cabo este

cometido están las interfases de audio (ejemplos: SDIF–2, ADI, AES3, ó

AES/EBU, S/PDIF y AES 10 ó MADI) las cuales llevan la data de audio digital de

un equipo a otro en tiempo real. Básicamente una interfase de audio digital lleva

tres tipos de información:

• Información de tiempo (clock)

• Audio data

• No – audio data

Parte de esta información se puede degradar por usar equipos que, si bien

se adhieren al estándar de calidad, no son los ideales. Se deben tomar en cuenta

aspectos del comportamiento y “performance” de la interfase que develan que un

equipo sea mejor que otro, por ejemplo, la habilidad de un receiver para tolerar

12

jitter o un rango amplio de frecuencias de sampleo, o la precisión con la cual un

transmisor mantiene la sincronización.

El gran número de marcas y modelos de equipos digitales hace necesaria la

aparición de un estándar para que tan heterogéneo equipamiento entienda un

lenguaje común y de esta manera la transmisión de data de un transmisor a un

receiver se haga en la forma más expedita posible.

Los estándares AES3 y IEC 60958 (IEC: International Electrotechnical

Comittée) proveen una interfase común para señales de audio digital. La interfase

definida en AES3 y IEC 60958–4 es también llamada “interfase estándar

profesional” mientras que la definida en IEC 60958–3 es llamada “Interfase de

estándar no profesional”.

Existen diferencias entre el estándar profesional y el comercial que en

ciertos casos pueden hacer que ambas interfases puedan ser totalmente

incompatibles. Para un mejor manejo de ellas, no es óptimo mezclar interfases

profesionales con interfases de consumo, pero en otras circunstancias -

contando con las conexiones eléctricas apropiadas- el audio incorporado en ellas

puede ser llevado de un estándar a otro.

Una vez que la señal análoga es codificada (luego del proceso de sample

and hold y la subsiguiente cuantización) su forma cambia drásticamente, adquiere

la forma de una onda cuadrada, y cada pulso es la representación de un valor

numérico (binario) que corresponde al valor asignado para cada sample (muestra)

por el cuantizador.

Este tren de pulsos es de característica binaria, es decir, cada pulso tiene

una representación lógica de un 0 o un 1, de esta forma el tren de pulso puede

llevar información codificada en forma binaria para su posterior decodificación en

el receptor (o receiver). Este tipo de codificación de canal tiene por nombre

Codificación PCM (Pulse Code Modulation). La forma más simple de codificación

de audio data PCM es codificando un “1” como un alto lógico y un “0” como un

bajo lógico (voltaje alto y bajo respectivamente). Eléctricamente esto no es lo

ideal, si se considera el caso donde todos los bits son “unos” (o son todos “cero”)

13

en un período de tiempo, en este caso, otra señal –un bit clock– se requeriría para

identificar los bits individuales.

La codificación usada por el formato de interfase AES3 es más sofisticada.

La interfase de audio digital más usada en equipos digitales es la AES3

(mas conocida como AES/EBU), esta interfase presenta una codificación bifásica.

Esta codificación bifásica tiene incorporado un pulso (bit clock) que es usado para

recuperar la frecuencia de sampleo. Otra característica de esta señal PCM bifásica

es que su voltaje total resultante es 0 volt, así se elimina la presencia de corriente

continua en la interfase, de esta forma el data stream no tiene problemas para

pasar por transformadores o condensadores en serie.

Cada bit de información (data bit) tiene una duración que está definida por

lo que se llama una casilla de tiempo, llamada también time slot, que comienza

con una transición y termina con una segunda transición, que es a su vez la

primera transición para el siguiente time slot. Si el data bit es un “1”, una transición

adicional se agrega en la mitad del time slot, un data bit “0” no tiene esa transición

adicional.

La figura 3.1 ilustra esta codificación bifásica con un ejemplo de 6 bits de

información (data):

Figura 3.1: Codificación bifásica

De esta forma se puede apreciar que aunque se esté ante la presencia de

una señal digital de ceros continuos o unos continuos, aún habrán transiciones en

cada bit (o time slot), por lo cual la señal de clock siempre estará presente gracias

14

a estas transiciones regulares, de esta forma el equipo receptor o esclavo va a

poder extraer la señal de clock del mismo data stream de la señal de audio sin la

necesidad de una señal de word clock independiente.

Como la señal es claramente AC, la dirección de las transiciones (o

polaridad de la señal) pasa a ser irrelevante, de esta forma se asegura que la

información se extrae a partir del tiempo de la transición, no de la dirección de

ésta, eliminando de esta forma posibles pérdidas de información debido a cambios

de polaridad en el data stream producto de factores externos (mala aislación de

cables, inducción etc.).

3.2.1 INTERVALO UNITARIO

Otro parámetro que se debe aclarar es el llamado “intervalo unitario” o unit

interval (UI). Un UI se define como el intervalo nominal más corto entre una

transición y la siguiente, como ya se sabe, la codificación bifásica introduce una

segunda transición dentro de un time slot (también llamado celda o “cell”) para

representar un 1 digital; esto quiere decir que un time slot tiene un ancho o

duración de 2 UI como se ve en la figura 1.

La duración de un intervalo unitario se puede calcular con la siguiente

formula, siendo fs la frecuencia de muestreo del data stream.

Fórmula 3.1: 1 UI/(128*fs) = x (ns)

La información que lleva la interfase es transmitida en forma serial. Para

identificar los variados bits de información el data stream se divide en cuadros y

cada uno de ellos tiene un largo de 64 time slots o bien 128 UI, como los time slots

corresponden con los bits de información, la longitud de un cuadro es usualmente

definida como “64 bits de largo”, pero la sección de preámbulo viene a romper esta

correspondencia.

15

Cada cuadro se compone de dos subcuadros (subframes). La figura 3.2

ilustra un subcuadro, el cual consiste en 32 time slots numerados del 0 al 31. Un

subcuadro tiene un largo de 64 UI, exactamente la mitad del largo de un cuadro

(128 UI).

Figura 3.2: Subcuadro AES3 (24-bit audio data)

Los 4 primeros time slots de cada subcuadro llevan la información de

“preámbulo”. El preámbulo sirve para marcar el inicio de un subcuadro y para

identificar el tipo de subcuadro. Los próximos 24 time slots llevan la información

de la señal de audio codificada, la cual es transmitida en una “palabra” de 24 bits

con el LSB (bit menos significativo) al comienzo. Los 4 time slots restantes llevan

la siguiente información:

• Bit de validez (validy bit) “V”

• Bit de usuario “U”

• Bit de status de canal (channel status) “C”

• Bit de paridad para detección de errores “P”

Los dos subcuadros de un cuadro pueden ser usados para transmitir 2

canales de información (canal 1 en subcuadro 1 y el canal 2 en subcuadro 2) con

una tasa de frecuencia de cuadro igual a la frecuencia de sampleo, o bien los dos

subcuadros pueden llevar sucesivas muestras del mismo canal, pero a una

frecuencia equivalente al doble de la frecuencia de sampleo.

La señal AES 3 tiene una frecuencia de bits total (bit rate) equivalente a 64

veces la frecuencia de sampleo, por ejemplo, para una frecuencia de 48 KHz el bit

16

rate sería de 3.072 Mbps (megabits por segundo), la frecuencia de transmisión de

cuadros corresponde exactamente a la frecuencia de sampleo de la fuente.

3.3 SECCIONES DE UN SUBCUADRO

3.3.1 PREÁMBULO

Un preámbulo es un patrón distintivo de información que va en los cuatro

primeros time slots de un subcuadro para marcar el inicio de un subcuadro y el

inicio de un bloque (mas adelante se explicará el término “bloque”). Hay tres tipos

de preámbulos, todos los cuales rompen la regla de la codificación bifásica de

tener siempre una transición al inicio y al final de un time slot, es decir, cada 2 UI.

Un preámbulo contiene uno o dos pulsos con una duración de 3 UI. Esta

excepción a la regla significa que no puede ocurrir en ninguna otra parte del tren

de datos (data stream).

El subcuadro 2 siempre comienza con un preámbulo “Y” y el subcuadro 1

casi siempre comienza con un preámbulo “X” con la siguiente excepción: cada 192

cuadros el preámbulo “X” del subcuadro 1 es reemplazado por el preámbulo “Z” el

cual indica el inicio de un bloque (ver figura 3.3), esto sirve para extraer la

información que es llevada por los channel status bits de cada subcuadro. Ahora,

¿qué es un bloque?

17

Figura 3.3: Patrón de datos AES3. Notar que los preámbulos Y son idénticos en cada

cuadro

3.3.2 BLOQUE

Un bloque es un grupo de bits que transmite información, no de audio, sino

información para que el receptor interprete de forma adecuada el data stream. El

bit “channel status” de cada subcuadro es usado para transportar un bloque de

información de 192 bits de largo, los bits de información de channel status (o

estado de canal) recibidos son acumulados para cada uno de los subcuadros (1 y

2, o bien L y R) para conseguir dos bloques de información independientes de

estado de canal (channel status data), uno para cada canal. Cada bloque de

información de estado de canal consiste en 192 bits de data agrupados en 24

bytes (grupo de bites organizado o tomados como una unidad llamada palabra o

word). Cada uno de los 24 bytes consta de 8 bits, los cuales son transmitidos a

una tasa de un bit por subcuadro, el ciclo termina cuando pasan 192 cuadros

consecutivos. El preámbulo “Z” citado anteriormente, sirve para sincronizar el

bloque, marcando que un nuevo bloque ha comenzado.

18

En la figura 3.4 se muestra la estructura de un bloque.

Figura 3.4: Estructura de un bloque.

Luego de explicar la existencia del preámbulo “Z” y definir qué es un bloque

se seguirá explicando la estructura de un preámbulo. En la figura 3.5 se muestran

los tres tipos de preámbulos

Figura 3.5: Patrones de preámbulo con una transición inicial descendente.

Como la señal de interfase AES3 es insensible a la polaridad, estos

preámbulos pueden empezar con una transición descendente, como en la figura 3.4, o con transición ascendente (figura 3.6)

19

Figura 3.6: Patrones de preámbulo con una transición inicial ascendente.

Bajo las reglas de la codificación bifásica debe haber una transición entre

cada time slot, pero los preámbulos en cambio, tienen cada uno 2 pulsos de 3 UI

de largo, de esta forma, por cada preámbulo hay dos comienzos de time slots en

los cuales no hay transiciones. La primera de estas violaciones al código bifásico

está en el mismo lugar para cada preámbulo – después del time slot 0 – esto

indica que un nuevo subcuadro a comenzado, el patrón siguiente identifica que

tipo de subcuadro es. Los time slots en los preámbulos son iguales al resto, por lo

tanto su largo es de 2 UI, como los preámbulos constan de 4 bits, su largo total es

de 8 UI.

Luego del preámbulo, ocupando los próximos 24 bits (del 5 al 28) se ubica

la audio data (información de audio) la cual es transmitida con el LSB primero.

Si el audio data es transmitido, por ejemplo en 20 o menos bits, los

primeros bits después del preámbulo pueden ser usados por otra señal conocida

como “audio data auxiliar”, señal que se puede usar para comunicación o talkback,

o también utilizar para emitir una versión comprimida de la señal de audio

principal. De no ocuparse estos bits en data auxiliar simplemente se ocupan con

ceros, como muestra la figura 3.7.

20

Figura 3.7: Subcuadros AES3 (16-bit audio data y 20-bit audio data con data auxiliar).

En el caso que se usase esta audio data auxiliar, el channel status debe

indicar que el máximo largo de palabra es 20 bits, de esta forma el receiver podrá

“enmascarar” esta información de audio auxiliar para que no sea confundida con el

audio data principal.

Los últimos 4 bits de la interfase son, como ya se había mencionado, el bit

de validez, el bit de usuario, el bit de channel status o estado de canal y el bit de

paridad.

3.3.3 BIT DE VALIDEZ (VALIDITY)

Sirve en primer lugar para cualificar el audio data transmitido, si este bit

está activo (1) quiere decir que la data ha sido cualificada como “no apta” para su

conversión a audio análogo. Cuando la interfase AES3 o IEC 60958 es usada

para transmitir data que no representa audio lineal PCM, entonces este bit debe

estar activo, esto ocasiona que el equipo lea una y otra vez la señal PCM o que

sencillamente se silencie (mutee) la salida, cosa que es preferible a reproducir

esta señal como una señal de audio.

3.3.4 BIT DE USUARIO (USER BIT)

21

Este bit puede ser utilizado para llevar información del usuario propiamente

tal, esto significa información específica de la aplicación para aparatos de

consumo tales como el CD o el DCC.

3.3.5 BIT DE ESTADO DE CANAL (CHANNEL STATUS BIT)

La función de este bit ya había sido definida anteriormente para definir el

concepto de “bloque”.

Los channel status bits son independientes para el subcuadro 1 y para el

subcuadro 2, de esta forma se conforman 2 bloques, 1 para cada canal, aunque

muchas veces estos dos bloques suelen llevar información idéntica, puesto que

muchos receptores examinan esta data en solo uno de los subcuadros. Los bits de

channel status tienen influencia en la forma en que un equipo maneja la data en la

palabra de audio digital, en particular en los campos de “no audio” y “énfasis”

hacen una gran diferencia en la forma en cómo la data tiene que ser interpretada.

Si el bit de no audio está activo entonces la palabra de audio digital no está

apta para ser decodificada como data PCM lineal.

El nombre “no audio” es un poco confuso ya que se cataloga como “no

audio” a formatos de audio comprimido tales como MPEG, DTS, DOLBY AC–3 y

DOLBY E, porque si se tratara su data stream como PCM lineal sería inapropiado

y tendría como resultante la generación de ruido de alto nivel (los estándares para

llevar estos formatos de audio data comprimidos son el IEC 61937 para

aplicaciones no profesionales o el SMPTE 337M para aplicaciones profesionales).

Como ya se había mencionado anteriormente, otro campo de especial

relevancia dentro del bloque es el campo de “énfasis” –el cuál está ubicado en el

byte 0 del bloque, justo después del campo de audio/no audio–. Si el campo de

énfasis indica que la señal tiene énfasis entonces se debe aplicar un de-énfasis en

la respectiva conversión al mundo análogo. El énfasis (ver figura 3.8) consiste en

22

una aplicación de ganancia en alta frecuencia (de tipo shelving) con constantes de

tiempo de 50 µs y de 15 µs para el cero y el polo en el formato no profesional. El

formato profesional soporta este tipo de énfasis y además el llamado énfasis j17,

el cual tiene constantes de tiempo que fluctúan alrededor de 333 µs y 38,5 µs.

Aparte de estos primeros bits del byte cero (bit 0: pro/no pro, bit 1: audio/ no

audio, bit 234: énfasis y bit 67: frecuencia de sampleo) el significado de los

siguientes bits del bloque es definido en forma diferente para los formatos

profesionales y no profesionales.

Figura 3.8: Énfasis en una señal.

3.3.6 BIT DE PARIDAD

Este bit es usado para mantener paridad “par” –valga la redundancia– como

un medio para detectar errores. El bit de paridad puede detectar cuando un

número impar de errores han ocurrido en la transmisión; Sin embargo si ocurre un

error lo más probable es que se pierda un par de transiciones, dicho de otra forma

que se pierdan los dos “ bordes” de un pulso individual. Si se perdieran un par de

transiciones, la paridad no cambiaría (el bit de paridad no se activaría) no obstante

ha ocurrido un error. Por esta razón no es muy útil usar el bit de paridad para

detectar errores, es mucho más útil chequear violaciones al código bifásico para

este fin.

3.4 FALENCIAS EN EL DOMINIO DIGITAL

23

Dado que el audio tiene una naturaleza intrínsicamente análoga, cuando lo

digitalizamos para transformar su información a un código binario nos

encontramos con una de las limitaciones propias del mundo digital: su naturaleza

discreta o finita, en el dominio del tiempo y la amplitud.

3.4.1 ERRORES DE TIEMPO

En el dominio del tiempo nos encontramos con uno de los elementos

fundamentales de la digitalización: el muestreo o sampleo.

Este proceso puede (casi siempre) presentar anomalías en la exactitud con la cual

se realiza, produciéndose así errores de tiempo, genéricamente llamados como

jitter. Otra anomalía que se puede presentar es el alias, pero quedará fuera de

este análisis por considerarse un problema superado, en gran medida por el uso

de filtros antes de la etapa de digitalización.

En el dominio de la amplitud nuestra principal enemiga es la distorsión de

cuantización, la cual se puede controlar mediante un proceso bastante conocido

llamado dither.

Ambos procesos –sampleo y cuantización– están limitados por la resolución

del sistema, depende de éste factor la fidelidad con que se representa en el

mundo digital la señal análoga original.

Si tuviéramos que relacionar de una forma sencilla estos dos procesos sería

de la siguiente forma:

“El sampleo o muestreo representa el tiempo de la medición y la

cuantización representa el valor de esta medición y en el caso del audio, la

amplitud de la onda en el instante de muestreo. El sampleo y la cuantización son

los componentes fundamentales de la digitalización y juntos pueden caracterizar

un evento acústico”

24

3.4.2 DEFINICIÓN DE JITTER

Se puede definir jitter como la variación en tiempo de un evento –que puede

ser una señal regular de clock– respecto a una referencia fija (nominal).

Por ejemplo, el jitter en una señal de clock es la diferencia entre los tiempos

reales de la transición de pulso del clock y los tiempos de transición que hubieran

ocurrido si el clock fuese ideal, es decir, perfectamente regular.

Frente a esta referencia nominal (ideal), las transiciones de muchos de los

pulsos en un tren de datos con jitter varían en tiempo respecto al clock ideal.

Expresado de otra forma, jitter es modulación de fase en la señal de interfase

digital.

Cuando se presenta muy poco jitter en la señal las transiciones de pulso

son desplazadas hacia adelante y hacia atrás por pequeños espacios de tiempo.

Cuando el jitter se incrementa, las transiciones se mueven a través de un rango

más amplio de tiempos.

25

Figura 3.9: Comparación de la forma de onda ideal AES3 con la forma de onda AES3 afectada

por el jitter.

Para entender mejor el fenómeno del jitter es clave tener en claro los

siguientes conceptos:

• Amplitud de jitter: Cuantifica el desfase o corrimiento en el tiempo de una

transición en particular respecto a una transición ideal. Está expresado en

unidades de tiempo, ya sea como fracciones de segundo o como intervalos

unitarios (UI). Cabe aclarar que el tiempo en que ocurre una transición se

define específicamente en la llamada “zona de cruce” (zero crossing) como

se ve en la figura 3.9.

• Frecuencia de jitter: Es la frecuencia con la que ocurre este cambio de fase.

Del mismo modo que otras señales parásitas o de interferencia, la señal de

modulación de jitter puede ser una perfecta y regular señal sinusoidal (jitter

sinusoidal), una compleja forma de onda o puede tener una frecuencia

totalmente al azar (random jitter). Se mide en hertz [Hz].

• Ganancia de jitter o jitter gain: Establece una relación entre jitter de entrada

y jitter de salida. Se mide en decibeles [dB]. Este concepto se relaciona con

la función de transferencia de jitter o jitter transfer function, el cual establece

una relación entre ganancia de jitter versus frecuencia de jitter, como

podemos ver en la figura figura 3.10.

También se puede entender este concepto como una variación de la

amplitud de jitter (aumento o disminución) entre la entrada y la salida del

aparato.

26

Figura 3.10: Función de transferencia del jitter.

3.4.3 TIPOS DE JITTER

Para comenzar es importante comprender que el jitter existe en todas las

señales de audio digital, solo que en diferentes magnitudes.

Los principales tipos de jitter son: Jitter de interfase (jitter intrínsico, jitter

inducido por cable) y el sampling jitter.

Jitter de interfase es jitter en la señal entre dos equipos digitales,

manteniéndose este en el mundo digital, y el sampling jitter es jitter en clock de un

convertidor A/D o D/A, involucrando de esta forma al mundo análogo: la

degradación introducida por el jitter de interfase, depende del diseño del receptor

de interfase, del mismo modo, la degradación introducida por el jitter en el clock de

27

sampleo depende del diseño del convertidor. En equipos bien diseñados existen

dos etapas para la recuperación de clock de interfase y la generación de clock de

salida del convertidor, el cual atenúa el jitter sobre una frecuencia de corte hacia

arriba, mejorando la performance (ejecución) del aparato.

3.4.3.1 JITTER INTRÍNSICO

Si un equipo está funcionando con su clock interno o está sincronizado con

una señal relativamente libre de jitter, entonces cualquier jitter medido a la salida

de éste es ocasionado por el mismo aparato, a esto se le llama jitter intrínsico o

jitter interno del aparato.

El nivel de jitter intrínsico está determinado principalmente por dos

características: el ruido de fase de oscilador (VCO: voltage controlled oscilator o

Cuarzo) en el circuito de generación de clock y –para un aparato sincronizado

externamente– por las características del circuito PLL (phase lock loop) de

recuperación de clock.

Por ejemplo, consideremos el oscilador de clock de cuarzo en un

reproductor de CD. Como no está sincronizado con ninguna fuente externa (free

running) cualquier jitter en la salida es debido al ruido de fase del oscilador, mas

en cierta medida a un tipo de jitter de retraso lógico digital. Los osciladores de

cuarzo tienen muy poco ruido de fase y los aparatos lógicos de alta velocidad

tienen también muy poco jitter, de esta forma el jitter intrínsico es muy bajo, a

menudo menor que 1 ps para frecuencias de jitter sobre 700 Hz.

Un aparato diseñado para esclavizarse o engancharse con señales

externas dentro de un rango de frecuencias de sampleo probablemente use un

VCO (voltaje controlled oscilator) para recuperar clock. Como un VCO

generalmente tiene mucho mas ruido de fase que un oscilador de cuarzo, un VCO

funcionando independientemente (free running) generalmente puede tener altos

28

niveles de jitter intrínsico sobre los 700 Hz. Sin embargo, en aplicaciones de

recuperación de clock, este VCO estaría funcionando dentro de un PLL (phase

lock loop: ciclo de fijación de fase) para sincronizarse con una referencia externa,

esto implica que el jitter intrínsico del oscilador va a ser atenuado por el PLL.

El jitter intrínsico a menudo debe ser medido en situaciones cuando no hay

una referencia baja en jitter disponible y las mediciones se deben hacer auto

referenciadas, es decir, enganchando un PLL a la señal de clock extraída del data

stream en cuestión. Las características de este PLL determinarán la frecuencia de

corte en la cual éste deja de atenuar jitter (ver función de transferencia). El

estándar AES especifica una frecuencia de corte que debe ser de 700 Hz con una

ganancia en la zona de corte de 3 dB como máximo en el estándar AES, los

niveles de jitter intrínsicos son especificados como mediciones peak más que rms,

esto es porque los autores de este estándar concluyeron que las máximas

exclusiones de las desviaciones de tiempo son las que producirían errores de

data.

3.4.3.1.1 CIRCUITOS PLL Y JITTER

Como ya se había mencionado, la gravedad del fenómeno jitter depende de

en qué etapa es considerado. Los errores de tiempo en la interfase (en el ámbito

digital ) tienen un efecto distinto que los errores causados por sampling jitter. El

interface jitter ocurre cuando se traslada data de un aparato a otro y es solo un

problema cuando causa errores no rectificados en la señal recuperada, que

posteriormente generarían pérdidas de información por lectura errónea.

Muchos data stream tienen la capacidad de auto sincronizarse , ya que

llevan dentro de su estructura la señal de clock (como la Interfase AES3 o AES/

EBU), de esta forma el receptor puede recuperar el clock y alinear la data

enganchándose al clock de entrada.

29

Un circuito receptor con un clock fijo no sería capaz de engancharse a una

señal con un clock inestable aunque su frecuencia de sampleo nominalmente

fuese la misma que la del clock de entrada, por esta razón los circuitos receptores

comúnmente usan un circuito llamado ciclo de fijación de fase (PLL) para alinear

sus clocks con la frecuencia de data de la señal entrante. Un PLL de interfase

como se muestra en la figura 3.11, acepta la señal de entrada como una

referencia de tiempo, mide el error de fase entre la entrada de la señal y su propia

salida, a través de un loop de realimentación y usa este error para manejar un

oscilador controlado por voltaje, el cual está dentro del loop. El VCO en respuesta

logra el equilibrio minimizando este error de fase. Una vez que el VCO se

engancha a la fase de la señal de entrada, éste corre a la frecuencia de referencia

o a un múltiplo de ésta.

El oscilador es desacoplado de la referencia , atenuando de esta forma el

jitter de alta frecuencia en la salida de data del PLL producido por éste.

Figura 3.11: Ciclo de fijación de fase PLL.

Un circuito PLL puede reducir jitter regenerando el clock a partir de una

base de tiempo estable y exacta, la desventaja de esto es que cualquier ganancia

cercana a la frecuencia de corte de la función de filtro pasa bajo del PLL

aumentaría el jitter.

30

Para ejemplificar el funcionamiento de un PLL se hará una analogía con un

sistema mecánico: una rueda estabilizadora de la velocidad de un motor. Esta

rueda ayuda a mantener un movimiento circular uniforme, la cual lentamente

seguirá cambios graduales de velocidad, e ignorará fluctuaciones rápidas.

Mientras más liviana sea esta rueda más rápido seguirá estos cambios de

velocidad y de esta forma la frecuencia de corte es más alta. La frecuencia de

corte de un PLL está determinada por su realimentación o ganancia de ciclo (loop

gain). Esta realimentación disminuye con la frecuencia a raíz de las características

del filtro del loop y por integración de la frecuencia en la fase que está ocurriendo

en la entrada del detector o comparador de fase. Cerca de la frecuencia de corte

del filtro la ganancia del loop es unitaria.

Para frecuencias de jitter bajo la frecuencia de corte del filtro, la

realimentación negativa significa que la salida del PLL seguirá en gran medida a la

entrada de éste (esto implica la no atenuación del jitter de entrada) y que el ruido

de fase del oscilador será atenuado. Sobre la frecuencia de corte la realimentación

disminuye , esto quiere decir que el jitter a la salida del PLL estará siendo

determinado en mayor medida por el ruido de fase del oscilador (jitter intrínsico) y

menor medida por el jitter de entrada al PLL. De esta forma se concluye que un

elemento clave en el diseño de un PLL receptor o transmisor es el compromiso

entre jitter intrínsico y atenuación del jitter de entrada. En la figura 3.12 (función

de transferencia de un PLL) se visualiza mejor lo expuesto anteriormente:

31

Figura 3.12: Función de transferencia de un ciclo de fijación de fase.

En la práctica otro de los factores que ayudan a acumular jitter son los

cables que interconectan las maquinas ¿de qué forma? Se verá a continuación.

3.4.3.2 JITTER INDUCIDO POR CABLE

3.4.3.2.1 PATTERN DEPENDENT JITTER

Como ya se mencionó, otra fuente de jitter en la interfase digital es el

resultado de la imperfecta naturaleza de la interconexión.

32

Resistencia en el cable o una impedancia inconsistente pueden ocasionar

pérdidas en alta frecuencia, lo cuál afecta directamente a las transiciones de

pulsos de la señal, como se veía en la figura 3.9.

Esto no debería ser un problema serio si el efecto fuera el mismo para cada

transición, de ser así la consecuencia solo sería un delay estático en la señal el

cual podría ser ignorado. Sin embargo esto solo ocurriría si el tren de pulsos fuera

perfectamente regular –un stream de sólo unos o ceros– por ejemplo.

Lamentablemente, un tren de pulsos real consiste en patrones de bits que

cambian a cada momento, y la presencia de pérdida por cable da origen a un

problema llamado “interferencia intersimbólica” (intersymbol interference o peak

shift), este fenómeno consiste básicamente en la interacción entre símbolos

adyacentes de data.

Contrariamente a lo que se podría pensar, este fenómeno hace que las

transiciones que tengan más retraso sean precedidas por un símbolo de data 0, ya

que como sabemos, en el marco de la codificación bifásica AES3 un 0 tiene una

transición por cada bit y un 1 tiene dos transiciones por cada bit, por lo tanto un

tren de pulso de unos consecutivos tendría el doble de la frecuencia que un tren

de ceros.

Para ilustrar este caso se muestran 5 señales de interfase AES3: cada una

con un patrón de data diferente en los primeros 3 bits.

La figura 3.13 presenta 5 señales AES 3 antes de la transmisión. La negra

representa un (1,1,1), la gris (1,1,0), la azul un (1,0,0), la celeste un (0,1,0) y la

punteada (0,0,0).En la figura también se muestra como se verían estas señales

(están sobrepuestas una sobre otra) después de ser transmitidas por un cable

largo (Belden de 100 mts), las perdidas ocasionadas por éste afectarían a las

señales de la siguiente manera: atenuando las altas frecuencias y deformando

los pulsos , los cuales presentan tiempos de subida y bajada mucho mas lentos.

33

Figura 3.13: AES3 interferencia intersimbólica.

En cada caso la data mostrada viene precedida por el preámbulo Y, el cual

marca el comienzo del subcuadro B, el cuál es idéntico para cada cuadro.

Se concluye que como la interfase AES3 usa la misma señal para llevar

data y clock es posible inducir jitter en el clock como resultado de una modulación

de la data (como se muestra en el ejemplo). Se debe tener cuidado con los

mecanismos que generan interferencia entre la data y la señal de clock, la

degradación de la forma de onda como resultado de pérdida por cable es uno de

esos mecanismos.

34

Este tipo de jitter tiene por nombre pattern dependent jitter, el cual puede

ser producido no tan solo por interferencia intersimbólica, sino que también por

asimetrías de circuito, donde el retraso puede variar entre transiciones

ascendentes o descendentes.

Esta es la razón por la cual un receptor de calidad debe extraer clock de los

preámbulos del data stream, ya que ellos son casi inmunes a este efecto de

modulación, como se ve en la figura 3.14.

Figura 3.14: El sector de preámbulo presenta una menor tendencia a generar jitter

3.4.3.3 JITTER PRODUCIDO POR RUIDO DE INTERFERENCIA

Otro tipo de jitter inducido en la transmisión por cable es el llamado jitter

inducido por ruido de interferencia. En una situación ideal, donde las transiciones

no fueran “inclinadas” a raíz de pérdida por cable, los tiempos de subida y bajada

de los pulsos serían tan cortos que su cruce por 0 estaría relativamente inmune a

cualquier ruido agregado a la señal. Sin embargo los largos tiempos de transición

generados en la pérdida por cable permiten que ruidos y señales parásitas de

35

distintas índole introduzcan un offset en la transición, teniendo esto como

resultado un corrimiento del punto de cruce por cero de los pulsos.

Por ejemplo, el ruido en la señal puede hacer que varíe el tiempo en el cual

la transición es detectada. La sensibilidad a este ruido depende de la rapidez de la

transición, la que a su vez depende de la pérdida por cable. Esto se ilustra en la

figura 3.15.

Figura 3.15: AES3 jitter producido por ruido de interferencia.

Los marcadores “A” y “B” muestran el rango de tiempos de cruce por cero

resultante de una transición -su separación es de 31 ns- en este ejemplo, el ruido

que produce esta variación es una onda sinusoidal de baja frecuencia de

aproximadamente 300 mV. Este tipo de interferencia puede estar siendo inducida

por acoplamiento de una fuente de poder.

La cantidad de jitter introducido por ruido en el cable está directamente

relacionada con la inclinación o curva en el punto de cruce por 0 al igual que el

voltaje está relacionado con el tiempo por esta inclinación (slope).

36

Con transiciones rápidas cualquier ruido de interferencia no producirá

demasiado jitter, la desviación de voltaje causará una pequeña desviación de

tiempo.

Este tipo de jitter, como ya se sabe, ocurre cuando se usan cables largos

para interconectar los equipos en cuestión. De esta forma, la contribución de este

tipo de jitter se verá severamente reducida en presencia de una interconexión de

un largo menor.

Cabe señalar que la dirección de la desviación temporal está relacionada

con la dirección de la transición – ascendente o descendente –. Para una

transición “levantada” por el ruido, la transición de subida ocurrirá antes y la

transición de bajada ocurrirá más tarde que una transición sin ruido, para una

transición corrida hacia abajo ocurre lo contrario.

Opuestamente a lo que ocurre con el data pattern dependent jitter, este tipo

de jitter es más aparente en aparatos que recuperan clock de un solo borde (o

transición) específico del patrón de preámbulo. Esta transición va a tener solo una

polaridad (solo de subida o solo de bajada), de esta forma la desviación temporal

de transiciones sucesivas se sumará, lo que tendrá como consecuencia

acumulación de jitter.

En cambio, en los sistemas que usan varias transiciones del preámbulo

para recuperar señal de clock las desviaciones temporales de las transiciones casi

siempre se cancelarán debido al efecto anteriormente explicado – el promedio de

desviación tiende a 0 si se extrae clock equitativamente tanto de transiciones de

subida como de transiciones de bajada – estas cancelaciones reducirán el jitter de

baja frecuencia inducido por el ruido en el clock. Para ruidos de altas frecuencias

estas cancelaciones no ocurrirán, debido a que sucesivas desviaciones no

encuentran correlación entre sí. De este modo, no tenemos atenuación de jitter

cuando se induce un ruido de alta frecuencia en la señal.

Por lo tanto podemos concluir que es mejor evitar aparatos que extraigan la

señal de clock de solo un borde del subcuadro de la interfase, independientemente

de la calidad del circuito PLL que éste posea.

37

Vistas ya las principales formas en que se manifiesta el jitter en el dominio

digital (interface y jitter inducido en el cable) se incorporará un nuevo concepto:

3.4.4 TOLERANCIA DE JITTER

La cantidad de jitter de interfase soportado antes que un receptor AES3

falle en la correcta decodificación de la señal se llama tolerancia de jitter. Esta

tolerancia es una función de la frecuencia de jitter. Así se tiene que:

Variaciones graduales de tiempo (jitter de baja frecuencia) pueden ser

seguidas por el PLL del receptor AES3 por lo tanto no tenemos errores de data.

De hecho, variaciones lentas pueden tener una amplitud peak de varias UI antes

que el PLL falle en su funcionamiento. Pero si las variaciones de tiempo son

abruptas, de tal modo que el PLL no es capaz de seguirlas (jitter de alta

frecuencia), entonces amplitudes tan pequeñas como la mitad de un intervalo

unitario (UI) pueden generar una transición corrida que cause un error de bit.

Esto demuestra porqué la tolerancia de jitter aumenta mientras más baja es

la frecuencia de jitter entrante y porqué la amplitud peak de jitter es más

significativa que el valor rms o promedio de esta amplitud.

La especificación para la interfase AES3 define lo que se llama patrón de

tolerancia de jitter como se muestra en la figura 3.16.

Figura 3.16: AES3 patrón de tolerancia de jitter.

38

La tolerancia está definida en UI (unit intervals). La línea en el gráfico

representa la máxima amplitud de jitter que un receptor puede aceptar en caso de

presentarse jitter sinusoidal de frecuencia indicada en el eje X. Nótese que este

patrón implica que los receptores deben tener una frecuencia de corte sobre 8

KHz, esto quiere decir que el PLL receptor no va a ser capaz de atenuar jitter bajo

esta frecuencia, sólo va a seguir las fluctuaciones y dejará de esta forma pasar el

jitter a la salida. Un segundo circuito PLL con frecuencia de corte más baja se

necesitará para atenuar más significativamente el jitter si se requiere.

3.4.5 ACUMULACIÓN DE JITTER

En una cadena de equipos digitales donde cada uno esté esclavizando su

clock a la máquina previa, se producen severas contribuciones de jitter al final de

ésta.

La acumulación de jitter toma lugar para frecuencias que están bajo la

frecuencia de corte de la función de transferencia de jitter de todos los aparatos,

en donde no existe atenuación. Para entender mejor el fenómeno, asumiremos

que cada aparato aporta una misma cantidad de jitter “J” (sumando jitter intrínsico

y jitter inducido por cable) y que cada máquina amplifica el jitter de la etapa previa

con la misma ganancia – tomando en cuenta que el aumento o ganancia sólo es

posible para frecuencias que están cerca del peak de la función de transferencia–.

En la figura 3.10 se aprecia la zona de ganancia, la cual se ubica inmediatamente

bajo la frecuencia de corte.

En la tabla 3.1 vemos el jitter total de salida en diferentes cadenas de

equipos, como múltiplo de “J”:

39

Ganancia de Jitter por Unidad

Jitter Total (J) después de 3 Estaciones



0 dB (ideal) 3 J 4 J 5 J

1 dB 3,8 J 5,4 J 7,1 J

3 dB 6,2 J 10,2 J 15,8 J

6 dB 13,9 J 29,8 J 61,4 Tabla 3.1: Tabla de acumulación de jitter

Esta tabla muestra que con una ganancia de cero en cada etapa, el jitter

total sólo es la suma de jitter “J” producido en cada etapa, pero recordemos que

solo tenemos 0 dB de ganancia para frecuencias que están fuera de la zona peak.

En ganancias de jitter sobre 0 dB se refleja el efecto peaking de la función de

transferencia y es aquí donde la acumulación de jitter amenaza la integridad de la

señal.

Cabe señalar que cuando el jitter tiene un espectro amplio de frecuencia

solo una pequeña porción de él será amplificada y el efecto peaking no tendrá

mayor influencia, sin embargo en otros casos el jitter se puede concentrar en la

zona de peak, como puede ser el caso de una señal de bajo nivel, por ejemplo; en

este caso el jitter tiende a ser coherente con la polaridad de la señal, esto ocurre

debido a que para las señales cercanas a 0 más bits significativos dentro de la

palabra de data cambian juntos como una extensión del bit de signo, generándose

jitter sinusoidal, el cual se caracteriza por tener un espectro de frecuencia angosto.

De esta forma si la señal de interfase es un tono de bajo nivel y de un frecuencia

baja, entonces ocasionalmente tendremos coincidencias entre un peak de jitter y

el peak de la función de transferencia de jitter, aumentando de esta forma

significativamente la ganancia de jitter y la acumulación de ésta al final de la

cadena digital.

Las consecuencias normales de una acumulación excesiva de jitter son,

como ya se sabe, pérdida ocasional de data y de clock en un caso más severo.

40

Desde 1997, la especificación para interfase AES3 estipuló que para evitar

problemas debido a acumulación de jitter todos los aparatos digitales deberían

tener una ganancia de jitter sinusoidal igual o menor que 2 dB para cualquier

frecuencia y además deberían cumplir con un estándar de atenuación de jitter que

implique una reducción de al menos 6 dB sobre 2 KHz.

Hasta ahora, solo hemos visto formas de jitter en el dominio digital, dentro

de éste el jitter sólo es una amenaza a la integridad de la señal si el jitter alcanza

niveles que imposibilitan la correcta lectura del data stream generando errores de

interpretación de la información.

Sin embargo, los efectos del jitter en el clock de un convertidor A/D o D/A sí

tiene efectos dramáticos en lo que a calidad sonora se refiere, es en esta etapa –

conversión análogo digital y viceversa – donde hay que tener mayor cuidado con

la acumulación y con la atenuación de jitter, puesto que pequeñas magnitudes de

éste tendrán una repercusión notoria en la calidad final de la señal, pudiéndose

generar cantidades importantes de ruido y distorsión armónica a la salida.

3.4.6 SAMPLING JITTER

Existen muchas circunstancias donde el clock de sampleo debe ser

derivado o extraído de una fuente externa. Por ejemplo, en un grabador de audio

digital, el clock de sampleo que controla el convertidor D/A es extraído

directamente del data stream entrante. En otras aplicaciones el clock de sampleo

de un convertidor A/D necesita ser enganchado a una señal de sincronismo

externa, o un data stream digital necesita ser resincronizado a una referencia de

clock diferente usando un ASRC (convertidor de frecuencia de muestreo

asincrónico ó asyncronous sample rate converter).

En los convertidores análogo/digital las muestras deben ser capturadas con

especial exactitud. Dicho de una forma simple: el jitter en el clock de un

convertidor A/D da como resultado muestra incorrectas en el tiempo incorrecto.

41

Más aún si estas muestras son presentadas a un convertidor D/A libre de jitter el

resultado serán muestras incorrectas en el tiempo correcto. Sabiendo esto, se

puede decir que el jitter es más crítico cuando se presenta en el clock de un

convertidor A/D.

Osciladores de cristal (de cuarzo) ofrecen típicamente niveles de jitter

menores a 10 ps rms: son los ideales para ser usados en clocks A/D y en general

como referencia para el sistema digital completo.

Los efectos del jitter en el clock de sampleo de un convertidor A/D son muy

similares a una modulación FM: La frecuencia de entrada (de la señal de audio)

actúa como carrier y el jitter actúa como frecuencia moduladora.

La exactitud de tiempos requerida para la conversión A/D es considerable:

La máxima tasa de cambio de una onda sinusoidal ocurre en la zona de cruce por

0 y puede ser calculada como 2πA f donde A es la amplitud peak de la señal y f la

frecuencia en Hz.

Investigaciones han estimado que una especificación de jitter del orden de

los 250 ps permitiría una precisión de 16 bits para una onda de 20 KHz a

máxima amplitud (0 dBFS), solo así los componentes espectrales del jitter caerían

bajo el nivel de ruido de cuantización. Un peak de jitter incluso menor que 400 ps

generaría señales parásitas que tendrían como resultado la reducción del rango

dinámico en aproximadamente 0.5 dB.

Los convertidores D/A también son igualmente susceptibles al jitter. La

calidad de las muestras tomadas por un A/D libre de jitter será malograda si el

clock del D/A no es uniforme, traduciéndose esta en muestras correctas en el

tiempo incorrecto. Aunque los valores de data sean numéricamente exactos, la

desviación de tiempo introducida por el jitter tendrá como resultado un aumento

del nivel de ruido y distorsión en la señal de salida. Afortunadamente en este caso,

la distorsión en la salida es sólo un problema de playback (reproducción)

solamente: la data en sí está incorrupta, solo está esperando un clock de

convertidor D/A más exacto, para que la reproducción tenga más fidelidad. Las

42

muestras no están malas, sino que solo han sido convertidas en los tiempos

incorrectos.

No todos los receptores proveen suficiente protección contra el jitter (como

algunos receptores S/PDIF) es necesario utilizar receptores que puedan

resincronizar su data stream para remover jitter antes de la conversión D/A, como

se sabe, los circuitos PLL se encargan de esto.

Para un mejor entendimiento del fenómeno jitter veremos cómo actúa éste

en el dominio del tiempo.

3.4.6.1 JITTER EN EL DOMINIO DEL TIEMPO

El efecto de una muestra convertida en el tiempo incorrecto puede ser

interpretado en términos de una introducción de un error de amplitud: cualquier

señal que no sea DC cambia en el tiempo, de esta forma un instante erróneo de

sampleo producirá un valor erróneo de amplitud. Como podemos ver en la figura 3.17, el error de amplitud es proporcional a la tasa de cambio (slope) de una señal

de audio, el cual es mayor para señales de alto nivel [dB] y alta frecuencia.

43

Figura 3.17: En estos ejemplos la tasa de muestreo es constante, pero la

señal sampleada es variada en frecuencia y amplitud. Notar

como la amplitud del error aumenta para la muestra

instantánea de jitter (J) con los cambios.

La figura 3.18 muestra el efecto de un jitter aleatorio de sampleo (random

sampling jitter) en un tono puro. El tono tiene una amplitud de 2 V rms y una

frecuencia de 1 KHz. La señal de error se produce debido al efecto de este jitter, el

cual tiene una amplitud rms de 10 ns.

44

Figura 3.18: Muestra de jitter en un tono puro de 1 kHz. La línea externa es la señal y

la línea interna es el error introducido por el jitter, exhibido con una

ampliación de 1000 veces.

Nótese que la señal de error y el tono puro intermodulan. Como el error es

producto de la tasa de cambio del tono y del jitter (J), se produce un mínimo en la

señal de error en las zonas de peak del tono (donde la inclinación de la curva es

casi 0: aquí la tasa de cambio de tono está al mínimo) y un máximo en las zonas

de cruce por cero, donde la tasa de cambio del tono está en su máxima expresión.

El error promedio (rms) mostrado en la figura 18 tiene una amplitud de 124

µV rms, o dicho de otra forma, está 84 dB bajo el nivel del tono. Asumiendo que el

error está expandido uniformemente a través de un ancho de banda de 88.2 KHhz

(la frecuencia de sampleo corresponde a 176.4 KHz: la cual es resultado de un

oversampling 4x aplicado por el D/A de un reproductor de CD), se puede estimar

que el nivel de ruido (producto de este error) medido sobre el ancho de banda

nominal para audio –20 KHz– sería de 60 µV rms, esto traducido en decibeles

arroja un valor de 90.5 dB bajo el nivel del tono.

45

Este método para analizar el efecto del jitter se puede utilizar para hacer

una predicción del nivel aceptable de jitter en cualquiera de sus formas. Se

simplifica entonces calcular el nivel de jitter o amplitud de jitter que aplicado a una

señal “conflictiva” (alta frecuencia y alto nivel), produciría un error de una amplitud

igual o mayor a un intervalo de cuantización.

3.4.6.2 JITTER EN EL DOMINIO DE LA FRECUENCIA

Otra forma de observar el efecto del jitter es considerarlo como un proceso

de modulación, y analizarlo en términos de componentes de frecuencia. Se puede

demostrar matemáticamente que existe una simple relación entre el componente

espectral del jitter, el componente espectral de la señal de audio y el consecuente

efecto de modulación de jitter.

Si una señal es muestreada con errores en los instantes de sampleo el

efecto es que la señal module en el tiempo. Esto es expresado matemáticamente

en la fórmula 3.2. La señal de salida v(t) es una versión desplazada en el tiempo

de la señal de entrada y la variación en el desplazamiento (∆t) es el jitter

Fórmula 3.2: [1] v (t) = v (t – ∆t)

El efecto de esto puede ser analizado considerando un jitter sinusoidal de

frecuencia wj y una amplitud peak J.

Fórmula 3.3 : v(t) = j (t) = J/2 * sin (wj t)

Si la señal de entrada es un sinusoide tenemos que:

Fórmula 3.4: V (t) = A cos (wi t)

46

Las fórmulas 3.2 y 3.3 pueden ser combinadas y quedaría lo siguiente:

Fórmula 3.5: v (t) = A cos (wi t) cos Jwi/2 sin (wj t) + A sin (wi t) sin Jwi/2 sin (wj t)

De esta forma, la señal de salida tiene a la señal de entrada más dos

componentes, cuyas frecuencias son resultado de la diferencia (y suma) entre la

frecuencia de la señal y la frecuencia del jitter.

Esto se aprecia en al figura 3.19, ahí se muestra el efecto del jitter

sinusoidal en una señal real. La señal de entrada tiene una frecuencia de 10 KHz y

la modulación o frecuencia de jitter es de 3 KHz, por lo tanto las bandas laterales

producto de la modulación por jitter estarán a 7 KHz (banda inferior) y 13 KHz

(banda superior). Nótese que también se observa un aumento notorio del ruido en

las proximidades a los 10 KHz, esto se debe a la acción de cierto jitter del tipo

ruido de baja frecuencia en el sistema.

Figura 3.19: Bandas laterales generadas por jitter.

47

La amplitud en decibeles de estas bandas laterales está relacionada con la

amplitud del jitter y con la frecuencia de la señal de entrada, como ya sabemos

mientras mayor sea la amplitud del jitter y mayor sea la frecuencia de la señal de

entrada más nivel tendrán estas bandas, trayendo esto como consecuencia la

reducción del rango dinámico de salida y el aumento del THD.

La fórmula 3.6 expresa la diferencia en nivel entre la señal de entrada y

cada banda lateral en decibeles es:

Fórmula 3.6: Rssb = 20 log Jwi/4 [dB] (single side band)

Siendo wi = frec. señal de entrada [Hz]

J = amplitud peak del jitter

Por conveniencia esta fórmula se puede modificar, sumando los niveles de

ambas bandas para arrojar un error total. De esta forma resulta

Fórmula 3.7: Rdsb = 20 log (Jn fi) – 104 dB [dB] (double side band)

Donde Jn = nivel rms de jitter [ns]

fi = frecuencia señal entrada [KHz]

Esta situación se da para componentes sinusoidales de jitter, pero

utilizando análisis de Fourier, componentes complejos de jitter se pueden

descomponer en elementos sinusoidales discretos y de esta forma se puede

aplicar la misma lógica de las bandas laterales, las que en estos casos no serán

dos, sino que más bandas las que se generarán, pudiéndose sumar los niveles

totales de las bandas inferiores y superiores para dar así un nivel total para cada

banda.

48

3.4.6.3 CIRCUITOS PLL Y SAMPLING JITTER

En vista de la especial sensibilidad al jitter que se da lugar en la etapa de

conversión, necesitamos que nuestro clock de sampleo sea lo más exacto posible.

Pieza clave en esta tarea son nuestros conocidos phase lock loop (PLL); A

continuación se verán las dos configuraciones en que ellos se presentan en la

cadena digital, estas son: recuperación de clock de una etapa y recuperación de

clock de dos etapas, siendo esta última una pieza clave para obtener una señal lo

más libre de jitter posible.

3.4.6.3.1 RECUPERACIÓN DE CLOCK DE UNA ETAPA

El esquema utilizado para esta aplicación se muestra en la figura 3.20.

Figura 3.20: Arquitectura de un recuperador de clock simple AES3

La referencia para el PLL es derivada de las transiciones de la data de la

señal de interfase de entrada, y la misma salida del PLL es usada para alinear la

data en el decodificador bifásico o, si bien la data no va a ser decodificada, para

realinear (reclock) el bit stream directamente a la salida. Nótese que un clock

49

común está siendo usado para decodificación de data y para alinear los tiempos

de salida.

Los PLL funcionan con osciladores, los cuales pueden tener un rango de

frecuencia amplio o angosto.

Un oscilador de rango amplio, tal como uno basado en un circuito

sintonizado o un sistema multivibrador de resistencia / capacidad (RC) –el cual

posee una frecuencia de corte alrededor de los 10 KHz– tiene dos ventajas: el

feedback o realimentación que se genera en el loop atenuará el ruido de fase del

oscilador bajo esta frecuencia, de esta forma se verá reducido el jitter intrínsico. El

feedback también permitirá al oscilador soportar jitter bajo esta frecuencia,

aumentando de esta forma la tolerancia al jitter. Para frecuencias sobre la zona de

corte del PLL la tolerancia bajaría a + - 0.25 UI.

La desventaja de los osciladores de espectro amplio es por lo tanto, que

estos circuitos absorben casi todo el jitter de entrada pero no lo atenúan. Esto se

traduce en una potencial acumulación de jitter si se utilizaran un número

significativo de equipos en cascada.

En la otra mano se tiene a los osciladores de cristal (cuarzo), los cuales

tienen un rango de frecuencia angosto; lo que implica mucho menos feedback y

una frecuencia de corte inferior. Esto reduciría la tolerancia de jitter a menos de +-

0.5 UI en todas las frecuencias – salvo las más bajas -. El ruido de fase de un

oscilador de cristal es bajo, por lo tanto el feedback reducido no tendrá como

consecuencia una mayor cantidad de jitter intrínsico en la salida. A raíz de tener

una frecuencia de corte inferior, la función de transferencia de jitter ahora atenúa

jitter en frecuencias más bajas.

Este tipo de oscilador no provee de protección contra la acumulación de

jitter, el hecho que su frecuencia de corte sea más baja no ayuda mucho, debido a

que la atenuación que éste provee se contrapone con la escasa tolerancia al jitter

que presenta, de esta forma no se gana en protección.

50

El bajo jitter intrínsico de un oscilador de cristal se puede sumar con el jitter

introducido en el cable por lo cual esta característica no es una gran ventaja

tampoco. La desventaja clave que se presenta es el limitado rango de enganche

(lock) producto del ancho de banda también angosto del PLL de cristal. Como se

verá a continuación, este tipo de osciladores cumple una función clave dentro de

la arquitectura de recuperación de clock dual.

3.4.6.3.2 RECUPERACIÓN DE CLOCK DE 2 ETAPAS (DUAL)

Este tipo de diseño se muestra en la figura 3.21.

Figura 3.21: Arquitectura de un recuperador de clock dual AES3

La primera etapa extrae el clock que es usado para decodificar el patrón de

data bifásico entrante, y la segunda etapa es usada para generar los tiempos de

salida. El receptor PLL en la primera etapa (oscilador de rango amplio) está

designado para “absorber” (track) el jitter lo mejor posible, sin requerimientos de

atenuación, mientras que el segundo PLL no tiene que absorber jitter, sino que

está diseñado exclusivamente para atenuación de jitter (oscilador de cristal).

51

Uno de los beneficios de este diseño de doble PLL está ilustrado en la

figura 3.22.

De esta forma, tenemos que en la zona donde no se atenúa jitter (zona

plana de la función de transferencia jitter) la tolerancia sería varias veces mejor

que la tolerancia para frecuencias altas, asegurándose de esta forma protección

contra acumulación de jitter, incluso en sistemas donde ésta alcance niveles de

varias UI debido a jitter de baja frecuencia.

Dicho de una forma sencilla, el primer PLL se encarga de leer el data

stream sin errores, tolerando al máximo el jitter de entrada, mientras que el

segundo PLL lo atenúa, de esta forma rectificando el clock para sincronizar el data

stream de salida con una referencia mejorada.

Como se puede deducir, este diseño dual de PLL es el utilizado por los

convertidores D/A para transformar el data stream en señal análoga.

Figura 3.22: Beneficios del diseño de doble PLL, y visualización

de la transferencia de jitter (FTJ).

52

3.4.6.4 AUDIBILIDAD DEL SAMPLING JITTER

Como ya se sabe, el jitter presente en un clock de sampleo afecta la calidad

final de la señal reproducida, agregando modulaciones de fase potencialmente

audibles a la señal original. La audibilidad de estos productos está relacionado con

la naturaleza del jitter y la señal de audio. Se han calculado las amplitudes de jitter

requeridas para que estos productos sean audibles en presencia de una “señal

conflictiva” (alta frecuencia / alto nivel [dB]).

El gráfico 3.1 muestra niveles máximos de sampling jitter sinusoidal que no

producirían elementos de modulación audibles para el oído humano.

Gráfico 3.1

Aquí se muestra que aún amplitudes del orden de menos de nanosegundos

de sampling jitter pueden producir efectos audibles (para algunas señales de

audio) cuando la frecuencia de jitter es mayor que 600 Hz. Bajo esta frecuencia, la

53

modulación requerida para la audibilidad aumenta bruscamente como resultado

del enmascaramiento generado por el tono que está siendo modulado. Este efecto

de enmascaramiento ocurre porque las bandas laterales –producto de la

modulación– están demasiado cerca de la señal original. Para frecuencias de jitter

sobre 200 Hz nuestra sensibilidad a la modulación aumenta rápidamente, es decir,

nuestro oído puede diferenciar con más claridad la señal original de las bandas

laterales (ver figura 3.23).

Figura 3.23: Curvas de enmascaramiento.

De esto se puede sacar como conclusión que si el jitter de interfase total

puede ser controlado por sobre los 500 Hz (atenuado) esto simplificaría la tarea de

derivar un clock adecuado para sampleo a partir de la señal de interfase.

Para cerrar la idea, se concluye que muchos tipos de convertidores usan

señal de interfase para derivar clock de sampleo. Si éste no atenúa

apropiadamente el jitter que proviene de la interfase, entonces el sampling jitter

presentará un excesivo nivel.

Con circuitos apropiados de recuperación de clock, cantidades razonables

de interface jitter no deberían afectar la calidad final de la señal reproducida –por

lo tanto las mediciones de jitter de interfase no nos darían información de los

niveles requeridos de sampling jitter del equipo en cuestión–.

54

3.4.6.4.1 NIVELES ACEPTABLES DE SAMPLING JITTER

El mercado de equipamiento de audio de alta calidad y la asociación de

niveles de jitter extremadamente bajos con la calidad del audio están requiriendo

máquinas que generen niveles de sampling jitter cuyos elementos de modulación

caigan bajo el nivel de ruido de cuantización del sistema. Por esta razón los

niveles de sampling jitter derivados de interfase deben ser menores a 10 ns.

Es importante que estos aparatos tengan una relación señal ruido de al

menos 100 dB. Esto implicaría niveles de sampling jitter menores a 1.6 ns rms

(para un estímulo convencional de un tono puro de 1 KHz).

3.5 ERRORES DE AMPLITUD

En un sistema de números binario, el largo de palabra determina el número

de intervalos de cuantización disponible, como ya se sabe, éste puede ser

calculado elevando el largo de palabra a la potencia de 2. Dicho de otra forma,

una palabra de “n” bits obtendrá 2n niveles de cuantización, como podemos

apreciar en la tabla 3.2:

Tabla 3.2

55

Nótese que cada vez que se agrega un bit a la palabra, el número de

niveles se duplica, a mas bits, mejor aproximación; pero como se puede apreciar,

siempre hay un error asociado a la cuantización debido a que el número finito de

niveles de amplitud codificados en la palabra binaria nunca podrá igualar al infinito

número de amplitudes que presentan una señal análoga. Se tratará de esclarecer

el proceso de cuantización con la siguiente analogía: si se apilara una ruma de

hojas de máquina de escribir de una altura de 22 pies, el grosor de una hoja

representaría un nivel de cuantización en un sistema de 16 bits, en un sistema de

20 bits la ruma alcanzaría una altura de 352 pies, y en uno de 24 bits 5632 pies de

alto: más de una milla. El cuantizador podría medir esta milla con una precisión

igual al grosor de una hoja de papel, si una sola hoja fuera removida de la ruma el

bit menos significativo (LSB) cambiaría de 1 a 0.

Para que nos hagamos una idea de la exactitud con que trabaja un

cuantizador de 24 bits hagamos cuenta que medimos la distancia de los Ángeles a

Nueva York con una precisión de 24 bits: el mínimo error de medición sería igual o

menor a 9 pulgadas (estas serían análogas al LSB).

El largo de la palabra determina la resolución de un sistema de

digitalización y esto provee una especificación importante para evaluar la

ejecución de éste.

A veces el intervalo cuantizado estará en el mismo lugar que el valor

análogo de la señal, usualmente no ocurre esto. En el peor de los casos el valor

análogo estará a medio camino de un intervalo de cuantización.

La figura 3.24 ejemplifica lo anteriormente expuesto.

56

Figura 3.24: Visualización gráfica de la cuantización.

En el dibujo se tiene una palabra binaria de un valor 101000, la cual

corresponde a un intervalo análogo de 1.4v, y la siguiente palabra, 101001,

corresponde al intervalo de 1.5v... desafortunadamente, el valor análogo en el

instante de sampleo es de 1.45 v. Como no existe el intervalo en 1010001/2, el

cuantizador debe aproximar a 101001 o bajar a 101000.

De cualquier forma, existirá un error de una magnitud igual a medio

intervalo.

El error de cuantización por lo tanto, es la diferencia entre el valor real

análogo en el instante de muestreo y el valor del intervalo de cuantización

seleccionado en ese mismo instante. En el instante de sampleo el valor de la

amplitud es llevado al intervalo de cuantización más cercano, tal como se muestra

en la figura 3.25.

El error de cuantización está de este modo limitado a un rango de +Q/2 y –

Q/2, donde Q es un intervalo de cuantización.

Nótese que este proceso de selección de un nivel u otro es el mecanismo

básico de la cuantización, y ocurre para todas las muestras en el sistema digital y

que la magnitud del error es siempre igual o menor que la mitad de un LSB. Este

error se traduce en una distorsión que está presente para señales de cualquier

amplitud. Cuando la señal es grande la distorsión es relativamente pequeña y se

produce enmascaramiento, sin embargo, cuando la señal es pequeña la distorsión

es relativamente grande y puede ser audible.

57

Figura 3.25: Error de cuantización.

3.5.1 DISTORSIÓN DE CUANTIZACIÓN

Análisis del error de cuantización en señales de baja amplitud revelan que

su espectro es una función de la señal de entrada. El error ya no se presenta

como ruido, sino que ahora existe una correlación con la señal de entrada. Debido

a que el error de cuantización es una función de la señal original, éste no puede

ser descrito como ruido, sino que debe ser clasificado como distorsión.

Con una señal de nivel máximo peak to peak, tenemos que todos los

intervalos de cuantización son ocupados para codificar dicha señal. En cambio,

una señal de muy bajo nivel debería recibir una cuantización de un bit o a aún

peor , no ser cuantizada. En otras palabras, cuando el nivel de la señal decrece, el

porcentaje de error aumenta. Para aliviar esta problemática se usa el dither.

58

El llamado “piso de error” de un sistema de audio digital difiere del piso de

ruido de un sistema análogo en que en un sistema digital el error es función de la

señal –las características del error de cuantización varían con la amplitud y

naturaleza de la señal de audio–.

En señales de entrada de alto nivel y ancho de banda extendido (como la

música) el error de cuantización es percibido como un ruido blanco –ya que en

este caso el error es independiente de la señal–.

Sin embargo, la calidad perceptual del error es menos benigna a medida

que decrece el nivel de la señal, o su ancho de banda.

La distorsión de cuantización puede tomar muchas formas. Por ejemplo, la

señal cuantizada puede contener componentes sobre la frecuencia de Nyquist, de

esta forma podría ocurrir el fenómeno de alias.

Si la señal tiene un alto nivel o es compleja, los componentes generados

por el alias se sumarán al ruido general ocasionado por el error que ya estaba

presente en dicha señal. No obstante, si la señal es de bajo nivel y espectralmente

simple, los componentes de alias serán más audibles. Consideremos un

sistema con un sistema de muestreo de 50 KHz y limitación de banda a 25 KHz.

Cuando se le aplica una señal sinusoidal de 7 KHz de una amplitud de un intervalo

de cuantización, ésta es cuantizada como una onda cuadrada de 7 KHz. Los

armónicos de esta onda cuadrada aparecerán en los 21, 35 y 49 KHz, estos dos

últimos generan alias en 15 y 1 KHz, respectivamente. Esto mismo ocurre con

otros armónicos de dicha señal.

El alias generado por cuantización puede crear un efecto llamado “ruido de

granulación”. Este ruido se hace más audible en presencia de señales de bajo

nivel. Esta combinación de ruido modulante con distorsión no tiene su contraparte

en el mundo análogo y auditivamente es molesto.

Para agravar aún más las cosas, si el componente de alias está cerca de un

múltiplo de la frecuencia de sampleo se pueden generar tonos pulsantes,

produciendo un desagradable sonido llamado “canturreo de pájaros”.

59

Si tenemos un tono decayendo en fade out éste presenta una forma de

onda descendente a través de los niveles de cuantización, tenemos entonces que

el error perceptualmente va cambiando desde un ruido blanco hasta llegar a

componentes de distorsión. Este problema se ve agravado debido a que hasta

complejos tonos musicales tornan en componentes sinusoidales a medida que

decaen en amplitud, de esta forma, el tono descendente tiende a modular en

amplitud a los componentes de distorsión ya presentes... una vez más el dither

soluciona estas anomalías.

3.5.2 DITHER

3.5.2.1 UN POCO DE HISTORIA...

Los primeros usos que tuvo el dither se remontan a la época de la Segunda

Guerra Mundial. Los bombarderos utilizaban computadores mecánicos para

realizar cálculos de navegación aérea y de trayectoria de bombas. Curiosamente,

estos computadores –verdaderas cajas llenas de engranajes– funcionaban mejor

en el aire que en la tierra.

Los ingenieros se dieron cuenta que la vibración de la aeronave reducía el

error generado por las toscas partes móviles del computador. En vez de moverse

a saltos, éstas lo hacían de una forma más continua. Se construyeron entonces

pequeños motores vibradores dentro de los computadores, y su vibración se llamó

“dither”, palabra que viene de un verbo del inglés antiguo – didderen – que

significa “temblar”. Los diccionarios modernos definen dither como “ un estado

altamente nervioso, confuso o agitado ”

En pequeñas cantidades, el dither efectivamente hace que un sistema de

digitalización sea un poco más análogo –en el buen sentido de la palabra–.

60

3.5.2.2 DEFINICIÓN DE DITHER

Con señales complejas de amplitud elevada, existe muy poca correlación

entre la señal y el error de cuantización. De este modo, el error es aleatorio y

perceptualmente similar al ruido blanco.

Pero con señales de bajo nivel, el carácter del error cambia, a medida que

aumenta la correlación entre éste y la señal de entrada, generándose de esta

forma distorsión potencialmente audible.

Un sistema de digitalización debe suprimir cualquier elemento audible de su

error de cuantización.

Obviamente, el número de bits de la palabra cuantizadora puede ser

incrementado, decreciendo de esta forma la amplitud del error una razón de 6 dB

por bit adicional. Esto no es viable económicamente, ya que muchos bits se

necesitarían para reducir satisfactoriamente la audibilidad del error de

cuantización, aún así, el error será siempre relativamente significativo en

presencia de señales de bajo nivel.

El dither solucionaría efectivamente este problema.

El dither es una pequeña cantidad de ruido –ruido benigno–, el cual no tiene

relación con la señal de audio, éste es añadido a la señal antes de la etapa de

muestreo; esto lineariza el proceso de cuantización.

El dither hace que la señal de audio “conmute” o cambie alternativamente

de nivel de cuantización. En vez que ocurran patrones periódicos de cuantización

en formas de onda consecutivas, con dither, cada ciclo es diferente. De esta

forma, deja de existir correlación entre la señal de audio y el error de cuantización,

por lo tanto, su efecto es aleatorizado a tal grado que desaparece. No obstante el

dither reduce en gran medida la distorsión, éste añade un poco de ruido a la señal

de audio de salida.

61

En un sentido estrictamente conceptual, el dither es similar al bias de alta

frecuencia en una grabadora de cinta magnética análoga.

El dither no enmascara el error de cuantización, mas bien, permite al

sistema digital codificar amplitudes mas pequeñas que el LSB (bit menos

significativo), en una forma similar a como un sistema análogo puede registrar

señales bajo su piso de ruido.

Un sistema digital con dither puede exceder largamente la relación

señal/ruido de un sistema análogo. De la misma forma, un sistema digital carente

de dither puede ser peor que un sistema análogo, especialmente en presencia de

señales de bajo nivel.

Para obtener una digitalización de máxima calidad, es necesario agregar

dither antes de la cuantización en el convertidor A/D.

Considérese el caso de una señal de audio de entrada con una amplitud

igual a un intervalo de cuantización. La señal se moverá o dentro del intervalo

–resultando en una señal cuantizada DC (continua)– o se moverá a través del

umbral del último intervalo y el siguiente, resultando a la salida una onda

cuadrada, como se muestra en la figura 3.26 secciones A y B.

Figura 3.26: Visualización gráfica para una onda de audio con dither.

62

La onda cuadrada demuestra que la cuantización en niveles muy bajos

actúa como un limitador extremo, en otras palabras, una severa distorsión toma

lugar.

El efecto es bastante diferente cuando el dither es agregado a la señal de

audio, como se observa en la sección C. En la sección D, se muestra la señal de

pulsos que preserva la información de la señal original. De esta forma, la señal

cuantizada va conmutando arriba y abajo, a medida que la señal con dither varía,

siguiendo el valor promedio de la señal de entrada.

Figura 3.27: El dither permite codificar información bajo el LSB.

Esta codificación es conocida como “modulación por ancho de pulsos” ó

PWM (pulse-width modulation), la cual preserva con exactitud la forma de onda de

63

la señal de entrada. El valor promedio de la señal cuantizada se mueve

continuamente entre dos niveles, aliviando el efecto del error de cuantización. De

esta misma forma, ruido análogo sería codificado como una señal binaria de ruido;

valores de 0 y 1 aparecerían en el LSB en cada período de sampleo, manteniendo

la señal su característica de ruido blanco. El resultado perceptual es la señal mas

un ruido agregado –mucho más deseable que una onda cuantizada cuadrada–.

Matemáticamente, con el dither el error de cuantización ya no es una

función determinante de la señal de entrada, sino que se convierte en un variable

aleatoria. Esta técnica es conocida como dither no sustractivo porque la señal

dither está permanentemente agregada a la señal de audio. El error total no es

estadísticamente independiente de la señal de audio, y los errores no son

independientes muestra a muestra. El dithering sustractivo, en el cual la señal

dither es removida después de la recuantización (etapa D/A), teóricamente provee

total independencia estadística de error, pero es más difícil de implementar.

John Vanderkooy y Stanley Lipshitz demostraron los beneficios del dither

con una señal sinusoidal de 1 Khz de una amplitud peak to peak de 1 LSB, como

se demuestra en la figura 3.27. Sin dither (A), una onda cuadrada se genera a la

salida del convertidor D/A. Cuando se agrega dither gaussiano (aleatorio) de 1/3

de LSB de amplitud rms a la señal original, se tiene como resultado una forma de

onda modulada por ancho de pulsos (B). La señal sinusoidal codificada es

revelada cuando ésta es promediada en una cantidad considerable de periodos (C

y D).

El oído percibe las señales acústicas promediándolas en el tiempo; dicho de

otra forma, el oído es un filtro pasa bajos que promedia señales. En este caso, una

sinusoide ruidosa será escuchada, en vez de una onda cuadrada.

Con el dither, la resolución de un sistema de digitalización está mucho más

abajo del bit menos significativo de cuantización.

64

Teóricamente, no existe límite para la resolución de niveles bajos.

Codificando la señal con dither para que module a la señal cuantizada hace que

esta información pueda ser recuperada, aunque la señal tenga una amplitud

menor que el intervalo de cuantización más pequeño. Más aún, el dither puede

eliminar la distorsión causada por cuantización, reduciéndola a ruido blanco. Una

prueba de ello, está ilustrada en la figura 3.28, ahí se muestra una sinusoide de 1

KHz de una amplitud de 4 LSB peak to peak. La primera columna muestra la señal

sin dither. La segunda columna muestra la misma señal con un dither pdf

triangular (probability density function: función de probabilidad de densidad) –en el

siguiente ítem se explicarán los tipos de dither– de una amplitud peak to peak de 2

LSB. En ambos casos, la primera fila muestra la señal de entrada. La segunda fila

muestra la señal de salida, la tercera muestra la señal del error de cuantización

total, la cuarta, el espectro de la señal de salida.

La señal de salida sin dither (D) sufre de distorsión armónica producto del

alias. La señal de error (G) de la señal con dither muestra elementos de la señal

de entrada, de este modo, el error no es estadísticamente independiente de ella.

Sin embargo, esta señal de error se escucharía como ruido blanco (aunque

claramente no se “ve” como ruido blanco) y la señal de salida se oiría como una

sinusoide con ruido. Esto es apoyado por el diagrama de espectro de la señal con

dither, el cual muestra que ella está libre de elementos dependientes de la señal, y

posee un piso de ruido blanco.

65

Figura 3.28: Simulación computarizada de la cuantizaciòn de una señal sinusoidal

de bajo nivel (1kHz) con y sin dither. A: señal de entrada. B: señal de

salida (sin dither). C: señal total de error (sin dither). D: Densidad espectral

de potencia de la señal de salida (sin dither). E: señal de entrada. F: señal

de salida (con dither de pdf triangular). G: señal total de error (con dither

de pdf triangular). H: Densidad espectral de potencia (con dither).

66

3.5.2.3 TIPOS DE DITHER

Existen varios tipos de señales dither, generalmente éstas se diferencian

por su pdf o función de probabilidad de densidad.

Dada una señal aleatoria con una cantidad infinita de valores posibles, la

integral de la función de probabilidad de densidad describe la probabilidad de

valores ( para una señal) que se pueden dar en un intervalo de muestreo. La

probabilidad que el valor de la señal caiga dentro del intervalo esta dada por el

área bajo la función. La probabilidad puede ser constante por un intervalo o puede

variar. Para aplicaciones de audio el interés está focalizado en tres tipos de

señales dither: pdf gaussiano (aleatorio), pdf rectangular (uniforme) y pdf

triangular, como se muestra en la figura 3.29. Por ejemplo, se debe hablar de una

señal dither blanca estadísticamente independiente, con una pdf triangular de un

nivel –o ancho– de 2 LSB.

Los tres tipos de dither efectivamente linearizan la característica de

transferencia de la cuantización, pero difieren en sus resultados.

Si bien las señales dither con pdf rectangular y triangular agregan menos

ruido total a la señal, el dither gaussiano es más fácil de implementar en el

dominio análogo.

67

Figura 3.29: Estas funciones son utilizadas para describir señales de dither.

Los sistemas de digitalización de audio más usados incluyen pdf

rectangular, pdf triangular y pdf Gaussiano. A: dither rectangular.

B: dither triangular. C: dither Gaussiano.

Es posible generar dither gaussiano utilizando técnicas análogas comunes;

por ejemplo, un diodo puede ser utilizado como una fuente de ruido. El ruido dither

debe variar entre valores negativos y positivos en cada período de muestreo; su

ancho de banda debe ser a lo menos la mitad de la frecuencia de sampleo.

Un dither gaussiano con un valor rms de ½ LSB efectivamente linearizaría

los errores de cuantización; sin embargo, un porcentaje de modulación de ruido es

agregado a la señal de audio.

La potencia de ruido de cuantización sin dither llega a Q2/12 (ó Q/√12 rms).

El dither gaussiano contribuye con una potencia de ruido de Q2 / 4, y éste

combinado con el ruido ya existente suman Q2 / √3 (ó Q/ 3 rms), donde Q es un

LSB. Como se puede ver el aumento del piso del ruido es importante.

68

Un dither con pdf rectangular es un voltaje aleatorio constante

uniformemente distribuido en un intervalo, este dither operando entre +- ½ LSB

(esto es, una señal de ruido con una función de probabilidad de densidad

uniforme, con un ancho peak to peak igual a un LSB) linearizaría completamente

la “escalera de cuantización” y eliminaría los elementos de distorsión generados

por la cuantización. Sin embargo, esta pdf rectangular no elimina la modulación

del piso de ruido. Con dither de pdf rectangular, el nivel de ruido es más propenso

a ser dependiente de la señal.

Esta modulación de ruido será cuestionable en presencia de señales de

muy baja frecuencia o dinámica muy variable. Un dither de pdf rectangular de ½

LSB agrega Q2 /12 de potencia de ruido al ruido de cuantización ya existente (Q2

/12); esto logra una potencia de ruido combinada de Q2 / 6 (ó Q/ √6 rms).

Se cree que la mejor señal dither es la con pdf triangular de 2 LSB de ancho

peak to peak. Este tipo de dither elimina la distorsión y también la modulación del

piso de ruido; sin embargo, el piso de ruido es un poco mas elevado que con un

dither pdf rectangular. El dither pdf triangular agrega una potencia de ruido de Q2 /

6 a la potencia de ruido ya existente (Q2 /12), resultando una potencia de ruido

final de Q2 /4 (ó Q / √2 rms ).

No obstante se utilizen estas amplitudes óptimas, comparado con una señal

sin dither, un dither de pdf rectangular aumenta el ruido el ruido en 3 dB, uno de

pdf triangular lo hace en 4.77 dB, y un dither con pdf gaussiano aumenta el ruido

en 6 dB.

En general, un dither con pdf rectangular será preferido para propósitos de

medición, debido a su expandida relación señal/ruido, sin embargo, el dither pdf

triangular es considerado mas agradable para el oído humano, siendo éste

entonces el mas apto para utilizar con música, a pesar que posea un piso de ruido

un poco mayor.

69

Claramente, el dither gaussiano (o aleatorio) tiene un problema de ruido

excesivo.

Debido a que el dither pdf rectangular y pdf triangular son fácilmente

generados en el dominio digital, son preferidos al dither gaussiano en aplicaciones

de recuantización antes de la conversión D/A.

Cuando se midan parámetros tales como la distorsión en equipos de audio

digital, es importante que la señal de prueba ya tenga dither, de otra forma la

medición reflejará una distorsión que es producto de la señal en sí, y no del

equipamiento bajo medición.

La amplitud del dither es un factor importante a considerar. La figura 3.30

muestra cómo el intervalo de cuantización mas bajo es linearizado, agregando

diferentes amplitudes de dither pdf gaussiano y pdf rectangular. En ambos casos,

los efectos de la cuantización disminuyen a medida que se agregan amplitudes de

dither relativamente mayores. Como se puede ver, una señal pdf gaussiana de

amplitud ½ LSB rms logra una característica lineal. Con un dither pdf rectangular,

un nivel de 1 LSB peak to peak consigue lo mismo. En cualquier caso, agregar

dither de amplitud excesiva disminuiría severamente la relación señal/ruido de un

sistema digital.

Figura 3.30: Transferencia característica de entrada/salida mostrando

efectos de dither con varias amplitudes.

A: señal de dither gaussiano de ½ LSB linealizada.

B: señal de dither rectangular de 1 LSB linealizada.

70

El aumento del ruido producto del dither es generalmente insignificante,

dada la gran relación señal/ruido inherente a un sistema digital, sin embargo, la

audibilidad de este ruido puede ser minimizada mas aún, por ejemplo, utilizando

un filtro pasa altos de señal dither (high pass dither signal). Esto puede ser logrado

con un dither generado digitalmente.

Por ejemplo, el espectro de un dither pdf triangular puede ser procesado de

modo que su amplitud disminuya en frecuencias medias y aumente en alta

frecuencia, por lo tanto, como el oído humano es relativamente insensible en ese

rango, esta señal de dither será menos audible que un dither de rango extendido,

además, se eliminan la distorsión y la modulación del piso de ruido.

Estas técnicas –usualmente llamadas noise shaping– pueden ser utilizadas

para reducir audiblemente el error de cuantización, por ejemplo, cuando se trunca

una señal procesada en 20 bits a 16 bits.

En términos generales, se puede procesar la señal dither para moldear

sicoacústicamente el piso de ruido de cuantización y de esta forma, reducir su

audibilidad.

Los diseñadores han observado que la amplitud de una señal dither puede

ser disminuida, si se agrega una sinusoide de frecuencia inferior a la de Nyquist, y

amplitud 1 (ó 1/2) intervalo de cuantización a la señal de audio. La señal

sinusoidal agregada debe estar sobre el umbral de audición, pero bajo la

frecuencia de Nyquist para prevenir el alias.

Sin embargo, una frecuencia discreta de dither puede intermodular con las

señales de audio, una señal dither de espectro extendido no tiene este

problema...una cosa por otra.

Por último, cuando la señal se manipula o procesa en el dominio digital, se

utiliza dither digital para aliviar el llamado error de round-off . Por ello, se debe

averiguar si el equipamiento digital utilizado (ej: plugins) tiene la capacidad de

procesar las señales con dicho dither.

procesos que degradan la seÑal de audio digital

Documents