procesos que degradan la seÑal de audio digital
TRANSCRIPT
UNIVERSIDAD TECNOLÓGICA VICENTE PÉREZ ROSALES INGENIERÍA DE EJECUCIÓN EN SONIDO
TESIS DE TITULACIÓN ANÁLISIS COMPARATIVO DE LOS PROCESOS QUE DEGRADAN LA SEÑAL
DE AUDIO DIGITAL
ALVARO JAVIER BORAGK LUENGO JUAN JOSÉ YÁÑEZ CISTERNAS
-2002-
2
UNIVERSIDAD TECNOLÓGICA VICENTE PÉREZ ROSALES INGENIERÍA DE EJECUCIÓN EN SONIDO
PROFESOR GUÍA ROBERTO MUÑOZ SOTO
TESIS DE TITULACIÓN ANÁLISIS COMPARATIVO DE LOS PROCESOS QUE DEGRADAN LA SEÑAL
DE AUDIO DIGITAL
TESIS DE TITULACIÓN PRESENTADA COMO PARTE DE LOS REQUISITOS PARA OPTAR AL TÍTULO DE INGENIERO DE EJECUCIÓN EN SONIDO
ALVARO JAVIER BORAGK LUENGO JUAN JOSÉ YÁÑEZ CISTERNAS
SANTIAGO DE CHILE, (2002)
3
INDICE
Capítulo 1. RESUMEN 6 Capítulo 2. INTRODUCCIÓN 7
Capítulo 3. DESARROLLO 10 3.1 Hipótesis 10 3.2 ESTRUCTURA DE LA SEÑAL DE AUDIO DIGITAL (INTERFASE) 11
3.2.1 INTERVALO UNITARIO 14
3.3 SECCIONES DE UN SUBCUADRO 15
3.3.1 PREÁMBULO 16
3.3.2 BLOQUE 17 3.3.3 BIT DE VALIDEZ (VALIDITY) 20 3.3.4 BIT DE USUARIO (USER BIT) 20
3.3.5 BIT DE ESTADO DE CANAL (CHANNEL STATUS BIT) 20 3.3.6 BIT DE PARIDAD 22 3.4 FALENCIAS EN EL DOMINIO DIGITAL 22 3.4.1 ERRORES DE TIEMPO 22 3.4.2 DEFINICIÓN DE JITTER 23 3.4.3 TIPOS DE JITTER 26 3.4.3.1 JITTER INTRÍNSECO 26 3.4.3.1.1 CIRCUITOS PLL Y JITTER 28 3.4.3.2 JITTER INDUCIDO POR CABLE 31
3.4.3.2.1 PATTERN DEPENDENT JITTER 31 3.4.3.3 JITTER PRODUCIDO POR RUIDO DE INTERFERENCIA 33 3.4.4 TOLERANCIA DE JITTER 36 3.4.5 ACUMULACIÓN DE JITTER 37
4
3.4.6 SAMPLING JITTER 39 3.4.6.1 JITTER EN EL DOMINIO DEL TIEMPO 41 3.4.6.2 JITTER EN EL DOMINIO DE LA FRECUENCIA 44 3.4.6.3 CIRCUITOS PLL Y SAMPLING JITTER 47 3.4.6.3.1 RECUPERACIÓN DE CLOCK DE UNA ETAPA 47 3.4.6.3.2 RECUPERACIÓN DE CLOCK DE 2 ETAPAS (DUAL) 49 3.4.6.4 AUDIBILIDAD DEL SAMPLING JITTER 51 3.4.6.4.1 NIVELES ACEPTABLES DE SAMPLING JITTER 53 3.5 ERRORES DE AMPLITUD 53 3.5.1 DISTORSIÓN DE CUANTIZACIÓN 56 3.5.2 DITHER 58 3.5.2.1 UN POCO DE HISTORIA... 58
3.5.2.2 DEFINICIÓN DE DITHER 59
3.5.2.3 TIPOS DE DITHER 65
3.6 DISEÑO DE LOS ESQUEMAS DE MEDICIÓN 70
3.6.1 Medición de THD + N en un convertidor A/D/A (etapa A/D)
70
3.6.1.1Análisis A/D del M-Box 72 3.6.1.2 Análisis A/D de la Motu 1296 73
3.6.2 Medición de THD +N en un convertidor A/D/A (Etapa D/A)
73
3.6.2.1 Medición D/A Motu 1296 75
3.6.3 Medición de THD + N en plugins
75
3.6.4 Medición de distorsión de fase en plugins 77
5
3.6.5 Comparación final: compresor digital v/s compresor análogo 78
Capítulo 4. CONCLUSIONES 79 4.1 VISUALIZACIÓN GRÁFICA Y TABULACIÓN DE LOS RESULTADOS DE LAS MEDICIONES 79 4.2 VISUALIZACIÓN DE DISTORSIÓN DE FASE EN PLUGINS 94 4.3 Conclusiones finales 97
Capítulo 5. APÉNDICE 100 5.1 PUNTO FIJO Y PUNTO FLOTANTE 100
6
Capítulo 1. RESUMEN
En el tratamiento o procesamiento de señales de audio inciden una serie de
factores, así como en el dominio del audio digital nos encontramos con elementos
que influyen directamente en el resultado final de nuestras grabaciones, como lo
son los convertidores A/D/A y los plugins –los que en definitiva operan
directamente sobre la señal digitalizada–. Ahora bien, las incógnitas son ¿Cuáles
son los factores incidentes? ¿Como afectan la señal de audio? ¿Que tan cerca o
lejos está el resultado del proceso digital con respecto al análogo?
Nuestro objetivo es dar respuesta a estas interrogantes revisando los
estudios teóricos que hay al respecto y es así, como definimos los parámetros que
influyen en la degradación de la señal de audio digital, basándonos en el estudio,
análisis y comprensión de libros y documentos normalmente disponibles en inglés,
logrando crear una definición de estos conceptos en nuestro idioma. Realizando
en forma práctica mediciones en el estudio de Post Producción de la Universidad,
las cuales fueron evaluadas en un software llamado SpectraLab, que nos permitió
determinar como se ha afectado nuestra señal de audio.
Las mediciones efectuadas en forma práctica nos muestran una
homogeneidad en los resultados, con excepciones muy puntuales, que nos
permiten constatar tendencias claras en el ámbito del audio digital. Sin embargo,
una vez realizada la comparación con el mundo análogo, hemos constatado que
7
existe una diferencia notoria entre lo digital y lo análogo que pasa por la capacidad
que tiene el audio digital de estar menos contaminado por distorsiones y ruidos
cuando se trabaja con los equipos adecuados y la posibilidad cierta de corregir
defectos si se producen. En cambio, el audio análogo nos presenta registros más
contaminados, pero que son a los que el oído se ha acostumbrado.
Capítulo 2. INTRODUCCIÓN
Para poder entender o profundizar el conocimiento de un fenómeno, un
proceso o una actividad es necesario realizar un estudio exhaustivo sobre la
materia en cuestión. Es así como nuestra inquietud, era conocer qué elementos
afectaban nuestras grabaciones de audio y cómo poder tabular y analizar el
comportamiento de la señal de audio digital en forma cuantitativa, yendo de lo
teórico a lo práctico.
Lo primero fue compilar antecedentes que nos permitieran entender y/o
profundizar ¿qué? y ¿cómo? afecta nuestra señal de audio digital, recurriendo a
los siguientes libros y documentos en busca del conocimiento anhelado:
- Principles of digital audio
(4ª edición) por Ken C. Pohlmann (editorial McGraw-Hill)
· Audioprecision (Technotes) - The AES3 and IEC60958 Digital Interface por Julian Dunn
- Group Delay
- Jitter theory por Julian Dunn
· Journal de la AES
- Fundamentals of modern audio measurement.
8
· AES pre-print - Simple clock jitter and real-time audio over the IEEE1394 high performance serial
bus por Julian Dunn
- Towards common specifications for digital audio interface jitter por Jullian Dunn,
Birry McKibben, Roger Taylor y Chris Travis
- Jitter: specification and assessment in digital audio equipment por Julian Dunn
- The diagnosis and solution of jitter-related problems in digital audio systems por
Julian Dunn y Ian Dennis
· Digido
- Everything you always wanted to know about jitter but were afraid to ask por Bob
Katz
En primer lugar estudiamos la interfase digital, por un motivo muy
razonable: a través de esta interfase viaja la señal entre un equipo y otro, llevando
consigo vital información para su posterior decodificación. Se explica cada una de
las partes de la interfase de audio digital y qué función cumplen en ella.
A continuación, se explica teóricamente los factores claves que influyen en
la degradación de la señal, tales como el jitter –en sus múltiples variantes–,
distorsión de cuantización y de fase, las cuales finalmente se ven reflejadas en la
distorsión armónica.
También se analiza las herramientas que se utilizan para contrarrestar estas
anomalías, tales como el dither y los circuitos Phase Lock Loop en las distintas
etapas de la cadena digital.
En la etapa práctica se hicieron mediciones aisladas de cada componente
de la cadena, dejando el elemento cuestionado (convertidores A/D/A y plugins)
como variable, y los componentes restantes fijos. Esto con el fin de dilucidar en
que etapa de la cadena se produce más degradación.
9
En cada caso se miden los parámetros de distorsión armónica (THD), de
fase –sólo en la evaluación de los plugins– y ruido utilizando señales de prueba. A
su vez se analizará el efecto que tiene transformar una señal de 48 kHz a 44.1
kHz. También se analiza el efecto que tiene en la señal el proceso llamado bounce
to disc.
Paralelamente se miden los mismos parámetros de degradación en un
procesador virtual y su contraparte análoga, en este caso compararemos el
compresor Drawmer y su versión en plugins, con la finalidad de obtener una visión
general de como afecta el procesamiento digital a la señal de audio, dilucidando
que se gana y que se pierde en estos procesos.
10
Capítulo 3. DESARROLLO
3.1 Hipótesis
Una de las principales discusiones que existe en torno al audio digital, es la
comparación con el audio análogo. Donde surge las pregunta: ¿es mejor el sonido
análogo que el digital o es mejor el sonido digital que el análogo?.
Pues bien, nosotros pensamos que es mejor el sonido digital, porque
tendría menos distorsión y una buena relación señal ruido, ya que esto se puede
lograr a partir de algoritmos de programación y convertidores de alto nivel. Sin
embargo, las duda son: ¿por qué los audiófilos prefieren el audio análogo? Y
¿dónde están los principales defectos del audio digital?
11
3.2 ESTRUCTURA DE LA SEÑAL
DE AUDIO DIGITAL (INTERFASE)
Las señales análogas pueden ser llevadas de un aparato a otro con relativa
facilidad, en cambio la transferencia de señales de audio en el dominio digital es
mucho más compleja. Parámetros como frecuencia de sampleo, largo de palabra
–word–, palabras de control, sincronización y codificación deben ser definidos con
exactitud para que la transmisión se lleve a cabo sin errores. Para llevar cabo este
cometido están las interfases de audio (ejemplos: SDIF–2, ADI, AES3, ó
AES/EBU, S/PDIF y AES 10 ó MADI) las cuales llevan la data de audio digital de
un equipo a otro en tiempo real. Básicamente una interfase de audio digital lleva
tres tipos de información:
• Información de tiempo (clock)
• Audio data
• No – audio data
Parte de esta información se puede degradar por usar equipos que, si bien
se adhieren al estándar de calidad, no son los ideales. Se deben tomar en cuenta
aspectos del comportamiento y “performance” de la interfase que develan que un
equipo sea mejor que otro, por ejemplo, la habilidad de un receiver para tolerar
12
jitter o un rango amplio de frecuencias de sampleo, o la precisión con la cual un
transmisor mantiene la sincronización.
El gran número de marcas y modelos de equipos digitales hace necesaria la
aparición de un estándar para que tan heterogéneo equipamiento entienda un
lenguaje común y de esta manera la transmisión de data de un transmisor a un
receiver se haga en la forma más expedita posible.
Los estándares AES3 y IEC 60958 (IEC: International Electrotechnical
Comittée) proveen una interfase común para señales de audio digital. La interfase
definida en AES3 y IEC 60958–4 es también llamada “interfase estándar
profesional” mientras que la definida en IEC 60958–3 es llamada “Interfase de
estándar no profesional”.
Existen diferencias entre el estándar profesional y el comercial que en
ciertos casos pueden hacer que ambas interfases puedan ser totalmente
incompatibles. Para un mejor manejo de ellas, no es óptimo mezclar interfases
profesionales con interfases de consumo, pero en otras circunstancias -
contando con las conexiones eléctricas apropiadas- el audio incorporado en ellas
puede ser llevado de un estándar a otro.
Una vez que la señal análoga es codificada (luego del proceso de sample
and hold y la subsiguiente cuantización) su forma cambia drásticamente, adquiere
la forma de una onda cuadrada, y cada pulso es la representación de un valor
numérico (binario) que corresponde al valor asignado para cada sample (muestra)
por el cuantizador.
Este tren de pulsos es de característica binaria, es decir, cada pulso tiene
una representación lógica de un 0 o un 1, de esta forma el tren de pulso puede
llevar información codificada en forma binaria para su posterior decodificación en
el receptor (o receiver). Este tipo de codificación de canal tiene por nombre
Codificación PCM (Pulse Code Modulation). La forma más simple de codificación
de audio data PCM es codificando un “1” como un alto lógico y un “0” como un
bajo lógico (voltaje alto y bajo respectivamente). Eléctricamente esto no es lo
ideal, si se considera el caso donde todos los bits son “unos” (o son todos “cero”)
13
en un período de tiempo, en este caso, otra señal –un bit clock– se requeriría para
identificar los bits individuales.
La codificación usada por el formato de interfase AES3 es más sofisticada.
La interfase de audio digital más usada en equipos digitales es la AES3
(mas conocida como AES/EBU), esta interfase presenta una codificación bifásica.
Esta codificación bifásica tiene incorporado un pulso (bit clock) que es usado para
recuperar la frecuencia de sampleo. Otra característica de esta señal PCM bifásica
es que su voltaje total resultante es 0 volt, así se elimina la presencia de corriente
continua en la interfase, de esta forma el data stream no tiene problemas para
pasar por transformadores o condensadores en serie.
Cada bit de información (data bit) tiene una duración que está definida por
lo que se llama una casilla de tiempo, llamada también time slot, que comienza
con una transición y termina con una segunda transición, que es a su vez la
primera transición para el siguiente time slot. Si el data bit es un “1”, una transición
adicional se agrega en la mitad del time slot, un data bit “0” no tiene esa transición
adicional.
La figura 3.1 ilustra esta codificación bifásica con un ejemplo de 6 bits de
información (data):
Figura 3.1: Codificación bifásica
De esta forma se puede apreciar que aunque se esté ante la presencia de
una señal digital de ceros continuos o unos continuos, aún habrán transiciones en
cada bit (o time slot), por lo cual la señal de clock siempre estará presente gracias
14
a estas transiciones regulares, de esta forma el equipo receptor o esclavo va a
poder extraer la señal de clock del mismo data stream de la señal de audio sin la
necesidad de una señal de word clock independiente.
Como la señal es claramente AC, la dirección de las transiciones (o
polaridad de la señal) pasa a ser irrelevante, de esta forma se asegura que la
información se extrae a partir del tiempo de la transición, no de la dirección de
ésta, eliminando de esta forma posibles pérdidas de información debido a cambios
de polaridad en el data stream producto de factores externos (mala aislación de
cables, inducción etc.).
3.2.1 INTERVALO UNITARIO
Otro parámetro que se debe aclarar es el llamado “intervalo unitario” o unit
interval (UI). Un UI se define como el intervalo nominal más corto entre una
transición y la siguiente, como ya se sabe, la codificación bifásica introduce una
segunda transición dentro de un time slot (también llamado celda o “cell”) para
representar un 1 digital; esto quiere decir que un time slot tiene un ancho o
duración de 2 UI como se ve en la figura 1.
La duración de un intervalo unitario se puede calcular con la siguiente
formula, siendo fs la frecuencia de muestreo del data stream.
Fórmula 3.1: 1 UI/(128*fs) = x (ns)
La información que lleva la interfase es transmitida en forma serial. Para
identificar los variados bits de información el data stream se divide en cuadros y
cada uno de ellos tiene un largo de 64 time slots o bien 128 UI, como los time slots
corresponden con los bits de información, la longitud de un cuadro es usualmente
definida como “64 bits de largo”, pero la sección de preámbulo viene a romper esta
correspondencia.
15
Cada cuadro se compone de dos subcuadros (subframes). La figura 3.2
ilustra un subcuadro, el cual consiste en 32 time slots numerados del 0 al 31. Un
subcuadro tiene un largo de 64 UI, exactamente la mitad del largo de un cuadro
(128 UI).
Figura 3.2: Subcuadro AES3 (24-bit audio data)
Los 4 primeros time slots de cada subcuadro llevan la información de
“preámbulo”. El preámbulo sirve para marcar el inicio de un subcuadro y para
identificar el tipo de subcuadro. Los próximos 24 time slots llevan la información
de la señal de audio codificada, la cual es transmitida en una “palabra” de 24 bits
con el LSB (bit menos significativo) al comienzo. Los 4 time slots restantes llevan
la siguiente información:
• Bit de validez (validy bit) “V”
• Bit de usuario “U”
• Bit de status de canal (channel status) “C”
• Bit de paridad para detección de errores “P”
Los dos subcuadros de un cuadro pueden ser usados para transmitir 2
canales de información (canal 1 en subcuadro 1 y el canal 2 en subcuadro 2) con
una tasa de frecuencia de cuadro igual a la frecuencia de sampleo, o bien los dos
subcuadros pueden llevar sucesivas muestras del mismo canal, pero a una
frecuencia equivalente al doble de la frecuencia de sampleo.
La señal AES 3 tiene una frecuencia de bits total (bit rate) equivalente a 64
veces la frecuencia de sampleo, por ejemplo, para una frecuencia de 48 KHz el bit
16
rate sería de 3.072 Mbps (megabits por segundo), la frecuencia de transmisión de
cuadros corresponde exactamente a la frecuencia de sampleo de la fuente.
3.3 SECCIONES DE UN SUBCUADRO
3.3.1 PREÁMBULO
Un preámbulo es un patrón distintivo de información que va en los cuatro
primeros time slots de un subcuadro para marcar el inicio de un subcuadro y el
inicio de un bloque (mas adelante se explicará el término “bloque”). Hay tres tipos
de preámbulos, todos los cuales rompen la regla de la codificación bifásica de
tener siempre una transición al inicio y al final de un time slot, es decir, cada 2 UI.
Un preámbulo contiene uno o dos pulsos con una duración de 3 UI. Esta
excepción a la regla significa que no puede ocurrir en ninguna otra parte del tren
de datos (data stream).
El subcuadro 2 siempre comienza con un preámbulo “Y” y el subcuadro 1
casi siempre comienza con un preámbulo “X” con la siguiente excepción: cada 192
cuadros el preámbulo “X” del subcuadro 1 es reemplazado por el preámbulo “Z” el
cual indica el inicio de un bloque (ver figura 3.3), esto sirve para extraer la
información que es llevada por los channel status bits de cada subcuadro. Ahora,
¿qué es un bloque?
17
Figura 3.3: Patrón de datos AES3. Notar que los preámbulos Y son idénticos en cada
cuadro
3.3.2 BLOQUE
Un bloque es un grupo de bits que transmite información, no de audio, sino
información para que el receptor interprete de forma adecuada el data stream. El
bit “channel status” de cada subcuadro es usado para transportar un bloque de
información de 192 bits de largo, los bits de información de channel status (o
estado de canal) recibidos son acumulados para cada uno de los subcuadros (1 y
2, o bien L y R) para conseguir dos bloques de información independientes de
estado de canal (channel status data), uno para cada canal. Cada bloque de
información de estado de canal consiste en 192 bits de data agrupados en 24
bytes (grupo de bites organizado o tomados como una unidad llamada palabra o
word). Cada uno de los 24 bytes consta de 8 bits, los cuales son transmitidos a
una tasa de un bit por subcuadro, el ciclo termina cuando pasan 192 cuadros
consecutivos. El preámbulo “Z” citado anteriormente, sirve para sincronizar el
bloque, marcando que un nuevo bloque ha comenzado.
18
En la figura 3.4 se muestra la estructura de un bloque.
Figura 3.4: Estructura de un bloque.
Luego de explicar la existencia del preámbulo “Z” y definir qué es un bloque
se seguirá explicando la estructura de un preámbulo. En la figura 3.5 se muestran
los tres tipos de preámbulos
Figura 3.5: Patrones de preámbulo con una transición inicial descendente.
Como la señal de interfase AES3 es insensible a la polaridad, estos
preámbulos pueden empezar con una transición descendente, como en la figura 3.4, o con transición ascendente (figura 3.6)
19
Figura 3.6: Patrones de preámbulo con una transición inicial ascendente.
Bajo las reglas de la codificación bifásica debe haber una transición entre
cada time slot, pero los preámbulos en cambio, tienen cada uno 2 pulsos de 3 UI
de largo, de esta forma, por cada preámbulo hay dos comienzos de time slots en
los cuales no hay transiciones. La primera de estas violaciones al código bifásico
está en el mismo lugar para cada preámbulo – después del time slot 0 – esto
indica que un nuevo subcuadro a comenzado, el patrón siguiente identifica que
tipo de subcuadro es. Los time slots en los preámbulos son iguales al resto, por lo
tanto su largo es de 2 UI, como los preámbulos constan de 4 bits, su largo total es
de 8 UI.
Luego del preámbulo, ocupando los próximos 24 bits (del 5 al 28) se ubica
la audio data (información de audio) la cual es transmitida con el LSB primero.
Si el audio data es transmitido, por ejemplo en 20 o menos bits, los
primeros bits después del preámbulo pueden ser usados por otra señal conocida
como “audio data auxiliar”, señal que se puede usar para comunicación o talkback,
o también utilizar para emitir una versión comprimida de la señal de audio
principal. De no ocuparse estos bits en data auxiliar simplemente se ocupan con
ceros, como muestra la figura 3.7.
20
Figura 3.7: Subcuadros AES3 (16-bit audio data y 20-bit audio data con data auxiliar).
En el caso que se usase esta audio data auxiliar, el channel status debe
indicar que el máximo largo de palabra es 20 bits, de esta forma el receiver podrá
“enmascarar” esta información de audio auxiliar para que no sea confundida con el
audio data principal.
Los últimos 4 bits de la interfase son, como ya se había mencionado, el bit
de validez, el bit de usuario, el bit de channel status o estado de canal y el bit de
paridad.
3.3.3 BIT DE VALIDEZ (VALIDITY)
Sirve en primer lugar para cualificar el audio data transmitido, si este bit
está activo (1) quiere decir que la data ha sido cualificada como “no apta” para su
conversión a audio análogo. Cuando la interfase AES3 o IEC 60958 es usada
para transmitir data que no representa audio lineal PCM, entonces este bit debe
estar activo, esto ocasiona que el equipo lea una y otra vez la señal PCM o que
sencillamente se silencie (mutee) la salida, cosa que es preferible a reproducir
esta señal como una señal de audio.
3.3.4 BIT DE USUARIO (USER BIT)
21
Este bit puede ser utilizado para llevar información del usuario propiamente
tal, esto significa información específica de la aplicación para aparatos de
consumo tales como el CD o el DCC.
3.3.5 BIT DE ESTADO DE CANAL (CHANNEL STATUS BIT)
La función de este bit ya había sido definida anteriormente para definir el
concepto de “bloque”.
Los channel status bits son independientes para el subcuadro 1 y para el
subcuadro 2, de esta forma se conforman 2 bloques, 1 para cada canal, aunque
muchas veces estos dos bloques suelen llevar información idéntica, puesto que
muchos receptores examinan esta data en solo uno de los subcuadros. Los bits de
channel status tienen influencia en la forma en que un equipo maneja la data en la
palabra de audio digital, en particular en los campos de “no audio” y “énfasis”
hacen una gran diferencia en la forma en cómo la data tiene que ser interpretada.
Si el bit de no audio está activo entonces la palabra de audio digital no está
apta para ser decodificada como data PCM lineal.
El nombre “no audio” es un poco confuso ya que se cataloga como “no
audio” a formatos de audio comprimido tales como MPEG, DTS, DOLBY AC–3 y
DOLBY E, porque si se tratara su data stream como PCM lineal sería inapropiado
y tendría como resultante la generación de ruido de alto nivel (los estándares para
llevar estos formatos de audio data comprimidos son el IEC 61937 para
aplicaciones no profesionales o el SMPTE 337M para aplicaciones profesionales).
Como ya se había mencionado anteriormente, otro campo de especial
relevancia dentro del bloque es el campo de “énfasis” –el cuál está ubicado en el
byte 0 del bloque, justo después del campo de audio/no audio–. Si el campo de
énfasis indica que la señal tiene énfasis entonces se debe aplicar un de-énfasis en
la respectiva conversión al mundo análogo. El énfasis (ver figura 3.8) consiste en
22
una aplicación de ganancia en alta frecuencia (de tipo shelving) con constantes de
tiempo de 50 µs y de 15 µs para el cero y el polo en el formato no profesional. El
formato profesional soporta este tipo de énfasis y además el llamado énfasis j17,
el cual tiene constantes de tiempo que fluctúan alrededor de 333 µs y 38,5 µs.
Aparte de estos primeros bits del byte cero (bit 0: pro/no pro, bit 1: audio/ no
audio, bit 234: énfasis y bit 67: frecuencia de sampleo) el significado de los
siguientes bits del bloque es definido en forma diferente para los formatos
profesionales y no profesionales.
Figura 3.8: Énfasis en una señal.
3.3.6 BIT DE PARIDAD
Este bit es usado para mantener paridad “par” –valga la redundancia– como
un medio para detectar errores. El bit de paridad puede detectar cuando un
número impar de errores han ocurrido en la transmisión; Sin embargo si ocurre un
error lo más probable es que se pierda un par de transiciones, dicho de otra forma
que se pierdan los dos “ bordes” de un pulso individual. Si se perdieran un par de
transiciones, la paridad no cambiaría (el bit de paridad no se activaría) no obstante
ha ocurrido un error. Por esta razón no es muy útil usar el bit de paridad para
detectar errores, es mucho más útil chequear violaciones al código bifásico para
este fin.
3.4 FALENCIAS EN EL DOMINIO DIGITAL
23
Dado que el audio tiene una naturaleza intrínsicamente análoga, cuando lo
digitalizamos para transformar su información a un código binario nos
encontramos con una de las limitaciones propias del mundo digital: su naturaleza
discreta o finita, en el dominio del tiempo y la amplitud.
3.4.1 ERRORES DE TIEMPO
En el dominio del tiempo nos encontramos con uno de los elementos
fundamentales de la digitalización: el muestreo o sampleo.
Este proceso puede (casi siempre) presentar anomalías en la exactitud con la cual
se realiza, produciéndose así errores de tiempo, genéricamente llamados como
jitter. Otra anomalía que se puede presentar es el alias, pero quedará fuera de
este análisis por considerarse un problema superado, en gran medida por el uso
de filtros antes de la etapa de digitalización.
En el dominio de la amplitud nuestra principal enemiga es la distorsión de
cuantización, la cual se puede controlar mediante un proceso bastante conocido
llamado dither.
Ambos procesos –sampleo y cuantización– están limitados por la resolución
del sistema, depende de éste factor la fidelidad con que se representa en el
mundo digital la señal análoga original.
Si tuviéramos que relacionar de una forma sencilla estos dos procesos sería
de la siguiente forma:
“El sampleo o muestreo representa el tiempo de la medición y la
cuantización representa el valor de esta medición y en el caso del audio, la
amplitud de la onda en el instante de muestreo. El sampleo y la cuantización son
los componentes fundamentales de la digitalización y juntos pueden caracterizar
un evento acústico”
24
3.4.2 DEFINICIÓN DE JITTER
Se puede definir jitter como la variación en tiempo de un evento –que puede
ser una señal regular de clock– respecto a una referencia fija (nominal).
Por ejemplo, el jitter en una señal de clock es la diferencia entre los tiempos
reales de la transición de pulso del clock y los tiempos de transición que hubieran
ocurrido si el clock fuese ideal, es decir, perfectamente regular.
Frente a esta referencia nominal (ideal), las transiciones de muchos de los
pulsos en un tren de datos con jitter varían en tiempo respecto al clock ideal.
Expresado de otra forma, jitter es modulación de fase en la señal de interfase
digital.
Cuando se presenta muy poco jitter en la señal las transiciones de pulso
son desplazadas hacia adelante y hacia atrás por pequeños espacios de tiempo.
Cuando el jitter se incrementa, las transiciones se mueven a través de un rango
más amplio de tiempos.
25
Figura 3.9: Comparación de la forma de onda ideal AES3 con la forma de onda AES3 afectada
por el jitter.
Para entender mejor el fenómeno del jitter es clave tener en claro los
siguientes conceptos:
• Amplitud de jitter: Cuantifica el desfase o corrimiento en el tiempo de una
transición en particular respecto a una transición ideal. Está expresado en
unidades de tiempo, ya sea como fracciones de segundo o como intervalos
unitarios (UI). Cabe aclarar que el tiempo en que ocurre una transición se
define específicamente en la llamada “zona de cruce” (zero crossing) como
se ve en la figura 3.9.
• Frecuencia de jitter: Es la frecuencia con la que ocurre este cambio de fase.
Del mismo modo que otras señales parásitas o de interferencia, la señal de
modulación de jitter puede ser una perfecta y regular señal sinusoidal (jitter
sinusoidal), una compleja forma de onda o puede tener una frecuencia
totalmente al azar (random jitter). Se mide en hertz [Hz].
• Ganancia de jitter o jitter gain: Establece una relación entre jitter de entrada
y jitter de salida. Se mide en decibeles [dB]. Este concepto se relaciona con
la función de transferencia de jitter o jitter transfer function, el cual establece
una relación entre ganancia de jitter versus frecuencia de jitter, como
podemos ver en la figura figura 3.10.
También se puede entender este concepto como una variación de la
amplitud de jitter (aumento o disminución) entre la entrada y la salida del
aparato.
26
Figura 3.10: Función de transferencia del jitter.
3.4.3 TIPOS DE JITTER
Para comenzar es importante comprender que el jitter existe en todas las
señales de audio digital, solo que en diferentes magnitudes.
Los principales tipos de jitter son: Jitter de interfase (jitter intrínsico, jitter
inducido por cable) y el sampling jitter.
Jitter de interfase es jitter en la señal entre dos equipos digitales,
manteniéndose este en el mundo digital, y el sampling jitter es jitter en clock de un
convertidor A/D o D/A, involucrando de esta forma al mundo análogo: la
degradación introducida por el jitter de interfase, depende del diseño del receptor
de interfase, del mismo modo, la degradación introducida por el jitter en el clock de
27
sampleo depende del diseño del convertidor. En equipos bien diseñados existen
dos etapas para la recuperación de clock de interfase y la generación de clock de
salida del convertidor, el cual atenúa el jitter sobre una frecuencia de corte hacia
arriba, mejorando la performance (ejecución) del aparato.
3.4.3.1 JITTER INTRÍNSICO
Si un equipo está funcionando con su clock interno o está sincronizado con
una señal relativamente libre de jitter, entonces cualquier jitter medido a la salida
de éste es ocasionado por el mismo aparato, a esto se le llama jitter intrínsico o
jitter interno del aparato.
El nivel de jitter intrínsico está determinado principalmente por dos
características: el ruido de fase de oscilador (VCO: voltage controlled oscilator o
Cuarzo) en el circuito de generación de clock y –para un aparato sincronizado
externamente– por las características del circuito PLL (phase lock loop) de
recuperación de clock.
Por ejemplo, consideremos el oscilador de clock de cuarzo en un
reproductor de CD. Como no está sincronizado con ninguna fuente externa (free
running) cualquier jitter en la salida es debido al ruido de fase del oscilador, mas
en cierta medida a un tipo de jitter de retraso lógico digital. Los osciladores de
cuarzo tienen muy poco ruido de fase y los aparatos lógicos de alta velocidad
tienen también muy poco jitter, de esta forma el jitter intrínsico es muy bajo, a
menudo menor que 1 ps para frecuencias de jitter sobre 700 Hz.
Un aparato diseñado para esclavizarse o engancharse con señales
externas dentro de un rango de frecuencias de sampleo probablemente use un
VCO (voltaje controlled oscilator) para recuperar clock. Como un VCO
generalmente tiene mucho mas ruido de fase que un oscilador de cuarzo, un VCO
funcionando independientemente (free running) generalmente puede tener altos
28
niveles de jitter intrínsico sobre los 700 Hz. Sin embargo, en aplicaciones de
recuperación de clock, este VCO estaría funcionando dentro de un PLL (phase
lock loop: ciclo de fijación de fase) para sincronizarse con una referencia externa,
esto implica que el jitter intrínsico del oscilador va a ser atenuado por el PLL.
El jitter intrínsico a menudo debe ser medido en situaciones cuando no hay
una referencia baja en jitter disponible y las mediciones se deben hacer auto
referenciadas, es decir, enganchando un PLL a la señal de clock extraída del data
stream en cuestión. Las características de este PLL determinarán la frecuencia de
corte en la cual éste deja de atenuar jitter (ver función de transferencia). El
estándar AES especifica una frecuencia de corte que debe ser de 700 Hz con una
ganancia en la zona de corte de 3 dB como máximo en el estándar AES, los
niveles de jitter intrínsicos son especificados como mediciones peak más que rms,
esto es porque los autores de este estándar concluyeron que las máximas
exclusiones de las desviaciones de tiempo son las que producirían errores de
data.
3.4.3.1.1 CIRCUITOS PLL Y JITTER
Como ya se había mencionado, la gravedad del fenómeno jitter depende de
en qué etapa es considerado. Los errores de tiempo en la interfase (en el ámbito
digital ) tienen un efecto distinto que los errores causados por sampling jitter. El
interface jitter ocurre cuando se traslada data de un aparato a otro y es solo un
problema cuando causa errores no rectificados en la señal recuperada, que
posteriormente generarían pérdidas de información por lectura errónea.
Muchos data stream tienen la capacidad de auto sincronizarse , ya que
llevan dentro de su estructura la señal de clock (como la Interfase AES3 o AES/
EBU), de esta forma el receptor puede recuperar el clock y alinear la data
enganchándose al clock de entrada.
29
Un circuito receptor con un clock fijo no sería capaz de engancharse a una
señal con un clock inestable aunque su frecuencia de sampleo nominalmente
fuese la misma que la del clock de entrada, por esta razón los circuitos receptores
comúnmente usan un circuito llamado ciclo de fijación de fase (PLL) para alinear
sus clocks con la frecuencia de data de la señal entrante. Un PLL de interfase
como se muestra en la figura 3.11, acepta la señal de entrada como una
referencia de tiempo, mide el error de fase entre la entrada de la señal y su propia
salida, a través de un loop de realimentación y usa este error para manejar un
oscilador controlado por voltaje, el cual está dentro del loop. El VCO en respuesta
logra el equilibrio minimizando este error de fase. Una vez que el VCO se
engancha a la fase de la señal de entrada, éste corre a la frecuencia de referencia
o a un múltiplo de ésta.
El oscilador es desacoplado de la referencia , atenuando de esta forma el
jitter de alta frecuencia en la salida de data del PLL producido por éste.
Figura 3.11: Ciclo de fijación de fase PLL.
Un circuito PLL puede reducir jitter regenerando el clock a partir de una
base de tiempo estable y exacta, la desventaja de esto es que cualquier ganancia
cercana a la frecuencia de corte de la función de filtro pasa bajo del PLL
aumentaría el jitter.
30
Para ejemplificar el funcionamiento de un PLL se hará una analogía con un
sistema mecánico: una rueda estabilizadora de la velocidad de un motor. Esta
rueda ayuda a mantener un movimiento circular uniforme, la cual lentamente
seguirá cambios graduales de velocidad, e ignorará fluctuaciones rápidas.
Mientras más liviana sea esta rueda más rápido seguirá estos cambios de
velocidad y de esta forma la frecuencia de corte es más alta. La frecuencia de
corte de un PLL está determinada por su realimentación o ganancia de ciclo (loop
gain). Esta realimentación disminuye con la frecuencia a raíz de las características
del filtro del loop y por integración de la frecuencia en la fase que está ocurriendo
en la entrada del detector o comparador de fase. Cerca de la frecuencia de corte
del filtro la ganancia del loop es unitaria.
Para frecuencias de jitter bajo la frecuencia de corte del filtro, la
realimentación negativa significa que la salida del PLL seguirá en gran medida a la
entrada de éste (esto implica la no atenuación del jitter de entrada) y que el ruido
de fase del oscilador será atenuado. Sobre la frecuencia de corte la realimentación
disminuye , esto quiere decir que el jitter a la salida del PLL estará siendo
determinado en mayor medida por el ruido de fase del oscilador (jitter intrínsico) y
menor medida por el jitter de entrada al PLL. De esta forma se concluye que un
elemento clave en el diseño de un PLL receptor o transmisor es el compromiso
entre jitter intrínsico y atenuación del jitter de entrada. En la figura 3.12 (función
de transferencia de un PLL) se visualiza mejor lo expuesto anteriormente:
31
Figura 3.12: Función de transferencia de un ciclo de fijación de fase.
En la práctica otro de los factores que ayudan a acumular jitter son los
cables que interconectan las maquinas ¿de qué forma? Se verá a continuación.
3.4.3.2 JITTER INDUCIDO POR CABLE
3.4.3.2.1 PATTERN DEPENDENT JITTER
Como ya se mencionó, otra fuente de jitter en la interfase digital es el
resultado de la imperfecta naturaleza de la interconexión.
32
Resistencia en el cable o una impedancia inconsistente pueden ocasionar
pérdidas en alta frecuencia, lo cuál afecta directamente a las transiciones de
pulsos de la señal, como se veía en la figura 3.9.
Esto no debería ser un problema serio si el efecto fuera el mismo para cada
transición, de ser así la consecuencia solo sería un delay estático en la señal el
cual podría ser ignorado. Sin embargo esto solo ocurriría si el tren de pulsos fuera
perfectamente regular –un stream de sólo unos o ceros– por ejemplo.
Lamentablemente, un tren de pulsos real consiste en patrones de bits que
cambian a cada momento, y la presencia de pérdida por cable da origen a un
problema llamado “interferencia intersimbólica” (intersymbol interference o peak
shift), este fenómeno consiste básicamente en la interacción entre símbolos
adyacentes de data.
Contrariamente a lo que se podría pensar, este fenómeno hace que las
transiciones que tengan más retraso sean precedidas por un símbolo de data 0, ya
que como sabemos, en el marco de la codificación bifásica AES3 un 0 tiene una
transición por cada bit y un 1 tiene dos transiciones por cada bit, por lo tanto un
tren de pulso de unos consecutivos tendría el doble de la frecuencia que un tren
de ceros.
Para ilustrar este caso se muestran 5 señales de interfase AES3: cada una
con un patrón de data diferente en los primeros 3 bits.
La figura 3.13 presenta 5 señales AES 3 antes de la transmisión. La negra
representa un (1,1,1), la gris (1,1,0), la azul un (1,0,0), la celeste un (0,1,0) y la
punteada (0,0,0).En la figura también se muestra como se verían estas señales
(están sobrepuestas una sobre otra) después de ser transmitidas por un cable
largo (Belden de 100 mts), las perdidas ocasionadas por éste afectarían a las
señales de la siguiente manera: atenuando las altas frecuencias y deformando
los pulsos , los cuales presentan tiempos de subida y bajada mucho mas lentos.
33
Figura 3.13: AES3 interferencia intersimbólica.
En cada caso la data mostrada viene precedida por el preámbulo Y, el cual
marca el comienzo del subcuadro B, el cuál es idéntico para cada cuadro.
Se concluye que como la interfase AES3 usa la misma señal para llevar
data y clock es posible inducir jitter en el clock como resultado de una modulación
de la data (como se muestra en el ejemplo). Se debe tener cuidado con los
mecanismos que generan interferencia entre la data y la señal de clock, la
degradación de la forma de onda como resultado de pérdida por cable es uno de
esos mecanismos.
34
Este tipo de jitter tiene por nombre pattern dependent jitter, el cual puede
ser producido no tan solo por interferencia intersimbólica, sino que también por
asimetrías de circuito, donde el retraso puede variar entre transiciones
ascendentes o descendentes.
Esta es la razón por la cual un receptor de calidad debe extraer clock de los
preámbulos del data stream, ya que ellos son casi inmunes a este efecto de
modulación, como se ve en la figura 3.14.
Figura 3.14: El sector de preámbulo presenta una menor tendencia a generar jitter
3.4.3.3 JITTER PRODUCIDO POR RUIDO DE INTERFERENCIA
Otro tipo de jitter inducido en la transmisión por cable es el llamado jitter
inducido por ruido de interferencia. En una situación ideal, donde las transiciones
no fueran “inclinadas” a raíz de pérdida por cable, los tiempos de subida y bajada
de los pulsos serían tan cortos que su cruce por 0 estaría relativamente inmune a
cualquier ruido agregado a la señal. Sin embargo los largos tiempos de transición
generados en la pérdida por cable permiten que ruidos y señales parásitas de
35
distintas índole introduzcan un offset en la transición, teniendo esto como
resultado un corrimiento del punto de cruce por cero de los pulsos.
Por ejemplo, el ruido en la señal puede hacer que varíe el tiempo en el cual
la transición es detectada. La sensibilidad a este ruido depende de la rapidez de la
transición, la que a su vez depende de la pérdida por cable. Esto se ilustra en la
figura 3.15.
Figura 3.15: AES3 jitter producido por ruido de interferencia.
Los marcadores “A” y “B” muestran el rango de tiempos de cruce por cero
resultante de una transición -su separación es de 31 ns- en este ejemplo, el ruido
que produce esta variación es una onda sinusoidal de baja frecuencia de
aproximadamente 300 mV. Este tipo de interferencia puede estar siendo inducida
por acoplamiento de una fuente de poder.
La cantidad de jitter introducido por ruido en el cable está directamente
relacionada con la inclinación o curva en el punto de cruce por 0 al igual que el
voltaje está relacionado con el tiempo por esta inclinación (slope).
36
Con transiciones rápidas cualquier ruido de interferencia no producirá
demasiado jitter, la desviación de voltaje causará una pequeña desviación de
tiempo.
Este tipo de jitter, como ya se sabe, ocurre cuando se usan cables largos
para interconectar los equipos en cuestión. De esta forma, la contribución de este
tipo de jitter se verá severamente reducida en presencia de una interconexión de
un largo menor.
Cabe señalar que la dirección de la desviación temporal está relacionada
con la dirección de la transición – ascendente o descendente –. Para una
transición “levantada” por el ruido, la transición de subida ocurrirá antes y la
transición de bajada ocurrirá más tarde que una transición sin ruido, para una
transición corrida hacia abajo ocurre lo contrario.
Opuestamente a lo que ocurre con el data pattern dependent jitter, este tipo
de jitter es más aparente en aparatos que recuperan clock de un solo borde (o
transición) específico del patrón de preámbulo. Esta transición va a tener solo una
polaridad (solo de subida o solo de bajada), de esta forma la desviación temporal
de transiciones sucesivas se sumará, lo que tendrá como consecuencia
acumulación de jitter.
En cambio, en los sistemas que usan varias transiciones del preámbulo
para recuperar señal de clock las desviaciones temporales de las transiciones casi
siempre se cancelarán debido al efecto anteriormente explicado – el promedio de
desviación tiende a 0 si se extrae clock equitativamente tanto de transiciones de
subida como de transiciones de bajada – estas cancelaciones reducirán el jitter de
baja frecuencia inducido por el ruido en el clock. Para ruidos de altas frecuencias
estas cancelaciones no ocurrirán, debido a que sucesivas desviaciones no
encuentran correlación entre sí. De este modo, no tenemos atenuación de jitter
cuando se induce un ruido de alta frecuencia en la señal.
Por lo tanto podemos concluir que es mejor evitar aparatos que extraigan la
señal de clock de solo un borde del subcuadro de la interfase, independientemente
de la calidad del circuito PLL que éste posea.
37
Vistas ya las principales formas en que se manifiesta el jitter en el dominio
digital (interface y jitter inducido en el cable) se incorporará un nuevo concepto:
3.4.4 TOLERANCIA DE JITTER
La cantidad de jitter de interfase soportado antes que un receptor AES3
falle en la correcta decodificación de la señal se llama tolerancia de jitter. Esta
tolerancia es una función de la frecuencia de jitter. Así se tiene que:
Variaciones graduales de tiempo (jitter de baja frecuencia) pueden ser
seguidas por el PLL del receptor AES3 por lo tanto no tenemos errores de data.
De hecho, variaciones lentas pueden tener una amplitud peak de varias UI antes
que el PLL falle en su funcionamiento. Pero si las variaciones de tiempo son
abruptas, de tal modo que el PLL no es capaz de seguirlas (jitter de alta
frecuencia), entonces amplitudes tan pequeñas como la mitad de un intervalo
unitario (UI) pueden generar una transición corrida que cause un error de bit.
Esto demuestra porqué la tolerancia de jitter aumenta mientras más baja es
la frecuencia de jitter entrante y porqué la amplitud peak de jitter es más
significativa que el valor rms o promedio de esta amplitud.
La especificación para la interfase AES3 define lo que se llama patrón de
tolerancia de jitter como se muestra en la figura 3.16.
Figura 3.16: AES3 patrón de tolerancia de jitter.
38
La tolerancia está definida en UI (unit intervals). La línea en el gráfico
representa la máxima amplitud de jitter que un receptor puede aceptar en caso de
presentarse jitter sinusoidal de frecuencia indicada en el eje X. Nótese que este
patrón implica que los receptores deben tener una frecuencia de corte sobre 8
KHz, esto quiere decir que el PLL receptor no va a ser capaz de atenuar jitter bajo
esta frecuencia, sólo va a seguir las fluctuaciones y dejará de esta forma pasar el
jitter a la salida. Un segundo circuito PLL con frecuencia de corte más baja se
necesitará para atenuar más significativamente el jitter si se requiere.
3.4.5 ACUMULACIÓN DE JITTER
En una cadena de equipos digitales donde cada uno esté esclavizando su
clock a la máquina previa, se producen severas contribuciones de jitter al final de
ésta.
La acumulación de jitter toma lugar para frecuencias que están bajo la
frecuencia de corte de la función de transferencia de jitter de todos los aparatos,
en donde no existe atenuación. Para entender mejor el fenómeno, asumiremos
que cada aparato aporta una misma cantidad de jitter “J” (sumando jitter intrínsico
y jitter inducido por cable) y que cada máquina amplifica el jitter de la etapa previa
con la misma ganancia – tomando en cuenta que el aumento o ganancia sólo es
posible para frecuencias que están cerca del peak de la función de transferencia–.
En la figura 3.10 se aprecia la zona de ganancia, la cual se ubica inmediatamente
bajo la frecuencia de corte.
En la tabla 3.1 vemos el jitter total de salida en diferentes cadenas de
equipos, como múltiplo de “J”:
39
Ganancia de Jitter por Unidad
Jitter Total (J) después de 3 Estaciones
Jitter Total (J) después de 4 Estaciones
Jitter Total (J) después de 5 Estaciones
0 dB (ideal) 3 J 4 J 5 J
1 dB 3,8 J 5,4 J 7,1 J
3 dB 6,2 J 10,2 J 15,8 J
6 dB 13,9 J 29,8 J 61,4 Tabla 3.1: Tabla de acumulación de jitter
Esta tabla muestra que con una ganancia de cero en cada etapa, el jitter
total sólo es la suma de jitter “J” producido en cada etapa, pero recordemos que
solo tenemos 0 dB de ganancia para frecuencias que están fuera de la zona peak.
En ganancias de jitter sobre 0 dB se refleja el efecto peaking de la función de
transferencia y es aquí donde la acumulación de jitter amenaza la integridad de la
señal.
Cabe señalar que cuando el jitter tiene un espectro amplio de frecuencia
solo una pequeña porción de él será amplificada y el efecto peaking no tendrá
mayor influencia, sin embargo en otros casos el jitter se puede concentrar en la
zona de peak, como puede ser el caso de una señal de bajo nivel, por ejemplo; en
este caso el jitter tiende a ser coherente con la polaridad de la señal, esto ocurre
debido a que para las señales cercanas a 0 más bits significativos dentro de la
palabra de data cambian juntos como una extensión del bit de signo, generándose
jitter sinusoidal, el cual se caracteriza por tener un espectro de frecuencia angosto.
De esta forma si la señal de interfase es un tono de bajo nivel y de un frecuencia
baja, entonces ocasionalmente tendremos coincidencias entre un peak de jitter y
el peak de la función de transferencia de jitter, aumentando de esta forma
significativamente la ganancia de jitter y la acumulación de ésta al final de la
cadena digital.
Las consecuencias normales de una acumulación excesiva de jitter son,
como ya se sabe, pérdida ocasional de data y de clock en un caso más severo.
40
Desde 1997, la especificación para interfase AES3 estipuló que para evitar
problemas debido a acumulación de jitter todos los aparatos digitales deberían
tener una ganancia de jitter sinusoidal igual o menor que 2 dB para cualquier
frecuencia y además deberían cumplir con un estándar de atenuación de jitter que
implique una reducción de al menos 6 dB sobre 2 KHz.
Hasta ahora, solo hemos visto formas de jitter en el dominio digital, dentro
de éste el jitter sólo es una amenaza a la integridad de la señal si el jitter alcanza
niveles que imposibilitan la correcta lectura del data stream generando errores de
interpretación de la información.
Sin embargo, los efectos del jitter en el clock de un convertidor A/D o D/A sí
tiene efectos dramáticos en lo que a calidad sonora se refiere, es en esta etapa –
conversión análogo digital y viceversa – donde hay que tener mayor cuidado con
la acumulación y con la atenuación de jitter, puesto que pequeñas magnitudes de
éste tendrán una repercusión notoria en la calidad final de la señal, pudiéndose
generar cantidades importantes de ruido y distorsión armónica a la salida.
3.4.6 SAMPLING JITTER
Existen muchas circunstancias donde el clock de sampleo debe ser
derivado o extraído de una fuente externa. Por ejemplo, en un grabador de audio
digital, el clock de sampleo que controla el convertidor D/A es extraído
directamente del data stream entrante. En otras aplicaciones el clock de sampleo
de un convertidor A/D necesita ser enganchado a una señal de sincronismo
externa, o un data stream digital necesita ser resincronizado a una referencia de
clock diferente usando un ASRC (convertidor de frecuencia de muestreo
asincrónico ó asyncronous sample rate converter).
En los convertidores análogo/digital las muestras deben ser capturadas con
especial exactitud. Dicho de una forma simple: el jitter en el clock de un
convertidor A/D da como resultado muestra incorrectas en el tiempo incorrecto.
41
Más aún si estas muestras son presentadas a un convertidor D/A libre de jitter el
resultado serán muestras incorrectas en el tiempo correcto. Sabiendo esto, se
puede decir que el jitter es más crítico cuando se presenta en el clock de un
convertidor A/D.
Osciladores de cristal (de cuarzo) ofrecen típicamente niveles de jitter
menores a 10 ps rms: son los ideales para ser usados en clocks A/D y en general
como referencia para el sistema digital completo.
Los efectos del jitter en el clock de sampleo de un convertidor A/D son muy
similares a una modulación FM: La frecuencia de entrada (de la señal de audio)
actúa como carrier y el jitter actúa como frecuencia moduladora.
La exactitud de tiempos requerida para la conversión A/D es considerable:
La máxima tasa de cambio de una onda sinusoidal ocurre en la zona de cruce por
0 y puede ser calculada como 2πA f donde A es la amplitud peak de la señal y f la
frecuencia en Hz.
Investigaciones han estimado que una especificación de jitter del orden de
los 250 ps permitiría una precisión de 16 bits para una onda de 20 KHz a
máxima amplitud (0 dBFS), solo así los componentes espectrales del jitter caerían
bajo el nivel de ruido de cuantización. Un peak de jitter incluso menor que 400 ps
generaría señales parásitas que tendrían como resultado la reducción del rango
dinámico en aproximadamente 0.5 dB.
Los convertidores D/A también son igualmente susceptibles al jitter. La
calidad de las muestras tomadas por un A/D libre de jitter será malograda si el
clock del D/A no es uniforme, traduciéndose esta en muestras correctas en el
tiempo incorrecto. Aunque los valores de data sean numéricamente exactos, la
desviación de tiempo introducida por el jitter tendrá como resultado un aumento
del nivel de ruido y distorsión en la señal de salida. Afortunadamente en este caso,
la distorsión en la salida es sólo un problema de playback (reproducción)
solamente: la data en sí está incorrupta, solo está esperando un clock de
convertidor D/A más exacto, para que la reproducción tenga más fidelidad. Las
42
muestras no están malas, sino que solo han sido convertidas en los tiempos
incorrectos.
No todos los receptores proveen suficiente protección contra el jitter (como
algunos receptores S/PDIF) es necesario utilizar receptores que puedan
resincronizar su data stream para remover jitter antes de la conversión D/A, como
se sabe, los circuitos PLL se encargan de esto.
Para un mejor entendimiento del fenómeno jitter veremos cómo actúa éste
en el dominio del tiempo.
3.4.6.1 JITTER EN EL DOMINIO DEL TIEMPO
El efecto de una muestra convertida en el tiempo incorrecto puede ser
interpretado en términos de una introducción de un error de amplitud: cualquier
señal que no sea DC cambia en el tiempo, de esta forma un instante erróneo de
sampleo producirá un valor erróneo de amplitud. Como podemos ver en la figura 3.17, el error de amplitud es proporcional a la tasa de cambio (slope) de una señal
de audio, el cual es mayor para señales de alto nivel [dB] y alta frecuencia.
43
Figura 3.17: En estos ejemplos la tasa de muestreo es constante, pero la
señal sampleada es variada en frecuencia y amplitud. Notar
como la amplitud del error aumenta para la muestra
instantánea de jitter (J) con los cambios.
La figura 3.18 muestra el efecto de un jitter aleatorio de sampleo (random
sampling jitter) en un tono puro. El tono tiene una amplitud de 2 V rms y una
frecuencia de 1 KHz. La señal de error se produce debido al efecto de este jitter, el
cual tiene una amplitud rms de 10 ns.
44
Figura 3.18: Muestra de jitter en un tono puro de 1 kHz. La línea externa es la señal y
la línea interna es el error introducido por el jitter, exhibido con una
ampliación de 1000 veces.
Nótese que la señal de error y el tono puro intermodulan. Como el error es
producto de la tasa de cambio del tono y del jitter (J), se produce un mínimo en la
señal de error en las zonas de peak del tono (donde la inclinación de la curva es
casi 0: aquí la tasa de cambio de tono está al mínimo) y un máximo en las zonas
de cruce por cero, donde la tasa de cambio del tono está en su máxima expresión.
El error promedio (rms) mostrado en la figura 18 tiene una amplitud de 124
µV rms, o dicho de otra forma, está 84 dB bajo el nivel del tono. Asumiendo que el
error está expandido uniformemente a través de un ancho de banda de 88.2 KHhz
(la frecuencia de sampleo corresponde a 176.4 KHz: la cual es resultado de un
oversampling 4x aplicado por el D/A de un reproductor de CD), se puede estimar
que el nivel de ruido (producto de este error) medido sobre el ancho de banda
nominal para audio –20 KHz– sería de 60 µV rms, esto traducido en decibeles
arroja un valor de 90.5 dB bajo el nivel del tono.
45
Este método para analizar el efecto del jitter se puede utilizar para hacer
una predicción del nivel aceptable de jitter en cualquiera de sus formas. Se
simplifica entonces calcular el nivel de jitter o amplitud de jitter que aplicado a una
señal “conflictiva” (alta frecuencia y alto nivel), produciría un error de una amplitud
igual o mayor a un intervalo de cuantización.
3.4.6.2 JITTER EN EL DOMINIO DE LA FRECUENCIA
Otra forma de observar el efecto del jitter es considerarlo como un proceso
de modulación, y analizarlo en términos de componentes de frecuencia. Se puede
demostrar matemáticamente que existe una simple relación entre el componente
espectral del jitter, el componente espectral de la señal de audio y el consecuente
efecto de modulación de jitter.
Si una señal es muestreada con errores en los instantes de sampleo el
efecto es que la señal module en el tiempo. Esto es expresado matemáticamente
en la fórmula 3.2. La señal de salida v(t) es una versión desplazada en el tiempo
de la señal de entrada y la variación en el desplazamiento (∆t) es el jitter
Fórmula 3.2: [1] v (t) = v (t – ∆t)
El efecto de esto puede ser analizado considerando un jitter sinusoidal de
frecuencia wj y una amplitud peak J.
Fórmula 3.3 : v(t) = j (t) = J/2 * sin (wj t)
Si la señal de entrada es un sinusoide tenemos que:
Fórmula 3.4: V (t) = A cos (wi t)
46
Las fórmulas 3.2 y 3.3 pueden ser combinadas y quedaría lo siguiente:
Fórmula 3.5: v (t) = A cos (wi t) cos Jwi/2 sin (wj t) + A sin (wi t) sin Jwi/2 sin (wj t)
De esta forma, la señal de salida tiene a la señal de entrada más dos
componentes, cuyas frecuencias son resultado de la diferencia (y suma) entre la
frecuencia de la señal y la frecuencia del jitter.
Esto se aprecia en al figura 3.19, ahí se muestra el efecto del jitter
sinusoidal en una señal real. La señal de entrada tiene una frecuencia de 10 KHz y
la modulación o frecuencia de jitter es de 3 KHz, por lo tanto las bandas laterales
producto de la modulación por jitter estarán a 7 KHz (banda inferior) y 13 KHz
(banda superior). Nótese que también se observa un aumento notorio del ruido en
las proximidades a los 10 KHz, esto se debe a la acción de cierto jitter del tipo
ruido de baja frecuencia en el sistema.
Figura 3.19: Bandas laterales generadas por jitter.
47
La amplitud en decibeles de estas bandas laterales está relacionada con la
amplitud del jitter y con la frecuencia de la señal de entrada, como ya sabemos
mientras mayor sea la amplitud del jitter y mayor sea la frecuencia de la señal de
entrada más nivel tendrán estas bandas, trayendo esto como consecuencia la
reducción del rango dinámico de salida y el aumento del THD.
La fórmula 3.6 expresa la diferencia en nivel entre la señal de entrada y
cada banda lateral en decibeles es:
Fórmula 3.6: Rssb = 20 log Jwi/4 [dB] (single side band)
Siendo wi = frec. señal de entrada [Hz]
J = amplitud peak del jitter
Por conveniencia esta fórmula se puede modificar, sumando los niveles de
ambas bandas para arrojar un error total. De esta forma resulta
Fórmula 3.7: Rdsb = 20 log (Jn fi) – 104 dB [dB] (double side band)
Donde Jn = nivel rms de jitter [ns]
fi = frecuencia señal entrada [KHz]
Esta situación se da para componentes sinusoidales de jitter, pero
utilizando análisis de Fourier, componentes complejos de jitter se pueden
descomponer en elementos sinusoidales discretos y de esta forma se puede
aplicar la misma lógica de las bandas laterales, las que en estos casos no serán
dos, sino que más bandas las que se generarán, pudiéndose sumar los niveles
totales de las bandas inferiores y superiores para dar así un nivel total para cada
banda.
48
3.4.6.3 CIRCUITOS PLL Y SAMPLING JITTER
En vista de la especial sensibilidad al jitter que se da lugar en la etapa de
conversión, necesitamos que nuestro clock de sampleo sea lo más exacto posible.
Pieza clave en esta tarea son nuestros conocidos phase lock loop (PLL); A
continuación se verán las dos configuraciones en que ellos se presentan en la
cadena digital, estas son: recuperación de clock de una etapa y recuperación de
clock de dos etapas, siendo esta última una pieza clave para obtener una señal lo
más libre de jitter posible.
3.4.6.3.1 RECUPERACIÓN DE CLOCK DE UNA ETAPA
El esquema utilizado para esta aplicación se muestra en la figura 3.20.
Figura 3.20: Arquitectura de un recuperador de clock simple AES3
La referencia para el PLL es derivada de las transiciones de la data de la
señal de interfase de entrada, y la misma salida del PLL es usada para alinear la
data en el decodificador bifásico o, si bien la data no va a ser decodificada, para
realinear (reclock) el bit stream directamente a la salida. Nótese que un clock
49
común está siendo usado para decodificación de data y para alinear los tiempos
de salida.
Los PLL funcionan con osciladores, los cuales pueden tener un rango de
frecuencia amplio o angosto.
Un oscilador de rango amplio, tal como uno basado en un circuito
sintonizado o un sistema multivibrador de resistencia / capacidad (RC) –el cual
posee una frecuencia de corte alrededor de los 10 KHz– tiene dos ventajas: el
feedback o realimentación que se genera en el loop atenuará el ruido de fase del
oscilador bajo esta frecuencia, de esta forma se verá reducido el jitter intrínsico. El
feedback también permitirá al oscilador soportar jitter bajo esta frecuencia,
aumentando de esta forma la tolerancia al jitter. Para frecuencias sobre la zona de
corte del PLL la tolerancia bajaría a + - 0.25 UI.
La desventaja de los osciladores de espectro amplio es por lo tanto, que
estos circuitos absorben casi todo el jitter de entrada pero no lo atenúan. Esto se
traduce en una potencial acumulación de jitter si se utilizaran un número
significativo de equipos en cascada.
En la otra mano se tiene a los osciladores de cristal (cuarzo), los cuales
tienen un rango de frecuencia angosto; lo que implica mucho menos feedback y
una frecuencia de corte inferior. Esto reduciría la tolerancia de jitter a menos de +-
0.5 UI en todas las frecuencias – salvo las más bajas -. El ruido de fase de un
oscilador de cristal es bajo, por lo tanto el feedback reducido no tendrá como
consecuencia una mayor cantidad de jitter intrínsico en la salida. A raíz de tener
una frecuencia de corte inferior, la función de transferencia de jitter ahora atenúa
jitter en frecuencias más bajas.
Este tipo de oscilador no provee de protección contra la acumulación de
jitter, el hecho que su frecuencia de corte sea más baja no ayuda mucho, debido a
que la atenuación que éste provee se contrapone con la escasa tolerancia al jitter
que presenta, de esta forma no se gana en protección.
50
El bajo jitter intrínsico de un oscilador de cristal se puede sumar con el jitter
introducido en el cable por lo cual esta característica no es una gran ventaja
tampoco. La desventaja clave que se presenta es el limitado rango de enganche
(lock) producto del ancho de banda también angosto del PLL de cristal. Como se
verá a continuación, este tipo de osciladores cumple una función clave dentro de
la arquitectura de recuperación de clock dual.
3.4.6.3.2 RECUPERACIÓN DE CLOCK DE 2 ETAPAS (DUAL)
Este tipo de diseño se muestra en la figura 3.21.
Figura 3.21: Arquitectura de un recuperador de clock dual AES3
La primera etapa extrae el clock que es usado para decodificar el patrón de
data bifásico entrante, y la segunda etapa es usada para generar los tiempos de
salida. El receptor PLL en la primera etapa (oscilador de rango amplio) está
designado para “absorber” (track) el jitter lo mejor posible, sin requerimientos de
atenuación, mientras que el segundo PLL no tiene que absorber jitter, sino que
está diseñado exclusivamente para atenuación de jitter (oscilador de cristal).
51
Uno de los beneficios de este diseño de doble PLL está ilustrado en la
figura 3.22.
De esta forma, tenemos que en la zona donde no se atenúa jitter (zona
plana de la función de transferencia jitter) la tolerancia sería varias veces mejor
que la tolerancia para frecuencias altas, asegurándose de esta forma protección
contra acumulación de jitter, incluso en sistemas donde ésta alcance niveles de
varias UI debido a jitter de baja frecuencia.
Dicho de una forma sencilla, el primer PLL se encarga de leer el data
stream sin errores, tolerando al máximo el jitter de entrada, mientras que el
segundo PLL lo atenúa, de esta forma rectificando el clock para sincronizar el data
stream de salida con una referencia mejorada.
Como se puede deducir, este diseño dual de PLL es el utilizado por los
convertidores D/A para transformar el data stream en señal análoga.
Figura 3.22: Beneficios del diseño de doble PLL, y visualización
de la transferencia de jitter (FTJ).
52
3.4.6.4 AUDIBILIDAD DEL SAMPLING JITTER
Como ya se sabe, el jitter presente en un clock de sampleo afecta la calidad
final de la señal reproducida, agregando modulaciones de fase potencialmente
audibles a la señal original. La audibilidad de estos productos está relacionado con
la naturaleza del jitter y la señal de audio. Se han calculado las amplitudes de jitter
requeridas para que estos productos sean audibles en presencia de una “señal
conflictiva” (alta frecuencia / alto nivel [dB]).
El gráfico 3.1 muestra niveles máximos de sampling jitter sinusoidal que no
producirían elementos de modulación audibles para el oído humano.
Gráfico 3.1
Aquí se muestra que aún amplitudes del orden de menos de nanosegundos
de sampling jitter pueden producir efectos audibles (para algunas señales de
audio) cuando la frecuencia de jitter es mayor que 600 Hz. Bajo esta frecuencia, la
53
modulación requerida para la audibilidad aumenta bruscamente como resultado
del enmascaramiento generado por el tono que está siendo modulado. Este efecto
de enmascaramiento ocurre porque las bandas laterales –producto de la
modulación– están demasiado cerca de la señal original. Para frecuencias de jitter
sobre 200 Hz nuestra sensibilidad a la modulación aumenta rápidamente, es decir,
nuestro oído puede diferenciar con más claridad la señal original de las bandas
laterales (ver figura 3.23).
Figura 3.23: Curvas de enmascaramiento.
De esto se puede sacar como conclusión que si el jitter de interfase total
puede ser controlado por sobre los 500 Hz (atenuado) esto simplificaría la tarea de
derivar un clock adecuado para sampleo a partir de la señal de interfase.
Para cerrar la idea, se concluye que muchos tipos de convertidores usan
señal de interfase para derivar clock de sampleo. Si éste no atenúa
apropiadamente el jitter que proviene de la interfase, entonces el sampling jitter
presentará un excesivo nivel.
Con circuitos apropiados de recuperación de clock, cantidades razonables
de interface jitter no deberían afectar la calidad final de la señal reproducida –por
lo tanto las mediciones de jitter de interfase no nos darían información de los
niveles requeridos de sampling jitter del equipo en cuestión–.
54
3.4.6.4.1 NIVELES ACEPTABLES DE SAMPLING JITTER
El mercado de equipamiento de audio de alta calidad y la asociación de
niveles de jitter extremadamente bajos con la calidad del audio están requiriendo
máquinas que generen niveles de sampling jitter cuyos elementos de modulación
caigan bajo el nivel de ruido de cuantización del sistema. Por esta razón los
niveles de sampling jitter derivados de interfase deben ser menores a 10 ns.
Es importante que estos aparatos tengan una relación señal ruido de al
menos 100 dB. Esto implicaría niveles de sampling jitter menores a 1.6 ns rms
(para un estímulo convencional de un tono puro de 1 KHz).
3.5 ERRORES DE AMPLITUD
En un sistema de números binario, el largo de palabra determina el número
de intervalos de cuantización disponible, como ya se sabe, éste puede ser
calculado elevando el largo de palabra a la potencia de 2. Dicho de otra forma,
una palabra de “n” bits obtendrá 2n niveles de cuantización, como podemos
apreciar en la tabla 3.2:
Tabla 3.2
55
Nótese que cada vez que se agrega un bit a la palabra, el número de
niveles se duplica, a mas bits, mejor aproximación; pero como se puede apreciar,
siempre hay un error asociado a la cuantización debido a que el número finito de
niveles de amplitud codificados en la palabra binaria nunca podrá igualar al infinito
número de amplitudes que presentan una señal análoga. Se tratará de esclarecer
el proceso de cuantización con la siguiente analogía: si se apilara una ruma de
hojas de máquina de escribir de una altura de 22 pies, el grosor de una hoja
representaría un nivel de cuantización en un sistema de 16 bits, en un sistema de
20 bits la ruma alcanzaría una altura de 352 pies, y en uno de 24 bits 5632 pies de
alto: más de una milla. El cuantizador podría medir esta milla con una precisión
igual al grosor de una hoja de papel, si una sola hoja fuera removida de la ruma el
bit menos significativo (LSB) cambiaría de 1 a 0.
Para que nos hagamos una idea de la exactitud con que trabaja un
cuantizador de 24 bits hagamos cuenta que medimos la distancia de los Ángeles a
Nueva York con una precisión de 24 bits: el mínimo error de medición sería igual o
menor a 9 pulgadas (estas serían análogas al LSB).
El largo de la palabra determina la resolución de un sistema de
digitalización y esto provee una especificación importante para evaluar la
ejecución de éste.
A veces el intervalo cuantizado estará en el mismo lugar que el valor
análogo de la señal, usualmente no ocurre esto. En el peor de los casos el valor
análogo estará a medio camino de un intervalo de cuantización.
La figura 3.24 ejemplifica lo anteriormente expuesto.
56
Figura 3.24: Visualización gráfica de la cuantización.
En el dibujo se tiene una palabra binaria de un valor 101000, la cual
corresponde a un intervalo análogo de 1.4v, y la siguiente palabra, 101001,
corresponde al intervalo de 1.5v... desafortunadamente, el valor análogo en el
instante de sampleo es de 1.45 v. Como no existe el intervalo en 1010001/2, el
cuantizador debe aproximar a 101001 o bajar a 101000.
De cualquier forma, existirá un error de una magnitud igual a medio
intervalo.
El error de cuantización por lo tanto, es la diferencia entre el valor real
análogo en el instante de muestreo y el valor del intervalo de cuantización
seleccionado en ese mismo instante. En el instante de sampleo el valor de la
amplitud es llevado al intervalo de cuantización más cercano, tal como se muestra
en la figura 3.25.
El error de cuantización está de este modo limitado a un rango de +Q/2 y –
Q/2, donde Q es un intervalo de cuantización.
Nótese que este proceso de selección de un nivel u otro es el mecanismo
básico de la cuantización, y ocurre para todas las muestras en el sistema digital y
que la magnitud del error es siempre igual o menor que la mitad de un LSB. Este
error se traduce en una distorsión que está presente para señales de cualquier
amplitud. Cuando la señal es grande la distorsión es relativamente pequeña y se
produce enmascaramiento, sin embargo, cuando la señal es pequeña la distorsión
es relativamente grande y puede ser audible.
57
Figura 3.25: Error de cuantización.
3.5.1 DISTORSIÓN DE CUANTIZACIÓN
Análisis del error de cuantización en señales de baja amplitud revelan que
su espectro es una función de la señal de entrada. El error ya no se presenta
como ruido, sino que ahora existe una correlación con la señal de entrada. Debido
a que el error de cuantización es una función de la señal original, éste no puede
ser descrito como ruido, sino que debe ser clasificado como distorsión.
Con una señal de nivel máximo peak to peak, tenemos que todos los
intervalos de cuantización son ocupados para codificar dicha señal. En cambio,
una señal de muy bajo nivel debería recibir una cuantización de un bit o a aún
peor , no ser cuantizada. En otras palabras, cuando el nivel de la señal decrece, el
porcentaje de error aumenta. Para aliviar esta problemática se usa el dither.
58
El llamado “piso de error” de un sistema de audio digital difiere del piso de
ruido de un sistema análogo en que en un sistema digital el error es función de la
señal –las características del error de cuantización varían con la amplitud y
naturaleza de la señal de audio–.
En señales de entrada de alto nivel y ancho de banda extendido (como la
música) el error de cuantización es percibido como un ruido blanco –ya que en
este caso el error es independiente de la señal–.
Sin embargo, la calidad perceptual del error es menos benigna a medida
que decrece el nivel de la señal, o su ancho de banda.
La distorsión de cuantización puede tomar muchas formas. Por ejemplo, la
señal cuantizada puede contener componentes sobre la frecuencia de Nyquist, de
esta forma podría ocurrir el fenómeno de alias.
Si la señal tiene un alto nivel o es compleja, los componentes generados
por el alias se sumarán al ruido general ocasionado por el error que ya estaba
presente en dicha señal. No obstante, si la señal es de bajo nivel y espectralmente
simple, los componentes de alias serán más audibles. Consideremos un
sistema con un sistema de muestreo de 50 KHz y limitación de banda a 25 KHz.
Cuando se le aplica una señal sinusoidal de 7 KHz de una amplitud de un intervalo
de cuantización, ésta es cuantizada como una onda cuadrada de 7 KHz. Los
armónicos de esta onda cuadrada aparecerán en los 21, 35 y 49 KHz, estos dos
últimos generan alias en 15 y 1 KHz, respectivamente. Esto mismo ocurre con
otros armónicos de dicha señal.
El alias generado por cuantización puede crear un efecto llamado “ruido de
granulación”. Este ruido se hace más audible en presencia de señales de bajo
nivel. Esta combinación de ruido modulante con distorsión no tiene su contraparte
en el mundo análogo y auditivamente es molesto.
Para agravar aún más las cosas, si el componente de alias está cerca de un
múltiplo de la frecuencia de sampleo se pueden generar tonos pulsantes,
produciendo un desagradable sonido llamado “canturreo de pájaros”.
59
Si tenemos un tono decayendo en fade out éste presenta una forma de
onda descendente a través de los niveles de cuantización, tenemos entonces que
el error perceptualmente va cambiando desde un ruido blanco hasta llegar a
componentes de distorsión. Este problema se ve agravado debido a que hasta
complejos tonos musicales tornan en componentes sinusoidales a medida que
decaen en amplitud, de esta forma, el tono descendente tiende a modular en
amplitud a los componentes de distorsión ya presentes... una vez más el dither
soluciona estas anomalías.
3.5.2 DITHER
3.5.2.1 UN POCO DE HISTORIA...
Los primeros usos que tuvo el dither se remontan a la época de la Segunda
Guerra Mundial. Los bombarderos utilizaban computadores mecánicos para
realizar cálculos de navegación aérea y de trayectoria de bombas. Curiosamente,
estos computadores –verdaderas cajas llenas de engranajes– funcionaban mejor
en el aire que en la tierra.
Los ingenieros se dieron cuenta que la vibración de la aeronave reducía el
error generado por las toscas partes móviles del computador. En vez de moverse
a saltos, éstas lo hacían de una forma más continua. Se construyeron entonces
pequeños motores vibradores dentro de los computadores, y su vibración se llamó
“dither”, palabra que viene de un verbo del inglés antiguo – didderen – que
significa “temblar”. Los diccionarios modernos definen dither como “ un estado
altamente nervioso, confuso o agitado ”
En pequeñas cantidades, el dither efectivamente hace que un sistema de
digitalización sea un poco más análogo –en el buen sentido de la palabra–.
60
3.5.2.2 DEFINICIÓN DE DITHER
Con señales complejas de amplitud elevada, existe muy poca correlación
entre la señal y el error de cuantización. De este modo, el error es aleatorio y
perceptualmente similar al ruido blanco.
Pero con señales de bajo nivel, el carácter del error cambia, a medida que
aumenta la correlación entre éste y la señal de entrada, generándose de esta
forma distorsión potencialmente audible.
Un sistema de digitalización debe suprimir cualquier elemento audible de su
error de cuantización.
Obviamente, el número de bits de la palabra cuantizadora puede ser
incrementado, decreciendo de esta forma la amplitud del error una razón de 6 dB
por bit adicional. Esto no es viable económicamente, ya que muchos bits se
necesitarían para reducir satisfactoriamente la audibilidad del error de
cuantización, aún así, el error será siempre relativamente significativo en
presencia de señales de bajo nivel.
El dither solucionaría efectivamente este problema.
El dither es una pequeña cantidad de ruido –ruido benigno–, el cual no tiene
relación con la señal de audio, éste es añadido a la señal antes de la etapa de
muestreo; esto lineariza el proceso de cuantización.
El dither hace que la señal de audio “conmute” o cambie alternativamente
de nivel de cuantización. En vez que ocurran patrones periódicos de cuantización
en formas de onda consecutivas, con dither, cada ciclo es diferente. De esta
forma, deja de existir correlación entre la señal de audio y el error de cuantización,
por lo tanto, su efecto es aleatorizado a tal grado que desaparece. No obstante el
dither reduce en gran medida la distorsión, éste añade un poco de ruido a la señal
de audio de salida.
61
En un sentido estrictamente conceptual, el dither es similar al bias de alta
frecuencia en una grabadora de cinta magnética análoga.
El dither no enmascara el error de cuantización, mas bien, permite al
sistema digital codificar amplitudes mas pequeñas que el LSB (bit menos
significativo), en una forma similar a como un sistema análogo puede registrar
señales bajo su piso de ruido.
Un sistema digital con dither puede exceder largamente la relación
señal/ruido de un sistema análogo. De la misma forma, un sistema digital carente
de dither puede ser peor que un sistema análogo, especialmente en presencia de
señales de bajo nivel.
Para obtener una digitalización de máxima calidad, es necesario agregar
dither antes de la cuantización en el convertidor A/D.
Considérese el caso de una señal de audio de entrada con una amplitud
igual a un intervalo de cuantización. La señal se moverá o dentro del intervalo
–resultando en una señal cuantizada DC (continua)– o se moverá a través del
umbral del último intervalo y el siguiente, resultando a la salida una onda
cuadrada, como se muestra en la figura 3.26 secciones A y B.
Figura 3.26: Visualización gráfica para una onda de audio con dither.
62
La onda cuadrada demuestra que la cuantización en niveles muy bajos
actúa como un limitador extremo, en otras palabras, una severa distorsión toma
lugar.
El efecto es bastante diferente cuando el dither es agregado a la señal de
audio, como se observa en la sección C. En la sección D, se muestra la señal de
pulsos que preserva la información de la señal original. De esta forma, la señal
cuantizada va conmutando arriba y abajo, a medida que la señal con dither varía,
siguiendo el valor promedio de la señal de entrada.
Figura 3.27: El dither permite codificar información bajo el LSB.
Esta codificación es conocida como “modulación por ancho de pulsos” ó
PWM (pulse-width modulation), la cual preserva con exactitud la forma de onda de
63
la señal de entrada. El valor promedio de la señal cuantizada se mueve
continuamente entre dos niveles, aliviando el efecto del error de cuantización. De
esta misma forma, ruido análogo sería codificado como una señal binaria de ruido;
valores de 0 y 1 aparecerían en el LSB en cada período de sampleo, manteniendo
la señal su característica de ruido blanco. El resultado perceptual es la señal mas
un ruido agregado –mucho más deseable que una onda cuantizada cuadrada–.
Matemáticamente, con el dither el error de cuantización ya no es una
función determinante de la señal de entrada, sino que se convierte en un variable
aleatoria. Esta técnica es conocida como dither no sustractivo porque la señal
dither está permanentemente agregada a la señal de audio. El error total no es
estadísticamente independiente de la señal de audio, y los errores no son
independientes muestra a muestra. El dithering sustractivo, en el cual la señal
dither es removida después de la recuantización (etapa D/A), teóricamente provee
total independencia estadística de error, pero es más difícil de implementar.
John Vanderkooy y Stanley Lipshitz demostraron los beneficios del dither
con una señal sinusoidal de 1 Khz de una amplitud peak to peak de 1 LSB, como
se demuestra en la figura 3.27. Sin dither (A), una onda cuadrada se genera a la
salida del convertidor D/A. Cuando se agrega dither gaussiano (aleatorio) de 1/3
de LSB de amplitud rms a la señal original, se tiene como resultado una forma de
onda modulada por ancho de pulsos (B). La señal sinusoidal codificada es
revelada cuando ésta es promediada en una cantidad considerable de periodos (C
y D).
El oído percibe las señales acústicas promediándolas en el tiempo; dicho de
otra forma, el oído es un filtro pasa bajos que promedia señales. En este caso, una
sinusoide ruidosa será escuchada, en vez de una onda cuadrada.
Con el dither, la resolución de un sistema de digitalización está mucho más
abajo del bit menos significativo de cuantización.
64
Teóricamente, no existe límite para la resolución de niveles bajos.
Codificando la señal con dither para que module a la señal cuantizada hace que
esta información pueda ser recuperada, aunque la señal tenga una amplitud
menor que el intervalo de cuantización más pequeño. Más aún, el dither puede
eliminar la distorsión causada por cuantización, reduciéndola a ruido blanco. Una
prueba de ello, está ilustrada en la figura 3.28, ahí se muestra una sinusoide de 1
KHz de una amplitud de 4 LSB peak to peak. La primera columna muestra la señal
sin dither. La segunda columna muestra la misma señal con un dither pdf
triangular (probability density function: función de probabilidad de densidad) –en el
siguiente ítem se explicarán los tipos de dither– de una amplitud peak to peak de 2
LSB. En ambos casos, la primera fila muestra la señal de entrada. La segunda fila
muestra la señal de salida, la tercera muestra la señal del error de cuantización
total, la cuarta, el espectro de la señal de salida.
La señal de salida sin dither (D) sufre de distorsión armónica producto del
alias. La señal de error (G) de la señal con dither muestra elementos de la señal
de entrada, de este modo, el error no es estadísticamente independiente de ella.
Sin embargo, esta señal de error se escucharía como ruido blanco (aunque
claramente no se “ve” como ruido blanco) y la señal de salida se oiría como una
sinusoide con ruido. Esto es apoyado por el diagrama de espectro de la señal con
dither, el cual muestra que ella está libre de elementos dependientes de la señal, y
posee un piso de ruido blanco.
65
Figura 3.28: Simulación computarizada de la cuantizaciòn de una señal sinusoidal
de bajo nivel (1kHz) con y sin dither. A: señal de entrada. B: señal de
salida (sin dither). C: señal total de error (sin dither). D: Densidad espectral
de potencia de la señal de salida (sin dither). E: señal de entrada. F: señal
de salida (con dither de pdf triangular). G: señal total de error (con dither
de pdf triangular). H: Densidad espectral de potencia (con dither).
66
3.5.2.3 TIPOS DE DITHER
Existen varios tipos de señales dither, generalmente éstas se diferencian
por su pdf o función de probabilidad de densidad.
Dada una señal aleatoria con una cantidad infinita de valores posibles, la
integral de la función de probabilidad de densidad describe la probabilidad de
valores ( para una señal) que se pueden dar en un intervalo de muestreo. La
probabilidad que el valor de la señal caiga dentro del intervalo esta dada por el
área bajo la función. La probabilidad puede ser constante por un intervalo o puede
variar. Para aplicaciones de audio el interés está focalizado en tres tipos de
señales dither: pdf gaussiano (aleatorio), pdf rectangular (uniforme) y pdf
triangular, como se muestra en la figura 3.29. Por ejemplo, se debe hablar de una
señal dither blanca estadísticamente independiente, con una pdf triangular de un
nivel –o ancho– de 2 LSB.
Los tres tipos de dither efectivamente linearizan la característica de
transferencia de la cuantización, pero difieren en sus resultados.
Si bien las señales dither con pdf rectangular y triangular agregan menos
ruido total a la señal, el dither gaussiano es más fácil de implementar en el
dominio análogo.
67
Figura 3.29: Estas funciones son utilizadas para describir señales de dither.
Los sistemas de digitalización de audio más usados incluyen pdf
rectangular, pdf triangular y pdf Gaussiano. A: dither rectangular.
B: dither triangular. C: dither Gaussiano.
Es posible generar dither gaussiano utilizando técnicas análogas comunes;
por ejemplo, un diodo puede ser utilizado como una fuente de ruido. El ruido dither
debe variar entre valores negativos y positivos en cada período de muestreo; su
ancho de banda debe ser a lo menos la mitad de la frecuencia de sampleo.
Un dither gaussiano con un valor rms de ½ LSB efectivamente linearizaría
los errores de cuantización; sin embargo, un porcentaje de modulación de ruido es
agregado a la señal de audio.
La potencia de ruido de cuantización sin dither llega a Q2/12 (ó Q/√12 rms).
El dither gaussiano contribuye con una potencia de ruido de Q2 / 4, y éste
combinado con el ruido ya existente suman Q2 / √3 (ó Q/ 3 rms), donde Q es un
LSB. Como se puede ver el aumento del piso del ruido es importante.
68
Un dither con pdf rectangular es un voltaje aleatorio constante
uniformemente distribuido en un intervalo, este dither operando entre +- ½ LSB
(esto es, una señal de ruido con una función de probabilidad de densidad
uniforme, con un ancho peak to peak igual a un LSB) linearizaría completamente
la “escalera de cuantización” y eliminaría los elementos de distorsión generados
por la cuantización. Sin embargo, esta pdf rectangular no elimina la modulación
del piso de ruido. Con dither de pdf rectangular, el nivel de ruido es más propenso
a ser dependiente de la señal.
Esta modulación de ruido será cuestionable en presencia de señales de
muy baja frecuencia o dinámica muy variable. Un dither de pdf rectangular de ½
LSB agrega Q2 /12 de potencia de ruido al ruido de cuantización ya existente (Q2
/12); esto logra una potencia de ruido combinada de Q2 / 6 (ó Q/ √6 rms).
Se cree que la mejor señal dither es la con pdf triangular de 2 LSB de ancho
peak to peak. Este tipo de dither elimina la distorsión y también la modulación del
piso de ruido; sin embargo, el piso de ruido es un poco mas elevado que con un
dither pdf rectangular. El dither pdf triangular agrega una potencia de ruido de Q2 /
6 a la potencia de ruido ya existente (Q2 /12), resultando una potencia de ruido
final de Q2 /4 (ó Q / √2 rms ).
No obstante se utilizen estas amplitudes óptimas, comparado con una señal
sin dither, un dither de pdf rectangular aumenta el ruido el ruido en 3 dB, uno de
pdf triangular lo hace en 4.77 dB, y un dither con pdf gaussiano aumenta el ruido
en 6 dB.
En general, un dither con pdf rectangular será preferido para propósitos de
medición, debido a su expandida relación señal/ruido, sin embargo, el dither pdf
triangular es considerado mas agradable para el oído humano, siendo éste
entonces el mas apto para utilizar con música, a pesar que posea un piso de ruido
un poco mayor.
69
Claramente, el dither gaussiano (o aleatorio) tiene un problema de ruido
excesivo.
Debido a que el dither pdf rectangular y pdf triangular son fácilmente
generados en el dominio digital, son preferidos al dither gaussiano en aplicaciones
de recuantización antes de la conversión D/A.
Cuando se midan parámetros tales como la distorsión en equipos de audio
digital, es importante que la señal de prueba ya tenga dither, de otra forma la
medición reflejará una distorsión que es producto de la señal en sí, y no del
equipamiento bajo medición.
La amplitud del dither es un factor importante a considerar. La figura 3.30
muestra cómo el intervalo de cuantización mas bajo es linearizado, agregando
diferentes amplitudes de dither pdf gaussiano y pdf rectangular. En ambos casos,
los efectos de la cuantización disminuyen a medida que se agregan amplitudes de
dither relativamente mayores. Como se puede ver, una señal pdf gaussiana de
amplitud ½ LSB rms logra una característica lineal. Con un dither pdf rectangular,
un nivel de 1 LSB peak to peak consigue lo mismo. En cualquier caso, agregar
dither de amplitud excesiva disminuiría severamente la relación señal/ruido de un
sistema digital.
Figura 3.30: Transferencia característica de entrada/salida mostrando
efectos de dither con varias amplitudes.
A: señal de dither gaussiano de ½ LSB linealizada.
B: señal de dither rectangular de 1 LSB linealizada.
70
El aumento del ruido producto del dither es generalmente insignificante,
dada la gran relación señal/ruido inherente a un sistema digital, sin embargo, la
audibilidad de este ruido puede ser minimizada mas aún, por ejemplo, utilizando
un filtro pasa altos de señal dither (high pass dither signal). Esto puede ser logrado
con un dither generado digitalmente.
Por ejemplo, el espectro de un dither pdf triangular puede ser procesado de
modo que su amplitud disminuya en frecuencias medias y aumente en alta
frecuencia, por lo tanto, como el oído humano es relativamente insensible en ese
rango, esta señal de dither será menos audible que un dither de rango extendido,
además, se eliminan la distorsión y la modulación del piso de ruido.
Estas técnicas –usualmente llamadas noise shaping– pueden ser utilizadas
para reducir audiblemente el error de cuantización, por ejemplo, cuando se trunca
una señal procesada en 20 bits a 16 bits.
En términos generales, se puede procesar la señal dither para moldear
sicoacústicamente el piso de ruido de cuantización y de esta forma, reducir su
audibilidad.
Los diseñadores han observado que la amplitud de una señal dither puede
ser disminuida, si se agrega una sinusoide de frecuencia inferior a la de Nyquist, y
amplitud 1 (ó 1/2) intervalo de cuantización a la señal de audio. La señal
sinusoidal agregada debe estar sobre el umbral de audición, pero bajo la
frecuencia de Nyquist para prevenir el alias.
Sin embargo, una frecuencia discreta de dither puede intermodular con las
señales de audio, una señal dither de espectro extendido no tiene este
problema...una cosa por otra.
Por último, cuando la señal se manipula o procesa en el dominio digital, se
utiliza dither digital para aliviar el llamado error de round-off . Por ello, se debe
averiguar si el equipamiento digital utilizado (ej: plugins) tiene la capacidad de
procesar las señales con dicho dither.
71