compresiÓn de video mpeg-2 y audio ac-3 · dimensiones de las tramas, velocidad binaria...

COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3

87

CAPITULO 3


3.1 INTRODUCCIÓN

En este capítulo se definen las características, los fundamentos de la compresión de

video MPEG-2 y audio de 5.1 canales AC-3 de Dolby, así como la formación del flujo

para el transporte de las señales comprimidas, estos usados por la norma ATSC.

La compresión de video se aplico desde la televisión analógica de distintas formas.

El barrido entrelazado es una forma de compresión, porque el ancho de banda que

ocupa esa señal, se reduce a la mitad. En cambio, utilizando barrido progresivo, el

ancho de banda que ocuparía esa señal, sería el doble.

Otra forma de compresión, es la debida a las señales diferencia de color (R-Y) y (B-

Y). El ojo es poco sensible a los detalles de color, por ende estas señales necesitan

un ancho de banda pequeño.

3.2 GENERALIDADES DE LA COMPRESIÓN

La necesidad de comprimir en un sistema digital HDTV es evidente si se considera

el hecho que el régimen de datos de una señal HDTV sin comprimir es de

aproximadamente 1 Gbps, y el régimen de bits que se puede transmitir

confiablemente dentro de un canal común de 6 MHz es de 20 Mbps. Esto implica la

necesidad de una compresión de 50:1 o más.

La Norma ATSC especifica la compresión de video usando una combinación de

técnicas de compresión, y por razones de compatibilidad esos algoritmos han sido

seleccionados para conformarse a las especificaciones de MPEG-2, que es un

conjunto flexible internacionalmente aceptado de algoritmos de compresión.

HDTV LA NUEVA TECNOLOGÍA EN TV


88

La compresión de video es una técnica de reducción de datos redundantes y en

consecuencia, una disminución de la velocidad binaria de este flujo.

El estándar MPEG, especifica la representación codificada de video para medios de

almacenamiento digital y especifica el proceso de decodificación. Una característica

muy importante del sistema MPEG-2 es su enorme flexibilidad que conforma una

parte integral del diseño del sistema.

Para lograr este tipo de compresión, depende principalmente de tres factores: la

Estimación del Movimiento (la diferencia entre una imagen y la siguiente), la

Transformada Discreta del Coseno (DCT) como instrumento matemático para

realizar los cálculos complejos pertinentes, con una Codificación Ponderada y la

Codificación de Longitud Variable (VLC).

La señal de entrada debe ser digital, este flujo de datos es comprimido y

paquetizado. A la salida del compresor se tiene un tren de datos comprimidos en

paquetes de Longitud Variable denominados PES (Packet Elementary Stream), cuya

velocidad binaria será menor a la de entrada. La velocidad del Flujo de Datos de

salida es directamente proporcional a la relación de compresión aplicada.

Esta relación esta dada por: Relación de Compresión = Vi / Vo

Donde: Vi = Velocidad del tren de datos a la entrada del compresor

Vo = Velocidad del tren de datos a la salida del compresor

La compresión de video y audio están en relación directa con la capacidad de

almacenamiento de un sistema. Si se desea aumentar el tiempo de almacenamiento

sin aumentar su capacidad, se debe recurrir a la compresión.



89

3.3 EL ESTÁNDAR MPEG-2

El primer estándar de compresión, concebido para ser utilizado con imágenes

estáticas, fué el JPEG (Joint Photographic Experts Group).

Posteriormente, se creó el grupo MPEG (Moving Picture Experts Group), cuyo fin era

desarrollar un estándar de compresión para imágenes en movimiento. El primer

estándar para esta aplicación fue el MPEG-1, utilizado para grabaciones en CD-

ROM. Este estándar tenía algunas limitaciones como que no era de aplicación

Broadcast.

Limitantes del MPEG-1:

• Flujo máximo de 1.5 Mbps, con calidad comparable al VHS.

• Resolución de 352x240, además de una operación solo con barrido

progresivo.

Después se desarrollo el estándar de compresión de video MPEG-2, concebido para

aplicaciones Broadcast. Este tiene como principales características el operar con

velocidades de hasta 15 Mbps y utiliza las más altas resoluciones aceptando barrido

entrelazado y progresivo.

La representación soporta la velocidad normal de reproducción así como también la

función especial de acceso aleatorio, reproducción rápida, reproducción hacia atrás

normal, procedimientos de pausa y congelamiento de imagen. Este estándar

internacional es compatible con los formatos de televisión de 525 y 625 líneas,

además provee la facilidad de utilización con monitores de computadoras personales

y estaciones de trabajo.

Los estándares han sido desarrollados y sus extensiones continuarán de manera tal

que la misma serie básica de técnicas pueda ser utilizada sobre aplicaciones de

audio y video más amplias. Esto comprende desde imágenes utilizadas para video-



90

telefonía en una pantalla de computadora a través de secuencias de imágenes

animadas de un CD en baja definición hasta imágenes de TV estandarizadas de 525

líneas e imágenes de HDTV con sonido envolvente. Es por ello que este formato se

usa en los sistemas para HDTV americano, europeo y japonés.

3.4 VENTAJAS DEL MPEG

Las mayores ventajas que derivan de la reducción del bit-rate de las imágenes de

televisión y para combinar muchos de los programas en un solo flujo de bits digital

para la transmisión, son que los broadcasters pueden ahorrar dinero y que los

televidentes pueden acceder a una opción más amplia de programas dentro de los

sistemas de transmisión actuales.

Cualquier medio de transmisión que previamente podía sólo emitir un programa

podrá con la ayuda de las técnicas de compresión MPEG-2, ser capaz de transmitir

2, 4, 8 ó incluso 30 programas separadamente, dependiendo de que la calidad de la

imagen sea aceptable para una aplicación en particular.

El ahorro de dinero que brinda el comprimir varias imágenes a través de un

trasponder satelital, canal aéreo o de cable designado para transportar sólo un

programa, es realmente muy atractivo debido a la posibilidad de multiplicar los

canales de transmisión.

Las ventajas para el operador del servicio o broadcaster son:

• Reducción de costos por canal de programa.

• Una mayor opción de programas que se brinda a los televidentes.

• Una mayor eficiencia de transmisión, superior a la de los sistemas analógicos.

• Mejoramiento de la calidad del servicio.

• Mayor flexibilidad.

• Sistemas digitales de Acceso Condicional más seguros.



91

3.5 NIVELES Y PERFILES MPEG-2

Las especificaciones del MPEG-2 se organizan en un sistema denominado perfiles y

niveles, para que las aplicaciones puedan asegurar interoperatividad al utilizar

equipamientos y procesos con características comunes en sus parámetros de

codificación .

Dentro del perfil principal, existen una gran variedad de desempeños, incluye tres

tipos de cuadros predictivos (“I”, “P”, y “B”), con una organización de muestras de

luminancia y crominancia (llamadas 4:2:0) dentro del cuadro. Por otra parte, el alto

nivel son un conjunto de derivaciones impuestas para los perfiles, incluye formatos

con hasta 1152 líneas activas y hasta 1920 muestras por línea activa. La

combinación de un perfil y un nivel produce una arquitectura muy bien definida para

una cadena particular de bit. Los perfiles limitan la sintáxis (por ejemplo: los

algoritmos), mientras los niveles limitan los parámetros (velocidad de muestreo,

dimensiones de las tramas, velocidad binaria codificada, etc.).

• Niveles: Proveen un rango de cualidades potenciales, definen los máximos y

mínimos para la resolución de la imagen, muestras por segundo (luminancia),

el número de capas de audio y video soportados por los perfiles escalados, la

máxima velocidad binaria por perfil.

A continuación , una explicación resumida de cada uno de ellos:

• Nivel Bajo: Tiene un formato de entrada el cual es un cuarto de la imagen

definida en el registro ITU-R 601.

• Nivel Principal: Tiene una trama de entrada completa definida en el

registro ITU-R 601.

• Nivel Alto 1440: Tiene un formato de alta definición con 1440 muestras

por línea.

• Nivel Alto: Tiene un formato de alta definición con 1920 muestras por

línea (para aplicaciones sin cualquier limitación en velocidades de datos).



92

• Perfiles: Son definidos subconjuntos con características de sintaxis

(algoritmos), usados para converger la información. Hay cinco diferentes

perfiles y cada uno es progresivamente más sofisticado y agrega

herramientas adicionales (y por supuesto más costoso para el cliente) con

la característica adicional de ser compatible con el anterior. Esto significa

que un decodificador equipado con un alto perfil descodificará perfiles

simples.

A continuación vermos características de los perfiles:

• Perfil Simple: Es el que ofrece pocas herramientas.

• Perfil Principal: Tiene herramientas extendidas o mejoradas del perfil

simple y predicción bidireccional. Tendrá mejor calidad para la misma

velocidad binaria que el perfil simple.

• Perfil Escalable SNR y Perfil Escalable Espacial: Estos dos niveles son

llamados escalables porque permiten codificar datos de vídeo que sean

particionados dentro de una capa base y una o más señales "Top-up". La

señal Top-up puede tanto tratar la proporción S/N (SNR escalable) o la

resolución (escalable espacial).

• Perfil Alto: Este incluye todas las herramientas de las versiones anteriores

y mejoradas. Tiene la habilidad de codificar diferencias de color entre

líneas simultáneamente. Este es un sistema diseñado para aplicaciones

donde no están contraídas sobre las velocidades de los bits.

En las tablas 3.1 y 3.2 vemos estas características, primero para los niveles,

enseguida para los perfiles.



93

NIVELES LIMITES DE ENTRADA

ESTRUCTURA DE IMAGEN

LIMITES MÁXIMOS

VELOCIDAD DE DATOS

NIVEL ALTO 1920 X 1152* 80 Mb/s**

NIVEL ALTO 1440 1440 X 1152* 60 Mb/s**

NIVEL PRINCIPAL 720 X 576* 15 Mb/s**

NIVEL BAJO 352 X 288* 4 Mb/s**

*Hasta estos valores de pixeles por líneas activas. ** Velocidades máximas

Tabla 3.1 Características de los niveles para el MPEG-2

PERFILES CARACTERÍSTICAS LIMITES

MÁXIMOS

SIMPLE Sin cuadros bidireccionales B. 4:2:0 solamente

PRINCIPAL Sin extensiones de imagen. 4:2:0 solamente

SNR* Escalable. 4:2:0 solamente

ESPACIAL Espacial escalable. 4:2:0 solamente

ALTO Temporalmente escalable, puede utilizarse

muestreo 4:2:0 ó 4:2:2 antes de la compresión.

*SNR. Relación Señal a Ruido.

Tabla 3.2 Características de los perfiles para el MPEG-2

Para muchas de las aplicaciones (incluyendo transmisión de satélites) el Perfil

Principal, Nivel Principal (MP@ML, siglas en inglés) provee una buena relación entre

calidad de imagen y la complejidad VLSI, como resultado el MP@ML es el punto de

desarrollo para los actuales sistemas HDTV.

Parámetros MP@ML del MPEG-2:

• 576 líneas (50 Hz) o 480 líneas (60 Hz), cada uno de 720 pixels

• Muestreo 4:2:0 antes de la codificación



94

• Estructuras de cuadros I, P y B con predicción de movimiento

• Promedio máximo de codificación en 15 Mbit/seg.

• Codificación DCT

• Cuadro adaptivo y predicción de movimiento de campo

• Predicción inteligente de cuadros duales para imágenes de los cuadros

no B

• Compatibilidad MPEG-1 anticipada (no reversible)

3.6 SCRAMBLING Y ACCESO CONDICIONAL

Una de las principales características que posee el sistema MPEG-2, a través de sus

capas, es el multiplexado y encriptado selectivo de sus servicios. Dado que el

estrato o capa de los sistemas, también llamado transportador es básicamente

independiente de la capa de compresión, toda la información que contiene acerca de

la encriptación o la distribución individual a los clientes puede ser separada de la

información del programa. Esto les permite a los proveedores de servicios de

satélite, cable o terrestre acceder a una lista electrónica de clientes y autorizar a

clientes particulares a ver programas especiales, o a verse exceptuado de alguno de

ellos, sin tener que recaer en “terceros”, tal como una compañía que controle el

equipamiento multiplexado de enlace satelital. Los ingenieros del sistema MPEG

usaron el término “scrambling” para describir lo que normalmente podría ser

considerado como “encriptación”.

Han sido previstas todas las alternativas para el uso del scrambling, pero no son

obligatorias, y ningún algoritmo de encriptación particular ha sido especificado; en

vista de que esta información será transportada a la capa de los sistemas y cualquier

sistema de encriptación apropiado podrá ser empleado.

Ciertos factores importantes están especificados como el hecho de que no está

permitido realizar el scrambling en el verdadero paquete colector de flujo



95

transportador, puesto que este podría cerrarle el acceso a otros usuarios y tornar el

sistema multiplexado inutilizable.

El sistema incluye varios modos de facilitar el scrambling proveyendo al paquete

colector del flujo transportador de un campo de control de scrambling, que puede ser

usado para indicar el modo de encriptación vigente y un campo de adaptación, que

puede utilizarse para transportar claves de encriptación u otros mensajes de control

de autorización. Estos son utilizados para regular el acceso de un usuario individual

a servicios particulares. El sistema propone el uso de esa información como opcional

pero ofrece áreas privadas de flujos de datos que pueden ser usados para

transportar la misma información.

3.7 LA CALIDAD DE LA IMAGEN A DISTINTOS BIT-RATES

La naturaleza del proceso de compresión dificulta la formulación de afirmaciones

categóricas respecto de la relación entre la calidad de la imagen y el bit-rate, ya que

la calidad de las imágenes procesadas dependerá del contenido de la imagen,

teniendo generalmente las partes más rápidas de una imagen una peor resolución

que las partes estáticas o lentas.

Un sistema moderno de televisión es probable que tenga que lidiar también con la

compresión de imágenes en el estudio. Allí es donde una reducción del bit-rate les

permite a los sistemas de grabación aumentar el tiempo de almacenamiento.

Queda mucho trabajo por hacer todavía sobre los efectos en cascada que provocan

en el material de programa las diferentes sesiones de compresión. Un informe de

noticias por ejemplo, puede ser efectuado con una cámara-grabadora digital, donde

las imágenes son comprimidas para su almacenaje en cintas de 2:1. Luego la cinta

puede ser transferida a un editor digital de disco duro usando una razón de

compresión 8:1, y la salida del estudio puede ser emitida a los transmisores vía



96

enlace a 34 Mbit/s, usando un sistema de compresión diferente de 6:1. Resulta

obviamente difícil predecir la calidad final de la salida de tan complejo sistema.

Las siguientes tablas 3.3 y 3.4, muestran las estimaciones de NDS acerca de la

calidad de las imágenes a distintos bit-rates.

IMAGEN DEGRADACIONES BIT-RATE RELACIÓN DE

COMPRESIÓN

HDTV 1250 líneas Imagen perfecta. 1Gb/s* 1

HDTV 1250 líneas con

compresión

Degradaciones no perceptibles,

calidad profesional. 32-40 Mb/s 30-25

HDTV 1250 líneas con

compresión

HDTV calidad doméstica.

Algunas distorsiones sobre

escenas críticas

16-20 Mb/s 60-50

*Se toma como ejemplo una velocidad binaria de 1 Gb/s.

Tabla 3.3 Características de la imagen HDTV para el MPEG-2

Para Televisión de Alta Definición, (HDTV), el bit-rate es de alrededor de 1500 Mbit/s

(1,5Gbit/s), y para la calidad de una imagen de 625 líneas standard de estudio está

en 270 Mbit/s. Estas velocidades son para una cuantificación de 10 bits por muestra.



97

IMAGEN DEGRADACIONES BIT-RATE RELACIÓN DE

COMPRESIÓN

Señal original

en estudio

525/60

Calidad profesional. Imagen

perfecta. 270 Mb/s 1

Compresión en

525/60

Calidad de distribución profesional.

Pocas degradaciones perceptibles,

si la señal de entrada es broadcast,

sin embargo, si la señal de entrada

es ruidosa un movimiento rápido

puede crear problemas.

8-10

Mb/s 50-40 Mb/s

Compresión en

525/60

Calidad doméstica, algunas

distorsiones en escenas críticas 4-5 Mb/s

200-100

Mb/s

Tabla 3.4 Características de la imagen de 525 líneas para el MPEG-2

Como lo indica la tabla, las imágenes digitales de 525 líneas comprimidas por un

factor de alrededor de 40:1 que necesitan un bit-rate de alrededor de 5 Mbit/s, son

generalmente consideradas casi equivalentes a las imágenes NTSC standard que se

ven en los hogares, con la condición de que muy ocasionalmente surgirá algún

material expuesto que no responda bien a los algoritmos de compresión, sufriendo

en la recepción de alguna distorsión

Las estimaciones de los bit-rates requeridos para las distintas calidades de imagen

están basadas en las técnicas de codificación de MPEG-2 y la calidad de la imagen

doméstica de 525 líneas indicada que reciben los televidentes.



98

3.8 DEFINICIÓN DE LA IMAGEN Y PROMEDIOS DE COMPRESIÓN VARIABLE

Tests y pruebas de medición bien fundamentados han estado utilizándose durante

muchos años para definir la calidad de las imágenes analógicas de televisión, en

formas subjetiva y objetiva.

Los sistemas digitales presentan problemas distintos, y no resulta apropiado medir la

calidad de las imágenes digitales usando los mismos tipos de accesorios y señales

de tests que fueron utilizados para las imágenes analógicas.

Considerando que una definición subjetiva de una imagen analógica de televisión

puede usualmente ser ajustada dentro de uno de los grados de la escala de cinco

puntos del CCIR. Esta escala va desde “excelente” a “muy mala”, y los deterioros

graduados entre “imperceptible” y “señal inutilizable”.

Las imágenes digitales que han padecido los distintos procesos de compresión

serán todavía más difíciles de definir.

Una imagen digital con bajo bit-rate puede ser virtualmente perfecta durante la

mayor parte de tiempo y hasta libre de ruidos, siempre que las señales de la imagen

original sean “limpias”, sin considerar un tenue “ruido de cuantificación” del medio,

debido a errores inevitables en el proceso de conversión analógico-digital.

Por breves intervalos de tiempo, de todos modos, sobre algunas partes animadas

rápidas de un área de la imagen, la resolución puede deteriorarse. El resto de las

áreas de la imagen pueden parecer perfectas. La calidad de la imagen depende del

contenido de la misma; las escenas de acciones rápidas serán más difíciles de

codificar que aquellas que contengan movimientos lentos.



99

Las técnicas de pre-procesamiento pueden permitir a las señales de la imagen ser

automáticamente examinadas con anterioridad a la compresión aplicada para

identificar aquellas partes en las cuales el proceso de compresión encontrará

dificultades. El software de codificación podría entonces utilizarse para modificar o

“cortar” esas partes de la señal de la imagen, para que puedan pasar a través del

proceso de compresión sin los defectos mencionados.

A medida que la compresión digital de señales televisivas se consolide como norma

y los broadcasters puedan comprimir diez o más servicios sobre el mismo ancho de

banda usado para emitir solamente una imagen analógica, varias lecciones serán

aprendidas acerca de cuáles son los diferentes tipos de material de imagen

aceptables y los programas deportivos que contienen escenas de rápidos

movimientos quizás terminen usando menos compresión que el tipo de películas que

contienen moviemientos moderados.

Distintos promedios de compresión pueden ser aplicados a diferentes escenas en

tiempo real y el ancho de banda del canal proporcionado para cada programa

transmitido será variable.

Se pueden utilizar técnicas estadísticas de multiplexado, como en el equipamiento

de NDS System 3000, para dividir la capacidad de datos disponibles entre trenes de

diferentes programas que son transmitidos en un horario particular, manteniéndose

fija la división durante una sesión particular de programas broadcast.

Una técnica alternativa puede implementarse para variar en forma dinámica la

cantidad de datos asignada a cada programa del canal, ajustándose continuamente

el promedio de datos para cumplir con los requerimientos de cada escena en

particular.



100

3.9 BLOQUES DE PIXELES

Los pixeles se organizan en bloques para su procesamiento posterior. Un bloque

consiste de una matriz de valores de pixeles o una matriz que es una transformada

de valores de pixeles. Un bloque en el sistema ATSC es una matriz de valores de

8x8 que representan información de luminancia o crominancia figura 3.1.

3.10 MACROBLOQUES

Los bloques de información se organizan en macrobloques. Este consiste en cuatro

bloques de luminancia (o una región de valores de 16 pixeles por 16 líneas) y dos

bloques de croma (Cb y Cr). El término macrobloque se usa para referirse

directamente a datos de pixel o a la representación transformada y codificada de los

pixeles. Como se muestra en la figura 3.1, esto produce 256 muestras de luminancia

y 64 muestras de Cb y Cr (cada una), para un total de 384 muestras por

macrobloque.

En el formato de 1080 líneas (con 1920 muestras por línea), hay 68 filas de

macrobloques (incluyendo la última fila que añade ocho líneas de relleno para crear

las 1088 líneas de codificación), con 120 macrobloques por fila. Para el formato de

720 líneas (con 1280 muestras por línea), hay 45 filas de macrobloques, con 80

macrobloques por fila. En el formato de 480 líneas con 704 muestras por línea, hay

30 filas de macrobloques, con 44 macrobloques por fila. Para el formato de 480

líneas con 640 muestras por línea, hay 30 filas de macrobloques, con 40

macrobloques por fila.



101

Figura 3.1. (Tomada de la Norma ATSC A/54). Bloques y Macrobloques

3.11 Tiras (slices)

Uno o más macrobloques contiguos dentro de la misma fila se agrupan para formar

tiras. El orden de los macrobloques dentro de una tira es la misma que el barrido

convencional de televisión, de izquierda a derecha.

Las tiras proveen un mecanismo conveniente para limitar la propagación de errores.

Dado que el flujo de bits consiste mayormente de palabras codificadas de longitud

variable, los errores de transmisión no corregidos causarán que el decodificador

pierda su alineación respecto a las palabras codificadas. Cada tira comienza con un

código de inicio de tira (slice start code). Dado que la codificación MPEG garantiza



102

que ninguna combinación legal de palabras de código puede emular un código de

inicio, éste puede usarse para retomar el alineamiento después de un error. Cuando

hay un error en el flujo de datos, el decodificador puede saltar al comienzo de la

nueva tira y recomenzar la decodificación correcta.

El número de tiras (slices) afecta la eficiencia de la compresión. Fraccionar el flujo

de datos para tener más tiras ofrece una recuperación de errores mejor, pero usa

bits que podrían servir para mejorar la calidad de imagen. La tira es la unidad menor

para la resincronización tras un error.

3.12 IMÁGENES, GRUPOS DE IMÁGENES Y SECUENCIAS

La codificación primaria de una secuencia de video es el cuadro o imagen individual

de video. Una imagen consiste de una colección de tiras que constituyen el área

activa de imagen.

Una secuencia de video consiste de una colección de una o más imágenes

consecutivas. Comienza con una cabecera de secuencia y se termina con un código

de fin de secuencia en el flujo de datos. Una secuencia de video puede contener

cabeceras de secuencia adicionales. Cualquier cabecera sirve como punto de

entrada. Éste es un punto en el flujo de datos tras el cual el decodificador puede

inicializarse y procesar correctamente la sintaxis del flujo de bits.

Una o más imágenes (frames) de la secuencia pueden combinarse en un Grupo de

Imágenes (Group of Pictures, GOP) con límites para codificación entre imágenes y

registración del código de tiempo.

La figura 3.2 ilustra una secuencia temporal de cuadros de video de imágenes intra-

codificadas (cuadros-I), imágenes codificadas predictivas (cuadros-P) e imágenes

con codificación predictiva bidireccional (cuadros-B).



103

Figura 3.2. (Tomada de la Norma ATSC A/54). Cuadros “I”, “P” y “B”.

3.13 CUADROS-I

Algunos elementos del proceso de compresión utilizan solamente la redundancia

espacial dentro de una única imagen (cuadro o campo). Estos procesos se llaman

codificación intra-cuadro, y no aprovechan la correlación provista por la predicción

temporal, llamada codificación intercuadros. Los cuadros que no usan codificación

intercuadros se conocen como cuadros-I (en que la “I” significa intra-cuadro). El

sistema de compresión ATSC utiliza ambos modos de codificación.

El uso de cuadros-I periódicos facilitan la inicialización del receptor y la captura del

canal (al encender el receptor o al cambiar de canales). El decodificador puede

aprovechar el modo de codificación intra-cuadro cuando se presentan errores de

canal no corregibles. Para la predicción de movimiento, debe haber un cuadro inicial

disponible para que el decodificador inicie el bucle o lazo predictivo. Por lo tanto,

debe haber un mecanismo por el cual si el decodificador pierde sincronismo por

cualquier motivo, pueda readquirirlo rápidamente.

La frecuencia de presentación de imágenes-I la elige el codificador. Esto contempla

las necesidades del acceso aleatorio y la ubicación de cortes de escena en la



104

secuencia de video.

3.14 CUADROS-P

Los cuadros-P (en que “P” significa “predictivo” o “pronosticado”) son cuadros con

predicción temporal sólo hacia delante (es decir, las predicciones para el cuadro-P

se forma solamente mediante los pixeles en el cuadro “I” o “P” más recientemente

decodificado). Estos cuadros proactivos permiten aprovechar las técnicas de

codificación intercuadros para mejorar la eficiencia y calidad de imagen general. Los

cuadros-P pueden incluir porciones que sólo tienen codificación intra-cuadro. Cada

macrobloque del cuadro puede tener codificación proactiva o intra-cuadro.

3.15 Cuadros-B

El cuadro-B (donde “B” indica con predicción bidireccional) es un tipo de imagen que

incluye predicción de un cuadro futuro, así como de uno previo. Los cuadros de

referencia, anteriores o futuros, llamados a veces “cuadros ancla” son siempre

cuadros “I” o “P”.

La base de la predicción de los cuadros “B” es que un cuadro de video está

correlacionado tanto con cuadros que ocurren en el pasado como con cuadros

futuros. Por lo tanto, si un cuadro futuro está disponible en el codificador, puede

lograrse una predicción superior, ahorrando bits y mejorando el desempeño. Una de

las consecuencias de usar imágenes posteriores en la predicción es que el cuadro-B

no puede usarse para predecir imágenes futuras, el orden trasmitido de imágenes es

diferente del orden visualizado y el codificador y el decodificador deben reordenar

los cuadros, incrementando así la optimización total del sistema. En el ejemplo

ilustrado en la figura 3.2, se observa un cuadro-B entre cada par de cuadros I/P.

Cada cuadro tiene una etiqueta con su orden de visualización y de transmisión. Los

cuadros “I” y “P” se transmiten fuera de secuencia para que el decodificador tenga



105

ambos cuadros ancla decodificados y disponibles para la predicción.

Los cuadros-B se usan para mejorar la eficiencia de compresión y la calidad de

imagen percibida cuando la codificación no representa un factor importante. Su uso

incrementa la eficiencia de codificación tanto para los materiales de barrido

entrelazado como progresivo. Se incluyen en el sistema ATSC porque el aumento de

eficiencia de compresión es notable especialmente en el barrido progresivo. La

elección del número de imágenes bidireccionales entre cualquier par de cuadros de

referencia (I o P) puede ser determinada en el codificador.

3.16 CODIFICACIÓN ENTRÓPICA DE LOS DATOS DE VIDEO

La cuantificación crea una representación discreta eficiente de los datos a transmitir.

La asignación de palabras de código toma los valores cuantificados y produce un

flujo digital de bits para la transmisión. Hipotéticamente, los valores cuantificados

podrían ser representados simplemente usando palabras de código uniformes o de

longitud fija. Con este método, cada valor cuantificado tendría el mismo número de

bits. Pero se puede alcanzar mayor eficiencia, en el régimen de bits, usando la

codificación entrópica. Esta codificación intenta aprovechar las propiedades

estadísticas de la señal a codificar. Una señal, sea un valor de pixel o un coeficiente

transformado, tiene cierta cantidad de información, o entropía, basada en la

probabilidad de que ocurran diferentes valores o eventos. Por ejemplo, un evento

que se da infrecuentemente tiene mucha más información nueva que uno que se da

a menudo. Reconociendo que ciertos hechos ocurren más a menudo que otros,

puede reducirse el régimen promedio de bits.

3.17 CODIFICACIÓN HUFFMAN

La codificación Huffman, que se usa en el sistema de compresión de video, es una

de las más comunes formas de codificación entrópica. En esta codificación, se



106

genera un libro de códigos que puede acercarse a la mínima longitud promedio de

descripción en bits de cada evento, según su probabilidad de distribución. Se

asignarán palabras de código más cortas a los eventos de ocurrencia más probable,

y más largas a los más improbables.

3.18 CODIFICACIÓN RUN-LENGTH

En la compresión de video, la mayor parte de los coeficientes se cuantifican a cero.

Puede haber unos pocos coeficientes de baja frecuencia no-cero, y una distribución

ratificada de coeficientes de alta frecuencia no cero, pero la mayor parte son

cuantificados a cero. Para aprovechar este fenómeno, la matriz bidimensional de

coeficientes transformados se reformatea y prioriza en una secuencia

unidimensional, sea mediante un proceso de barrido alterno o en zig zag. Esto causa

que la mayoría de los coeficientes no-cero más importantes (en términos de energía

y percepción visual) se agrupen al principio de la secuencia. Serán seguidos por

largas hileras de coeficientes cuantificados a cero. Estos coeficientes pueden ser

representados eficientemente mediante codificación Run-Length. En esta

codificación, el número (run) de coeficientes cero consecutivos antes de un

coeficiente no-cero se codifica, seguido por el valor del coeficiente no cero. Estos

dos valores se pueden codificar entrópicamente, sea juntos o por separado. El

barrido separa la mayor parte de los coeficientes cero y no-cero en grupos, lo que

aumenta la eficiencia del proceso de codificación Run-Length. Además se añade un

marcador especial de fin del bloque (EOB) para señalar que el resto de los

coeficientes de la secuencia son iguales a cero. Esta técnica es extremadamente

eficiente, y produce un grado significativo de compresión.

3.19 TÉCNICAS DE COMPRESIÓN

Para ilustrar este concepto podemos analizar una imagen en “reposo” ó imagen

detenida que solo posee relaciones y dimensiones espaciales. Al estar detenida en



107

el tiempo, no posee relaciones o dimensiones temporales. En la figura 3.3 vemos un

triángulo en cuya parte inferior se observan los parámetros espaciales de Ia imagen,

representados por tres términos: Ia Transformada Discreta del Coseno (DCT), Ia

Cuantificación y Ia Codificación de Longitud Variable (VLC). La conjugación de estos

tres términos permite llegar a una compresión de imágenes detenidas. Se observa

que se trata esencialmente de procesos matemáticos complejos.

Para expresar el movimiento de Ia imagen, debemos agregar una variante más, el

tiempo. En la figura 3.3 se observa en Ia parte Superior este aspecto que comprende

Ia detección del movimiento y su compensación corno componentes temporales.

MOTION COMPENSATION

MOTION DETECTION

DCTQUANTIZATION

VLC

MOTION PICTURE

STILL

PICTURE

Figura 3.3. (Tomada de Avances de la TV de Alta Definición). Parámetros espaciales de la imagen para

llegar a la compresión de imágenes detenidas

Solo Ia conjunción de las relaciones espaciales y temporales permite llegar a Ia

compresión de señales representativas de imágenes en movimiento.

Debido a Ia gran cantidad de los datos espaciales resulta necesario introducir un

paso adicional que transforma las coordenadas espaciales en coordenadas de

frecuencia. Este paso corresponde a una función matemática conocida como

transformada discreta de coseno (DCT) y se ilustra en Ia figura 3.4 (este proceso se

ilustro en el capitulo anterior), vemos en la parte superior de esta figura Ia imagen de



108

una locomotora que es explorada en sentido horizontal y vertical para brindar un

cuadro de 16 valores en su primer paso.

Al aplicar la función matemática DCT, este cuadro se transforma en otro más simple

que se observa a la derecha de la figura y en el cual notarnos que los cambios

grandes de valores tienen lugar solo en los cuatro pixels del comienzo del cuadro,

los demás pixels conservan valores casi constantes y por lo tanto cambian poco o

nada.

Frequency coordinates

149 120 79 49 120 94 58 32 78 68 28 9 49 33 9 0

Horizontal

Space coordinates

Vertical

120 59 1 -1 58 16 -2 1 2 -2 1 -1 -1 0 -1 0

DCT

Horizontal space frequency

Vertical space frequency

Data volume = 8 bits x 16 words =128 bits

Data volume = 8 bits x 16 words =128 bits

Figura 3.4. (Tomada de Avances de la TV de Alta Definición). Detección del movimiento y su

compensación como componentes temporales.

El proceso matemático de Ia DCT permitió transformar las coordenadas espaciales

en coordenadas de frecuencia de menor variación intrínseca. No obstante, el

volumen de datos que originalmente era de 128 bits, sigue en el mismo valor antes y

después de la DCT para lograr una reducción real de los datos, es necesario aplicar

un paso de cuantificación como vemos Ia figura 3.5. Se observa que este proceso

reduce los bits originales a 64 bits, solo por el hecho de la cuantificación. Este



109

proceso involucra el uso de una matriz de cuantificación que se puede regular, y

determina la calidad de Ia imagen final. Su resultado depende del tipo de matriz que

se usa.

120 59 1 -1 59 15 -2 1 2 -2 1 -1 -1 0 -1 0

10 5 0 0 5 1 0 0 0 0 0 0 0 0 0 0

Horizontal frequency Horizontal frequency

Quantizing (Step size of 12)

Vertical frequency Data volume =4 bits x 16 words =64 bits

Vertical frequency Data volume =8 bits x 16 words =128 bits

Figura 3.5. (Tomada de Avances de la TV de Alta Definición). Reducción de bits originales a 64 bits,

debido a la cuantificación.

Para lograr un proceso simple, es posible usar pasos uniformes para la

cuantificación. Sin embargo, existe una relación inversa entre las frecuencias

espaciales y los pasos de la cuantificación. Una frecuencia alta requiere pasos

pequeños. Además, Ias frecuencias espaciales se comportan en forma similar al ojo

humano y responden mejor a movimientos lentos que a movimientos rápidos. Por

este motivo, al caer el valor de Ia frecuencia espacial, Ia tasa de compresión se

reduce. En la figura 3.6 se observa este aspecto, al notar que los valores de la

matriz de cuantificación son más bajos en la zona de las frecuencias bajas y tensión

continua, y más altos en el extremo opuesto de las frecuencias altas.



110

22 26 27 29 26 27 29 32 26 27 29 34 27 29 35 38

8 16 19 22 16 16 22 24 19 22 26 27 22 22 26 27

DC

Vertical space frequency

26 27 29 34 27 29 34 37 29 34 34 38 29 34 37 40

32 35 40 48 35 40 48 58 38 46 56 69 46 56 69 83

Horizontal space frequency

Space frequency coordinates

Figura 3.6. (Tomada de Avances de la TV de Alta Definición). Valores de la matriz de cuantificación, estos

son más bajos en la zona de las frecuencias bajas y más altos en el extremo opuesto.

El bloque de valores obtenidos después de la aplicación de DCT debe ser explorado

para su transporte en forma de flujo digital serie. Esta exploración se efectúa en un

esquema de zig-zag, como vernos en Ia figura 3.7. La exploración y lectura en zig-

zag se caracteriza por producir frecuentemente cadenas ceros. Si se aplica en este

caso una codificación dependiente de la longitud, como la conocida VLC (Variable

Length Coding = Codificación de Longitud Variable), el resultado puede simplificarse

con cierta facilidad. Los 16 valores originales del cuadro de 64 bits, pueden

transformarse e identificarse con el uso de solo 6 valores binarios, con un total de

16 bits. Al transformarse 64 bits en 16 bits equivalentes, se logra una compresión de

4 veces (64:4 = 16). Uno de los códigos usados para esta operación es el código

Huffman que tiene también amplia aplicación en equipos de Fax y otros.



111

10 5 0 0 5 1 0 0 0 0 0 0 0 0 0 0

10 5 5 0 1 0 ……

10 5 5 0 1 “0” x 11

1110 11110 0 0 10 110

Huffman coding

Run- Legth coding

Zigzag scan

16 bits

¼ compression

Data volume = 4 bits x 16 words = 64 bits

0

Figura 3.7. (Tomada de Avances de la TV de Alta Definición). Exploración en Zig zag para el transporte en

forma de flujo digital.

Los pasos descritos e ilustrados en las figuras 3.4 a la 3.7, hasta ahora se refieren a

las imágenes fijas, en reposo. Para introducir Ia compresión de señales en

movimiento, es necesario agregar los pasos propios del movimiento, tanto de Ia

detección del mismo, como de su compensación y lectura. En la figura 3.8 vernos los

bloques circuitales involucrados en este paso. Se considera una imagen en

movimiento en forma similar a Ia que se usa en cinematografía: una sucesión de

imágenes fijas, donde cada imagen siguiente tiene solo pequeñas diferencias con

respecto a Ia imagen anterior. Por lo tanto, no es necesario repetir cada una de las

imágenes en forma total y por el contrario, solo se registra las diferencias existentes

en cada imagen con respecto a la primera imagen fija y detallada.

Esta premisa implica la creación de varios tipos de imagen que por lo tanto son

subdivididas en tres categorías: imágenes “I”, imágenes “B” e imágenes “P”.



112

P picture B picture

DCT Quantization VLCI picture

Large data volume

Predictor error

Motion detection

Motion compensation DCT Quantization VLC

Small data volume

Motion vector

Figura 3.8. (Tomada de Avances de la TV de Alta Definición).Bloques circuitales para la compresión de

señales en movimiento.

Las imágenes “I” son del tipo de intracodificación. Se codifica cuadro por cuadro y

por lo tanto son las que mayor cantidad de datos representan. Estas imágenes “I” se

usan cada 15 páginas aproximadamente y su propósito es evitar la acumulación de

errores predecibles. Este tipo de imagen “I” posee a su vez el grado de compresión

más reducido. En la segunda categoría entran las imágenes ‘P” que resultan del

cómputo y la codificación entre imágenes “I” de referencia y las imágenes “P”. Se

utilizan además para lograr Ia predicción de las diferencias que se observan al crear

los datos de imágenes “I” y “P” previas. En este tipo de imagen se logra una

compresión mayor que con las imágenes “I”.

El mayor grado de compresión surge sin embargo de las imágenes bidireccionales

de la categoría “B”. En esta categoría se codifican los datos de las diferencias entre

la imagen “B” actual y las imágenes “I” u “P” previamente procesadas.



113

La compresión del volumen total de datos guarda entonces relación de 6:3:1 para las

categorías l : P : B. Por cada imagen existen tres imágenes “P” y seis imágenes “B”.

La figura 3.8 indica que Ia compensación del movimiento se basa en Ia predicción de

errores y Ia creación de un vector de movimiento que es sometido Ia evaluación

matemática de la DCT vista más arriba. A ello se suma el proceso de cuantificación

y el paso del VLC.

En este proceso del MPEG existe Ia posibilidad que se produzcan errores en

algunas de las imágenes “I”, “P” o “B”. La estructura propia de estas imágenes

puede entonces producir una propagación de estos errores de la siguiente manera.

Si el error ocurre en un dato de cuadro “I” puede propagarse durante varios cuadros.

En forma similar un error en un cuadro P afectará los cuadros “P” y “B” relacionados,

mientras que un error de un cuadro “B” quedará aislado. De ello surge que resulta

conveniente desarrollar técnicas de “ocultación” (concealment) para prevenir esta

propagación de errores y en consecuencia mejorar Ia calidad de imagen.

Existen dos enfoques que se usaron para Ia ocultación de errores en los cuadros “I”:

el reemplazo temporal y Ia interpolación espacial. El reemplazo temporal permite

lograr datos de imagen de alta resolución como sustitutos de los datos perdidos,

pero en áreas de movimiento puede existir una diferencia significativa entre un

cuadro intracodificado corriente y otro previamente decodificado. En este caso, el

reemplazo temporal producirá grandes distorsiones, salvo que se pueda aplicar al

decodificador algún procesamiento basado en el movimiento. Este tipo de proceso

no esta disponible, sin embargo, en forma permanente ya que implica una tarea

compleja bajo el punto de vista computacional. A diferencia, un enfoque de

interpolación sintetiza los datos perdidos a partir de bloques adyacentes en el mismo

cuadro. En la interpolación espacial se aprovecha la redundancia en los intra-frames,

si bien puede quedar un efecto de borrosidad debido a Ia falta de coeficientes DCT

de orden elevado en las áreas activas.



114

Para dar solución a este tipo de problemas fue desarrollada una técnica de

ocultación adaptable de los errores. En este esquema, es necesario usar el

reemplazo temporal o la interpolación espacial ya que se basan en medidas de Ia

actividad de la imagen que se pueden obtener fácilmente a partir de macro-bloques

vecinos, que toman en cuenta el movimiento local y los detalles espaciales de la

imagen. Si el movimiento local es menor que el detalle espacial, los bloques

corruptos pertenecen a una clase en la cual se aplica el reemplazo temporal.

Cuando por otra parte el movimiento local es mayor que el detalle espacial local, los

bloques corruptos pertenecen a una clase que será ocultada por medio de Ia

interpolación espacial.

El proceso de ocultación general consiste entonces de dos etapas. Primero se aplica

el reemplazo temporal a todos los bloques corruptos de esta clase en el cuadro

completo. Después de este paso de reemplazo temporal, es más probable que los

bloques dañados pero no ocultados, estén rodeados de bloques de imagen válidos.

En este caso se somete a un paso de interpolación espacial. El resultado será una

imagen menos borrosa o con áreas borrosas muy reducidas. Se logra así un buen

compromiso entre distorsión y borrosidad. El algoritmo necesario usa algunas

medidas simples que se logran en el decodificador y permiten una adaptación entre

modos de ocultación espaciales y temporales. Se observa que este mismo método

puede usarse también para los bloques de cuadros “P” y “B”, con solo

modificaciones ligeras.

Varios métodos fueron desarrollados también para mejorar aun más Ia exactitud de

Ia ocultación. El primero es un algoritmo de ocultación espacial que usa interpolación

direccional. Este algoritmo utiliza información espacial correlacionada con los bordes

a partir de un ambiente de pixels que rodean el espacio determinado y ejecuta Ia

interpolación direccional o multi-direccional para restaurar el bloque faltante.



115

El segundo método está basado en vectores de imagen ”I”. La información del

movimiento es muy útil para ocultar pérdidas en las imágenes “P” y “B”, pero no se

encuentra disponible para imágenes “I”. Si se puede disponer de vectores de

movimiento para todas las imágenes MPEG, incluidas imágenes “I”, como ayuda

para la ocultación de errores, sería posible un funcionamiento adecuado de

ocultación de errores sin Ia complejidad del proceso espacial adaptable. En

consecuencia se adopta una extensión de la sintaxis en la cual los vectores del

movimiento pueden transmitirse en una imagen “I” como redundancia para los fines

de la ocultación de errores.

Un tercer algoritmo es Ia versión de refuerzo de un algoritmo adaptivo espacio-

temporal. La idea básica de este algoritmo es el uso de un promedio ponderado de

información espacial y temporal en lugar de esta información sola para ocultar

bloques faltantes. La estimación del reemplazo temporal es aún más reforzado por el

uso de vectores de movimiento de sub-macrobloques. En lugar de aplicar un solo

vector estimado sobre un macrobloque completo, para crear un reemplazo temporal

que puede producir efectos perniciosos, cada una de las regiones del sub-

macrobloque (por ejemplo regiones de pixels de 2x2 o 4x4), es sometido a un

reemplazo temporal, con sus propios vectores de movimiento estimados. Los

vectores de movimiento asociados con cada una de las regiones del sub-

macrobloque es obtenido por medio de una interpolación suave del campo del vector

de movimiento, lo que resulta en un valor estimado de reemplazo temporal que es

continuo en los bordes del macrobloque y se ajusta correctamente con los

macrobloques vecinos.

3.12 EL AUDIO DIGITAL AC-3

Después de analizar el proceso de compresión del video, ahora toca la revisión al

audio, se analizara forma breve, su digitalización que los principios son similares a Ia

digitalización de Ia señal de video y por último su compresión por medio del AC-3.



116

Para comprimir una señal de audio en MPEG-2 o en Dolby AC-3, primero se debe

digitalizar.

En general, los sistemas de compresión operan con señales digitales PCM (Pulse

Code Modulation) en su entrada. También, en algunos Compresores, se puede

ingresar con una señal analógica dentro del mismo equipo se efectúa Ia conversión

analógica a digital. En otras ocasiones, se puede ingresar al Compresor con señales

digitales AES/EBU.

3.12.1 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO.

La digitalización de una señal de audio, consiste en efectuar una conversión de Ia

señal Analógica a Digital, esto implica un muestreo de Ia señal y una cuantificación

de los valores muestreados. A enseguida, Ia señal es codificada mediante una

Modulación Codificada por Pulsos (PCM). En Ia figura 3.11, se muestra el proceso

de digitalización de Ia señal con codificación PCM.

La señal de audio analógica ingresa a un Filtro Pasa Bajo, para ser limitada en

banda, después, esta señal es muestreada mediante otra señal cuya frecuencia se

le llama de muestreo, la característica de esta frecuencia es que debe cumplir con el

teorema de Nyquist. Ya mostrado anteriormente, este expresa que para poder

conservar toda Ia información de una señal, Ia frecuencia de muestreo debe ser

como mínimo el doble del ancho de banda de Ia señal a muestrea evitándose de

esta forma el aliasing.



117

FILTRO PASA BAJO

MUESTREO CUANTIFICACIÓN CODIFICACION

Amplitud Amplitud

Tiempo Tiempo

Audio analógico Audio PCM

Figura 3.11. (Tomado de Televisión Avanzada) Codificación PCM. Figura 3.11. (Tomado de Televisión Avanzada) Codificación PCM.

Por ejemplo, para muestrear una señal de audio con un ancho de banda de 22 Khz,

Ia frecuencia de muestreo debe ser por menos de 44 Khz, para evitar el aliasing.

Por ejemplo, para muestrear una señal de audio con un ancho de banda de 22 Khz,

Ia frecuencia de muestreo debe ser por menos de 44 Khz, para evitar el aliasing.

Una vez que Ia señal ha sido muestreada, se efectúa Ia cuantificación de los valores

muestreados. En esta etapa, se le asignan palabras de bits los valores en amplitud

muestreados.

Una vez que Ia señal ha sido muestreada, se efectúa Ia cuantificación de los valores

muestreados. En esta etapa, se le asignan palabras de bits los valores en amplitud

muestreados.

A continuación, estas palabras de bits son codificadas en PCM (PuIse Code

ModuIation), Modulación por Código de Pulsos. Esta señal es muy robusta y es

utilizada para el transporte o transmisión de Ia señal digital.

A continuación, estas palabras de bits son codificadas en PCM (PuIse Code

ModuIation), Modulación por Código de Pulsos. Esta señal es muy robusta y es

utilizada para el transporte o transmisión de Ia señal digital.

Ahora observamos que esta señal se ingresa a los sistemas de compresión MPEG-2

y Dolby AC-3.

Ahora observamos que esta señal se ingresa a los sistemas de compresión MPEG-2

y Dolby AC-3.



118

3.12.2 MUESTREO DE LA SEÑAL DE AUDIO

En la figura 3.12 se representa el espectro en el dominio de la frecuencia de una

señal a muestrear fb y el espectro de muestreo fm y 2fm.

Amplitud

Espectro a la entrada del filtro

fb fm

fm Espectro a la salida del filtro

Frecuencia

Figura 3.12. (Tomado de Televisión Avanzada.) Espectro de la banda de la señal a muestrear fb y de la

frecuencia de muestreo fm y 2fm.

Para muestrear una señal de 22 KHz de ancho de banda, habíamos dicho que la

frecuencia de muestreo debería ser por lo menos el doble o sea 44 KHz.

Supongamos que la frecuencia de muestreo es menor que la frecuencia de la señal

a muestrear, o sea de 36 KHz. En la figura 3.13 se muestra este ejemplo, donde

tenemos una baja frecuencia de muestreo. En este caso, la banda lateral inferior del

espectro de muestreo, se superpone con la banda lateral superior de la señal a

muestrear. Esta zona de superposición produce aliasing en audio. El alisasing se

manifiesta como un sonido metálico, siendo este un problema, ya que no se puede

corregir.



119

Frecuencia (MHz)

Frecuencia de muestreo Zona de aliasing

18 36 22 54

Amplitud

Figura 3.13. (Tomado de Televisión Avanzada). Zona de aliasing producida por una baja frecuencia de

muestreo.

En la figura 3.14 se representa una señal de audio con una baja frecuencia de

muestreo. En este ejemplo los puntos de muestra son ABCDEFGH. El período entre

muestras es T. Uniendo todos los puntos de muestra, nos da una señal que dista

lejos de la original. Evidentemente en este caso tenemos una baja frecuencia de

muestreo

H

C B

D E

A F

G

T

Amplitud

Tiempo

Figura 3.14. (Tomado de Televisión Avanzada.) Señal con una baja frecuencia de muestreo.

En Ia Figura 3.15 analizamos el proceso de muestreo de una señal en el dominio del

tiempo.

De Ia figura podemos observar que en a) tenernos Ia señal a Ia salida del Filtro Pasa

Bajo. Esta señal es Ia que una vez limitada en banda, es sometida al proceso de

muestreo. Para poder muestrear esta señal, es necesario aplicar una frecuencia de



120

muestreo, ver parte (b) de Ia Figura. Esta frecuencia debe ser por lo menos eI doble

de Ia frecuencia máxima de Ia señal a muestrear.

En (c) de Ia misma figura tenemos finalmente Ia señal muestreada. Obsérvese que

aquí Ia velocidad de muestreo es correcta, debido a que las frecuencias con que se

han tornado las muestras, permiten recomponer Ia señal original.

Figura 3.15. (Tomado de Televisión Avanzada.) Proceso de muestreo en el dominio del tiempo

Amplitud Amplitud

Amplitud

a) b)

c)

Tiempo

Tiempo Tiempo

a)Señal a Ia salida del Filtro Pasa, b)Frecuencia de muestreo, c)Señal muestreada.

3.13 CUANTIFICACIÓN

En el proceso de digitalización, eI paso siguiente aI muestreo es Ia cuantificación.

Aquí es donde se asignan las palabras de bits, a cada uno de los valores de tensión,

que han sido muestreados.



121

En Ia figura 3.16 se muestra Ia señal de Ia figura anterior, convertida en valores de

tensión en (a) y cuantificada en (b).

Tiempo

Tiempo

0111 0101

0110

0110

0101 0111

-2

-5-7

2

57

Amplitud Tensión

a)

Valores binarios

b)

Figura 3.16. (Tomado de Televisión Avanzada). Cuantificación de Ia señal muestreada.

La cuantificación convierte a Ia muestra analógica a un número binario. Ese numero

o palabra binaria, en aplicaciones profesionales puede ser de 16, 20 024 bits por

muestra de resolución.

En Ia tabla 1 se muestran algunas resoluciones y Ia cantidad de niveles de

cuantificación. Por simplicidad, solo se muestran los números de bits de resolución



122

Nº de bits por muestra

2 elevado a: Niveles de

cuantificación

2 2.E+02 4

4 2.E+04 16

6 2.E+06 64

8 2.E+08 256

10 2.E+10 1.024

12 2.E+12 4.096

14 2.E+14 16.384

16 2.E+16 65.335

18 2.E+18 262.144

20 2.E+20 1.048.576

22 2.E+22 4.194.304

24 2.E+24 16.777.216

Tabla 1. (Tomado de Televisión Avanzada). Niveles de cuantificación.

3.5 COMPRESIÓN DE AUDIO DOLBY AC-3.

El sistema de compresión de audio AC-3 ha sido desarrollado por los Laboratorios

Dolby de EE:UU. Este utiliza el algoritmo de compresión AC-3, para codificar hasta

seis canales, cinco tienen una respuesta de 20 Hz a 20 Khz y el sexto canal es de

baja frecuencia con una respuesta de 20 a 120 Hz. Estos seis canales digitales se

denominan 5.1.

El 0.1 es un canal de baja frecuencia denominado LFE (Low Frecuency Effects). Los

seis canales de entrada al compresor se representan en la siguiente figura 3.2:



123

Canal de baja

frecuencia SurroundDerecho

SurroundIzquierdo

Central Estéreo Derecho

Estéreo Izquierdo

Figura 3.2. Representación de los seis canales a través de un compresor AC-3.

COMPRESOR AC-3

Seis canales de audio digitales

Flujo comprimido AC-3

Figura 3.2 (Tomada de Televisión Digital Avanzada). Compresor AC-3.

Cada uno de estos canales tiene una velocidad binaria que viene dada por,

Velocidad binaria = Frecuencia de muestro x cantidad de bits por muestra de resolución.

Esta señal, ha sido muestreada con una frecuencia de muestreo de 48 KHz y

cuantificada a una resolución de 20 bits por muestra. Entonces, la velocidad binaria

será en este caso;

Velocidad binaria por canal = 48 KHz x 20 bits = 960 Kbps Velocidad binaria 6 canales = 960 KHz x 6 = 5,76 Mbps.

Esta es la velocidad total de los seis canales de audio.A la salida del compresor

tenemos un flujo comprimido en AC-3 de 384 Kbps. Este flujo está compuesto por



124

los seis canales comprimidos.La relación de Compresión (RC) aplicada en este caso

es:

RC = Velocidad de entrada / Velocidad de salida (KHz) = 5.760 / 384 = 15 RC = 15:1

Para este ejemplo se ha aplicado una relación de compresión de 15:1

El objetivo primordial de la compresión de audio es representar una fuente de audio

con la mínima cantidad posible de bits, mientras que se preserva el nivel de calidad

requerido por la aplicación dada. La compresión de audio tiene dos aplicaciones

principales. Una es la utilización eficiente del ancho de banda del canal para los

sistemas de transmisión de video. La otra es reducir los requerimientos de

almacenamiento. Ambos usos se aplican al sistema de televisión digital.

El sistema de compresión de audio consiste de tres operaciones básicas, como se

muestra en la figura 3.3. En la primera etapa, la representación de la señal de audio

cambia del dominio del tiempo al dominio de la frecuencia, que es más eficiente para

realizar una compresión basada en la psicoacústica. Se codifican entonces los

coeficientes del dominio de frecuencia. Estos coeficientes pueden cuantificarse

ampliamente porque el ruido de cuantificación estará en la misma frecuencia que la

señal de audio, y las relaciones de señal a ruido relativamente bajas son aceptables

por el fenómeno de enmascaramiento psicoacústico. La operación de asignación de

bits determina (basado en un modelo psicoacústico de audición humana), que la

relación S/R es aceptable para cada coeficiente individual de frecuencia. Finalmente,

estos coeficientes se cuantifican a la precisión necesaria y se incorporan al flujo

elemental de audio. La unidad básica del audio codificado es el cuadro de

sincronismo AC-3, que representa 1536 muestras de audio. Cada cuadro de

sincronismo de audio es una entidad codificada completamente independiente. El

flujo elemental de bits contiene información necesaria para permitir al decodificador

de audio realizar la asignación de bits (idéntica al codificador). Así el decodificador



125

puede desempaquetar y “descuantificar” los coeficientes de frecuencia del flujo

elemental de bits, que dan como resultado los coeficientes reconstruidos de

frecuencia. El banco de filtros de síntesis es la inversa del banco de análisis, y

convierte los coeficientes de frecuencia reconstruidos a una señal del dominio

temporal.

3.5.1 BANCO DE FILTROS DE TRANSFORMACIÓN (AC-3).

El proceso de convertir el audio del dominio temporal al dominio de la frecuencia

requiere que el audio se convierta en bloques superpuestos de 512 muestras. Por

cada 256 muestras nuevas de audio, se forma un nuevo bloque con éstas y las 256

muestras previas. Cada muestra de audio se representa en dos bloques de audio, y

así el número de muestras a procesar inicialmente se duplica. La superposición de

las muestras es necesaria para prevenir efector audibles. Se forman nuevos bloques

de audio cada 5.33 ms. Un grupo de seis bloques se codifica en un cuadro AC-3. Fuente de Coeficiente audio PCM de Flujo elemental de . frecuencia bits

Coeficiente Flujo elemental de de bits frecuencia

ANÁLISIS BANCO DE FILTROS

ASIGNACIÓN DE BITS

CUANTIFICACIÓN

CANAL

ASIGNACIÓN DE BITS

DE-CUANTIFICACIÓN

SÍNTESIS BANCO DE FILTROS

Audio PCM

Figura 3.3. (Tomada de Televisión Digital Avanzada.) Sistema de compresión y de-compresión AC-3.



126

3.5.2 FUNCIÓN DE VENTANA.

Anteriormente a la transformación en el dominio de la frecuencia, se hace una

“ventana” con el bloque de 512 muestras temporales. Esta operación involucra una

multiplicación vectorial del bloque de 512 puntos con una función de “ventana” de

512 puntos. Esta función tiene un valor de 1.0 en el centro, y va disminuyendo hasta

casi cero en los extremos. El formato de la función de ventana es tal que el

procesamiento de superposición/adición en el codificador producirá una

reconstrucción libre de efectos colaterales indeseables. La forma de la función de

ventana también determina la forma de cada filtro del banco de filtros.

3.5.3 CODIFICACIÓN DE LOS EXPONENTES Y LAS MANTISAS.

A efectos de reducir la cantidad de bits, se codifican los exponentes y las mantisas.

Analizaremos primero el caso de los exponentes, el cual pueden tener distintas

alternativas en el proceso.

En primer instancia, puede ocurrir que al examinar los seis bloques de audio del

cuadro AC-3, se encuentren pequeñas diferencias entre los distintos exponentes. En

este caso, habrá una reducción de la cantidad de datos a codificar por un factor de

6.

En segunda instancia, puede ocurrir que existan diferencias significativas entre los

distintos exponentes de los bloques. En este caso, los exponentes se codifican en

forma diferencial. Esto significa que el primer coeficiente se codifica como absoluto y

luego se codifica la diferencia entre este exponentes y el siguiente. Esta técnica

reduce la velocidad de datos por un factor de 2.

Otro tipo de codificación se produce cuando el espectro es plano. En este caso, un

juego de exponentes cubre uno o dos bloques. Los exponentes diferenciales pueden



127

compartirse entre 2 ó 4 coeficientes de frecuencia. Esto genera un ahorro adicional

de 2 ó 4 bits por coeficientes.

La precisión de los coeficientes de frecuencia, depende de la longitud en bits que

tiene cada palabra. Esta puede ser de 16 a 24 bits.

Cada mantisa es cuantificada entre 0 y 16 bits. La cuantificación está determinada

por la asignación de bits.

3.5.5 CUADRO DE SINCRONIZACIÓN AC-3.

El flujo de audio codificado o comprimido AC-3, está compuesto de cuadros de

sincronización, se representa en la figura 3.4, cada cuadro de sincronización

contiene 6 bloques de audio codificados, desde (AB 0) hasta (AB 5). Cada uno de

estos bloques tiene 256 nuevas muestras de audio. De esta forma tenemos seis

bloques con un total de 1536 muestras.

Cada uno de estos bloques transporta los exponentes, la asignación de bits y las

mantisas, además de otros tipos de información.

S

S B AB AB AB AB AB AB C I S 0 1 2 3 4 5 Aux. R I C

Figura 3.4. (Tomada de Televisión Digital Avanzada). Cuadro de sincronización AC-3

La duración total de un cuadro completo, tal como se muestra en la figura 3.4, tiene

una duración de 32 miliseg.



128

El cuadro comienza con una cabecera de información (SI). Esta contiene la

información necesaria para mantener la sincronización del cuadro.

A continuación, tenemos un bloque (BSI.). Este contiene los parámetros que

describen los servicios de audio codificado.

Luego, tenemos los seis bloques de audio codificado con 256 muestras cada uno.

Seguidamente, tenemos un bloque de datos auxiliares. Luego, le sigue un Chequeo

de Redundancia Cíclica (CRC), que detecta los errores pero no los corrige.

3.7 RESUMEN DEL SISTEMA

Como lo ilustra la figura 3.5. El subsistema de audio comprende la función de

codificación/decodificación y se ubica entre la entrada/salida de audio y el

subsistema de transporte. El codificador de audio es responsable de generar el o los

flujos elementales de audio el cual son representaciones codificadas de las señales

de entrada de audio banda base. En el receptor, el subsistema de audio es

responsable por decodificar el flujo elemental de audio de regreso a audio banda

base.

La salida del codificador de audio es una cadena de bits que representan la fuente

de audio, y se conoce como flujo elemental de audio. El subsistema de transporte

empaqueta los datos de audio en paquetes PES que a su vez son reempacados en

paquetes de transporte. El subsistema de transmisión convierte los paquetes de

transporte en una señal modulada de RF para recibidos a un flujo elemental de

audio que es decodificado por el decodificador transmitir al receptor. En éste, la

señal recibida se de-modula por el subsistema de transmisión del receptor, que

convierte los paquetes de audio de audio del televisor. Estas divisiones son

conceptuales, y pueden variar en la implementación práctica


Por ejemplo, el procesamiento de transporte puede partirse en dos bloques: uno

para realizar el empaquetado PES, y el segundo para realizar el empaquetado del


129

transporte.. O cierta funcionalidad del transporte puede incluirse en el codificador de

audio o en el subsistema de transmisión.

Flujo elemental de audio Paquetes de transporte

Sub sistema de

transporte TX

Sub sistema de

Transmisión

CANAL

Codificación

Sub sistema de transporte

RXDe-codificador

Sub sistema de

recepción RX-RF 8-VSB

Sub sistema de audio

Audio PCM

Audio PCM TX-RF 8VSB

Flujo elemental de audio

Paquetes de transporte

Figura 3.5. (Tomada de Televisión Digital Avanzada). Sub sistema de audio en el estándar ATSC

3.7.1 INTERFAZ DEL CODIFICADOR DE AUDIO.

El sistema acepta entradas de audio base con hasta seis canales de audio por cada

programa. Esta canalización es coherente con la Recomendación ITU-R BS-775

“Sistema de sonido estereofónico con o sin acompañamiento de imagen.”

Los seis canales son: Izquierda, Derecha, Centro, Envolvente Izquierdo, Envolvente

Derecho y Acentuación de las Frecuencias Bajas (LFE.) El sistema de transporte

puede llevar múltiples flujos elementales de audio.

El ancho de banda del canal LFE se limita a 120 Hz. El ancho de banda de los

demás canales llega a 20 kHz. La respuesta en baja frecuencia puede llegar a la

corriente continua, pero típicamente se limita a aproximadamente 3 Hz (-3dB)



130

mediante un filtro pasa-altos de bloqueo de continua. La eficiencia de la codificación

de audio ( y su calidad) mejora quitando los desplazamientos por CC de las señales

de audio antes de codificarlas.

3.8 RESTRICCIONES CON RESPECTO AL ESTÁNDAR ATSC A/52.

El sistema de codificación de audio de la televisión digital esta basado sobre el

Estándar de Compresión de audio digital (AC-3) especificado en el cuerpo del

documento ATSC A/52. Las Restricciones sobre el sistema son mostradas en la

Tabla 3.2 la cual muestra los valores permitidos de ciertos elementos sintácticos.

Elemento sintáctico AC-3 Comentario Valor permitido

fscod Indica la rate de muestreo. ‘00’ (indica 48 kHz)

frmsizecod Servicio de audio principal o asociado conteniendo todos los elementos de

programa necesarios.

‘00’ (indica 48 kHz)

frmsizecod Servicio asociado a un canal particular conteniendo un elemento de programa único.

≤ ‘010000’ (indica ≤ 128 kbps)

frmsizecod Dos canales de servicio asociado de diálogo. ≤ ‘010100’ (indica ≤ 192 kbps)

(frmsizecod) Bits rate de un servicio asociado y principal dados a ser simultáneamente decodificado (total ≤ 512 kbps)

acmod Indica número de canales ≥ ‘001’

Tabla 3.2. (Tomada del libro Audio digital). Restricciones de audio.

3.8.1 FRECUENCIA DE MUESTREO.

El sistema transporta audio digital muestreado a la frecuencia de 48 Khz, amarrado

al sistema de reloj de 27 Mhz. El reloj de muestreo de audio de 48 Khz esta definido

como:

rate de muestras de audio a 48 Khz = (2 ÷ 1125) (sistemas de reloj de 27 MHz)



131

Si una señal análoga es empleada, el conversor A/D debe hacer un muestreo a 48

Khz. Si una señal de entrada digital es empleada, la rate de muestreo de entrada

debe ser de 48 Khz, o el codificador de audio debe contener conversores de rata de

muestreo el cual convierte la rata de muestreo a 48 Khz.

3.8.2 BITS RATE. Un principal servicio de audio, o un servicio de audio asociado el cual es un servicio

completo (conteniendo todos los elementos de programa necesarios) debe ser

codificada a una bits rate menor o igual a 384 kbps. Un servicio asociado de canal

particular conteniendo un elemento de programa particular debe ser codificado a una

bits rate menor o igual a 128 kbps. Un servicio asociado de dos canales conteniendo

únicamente diálogo debe ser codificado a una rata de bits menor o igual a 192 kbps.

La bits rate combinada de un servicio principal y un servicio asociado la cual es

propuesta para ser decodificada simultáneamente debe ser menor o igual a 512

kbps.

3.1 MULTIPLEX Y FLUJO DE TRANSPORTE MPEG-2

Ahora partimos del Flujo Elemental de datos (ES), que es el flujo comprimido a la

salida del Codificador o Compresor. Este flujo comprimido puede ser de video, audio

o datos, su característica es que su capacidad de datos es variable. En la figura 3.9

se observa la formación del Flujo de Transporte MPEG-2.

Este flujo esta compuesto por grupos de imágenes (GOP). Como ejemplo tomemos

una parte del ES, que en este caso lo representamos por simplicidad por cuatro

imágenes: I, B, B y P. Estás cuatro imágenes del ES representan una parte de la

secuencia de un GOP, estas imágenes se paquetizan y se le agrega una cabecera

de información, obteniéndose de esta forma el PES (Packetized Elementary

Stream).



132

Este es un flujo de paquetes de datos que ha sido formado mediante la

paquetización de los Flujos Elementales (ES). Los PES tienen una longitud variable,

su máxima capacidad de datos es de 65,536 Kbytes.

Para esta paquetización del Flujo Elemental, se toman porciones ordenadas de la

secuencia ES y de una capacidad determinada, cada parte que se extrae de la

secuencia se identifica con una cabecera y esta es la que lleva toda la información

de esa porción del paquete, de esta manera, se forman los paquetes PES, que

constituyen la paquetización del Flujo Elemental de datos, de igual forma se realiza

para el audio.

Imagen I

Imagen B

Imagen B

Imagen P

Datos de I

Datos de B

Datos de B

Datos de P

Paquete MPEG-2

Paquete MPEG-2

Paquete MPEG-2

Señal digital

COMPRESOR

PAQUETIZACIÓN

MÚLTIPLEX DE TRANSPORTE

Paquete MPEG-2

ES

PES

TS

Flujo de Transporte Final

Figura 3.9. (Tomada de Televisión Digital Avanzada). Formación del Flujo de Transporte, a partir de los

flujos de paquetes PES.



133

El PES tiene una cabecera de 8 bytes (64 bits), en la figura 3.10 se representa la

cabecera del PES, esta lleva toda la información inherente a ese paquete.

1 BYTE

1

BYTE

1 BYTE

1 BYTE

1 BYTE

1 BYTE

1

BYTE

8 bytes / 64 bits

Identificación de flujo

Tamaño del buffer Longitud del paqueteCódigo de arranque

1

BYTE

Figura 3.10. (Tomada de Televisión Digital Avanzada). Cabecera del paquete PES.

Los primeros 3 bytes (24 bits), constituyen el código de arranque del paquete (SC,

Start Code). El siguiente byte (8 bits), se utiliza para identificar el flujo de datos que

transporta el mismo (SI, Stream Identification). Los 2 bytes siguientes (16 bits), son

usados para indicar la longitud del paquete (PL, Packet Length). Los últimos 2 bytes

(16 bits), se utilizan para indicar el tamaño del buffer (BS, Buffer Size).

Cada paquete del Flujo de Transporte posee un código de identificación de paquete

(PID, Packet Identification). Los paquetes que son del mismo Flujo Elemental tienen

el mismo PID, de esta manera el Decodificador puede seleccionar y reordenar los

distintos flujos.

Cada paquete MPEG-2 que conforma el Flujo de Transporte, tiene poca capacidad y

todos los paquetes son iguales. Por este motivo, estos paquetes son más robustos

que los paquetes que conforman el Flujo de Programa. Esta es una de las razones

por la cual el Flujo de Transporte (TS, Transport Stream) es utilizado en transmisión.



134

Al final de cada paquete se le agregan los bytes de paridad, para detectar y corregir

errores, en el sistema ATSC se agregan 20 bytes al final de cada paquete, así el

paquete tendrá un total de 208 bytes.

En el estándar MPEG-2, tiene dos tipos de Flujo de Transporte:

• SPTS (Single Program Transport Streams). Flujo de Transporte de un

Programa Simple.

• MPTS (Multi Program Transport Streams). Flujo de Transporte de

Múltiples Programas.

El SPTS contiene diferentes flujos de PES, pero estos corresponden a un programa

simple, este flujo contiene un video y diferentes audios. En cambio el MPTS,

transporta dos o más flujos SPTS o de programas simples.

Después para obtener el Flujo de Transporte final (TS) se extraen porciones en

forma aleatoria de 188 bytes de cada uno de los PES, con su cabecera de

información incluida, este flujo final es el que se inyecta al excitador del equipo

transmisor, en donde va a ser modulada por medio del 8-VSB.


compresiÓn de video mpeg-2 y audio ac-3 · dimensiones de las tramas, velocidad binaria...

Documents