compresiÓn de video mpeg-2 y audio ac-3 · dimensiones de las tramas, velocidad binaria...
TRANSCRIPT
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
87
CAPITULO 3
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
3.1 INTRODUCCIÓN
En este capítulo se definen las características, los fundamentos de la compresión de
video MPEG-2 y audio de 5.1 canales AC-3 de Dolby, así como la formación del flujo
para el transporte de las señales comprimidas, estos usados por la norma ATSC.
La compresión de video se aplico desde la televisión analógica de distintas formas.
El barrido entrelazado es una forma de compresión, porque el ancho de banda que
ocupa esa señal, se reduce a la mitad. En cambio, utilizando barrido progresivo, el
ancho de banda que ocuparía esa señal, sería el doble.
Otra forma de compresión, es la debida a las señales diferencia de color (R-Y) y (B-
Y). El ojo es poco sensible a los detalles de color, por ende estas señales necesitan
un ancho de banda pequeño.
3.2 GENERALIDADES DE LA COMPRESIÓN
La necesidad de comprimir en un sistema digital HDTV es evidente si se considera
el hecho que el régimen de datos de una señal HDTV sin comprimir es de
aproximadamente 1 Gbps, y el régimen de bits que se puede transmitir
confiablemente dentro de un canal común de 6 MHz es de 20 Mbps. Esto implica la
necesidad de una compresión de 50:1 o más.
La Norma ATSC especifica la compresión de video usando una combinación de
técnicas de compresión, y por razones de compatibilidad esos algoritmos han sido
seleccionados para conformarse a las especificaciones de MPEG-2, que es un
conjunto flexible internacionalmente aceptado de algoritmos de compresión.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
88
La compresión de video es una técnica de reducción de datos redundantes y en
consecuencia, una disminución de la velocidad binaria de este flujo.
El estándar MPEG, especifica la representación codificada de video para medios de
almacenamiento digital y especifica el proceso de decodificación. Una característica
muy importante del sistema MPEG-2 es su enorme flexibilidad que conforma una
parte integral del diseño del sistema.
Para lograr este tipo de compresión, depende principalmente de tres factores: la
Estimación del Movimiento (la diferencia entre una imagen y la siguiente), la
Transformada Discreta del Coseno (DCT) como instrumento matemático para
realizar los cálculos complejos pertinentes, con una Codificación Ponderada y la
Codificación de Longitud Variable (VLC).
La señal de entrada debe ser digital, este flujo de datos es comprimido y
paquetizado. A la salida del compresor se tiene un tren de datos comprimidos en
paquetes de Longitud Variable denominados PES (Packet Elementary Stream), cuya
velocidad binaria será menor a la de entrada. La velocidad del Flujo de Datos de
salida es directamente proporcional a la relación de compresión aplicada.
Esta relación esta dada por: Relación de Compresión = Vi / Vo
Donde: Vi = Velocidad del tren de datos a la entrada del compresor
Vo = Velocidad del tren de datos a la salida del compresor
La compresión de video y audio están en relación directa con la capacidad de
almacenamiento de un sistema. Si se desea aumentar el tiempo de almacenamiento
sin aumentar su capacidad, se debe recurrir a la compresión.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
89
3.3 EL ESTÁNDAR MPEG-2
El primer estándar de compresión, concebido para ser utilizado con imágenes
estáticas, fué el JPEG (Joint Photographic Experts Group).
Posteriormente, se creó el grupo MPEG (Moving Picture Experts Group), cuyo fin era
desarrollar un estándar de compresión para imágenes en movimiento. El primer
estándar para esta aplicación fue el MPEG-1, utilizado para grabaciones en CD-
ROM. Este estándar tenía algunas limitaciones como que no era de aplicación
Broadcast.
Limitantes del MPEG-1:
• Flujo máximo de 1.5 Mbps, con calidad comparable al VHS.
• Resolución de 352x240, además de una operación solo con barrido
progresivo.
Después se desarrollo el estándar de compresión de video MPEG-2, concebido para
aplicaciones Broadcast. Este tiene como principales características el operar con
velocidades de hasta 15 Mbps y utiliza las más altas resoluciones aceptando barrido
entrelazado y progresivo.
La representación soporta la velocidad normal de reproducción así como también la
función especial de acceso aleatorio, reproducción rápida, reproducción hacia atrás
normal, procedimientos de pausa y congelamiento de imagen. Este estándar
internacional es compatible con los formatos de televisión de 525 y 625 líneas,
además provee la facilidad de utilización con monitores de computadoras personales
y estaciones de trabajo.
Los estándares han sido desarrollados y sus extensiones continuarán de manera tal
que la misma serie básica de técnicas pueda ser utilizada sobre aplicaciones de
audio y video más amplias. Esto comprende desde imágenes utilizadas para video-
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
90
telefonía en una pantalla de computadora a través de secuencias de imágenes
animadas de un CD en baja definición hasta imágenes de TV estandarizadas de 525
líneas e imágenes de HDTV con sonido envolvente. Es por ello que este formato se
usa en los sistemas para HDTV americano, europeo y japonés.
3.4 VENTAJAS DEL MPEG
Las mayores ventajas que derivan de la reducción del bit-rate de las imágenes de
televisión y para combinar muchos de los programas en un solo flujo de bits digital
para la transmisión, son que los broadcasters pueden ahorrar dinero y que los
televidentes pueden acceder a una opción más amplia de programas dentro de los
sistemas de transmisión actuales.
Cualquier medio de transmisión que previamente podía sólo emitir un programa
podrá con la ayuda de las técnicas de compresión MPEG-2, ser capaz de transmitir
2, 4, 8 ó incluso 30 programas separadamente, dependiendo de que la calidad de la
imagen sea aceptable para una aplicación en particular.
El ahorro de dinero que brinda el comprimir varias imágenes a través de un
trasponder satelital, canal aéreo o de cable designado para transportar sólo un
programa, es realmente muy atractivo debido a la posibilidad de multiplicar los
canales de transmisión.
Las ventajas para el operador del servicio o broadcaster son:
• Reducción de costos por canal de programa.
• Una mayor opción de programas que se brinda a los televidentes.
• Una mayor eficiencia de transmisión, superior a la de los sistemas analógicos.
• Mejoramiento de la calidad del servicio.
• Mayor flexibilidad.
• Sistemas digitales de Acceso Condicional más seguros.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
91
3.5 NIVELES Y PERFILES MPEG-2
Las especificaciones del MPEG-2 se organizan en un sistema denominado perfiles y
niveles, para que las aplicaciones puedan asegurar interoperatividad al utilizar
equipamientos y procesos con características comunes en sus parámetros de
codificación .
Dentro del perfil principal, existen una gran variedad de desempeños, incluye tres
tipos de cuadros predictivos (“I”, “P”, y “B”), con una organización de muestras de
luminancia y crominancia (llamadas 4:2:0) dentro del cuadro. Por otra parte, el alto
nivel son un conjunto de derivaciones impuestas para los perfiles, incluye formatos
con hasta 1152 líneas activas y hasta 1920 muestras por línea activa. La
combinación de un perfil y un nivel produce una arquitectura muy bien definida para
una cadena particular de bit. Los perfiles limitan la sintáxis (por ejemplo: los
algoritmos), mientras los niveles limitan los parámetros (velocidad de muestreo,
dimensiones de las tramas, velocidad binaria codificada, etc.).
• Niveles: Proveen un rango de cualidades potenciales, definen los máximos y
mínimos para la resolución de la imagen, muestras por segundo (luminancia),
el número de capas de audio y video soportados por los perfiles escalados, la
máxima velocidad binaria por perfil.
A continuación , una explicación resumida de cada uno de ellos:
• Nivel Bajo: Tiene un formato de entrada el cual es un cuarto de la imagen
definida en el registro ITU-R 601.
• Nivel Principal: Tiene una trama de entrada completa definida en el
registro ITU-R 601.
• Nivel Alto 1440: Tiene un formato de alta definición con 1440 muestras
por línea.
• Nivel Alto: Tiene un formato de alta definición con 1920 muestras por
línea (para aplicaciones sin cualquier limitación en velocidades de datos).
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
92
• Perfiles: Son definidos subconjuntos con características de sintaxis
(algoritmos), usados para converger la información. Hay cinco diferentes
perfiles y cada uno es progresivamente más sofisticado y agrega
herramientas adicionales (y por supuesto más costoso para el cliente) con
la característica adicional de ser compatible con el anterior. Esto significa
que un decodificador equipado con un alto perfil descodificará perfiles
simples.
A continuación vermos características de los perfiles:
• Perfil Simple: Es el que ofrece pocas herramientas.
• Perfil Principal: Tiene herramientas extendidas o mejoradas del perfil
simple y predicción bidireccional. Tendrá mejor calidad para la misma
velocidad binaria que el perfil simple.
• Perfil Escalable SNR y Perfil Escalable Espacial: Estos dos niveles son
llamados escalables porque permiten codificar datos de vídeo que sean
particionados dentro de una capa base y una o más señales "Top-up". La
señal Top-up puede tanto tratar la proporción S/N (SNR escalable) o la
resolución (escalable espacial).
• Perfil Alto: Este incluye todas las herramientas de las versiones anteriores
y mejoradas. Tiene la habilidad de codificar diferencias de color entre
líneas simultáneamente. Este es un sistema diseñado para aplicaciones
donde no están contraídas sobre las velocidades de los bits.
En las tablas 3.1 y 3.2 vemos estas características, primero para los niveles,
enseguida para los perfiles.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
93
NIVELES LIMITES DE ENTRADA
ESTRUCTURA DE IMAGEN
LIMITES MÁXIMOS
VELOCIDAD DE DATOS
NIVEL ALTO 1920 X 1152* 80 Mb/s**
NIVEL ALTO 1440 1440 X 1152* 60 Mb/s**
NIVEL PRINCIPAL 720 X 576* 15 Mb/s**
NIVEL BAJO 352 X 288* 4 Mb/s**
*Hasta estos valores de pixeles por líneas activas. ** Velocidades máximas
Tabla 3.1 Características de los niveles para el MPEG-2
PERFILES CARACTERÍSTICAS LIMITES
MÁXIMOS
SIMPLE Sin cuadros bidireccionales B. 4:2:0 solamente
PRINCIPAL Sin extensiones de imagen. 4:2:0 solamente
SNR* Escalable. 4:2:0 solamente
ESPACIAL Espacial escalable. 4:2:0 solamente
ALTO Temporalmente escalable, puede utilizarse
muestreo 4:2:0 ó 4:2:2 antes de la compresión.
*SNR. Relación Señal a Ruido.
Tabla 3.2 Características de los perfiles para el MPEG-2
Para muchas de las aplicaciones (incluyendo transmisión de satélites) el Perfil
Principal, Nivel Principal (MP@ML, siglas en inglés) provee una buena relación entre
calidad de imagen y la complejidad VLSI, como resultado el MP@ML es el punto de
desarrollo para los actuales sistemas HDTV.
Parámetros MP@ML del MPEG-2:
• 576 líneas (50 Hz) o 480 líneas (60 Hz), cada uno de 720 pixels
• Muestreo 4:2:0 antes de la codificación
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
94
• Estructuras de cuadros I, P y B con predicción de movimiento
• Promedio máximo de codificación en 15 Mbit/seg.
• Codificación DCT
• Cuadro adaptivo y predicción de movimiento de campo
• Predicción inteligente de cuadros duales para imágenes de los cuadros
no B
• Compatibilidad MPEG-1 anticipada (no reversible)
3.6 SCRAMBLING Y ACCESO CONDICIONAL
Una de las principales características que posee el sistema MPEG-2, a través de sus
capas, es el multiplexado y encriptado selectivo de sus servicios. Dado que el
estrato o capa de los sistemas, también llamado transportador es básicamente
independiente de la capa de compresión, toda la información que contiene acerca de
la encriptación o la distribución individual a los clientes puede ser separada de la
información del programa. Esto les permite a los proveedores de servicios de
satélite, cable o terrestre acceder a una lista electrónica de clientes y autorizar a
clientes particulares a ver programas especiales, o a verse exceptuado de alguno de
ellos, sin tener que recaer en “terceros”, tal como una compañía que controle el
equipamiento multiplexado de enlace satelital. Los ingenieros del sistema MPEG
usaron el término “scrambling” para describir lo que normalmente podría ser
considerado como “encriptación”.
Han sido previstas todas las alternativas para el uso del scrambling, pero no son
obligatorias, y ningún algoritmo de encriptación particular ha sido especificado; en
vista de que esta información será transportada a la capa de los sistemas y cualquier
sistema de encriptación apropiado podrá ser empleado.
Ciertos factores importantes están especificados como el hecho de que no está
permitido realizar el scrambling en el verdadero paquete colector de flujo
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
95
transportador, puesto que este podría cerrarle el acceso a otros usuarios y tornar el
sistema multiplexado inutilizable.
El sistema incluye varios modos de facilitar el scrambling proveyendo al paquete
colector del flujo transportador de un campo de control de scrambling, que puede ser
usado para indicar el modo de encriptación vigente y un campo de adaptación, que
puede utilizarse para transportar claves de encriptación u otros mensajes de control
de autorización. Estos son utilizados para regular el acceso de un usuario individual
a servicios particulares. El sistema propone el uso de esa información como opcional
pero ofrece áreas privadas de flujos de datos que pueden ser usados para
transportar la misma información.
3.7 LA CALIDAD DE LA IMAGEN A DISTINTOS BIT-RATES
La naturaleza del proceso de compresión dificulta la formulación de afirmaciones
categóricas respecto de la relación entre la calidad de la imagen y el bit-rate, ya que
la calidad de las imágenes procesadas dependerá del contenido de la imagen,
teniendo generalmente las partes más rápidas de una imagen una peor resolución
que las partes estáticas o lentas.
Un sistema moderno de televisión es probable que tenga que lidiar también con la
compresión de imágenes en el estudio. Allí es donde una reducción del bit-rate les
permite a los sistemas de grabación aumentar el tiempo de almacenamiento.
Queda mucho trabajo por hacer todavía sobre los efectos en cascada que provocan
en el material de programa las diferentes sesiones de compresión. Un informe de
noticias por ejemplo, puede ser efectuado con una cámara-grabadora digital, donde
las imágenes son comprimidas para su almacenaje en cintas de 2:1. Luego la cinta
puede ser transferida a un editor digital de disco duro usando una razón de
compresión 8:1, y la salida del estudio puede ser emitida a los transmisores vía
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
96
enlace a 34 Mbit/s, usando un sistema de compresión diferente de 6:1. Resulta
obviamente difícil predecir la calidad final de la salida de tan complejo sistema.
Las siguientes tablas 3.3 y 3.4, muestran las estimaciones de NDS acerca de la
calidad de las imágenes a distintos bit-rates.
IMAGEN DEGRADACIONES BIT-RATE RELACIÓN DE
COMPRESIÓN
HDTV 1250 líneas Imagen perfecta. 1Gb/s* 1
HDTV 1250 líneas con
compresión
Degradaciones no perceptibles,
calidad profesional. 32-40 Mb/s 30-25
HDTV 1250 líneas con
compresión
HDTV calidad doméstica.
Algunas distorsiones sobre
escenas críticas
16-20 Mb/s 60-50
*Se toma como ejemplo una velocidad binaria de 1 Gb/s.
Tabla 3.3 Características de la imagen HDTV para el MPEG-2
Para Televisión de Alta Definición, (HDTV), el bit-rate es de alrededor de 1500 Mbit/s
(1,5Gbit/s), y para la calidad de una imagen de 625 líneas standard de estudio está
en 270 Mbit/s. Estas velocidades son para una cuantificación de 10 bits por muestra.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
97
IMAGEN DEGRADACIONES BIT-RATE RELACIÓN DE
COMPRESIÓN
Señal original
en estudio
525/60
Calidad profesional. Imagen
perfecta. 270 Mb/s 1
Compresión en
525/60
Calidad de distribución profesional.
Pocas degradaciones perceptibles,
si la señal de entrada es broadcast,
sin embargo, si la señal de entrada
es ruidosa un movimiento rápido
puede crear problemas.
8-10
Mb/s 50-40 Mb/s
Compresión en
525/60
Calidad doméstica, algunas
distorsiones en escenas críticas 4-5 Mb/s
200-100
Mb/s
Tabla 3.4 Características de la imagen de 525 líneas para el MPEG-2
Como lo indica la tabla, las imágenes digitales de 525 líneas comprimidas por un
factor de alrededor de 40:1 que necesitan un bit-rate de alrededor de 5 Mbit/s, son
generalmente consideradas casi equivalentes a las imágenes NTSC standard que se
ven en los hogares, con la condición de que muy ocasionalmente surgirá algún
material expuesto que no responda bien a los algoritmos de compresión, sufriendo
en la recepción de alguna distorsión
Las estimaciones de los bit-rates requeridos para las distintas calidades de imagen
están basadas en las técnicas de codificación de MPEG-2 y la calidad de la imagen
doméstica de 525 líneas indicada que reciben los televidentes.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
98
3.8 DEFINICIÓN DE LA IMAGEN Y PROMEDIOS DE COMPRESIÓN VARIABLE
Tests y pruebas de medición bien fundamentados han estado utilizándose durante
muchos años para definir la calidad de las imágenes analógicas de televisión, en
formas subjetiva y objetiva.
Los sistemas digitales presentan problemas distintos, y no resulta apropiado medir la
calidad de las imágenes digitales usando los mismos tipos de accesorios y señales
de tests que fueron utilizados para las imágenes analógicas.
Considerando que una definición subjetiva de una imagen analógica de televisión
puede usualmente ser ajustada dentro de uno de los grados de la escala de cinco
puntos del CCIR. Esta escala va desde “excelente” a “muy mala”, y los deterioros
graduados entre “imperceptible” y “señal inutilizable”.
Las imágenes digitales que han padecido los distintos procesos de compresión
serán todavía más difíciles de definir.
Una imagen digital con bajo bit-rate puede ser virtualmente perfecta durante la
mayor parte de tiempo y hasta libre de ruidos, siempre que las señales de la imagen
original sean “limpias”, sin considerar un tenue “ruido de cuantificación” del medio,
debido a errores inevitables en el proceso de conversión analógico-digital.
Por breves intervalos de tiempo, de todos modos, sobre algunas partes animadas
rápidas de un área de la imagen, la resolución puede deteriorarse. El resto de las
áreas de la imagen pueden parecer perfectas. La calidad de la imagen depende del
contenido de la misma; las escenas de acciones rápidas serán más difíciles de
codificar que aquellas que contengan movimientos lentos.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
99
Las técnicas de pre-procesamiento pueden permitir a las señales de la imagen ser
automáticamente examinadas con anterioridad a la compresión aplicada para
identificar aquellas partes en las cuales el proceso de compresión encontrará
dificultades. El software de codificación podría entonces utilizarse para modificar o
“cortar” esas partes de la señal de la imagen, para que puedan pasar a través del
proceso de compresión sin los defectos mencionados.
A medida que la compresión digital de señales televisivas se consolide como norma
y los broadcasters puedan comprimir diez o más servicios sobre el mismo ancho de
banda usado para emitir solamente una imagen analógica, varias lecciones serán
aprendidas acerca de cuáles son los diferentes tipos de material de imagen
aceptables y los programas deportivos que contienen escenas de rápidos
movimientos quizás terminen usando menos compresión que el tipo de películas que
contienen moviemientos moderados.
Distintos promedios de compresión pueden ser aplicados a diferentes escenas en
tiempo real y el ancho de banda del canal proporcionado para cada programa
transmitido será variable.
Se pueden utilizar técnicas estadísticas de multiplexado, como en el equipamiento
de NDS System 3000, para dividir la capacidad de datos disponibles entre trenes de
diferentes programas que son transmitidos en un horario particular, manteniéndose
fija la división durante una sesión particular de programas broadcast.
Una técnica alternativa puede implementarse para variar en forma dinámica la
cantidad de datos asignada a cada programa del canal, ajustándose continuamente
el promedio de datos para cumplir con los requerimientos de cada escena en
particular.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
100
3.9 BLOQUES DE PIXELES
Los pixeles se organizan en bloques para su procesamiento posterior. Un bloque
consiste de una matriz de valores de pixeles o una matriz que es una transformada
de valores de pixeles. Un bloque en el sistema ATSC es una matriz de valores de
8x8 que representan información de luminancia o crominancia figura 3.1.
3.10 MACROBLOQUES
Los bloques de información se organizan en macrobloques. Este consiste en cuatro
bloques de luminancia (o una región de valores de 16 pixeles por 16 líneas) y dos
bloques de croma (Cb y Cr). El término macrobloque se usa para referirse
directamente a datos de pixel o a la representación transformada y codificada de los
pixeles. Como se muestra en la figura 3.1, esto produce 256 muestras de luminancia
y 64 muestras de Cb y Cr (cada una), para un total de 384 muestras por
macrobloque.
En el formato de 1080 líneas (con 1920 muestras por línea), hay 68 filas de
macrobloques (incluyendo la última fila que añade ocho líneas de relleno para crear
las 1088 líneas de codificación), con 120 macrobloques por fila. Para el formato de
720 líneas (con 1280 muestras por línea), hay 45 filas de macrobloques, con 80
macrobloques por fila. En el formato de 480 líneas con 704 muestras por línea, hay
30 filas de macrobloques, con 44 macrobloques por fila. Para el formato de 480
líneas con 640 muestras por línea, hay 30 filas de macrobloques, con 40
macrobloques por fila.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
101
Figura 3.1. (Tomada de la Norma ATSC A/54). Bloques y Macrobloques
3.11 Tiras (slices)
Uno o más macrobloques contiguos dentro de la misma fila se agrupan para formar
tiras. El orden de los macrobloques dentro de una tira es la misma que el barrido
convencional de televisión, de izquierda a derecha.
Las tiras proveen un mecanismo conveniente para limitar la propagación de errores.
Dado que el flujo de bits consiste mayormente de palabras codificadas de longitud
variable, los errores de transmisión no corregidos causarán que el decodificador
pierda su alineación respecto a las palabras codificadas. Cada tira comienza con un
código de inicio de tira (slice start code). Dado que la codificación MPEG garantiza
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
102
que ninguna combinación legal de palabras de código puede emular un código de
inicio, éste puede usarse para retomar el alineamiento después de un error. Cuando
hay un error en el flujo de datos, el decodificador puede saltar al comienzo de la
nueva tira y recomenzar la decodificación correcta.
El número de tiras (slices) afecta la eficiencia de la compresión. Fraccionar el flujo
de datos para tener más tiras ofrece una recuperación de errores mejor, pero usa
bits que podrían servir para mejorar la calidad de imagen. La tira es la unidad menor
para la resincronización tras un error.
3.12 IMÁGENES, GRUPOS DE IMÁGENES Y SECUENCIAS
La codificación primaria de una secuencia de video es el cuadro o imagen individual
de video. Una imagen consiste de una colección de tiras que constituyen el área
activa de imagen.
Una secuencia de video consiste de una colección de una o más imágenes
consecutivas. Comienza con una cabecera de secuencia y se termina con un código
de fin de secuencia en el flujo de datos. Una secuencia de video puede contener
cabeceras de secuencia adicionales. Cualquier cabecera sirve como punto de
entrada. Éste es un punto en el flujo de datos tras el cual el decodificador puede
inicializarse y procesar correctamente la sintaxis del flujo de bits.
Una o más imágenes (frames) de la secuencia pueden combinarse en un Grupo de
Imágenes (Group of Pictures, GOP) con límites para codificación entre imágenes y
registración del código de tiempo.
La figura 3.2 ilustra una secuencia temporal de cuadros de video de imágenes intra-
codificadas (cuadros-I), imágenes codificadas predictivas (cuadros-P) e imágenes
con codificación predictiva bidireccional (cuadros-B).
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
103
Figura 3.2. (Tomada de la Norma ATSC A/54). Cuadros “I”, “P” y “B”.
3.13 CUADROS-I
Algunos elementos del proceso de compresión utilizan solamente la redundancia
espacial dentro de una única imagen (cuadro o campo). Estos procesos se llaman
codificación intra-cuadro, y no aprovechan la correlación provista por la predicción
temporal, llamada codificación intercuadros. Los cuadros que no usan codificación
intercuadros se conocen como cuadros-I (en que la “I” significa intra-cuadro). El
sistema de compresión ATSC utiliza ambos modos de codificación.
El uso de cuadros-I periódicos facilitan la inicialización del receptor y la captura del
canal (al encender el receptor o al cambiar de canales). El decodificador puede
aprovechar el modo de codificación intra-cuadro cuando se presentan errores de
canal no corregibles. Para la predicción de movimiento, debe haber un cuadro inicial
disponible para que el decodificador inicie el bucle o lazo predictivo. Por lo tanto,
debe haber un mecanismo por el cual si el decodificador pierde sincronismo por
cualquier motivo, pueda readquirirlo rápidamente.
La frecuencia de presentación de imágenes-I la elige el codificador. Esto contempla
las necesidades del acceso aleatorio y la ubicación de cortes de escena en la
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
104
secuencia de video.
3.14 CUADROS-P
Los cuadros-P (en que “P” significa “predictivo” o “pronosticado”) son cuadros con
predicción temporal sólo hacia delante (es decir, las predicciones para el cuadro-P
se forma solamente mediante los pixeles en el cuadro “I” o “P” más recientemente
decodificado). Estos cuadros proactivos permiten aprovechar las técnicas de
codificación intercuadros para mejorar la eficiencia y calidad de imagen general. Los
cuadros-P pueden incluir porciones que sólo tienen codificación intra-cuadro. Cada
macrobloque del cuadro puede tener codificación proactiva o intra-cuadro.
3.15 Cuadros-B
El cuadro-B (donde “B” indica con predicción bidireccional) es un tipo de imagen que
incluye predicción de un cuadro futuro, así como de uno previo. Los cuadros de
referencia, anteriores o futuros, llamados a veces “cuadros ancla” son siempre
cuadros “I” o “P”.
La base de la predicción de los cuadros “B” es que un cuadro de video está
correlacionado tanto con cuadros que ocurren en el pasado como con cuadros
futuros. Por lo tanto, si un cuadro futuro está disponible en el codificador, puede
lograrse una predicción superior, ahorrando bits y mejorando el desempeño. Una de
las consecuencias de usar imágenes posteriores en la predicción es que el cuadro-B
no puede usarse para predecir imágenes futuras, el orden trasmitido de imágenes es
diferente del orden visualizado y el codificador y el decodificador deben reordenar
los cuadros, incrementando así la optimización total del sistema. En el ejemplo
ilustrado en la figura 3.2, se observa un cuadro-B entre cada par de cuadros I/P.
Cada cuadro tiene una etiqueta con su orden de visualización y de transmisión. Los
cuadros “I” y “P” se transmiten fuera de secuencia para que el decodificador tenga
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
105
ambos cuadros ancla decodificados y disponibles para la predicción.
Los cuadros-B se usan para mejorar la eficiencia de compresión y la calidad de
imagen percibida cuando la codificación no representa un factor importante. Su uso
incrementa la eficiencia de codificación tanto para los materiales de barrido
entrelazado como progresivo. Se incluyen en el sistema ATSC porque el aumento de
eficiencia de compresión es notable especialmente en el barrido progresivo. La
elección del número de imágenes bidireccionales entre cualquier par de cuadros de
referencia (I o P) puede ser determinada en el codificador.
3.16 CODIFICACIÓN ENTRÓPICA DE LOS DATOS DE VIDEO
La cuantificación crea una representación discreta eficiente de los datos a transmitir.
La asignación de palabras de código toma los valores cuantificados y produce un
flujo digital de bits para la transmisión. Hipotéticamente, los valores cuantificados
podrían ser representados simplemente usando palabras de código uniformes o de
longitud fija. Con este método, cada valor cuantificado tendría el mismo número de
bits. Pero se puede alcanzar mayor eficiencia, en el régimen de bits, usando la
codificación entrópica. Esta codificación intenta aprovechar las propiedades
estadísticas de la señal a codificar. Una señal, sea un valor de pixel o un coeficiente
transformado, tiene cierta cantidad de información, o entropía, basada en la
probabilidad de que ocurran diferentes valores o eventos. Por ejemplo, un evento
que se da infrecuentemente tiene mucha más información nueva que uno que se da
a menudo. Reconociendo que ciertos hechos ocurren más a menudo que otros,
puede reducirse el régimen promedio de bits.
3.17 CODIFICACIÓN HUFFMAN
La codificación Huffman, que se usa en el sistema de compresión de video, es una
de las más comunes formas de codificación entrópica. En esta codificación, se
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
106
genera un libro de códigos que puede acercarse a la mínima longitud promedio de
descripción en bits de cada evento, según su probabilidad de distribución. Se
asignarán palabras de código más cortas a los eventos de ocurrencia más probable,
y más largas a los más improbables.
3.18 CODIFICACIÓN RUN-LENGTH
En la compresión de video, la mayor parte de los coeficientes se cuantifican a cero.
Puede haber unos pocos coeficientes de baja frecuencia no-cero, y una distribución
ratificada de coeficientes de alta frecuencia no cero, pero la mayor parte son
cuantificados a cero. Para aprovechar este fenómeno, la matriz bidimensional de
coeficientes transformados se reformatea y prioriza en una secuencia
unidimensional, sea mediante un proceso de barrido alterno o en zig zag. Esto causa
que la mayoría de los coeficientes no-cero más importantes (en términos de energía
y percepción visual) se agrupen al principio de la secuencia. Serán seguidos por
largas hileras de coeficientes cuantificados a cero. Estos coeficientes pueden ser
representados eficientemente mediante codificación Run-Length. En esta
codificación, el número (run) de coeficientes cero consecutivos antes de un
coeficiente no-cero se codifica, seguido por el valor del coeficiente no cero. Estos
dos valores se pueden codificar entrópicamente, sea juntos o por separado. El
barrido separa la mayor parte de los coeficientes cero y no-cero en grupos, lo que
aumenta la eficiencia del proceso de codificación Run-Length. Además se añade un
marcador especial de fin del bloque (EOB) para señalar que el resto de los
coeficientes de la secuencia son iguales a cero. Esta técnica es extremadamente
eficiente, y produce un grado significativo de compresión.
3.19 TÉCNICAS DE COMPRESIÓN
Para ilustrar este concepto podemos analizar una imagen en “reposo” ó imagen
detenida que solo posee relaciones y dimensiones espaciales. Al estar detenida en
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
107
el tiempo, no posee relaciones o dimensiones temporales. En la figura 3.3 vemos un
triángulo en cuya parte inferior se observan los parámetros espaciales de Ia imagen,
representados por tres términos: Ia Transformada Discreta del Coseno (DCT), Ia
Cuantificación y Ia Codificación de Longitud Variable (VLC). La conjugación de estos
tres términos permite llegar a una compresión de imágenes detenidas. Se observa
que se trata esencialmente de procesos matemáticos complejos.
Para expresar el movimiento de Ia imagen, debemos agregar una variante más, el
tiempo. En la figura 3.3 se observa en Ia parte Superior este aspecto que comprende
Ia detección del movimiento y su compensación corno componentes temporales.
MOTION COMPENSATION
MOTION DETECTION
DCTQUANTIZATION
VLC
MOTION PICTURE
STILL
PICTURE
Figura 3.3. (Tomada de Avances de la TV de Alta Definición). Parámetros espaciales de la imagen para
llegar a la compresión de imágenes detenidas
Solo Ia conjunción de las relaciones espaciales y temporales permite llegar a Ia
compresión de señales representativas de imágenes en movimiento.
Debido a Ia gran cantidad de los datos espaciales resulta necesario introducir un
paso adicional que transforma las coordenadas espaciales en coordenadas de
frecuencia. Este paso corresponde a una función matemática conocida como
transformada discreta de coseno (DCT) y se ilustra en Ia figura 3.4 (este proceso se
ilustro en el capitulo anterior), vemos en la parte superior de esta figura Ia imagen de
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
108
una locomotora que es explorada en sentido horizontal y vertical para brindar un
cuadro de 16 valores en su primer paso.
Al aplicar la función matemática DCT, este cuadro se transforma en otro más simple
que se observa a la derecha de la figura y en el cual notarnos que los cambios
grandes de valores tienen lugar solo en los cuatro pixels del comienzo del cuadro,
los demás pixels conservan valores casi constantes y por lo tanto cambian poco o
nada.
Frequency coordinates
149 120 79 49 120 94 58 32 78 68 28 9 49 33 9 0
Horizontal
Space coordinates
Vertical
120 59 1 -1 58 16 -2 1 2 -2 1 -1 -1 0 -1 0
DCT
Horizontal space frequency
Vertical space frequency
Data volume = 8 bits x 16 words =128 bits
Data volume = 8 bits x 16 words =128 bits
Figura 3.4. (Tomada de Avances de la TV de Alta Definición). Detección del movimiento y su
compensación como componentes temporales.
El proceso matemático de Ia DCT permitió transformar las coordenadas espaciales
en coordenadas de frecuencia de menor variación intrínseca. No obstante, el
volumen de datos que originalmente era de 128 bits, sigue en el mismo valor antes y
después de la DCT para lograr una reducción real de los datos, es necesario aplicar
un paso de cuantificación como vemos Ia figura 3.5. Se observa que este proceso
reduce los bits originales a 64 bits, solo por el hecho de la cuantificación. Este
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
109
proceso involucra el uso de una matriz de cuantificación que se puede regular, y
determina la calidad de Ia imagen final. Su resultado depende del tipo de matriz que
se usa.
120 59 1 -1 59 15 -2 1 2 -2 1 -1 -1 0 -1 0
10 5 0 0 5 1 0 0 0 0 0 0 0 0 0 0
Horizontal frequency Horizontal frequency
Quantizing (Step size of 12)
Vertical frequency Data volume =4 bits x 16 words =64 bits
Vertical frequency Data volume =8 bits x 16 words =128 bits
Figura 3.5. (Tomada de Avances de la TV de Alta Definición). Reducción de bits originales a 64 bits,
debido a la cuantificación.
Para lograr un proceso simple, es posible usar pasos uniformes para la
cuantificación. Sin embargo, existe una relación inversa entre las frecuencias
espaciales y los pasos de la cuantificación. Una frecuencia alta requiere pasos
pequeños. Además, Ias frecuencias espaciales se comportan en forma similar al ojo
humano y responden mejor a movimientos lentos que a movimientos rápidos. Por
este motivo, al caer el valor de Ia frecuencia espacial, Ia tasa de compresión se
reduce. En la figura 3.6 se observa este aspecto, al notar que los valores de la
matriz de cuantificación son más bajos en la zona de las frecuencias bajas y tensión
continua, y más altos en el extremo opuesto de las frecuencias altas.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
110
22 26 27 29 26 27 29 32 26 27 29 34 27 29 35 38
8 16 19 22 16 16 22 24 19 22 26 27 22 22 26 27
DC
Vertical space frequency
26 27 29 34 27 29 34 37 29 34 34 38 29 34 37 40
32 35 40 48 35 40 48 58 38 46 56 69 46 56 69 83
Horizontal space frequency
Space frequency coordinates
Figura 3.6. (Tomada de Avances de la TV de Alta Definición). Valores de la matriz de cuantificación, estos
son más bajos en la zona de las frecuencias bajas y más altos en el extremo opuesto.
El bloque de valores obtenidos después de la aplicación de DCT debe ser explorado
para su transporte en forma de flujo digital serie. Esta exploración se efectúa en un
esquema de zig-zag, como vernos en Ia figura 3.7. La exploración y lectura en zig-
zag se caracteriza por producir frecuentemente cadenas ceros. Si se aplica en este
caso una codificación dependiente de la longitud, como la conocida VLC (Variable
Length Coding = Codificación de Longitud Variable), el resultado puede simplificarse
con cierta facilidad. Los 16 valores originales del cuadro de 64 bits, pueden
transformarse e identificarse con el uso de solo 6 valores binarios, con un total de
16 bits. Al transformarse 64 bits en 16 bits equivalentes, se logra una compresión de
4 veces (64:4 = 16). Uno de los códigos usados para esta operación es el código
Huffman que tiene también amplia aplicación en equipos de Fax y otros.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
111
10 5 0 0 5 1 0 0 0 0 0 0 0 0 0 0
10 5 5 0 1 0 ……
10 5 5 0 1 “0” x 11
1110 11110 0 0 10 110
Huffman coding
Run- Legth coding
Zigzag scan
16 bits
¼ compression
Data volume = 4 bits x 16 words = 64 bits
0
Figura 3.7. (Tomada de Avances de la TV de Alta Definición). Exploración en Zig zag para el transporte en
forma de flujo digital.
Los pasos descritos e ilustrados en las figuras 3.4 a la 3.7, hasta ahora se refieren a
las imágenes fijas, en reposo. Para introducir Ia compresión de señales en
movimiento, es necesario agregar los pasos propios del movimiento, tanto de Ia
detección del mismo, como de su compensación y lectura. En la figura 3.8 vernos los
bloques circuitales involucrados en este paso. Se considera una imagen en
movimiento en forma similar a Ia que se usa en cinematografía: una sucesión de
imágenes fijas, donde cada imagen siguiente tiene solo pequeñas diferencias con
respecto a Ia imagen anterior. Por lo tanto, no es necesario repetir cada una de las
imágenes en forma total y por el contrario, solo se registra las diferencias existentes
en cada imagen con respecto a la primera imagen fija y detallada.
Esta premisa implica la creación de varios tipos de imagen que por lo tanto son
subdivididas en tres categorías: imágenes “I”, imágenes “B” e imágenes “P”.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
112
P picture B picture
DCT Quantization VLCI picture
Large data volume
Predictor error
Motion detection
Motion compensation DCT Quantization VLC
Small data volume
Motion vector
Figura 3.8. (Tomada de Avances de la TV de Alta Definición).Bloques circuitales para la compresión de
señales en movimiento.
Las imágenes “I” son del tipo de intracodificación. Se codifica cuadro por cuadro y
por lo tanto son las que mayor cantidad de datos representan. Estas imágenes “I” se
usan cada 15 páginas aproximadamente y su propósito es evitar la acumulación de
errores predecibles. Este tipo de imagen “I” posee a su vez el grado de compresión
más reducido. En la segunda categoría entran las imágenes ‘P” que resultan del
cómputo y la codificación entre imágenes “I” de referencia y las imágenes “P”. Se
utilizan además para lograr Ia predicción de las diferencias que se observan al crear
los datos de imágenes “I” y “P” previas. En este tipo de imagen se logra una
compresión mayor que con las imágenes “I”.
El mayor grado de compresión surge sin embargo de las imágenes bidireccionales
de la categoría “B”. En esta categoría se codifican los datos de las diferencias entre
la imagen “B” actual y las imágenes “I” u “P” previamente procesadas.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
113
La compresión del volumen total de datos guarda entonces relación de 6:3:1 para las
categorías l : P : B. Por cada imagen existen tres imágenes “P” y seis imágenes “B”.
La figura 3.8 indica que Ia compensación del movimiento se basa en Ia predicción de
errores y Ia creación de un vector de movimiento que es sometido Ia evaluación
matemática de la DCT vista más arriba. A ello se suma el proceso de cuantificación
y el paso del VLC.
En este proceso del MPEG existe Ia posibilidad que se produzcan errores en
algunas de las imágenes “I”, “P” o “B”. La estructura propia de estas imágenes
puede entonces producir una propagación de estos errores de la siguiente manera.
Si el error ocurre en un dato de cuadro “I” puede propagarse durante varios cuadros.
En forma similar un error en un cuadro P afectará los cuadros “P” y “B” relacionados,
mientras que un error de un cuadro “B” quedará aislado. De ello surge que resulta
conveniente desarrollar técnicas de “ocultación” (concealment) para prevenir esta
propagación de errores y en consecuencia mejorar Ia calidad de imagen.
Existen dos enfoques que se usaron para Ia ocultación de errores en los cuadros “I”:
el reemplazo temporal y Ia interpolación espacial. El reemplazo temporal permite
lograr datos de imagen de alta resolución como sustitutos de los datos perdidos,
pero en áreas de movimiento puede existir una diferencia significativa entre un
cuadro intracodificado corriente y otro previamente decodificado. En este caso, el
reemplazo temporal producirá grandes distorsiones, salvo que se pueda aplicar al
decodificador algún procesamiento basado en el movimiento. Este tipo de proceso
no esta disponible, sin embargo, en forma permanente ya que implica una tarea
compleja bajo el punto de vista computacional. A diferencia, un enfoque de
interpolación sintetiza los datos perdidos a partir de bloques adyacentes en el mismo
cuadro. En la interpolación espacial se aprovecha la redundancia en los intra-frames,
si bien puede quedar un efecto de borrosidad debido a Ia falta de coeficientes DCT
de orden elevado en las áreas activas.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
114
Para dar solución a este tipo de problemas fue desarrollada una técnica de
ocultación adaptable de los errores. En este esquema, es necesario usar el
reemplazo temporal o la interpolación espacial ya que se basan en medidas de Ia
actividad de la imagen que se pueden obtener fácilmente a partir de macro-bloques
vecinos, que toman en cuenta el movimiento local y los detalles espaciales de la
imagen. Si el movimiento local es menor que el detalle espacial, los bloques
corruptos pertenecen a una clase en la cual se aplica el reemplazo temporal.
Cuando por otra parte el movimiento local es mayor que el detalle espacial local, los
bloques corruptos pertenecen a una clase que será ocultada por medio de Ia
interpolación espacial.
El proceso de ocultación general consiste entonces de dos etapas. Primero se aplica
el reemplazo temporal a todos los bloques corruptos de esta clase en el cuadro
completo. Después de este paso de reemplazo temporal, es más probable que los
bloques dañados pero no ocultados, estén rodeados de bloques de imagen válidos.
En este caso se somete a un paso de interpolación espacial. El resultado será una
imagen menos borrosa o con áreas borrosas muy reducidas. Se logra así un buen
compromiso entre distorsión y borrosidad. El algoritmo necesario usa algunas
medidas simples que se logran en el decodificador y permiten una adaptación entre
modos de ocultación espaciales y temporales. Se observa que este mismo método
puede usarse también para los bloques de cuadros “P” y “B”, con solo
modificaciones ligeras.
Varios métodos fueron desarrollados también para mejorar aun más Ia exactitud de
Ia ocultación. El primero es un algoritmo de ocultación espacial que usa interpolación
direccional. Este algoritmo utiliza información espacial correlacionada con los bordes
a partir de un ambiente de pixels que rodean el espacio determinado y ejecuta Ia
interpolación direccional o multi-direccional para restaurar el bloque faltante.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
115
El segundo método está basado en vectores de imagen ”I”. La información del
movimiento es muy útil para ocultar pérdidas en las imágenes “P” y “B”, pero no se
encuentra disponible para imágenes “I”. Si se puede disponer de vectores de
movimiento para todas las imágenes MPEG, incluidas imágenes “I”, como ayuda
para la ocultación de errores, sería posible un funcionamiento adecuado de
ocultación de errores sin Ia complejidad del proceso espacial adaptable. En
consecuencia se adopta una extensión de la sintaxis en la cual los vectores del
movimiento pueden transmitirse en una imagen “I” como redundancia para los fines
de la ocultación de errores.
Un tercer algoritmo es Ia versión de refuerzo de un algoritmo adaptivo espacio-
temporal. La idea básica de este algoritmo es el uso de un promedio ponderado de
información espacial y temporal en lugar de esta información sola para ocultar
bloques faltantes. La estimación del reemplazo temporal es aún más reforzado por el
uso de vectores de movimiento de sub-macrobloques. En lugar de aplicar un solo
vector estimado sobre un macrobloque completo, para crear un reemplazo temporal
que puede producir efectos perniciosos, cada una de las regiones del sub-
macrobloque (por ejemplo regiones de pixels de 2x2 o 4x4), es sometido a un
reemplazo temporal, con sus propios vectores de movimiento estimados. Los
vectores de movimiento asociados con cada una de las regiones del sub-
macrobloque es obtenido por medio de una interpolación suave del campo del vector
de movimiento, lo que resulta en un valor estimado de reemplazo temporal que es
continuo en los bordes del macrobloque y se ajusta correctamente con los
macrobloques vecinos.
3.12 EL AUDIO DIGITAL AC-3
Después de analizar el proceso de compresión del video, ahora toca la revisión al
audio, se analizara forma breve, su digitalización que los principios son similares a Ia
digitalización de Ia señal de video y por último su compresión por medio del AC-3.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
116
Para comprimir una señal de audio en MPEG-2 o en Dolby AC-3, primero se debe
digitalizar.
En general, los sistemas de compresión operan con señales digitales PCM (Pulse
Code Modulation) en su entrada. También, en algunos Compresores, se puede
ingresar con una señal analógica dentro del mismo equipo se efectúa Ia conversión
analógica a digital. En otras ocasiones, se puede ingresar al Compresor con señales
digitales AES/EBU.
3.12.1 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO.
La digitalización de una señal de audio, consiste en efectuar una conversión de Ia
señal Analógica a Digital, esto implica un muestreo de Ia señal y una cuantificación
de los valores muestreados. A enseguida, Ia señal es codificada mediante una
Modulación Codificada por Pulsos (PCM). En Ia figura 3.11, se muestra el proceso
de digitalización de Ia señal con codificación PCM.
La señal de audio analógica ingresa a un Filtro Pasa Bajo, para ser limitada en
banda, después, esta señal es muestreada mediante otra señal cuya frecuencia se
le llama de muestreo, la característica de esta frecuencia es que debe cumplir con el
teorema de Nyquist. Ya mostrado anteriormente, este expresa que para poder
conservar toda Ia información de una señal, Ia frecuencia de muestreo debe ser
como mínimo el doble del ancho de banda de Ia señal a muestrea evitándose de
esta forma el aliasing.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
117
FILTRO PASA BAJO
MUESTREO CUANTIFICACIÓN CODIFICACION
Amplitud Amplitud
Tiempo Tiempo
Audio analógico Audio PCM
Figura 3.11. (Tomado de Televisión Avanzada) Codificación PCM. Figura 3.11. (Tomado de Televisión Avanzada) Codificación PCM.
Por ejemplo, para muestrear una señal de audio con un ancho de banda de 22 Khz,
Ia frecuencia de muestreo debe ser por menos de 44 Khz, para evitar el aliasing.
Por ejemplo, para muestrear una señal de audio con un ancho de banda de 22 Khz,
Ia frecuencia de muestreo debe ser por menos de 44 Khz, para evitar el aliasing.
Una vez que Ia señal ha sido muestreada, se efectúa Ia cuantificación de los valores
muestreados. En esta etapa, se le asignan palabras de bits los valores en amplitud
muestreados.
Una vez que Ia señal ha sido muestreada, se efectúa Ia cuantificación de los valores
muestreados. En esta etapa, se le asignan palabras de bits los valores en amplitud
muestreados.
A continuación, estas palabras de bits son codificadas en PCM (PuIse Code
ModuIation), Modulación por Código de Pulsos. Esta señal es muy robusta y es
utilizada para el transporte o transmisión de Ia señal digital.
A continuación, estas palabras de bits son codificadas en PCM (PuIse Code
ModuIation), Modulación por Código de Pulsos. Esta señal es muy robusta y es
utilizada para el transporte o transmisión de Ia señal digital.
Ahora observamos que esta señal se ingresa a los sistemas de compresión MPEG-2
y Dolby AC-3.
Ahora observamos que esta señal se ingresa a los sistemas de compresión MPEG-2
y Dolby AC-3.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
118
3.12.2 MUESTREO DE LA SEÑAL DE AUDIO
En la figura 3.12 se representa el espectro en el dominio de la frecuencia de una
señal a muestrear fb y el espectro de muestreo fm y 2fm.
Amplitud
Espectro a la entrada del filtro
fb fm
fm Espectro a la salida del filtro
Frecuencia
Figura 3.12. (Tomado de Televisión Avanzada.) Espectro de la banda de la señal a muestrear fb y de la
frecuencia de muestreo fm y 2fm.
Para muestrear una señal de 22 KHz de ancho de banda, habíamos dicho que la
frecuencia de muestreo debería ser por lo menos el doble o sea 44 KHz.
Supongamos que la frecuencia de muestreo es menor que la frecuencia de la señal
a muestrear, o sea de 36 KHz. En la figura 3.13 se muestra este ejemplo, donde
tenemos una baja frecuencia de muestreo. En este caso, la banda lateral inferior del
espectro de muestreo, se superpone con la banda lateral superior de la señal a
muestrear. Esta zona de superposición produce aliasing en audio. El alisasing se
manifiesta como un sonido metálico, siendo este un problema, ya que no se puede
corregir.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
119
Frecuencia (MHz)
Frecuencia de muestreo Zona de aliasing
18 36 22 54
Amplitud
Figura 3.13. (Tomado de Televisión Avanzada). Zona de aliasing producida por una baja frecuencia de
muestreo.
En la figura 3.14 se representa una señal de audio con una baja frecuencia de
muestreo. En este ejemplo los puntos de muestra son ABCDEFGH. El período entre
muestras es T. Uniendo todos los puntos de muestra, nos da una señal que dista
lejos de la original. Evidentemente en este caso tenemos una baja frecuencia de
muestreo
H
C B
D E
A F
G
T
Amplitud
Tiempo
Figura 3.14. (Tomado de Televisión Avanzada.) Señal con una baja frecuencia de muestreo.
En Ia Figura 3.15 analizamos el proceso de muestreo de una señal en el dominio del
tiempo.
De Ia figura podemos observar que en a) tenernos Ia señal a Ia salida del Filtro Pasa
Bajo. Esta señal es Ia que una vez limitada en banda, es sometida al proceso de
muestreo. Para poder muestrear esta señal, es necesario aplicar una frecuencia de
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
120
muestreo, ver parte (b) de Ia Figura. Esta frecuencia debe ser por lo menos eI doble
de Ia frecuencia máxima de Ia señal a muestrear.
En (c) de Ia misma figura tenemos finalmente Ia señal muestreada. Obsérvese que
aquí Ia velocidad de muestreo es correcta, debido a que las frecuencias con que se
han tornado las muestras, permiten recomponer Ia señal original.
Figura 3.15. (Tomado de Televisión Avanzada.) Proceso de muestreo en el dominio del tiempo
Amplitud Amplitud
Amplitud
a) b)
c)
Tiempo
Tiempo Tiempo
a)Señal a Ia salida del Filtro Pasa, b)Frecuencia de muestreo, c)Señal muestreada.
3.13 CUANTIFICACIÓN
En el proceso de digitalización, eI paso siguiente aI muestreo es Ia cuantificación.
Aquí es donde se asignan las palabras de bits, a cada uno de los valores de tensión,
que han sido muestreados.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
121
En Ia figura 3.16 se muestra Ia señal de Ia figura anterior, convertida en valores de
tensión en (a) y cuantificada en (b).
Tiempo
Tiempo
0111 0101
0110
0110
0101 0111
-2
-5-7
2
57
Amplitud Tensión
a)
Valores binarios
b)
Figura 3.16. (Tomado de Televisión Avanzada). Cuantificación de Ia señal muestreada.
La cuantificación convierte a Ia muestra analógica a un número binario. Ese numero
o palabra binaria, en aplicaciones profesionales puede ser de 16, 20 024 bits por
muestra de resolución.
En Ia tabla 1 se muestran algunas resoluciones y Ia cantidad de niveles de
cuantificación. Por simplicidad, solo se muestran los números de bits de resolución
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
122
Nº de bits por muestra
2 elevado a: Niveles de
cuantificación
2 2.E+02 4
4 2.E+04 16
6 2.E+06 64
8 2.E+08 256
10 2.E+10 1.024
12 2.E+12 4.096
14 2.E+14 16.384
16 2.E+16 65.335
18 2.E+18 262.144
20 2.E+20 1.048.576
22 2.E+22 4.194.304
24 2.E+24 16.777.216
Tabla 1. (Tomado de Televisión Avanzada). Niveles de cuantificación.
3.5 COMPRESIÓN DE AUDIO DOLBY AC-3.
El sistema de compresión de audio AC-3 ha sido desarrollado por los Laboratorios
Dolby de EE:UU. Este utiliza el algoritmo de compresión AC-3, para codificar hasta
seis canales, cinco tienen una respuesta de 20 Hz a 20 Khz y el sexto canal es de
baja frecuencia con una respuesta de 20 a 120 Hz. Estos seis canales digitales se
denominan 5.1.
El 0.1 es un canal de baja frecuencia denominado LFE (Low Frecuency Effects). Los
seis canales de entrada al compresor se representan en la siguiente figura 3.2:
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
123
Canal de baja
frecuencia SurroundDerecho
SurroundIzquierdo
Central Estéreo Derecho
Estéreo Izquierdo
Figura 3.2. Representación de los seis canales a través de un compresor AC-3.
COMPRESOR AC-3
Seis canales de audio digitales
Flujo comprimido AC-3
Figura 3.2 (Tomada de Televisión Digital Avanzada). Compresor AC-3.
Cada uno de estos canales tiene una velocidad binaria que viene dada por,
Velocidad binaria = Frecuencia de muestro x cantidad de bits por muestra de resolución.
Esta señal, ha sido muestreada con una frecuencia de muestreo de 48 KHz y
cuantificada a una resolución de 20 bits por muestra. Entonces, la velocidad binaria
será en este caso;
Velocidad binaria por canal = 48 KHz x 20 bits = 960 Kbps Velocidad binaria 6 canales = 960 KHz x 6 = 5,76 Mbps.
Esta es la velocidad total de los seis canales de audio.A la salida del compresor
tenemos un flujo comprimido en AC-3 de 384 Kbps. Este flujo está compuesto por
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
124
los seis canales comprimidos.La relación de Compresión (RC) aplicada en este caso
es:
RC = Velocidad de entrada / Velocidad de salida (KHz) = 5.760 / 384 = 15 RC = 15:1
Para este ejemplo se ha aplicado una relación de compresión de 15:1
El objetivo primordial de la compresión de audio es representar una fuente de audio
con la mínima cantidad posible de bits, mientras que se preserva el nivel de calidad
requerido por la aplicación dada. La compresión de audio tiene dos aplicaciones
principales. Una es la utilización eficiente del ancho de banda del canal para los
sistemas de transmisión de video. La otra es reducir los requerimientos de
almacenamiento. Ambos usos se aplican al sistema de televisión digital.
El sistema de compresión de audio consiste de tres operaciones básicas, como se
muestra en la figura 3.3. En la primera etapa, la representación de la señal de audio
cambia del dominio del tiempo al dominio de la frecuencia, que es más eficiente para
realizar una compresión basada en la psicoacústica. Se codifican entonces los
coeficientes del dominio de frecuencia. Estos coeficientes pueden cuantificarse
ampliamente porque el ruido de cuantificación estará en la misma frecuencia que la
señal de audio, y las relaciones de señal a ruido relativamente bajas son aceptables
por el fenómeno de enmascaramiento psicoacústico. La operación de asignación de
bits determina (basado en un modelo psicoacústico de audición humana), que la
relación S/R es aceptable para cada coeficiente individual de frecuencia. Finalmente,
estos coeficientes se cuantifican a la precisión necesaria y se incorporan al flujo
elemental de audio. La unidad básica del audio codificado es el cuadro de
sincronismo AC-3, que representa 1536 muestras de audio. Cada cuadro de
sincronismo de audio es una entidad codificada completamente independiente. El
flujo elemental de bits contiene información necesaria para permitir al decodificador
de audio realizar la asignación de bits (idéntica al codificador). Así el decodificador
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
125
puede desempaquetar y “descuantificar” los coeficientes de frecuencia del flujo
elemental de bits, que dan como resultado los coeficientes reconstruidos de
frecuencia. El banco de filtros de síntesis es la inversa del banco de análisis, y
convierte los coeficientes de frecuencia reconstruidos a una señal del dominio
temporal.
3.5.1 BANCO DE FILTROS DE TRANSFORMACIÓN (AC-3).
El proceso de convertir el audio del dominio temporal al dominio de la frecuencia
requiere que el audio se convierta en bloques superpuestos de 512 muestras. Por
cada 256 muestras nuevas de audio, se forma un nuevo bloque con éstas y las 256
muestras previas. Cada muestra de audio se representa en dos bloques de audio, y
así el número de muestras a procesar inicialmente se duplica. La superposición de
las muestras es necesaria para prevenir efector audibles. Se forman nuevos bloques
de audio cada 5.33 ms. Un grupo de seis bloques se codifica en un cuadro AC-3. Fuente de Coeficiente audio PCM de Flujo elemental de . frecuencia bits
Coeficiente Flujo elemental de de bits frecuencia
ANÁLISIS BANCO DE FILTROS
ASIGNACIÓN DE BITS
CUANTIFICACIÓN
CANAL
ASIGNACIÓN DE BITS
DE-CUANTIFICACIÓN
SÍNTESIS BANCO DE FILTROS
Audio PCM
Figura 3.3. (Tomada de Televisión Digital Avanzada.) Sistema de compresión y de-compresión AC-3.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
126
3.5.2 FUNCIÓN DE VENTANA.
Anteriormente a la transformación en el dominio de la frecuencia, se hace una
“ventana” con el bloque de 512 muestras temporales. Esta operación involucra una
multiplicación vectorial del bloque de 512 puntos con una función de “ventana” de
512 puntos. Esta función tiene un valor de 1.0 en el centro, y va disminuyendo hasta
casi cero en los extremos. El formato de la función de ventana es tal que el
procesamiento de superposición/adición en el codificador producirá una
reconstrucción libre de efectos colaterales indeseables. La forma de la función de
ventana también determina la forma de cada filtro del banco de filtros.
3.5.3 CODIFICACIÓN DE LOS EXPONENTES Y LAS MANTISAS.
A efectos de reducir la cantidad de bits, se codifican los exponentes y las mantisas.
Analizaremos primero el caso de los exponentes, el cual pueden tener distintas
alternativas en el proceso.
En primer instancia, puede ocurrir que al examinar los seis bloques de audio del
cuadro AC-3, se encuentren pequeñas diferencias entre los distintos exponentes. En
este caso, habrá una reducción de la cantidad de datos a codificar por un factor de
6.
En segunda instancia, puede ocurrir que existan diferencias significativas entre los
distintos exponentes de los bloques. En este caso, los exponentes se codifican en
forma diferencial. Esto significa que el primer coeficiente se codifica como absoluto y
luego se codifica la diferencia entre este exponentes y el siguiente. Esta técnica
reduce la velocidad de datos por un factor de 2.
Otro tipo de codificación se produce cuando el espectro es plano. En este caso, un
juego de exponentes cubre uno o dos bloques. Los exponentes diferenciales pueden
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
127
compartirse entre 2 ó 4 coeficientes de frecuencia. Esto genera un ahorro adicional
de 2 ó 4 bits por coeficientes.
La precisión de los coeficientes de frecuencia, depende de la longitud en bits que
tiene cada palabra. Esta puede ser de 16 a 24 bits.
Cada mantisa es cuantificada entre 0 y 16 bits. La cuantificación está determinada
por la asignación de bits.
3.5.5 CUADRO DE SINCRONIZACIÓN AC-3.
El flujo de audio codificado o comprimido AC-3, está compuesto de cuadros de
sincronización, se representa en la figura 3.4, cada cuadro de sincronización
contiene 6 bloques de audio codificados, desde (AB 0) hasta (AB 5). Cada uno de
estos bloques tiene 256 nuevas muestras de audio. De esta forma tenemos seis
bloques con un total de 1536 muestras.
Cada uno de estos bloques transporta los exponentes, la asignación de bits y las
mantisas, además de otros tipos de información.
S
S B AB AB AB AB AB AB C I S 0 1 2 3 4 5 Aux. R I C
Figura 3.4. (Tomada de Televisión Digital Avanzada). Cuadro de sincronización AC-3
La duración total de un cuadro completo, tal como se muestra en la figura 3.4, tiene
una duración de 32 miliseg.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
128
El cuadro comienza con una cabecera de información (SI). Esta contiene la
información necesaria para mantener la sincronización del cuadro.
A continuación, tenemos un bloque (BSI.). Este contiene los parámetros que
describen los servicios de audio codificado.
Luego, tenemos los seis bloques de audio codificado con 256 muestras cada uno.
Seguidamente, tenemos un bloque de datos auxiliares. Luego, le sigue un Chequeo
de Redundancia Cíclica (CRC), que detecta los errores pero no los corrige.
3.7 RESUMEN DEL SISTEMA
Como lo ilustra la figura 3.5. El subsistema de audio comprende la función de
codificación/decodificación y se ubica entre la entrada/salida de audio y el
subsistema de transporte. El codificador de audio es responsable de generar el o los
flujos elementales de audio el cual son representaciones codificadas de las señales
de entrada de audio banda base. En el receptor, el subsistema de audio es
responsable por decodificar el flujo elemental de audio de regreso a audio banda
base.
La salida del codificador de audio es una cadena de bits que representan la fuente
de audio, y se conoce como flujo elemental de audio. El subsistema de transporte
empaqueta los datos de audio en paquetes PES que a su vez son reempacados en
paquetes de transporte. El subsistema de transmisión convierte los paquetes de
transporte en una señal modulada de RF para recibidos a un flujo elemental de
audio que es decodificado por el decodificador transmitir al receptor. En éste, la
señal recibida se de-modula por el subsistema de transmisión del receptor, que
convierte los paquetes de audio de audio del televisor. Estas divisiones son
conceptuales, y pueden variar en la implementación práctica
HDTV LA NUEVA TECNOLOGÍA EN TV
Por ejemplo, el procesamiento de transporte puede partirse en dos bloques: uno
para realizar el empaquetado PES, y el segundo para realizar el empaquetado del
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
129
transporte.. O cierta funcionalidad del transporte puede incluirse en el codificador de
audio o en el subsistema de transmisión.
Flujo elemental de audio Paquetes de transporte
Sub sistema de
transporte TX
Sub sistema de
Transmisión
CANAL
Codificación
Sub sistema de transporte
RXDe-codificador
Sub sistema de
recepción RX-RF 8-VSB
Sub sistema de audio
Audio PCM
Audio PCM TX-RF 8VSB
Flujo elemental de audio
Paquetes de transporte
Figura 3.5. (Tomada de Televisión Digital Avanzada). Sub sistema de audio en el estándar ATSC
3.7.1 INTERFAZ DEL CODIFICADOR DE AUDIO.
El sistema acepta entradas de audio base con hasta seis canales de audio por cada
programa. Esta canalización es coherente con la Recomendación ITU-R BS-775
“Sistema de sonido estereofónico con o sin acompañamiento de imagen.”
Los seis canales son: Izquierda, Derecha, Centro, Envolvente Izquierdo, Envolvente
Derecho y Acentuación de las Frecuencias Bajas (LFE.) El sistema de transporte
puede llevar múltiples flujos elementales de audio.
El ancho de banda del canal LFE se limita a 120 Hz. El ancho de banda de los
demás canales llega a 20 kHz. La respuesta en baja frecuencia puede llegar a la
corriente continua, pero típicamente se limita a aproximadamente 3 Hz (-3dB)
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
130
mediante un filtro pasa-altos de bloqueo de continua. La eficiencia de la codificación
de audio ( y su calidad) mejora quitando los desplazamientos por CC de las señales
de audio antes de codificarlas.
3.8 RESTRICCIONES CON RESPECTO AL ESTÁNDAR ATSC A/52.
El sistema de codificación de audio de la televisión digital esta basado sobre el
Estándar de Compresión de audio digital (AC-3) especificado en el cuerpo del
documento ATSC A/52. Las Restricciones sobre el sistema son mostradas en la
Tabla 3.2 la cual muestra los valores permitidos de ciertos elementos sintácticos.
Elemento sintáctico AC-3 Comentario Valor permitido
fscod Indica la rate de muestreo. ‘00’ (indica 48 kHz)
frmsizecod Servicio de audio principal o asociado conteniendo todos los elementos de
programa necesarios.
‘00’ (indica 48 kHz)
frmsizecod Servicio asociado a un canal particular conteniendo un elemento de programa único.
≤ ‘010000’ (indica ≤ 128 kbps)
frmsizecod Dos canales de servicio asociado de diálogo. ≤ ‘010100’ (indica ≤ 192 kbps)
(frmsizecod) Bits rate de un servicio asociado y principal dados a ser simultáneamente decodificado (total ≤ 512 kbps)
acmod Indica número de canales ≥ ‘001’
Tabla 3.2. (Tomada del libro Audio digital). Restricciones de audio.
3.8.1 FRECUENCIA DE MUESTREO.
El sistema transporta audio digital muestreado a la frecuencia de 48 Khz, amarrado
al sistema de reloj de 27 Mhz. El reloj de muestreo de audio de 48 Khz esta definido
como:
rate de muestras de audio a 48 Khz = (2 ÷ 1125) (sistemas de reloj de 27 MHz)
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
131
Si una señal análoga es empleada, el conversor A/D debe hacer un muestreo a 48
Khz. Si una señal de entrada digital es empleada, la rate de muestreo de entrada
debe ser de 48 Khz, o el codificador de audio debe contener conversores de rata de
muestreo el cual convierte la rata de muestreo a 48 Khz.
3.8.2 BITS RATE. Un principal servicio de audio, o un servicio de audio asociado el cual es un servicio
completo (conteniendo todos los elementos de programa necesarios) debe ser
codificada a una bits rate menor o igual a 384 kbps. Un servicio asociado de canal
particular conteniendo un elemento de programa particular debe ser codificado a una
bits rate menor o igual a 128 kbps. Un servicio asociado de dos canales conteniendo
únicamente diálogo debe ser codificado a una rata de bits menor o igual a 192 kbps.
La bits rate combinada de un servicio principal y un servicio asociado la cual es
propuesta para ser decodificada simultáneamente debe ser menor o igual a 512
kbps.
3.1 MULTIPLEX Y FLUJO DE TRANSPORTE MPEG-2
Ahora partimos del Flujo Elemental de datos (ES), que es el flujo comprimido a la
salida del Codificador o Compresor. Este flujo comprimido puede ser de video, audio
o datos, su característica es que su capacidad de datos es variable. En la figura 3.9
se observa la formación del Flujo de Transporte MPEG-2.
Este flujo esta compuesto por grupos de imágenes (GOP). Como ejemplo tomemos
una parte del ES, que en este caso lo representamos por simplicidad por cuatro
imágenes: I, B, B y P. Estás cuatro imágenes del ES representan una parte de la
secuencia de un GOP, estas imágenes se paquetizan y se le agrega una cabecera
de información, obteniéndose de esta forma el PES (Packetized Elementary
Stream).
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
132
Este es un flujo de paquetes de datos que ha sido formado mediante la
paquetización de los Flujos Elementales (ES). Los PES tienen una longitud variable,
su máxima capacidad de datos es de 65,536 Kbytes.
Para esta paquetización del Flujo Elemental, se toman porciones ordenadas de la
secuencia ES y de una capacidad determinada, cada parte que se extrae de la
secuencia se identifica con una cabecera y esta es la que lleva toda la información
de esa porción del paquete, de esta manera, se forman los paquetes PES, que
constituyen la paquetización del Flujo Elemental de datos, de igual forma se realiza
para el audio.
Imagen I
Imagen B
Imagen B
Imagen P
Datos de I
Datos de B
Datos de B
Datos de P
Paquete MPEG-2
Paquete MPEG-2
Paquete MPEG-2
Señal digital
COMPRESOR
PAQUETIZACIÓN
MÚLTIPLEX DE TRANSPORTE
Paquete MPEG-2
ES
PES
TS
Flujo de Transporte Final
Figura 3.9. (Tomada de Televisión Digital Avanzada). Formación del Flujo de Transporte, a partir de los
flujos de paquetes PES.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
133
El PES tiene una cabecera de 8 bytes (64 bits), en la figura 3.10 se representa la
cabecera del PES, esta lleva toda la información inherente a ese paquete.
1 BYTE
1
BYTE
1 BYTE
1 BYTE
1 BYTE
1 BYTE
1
BYTE
8 bytes / 64 bits
Identificación de flujo
Tamaño del buffer Longitud del paqueteCódigo de arranque
1
BYTE
Figura 3.10. (Tomada de Televisión Digital Avanzada). Cabecera del paquete PES.
Los primeros 3 bytes (24 bits), constituyen el código de arranque del paquete (SC,
Start Code). El siguiente byte (8 bits), se utiliza para identificar el flujo de datos que
transporta el mismo (SI, Stream Identification). Los 2 bytes siguientes (16 bits), son
usados para indicar la longitud del paquete (PL, Packet Length). Los últimos 2 bytes
(16 bits), se utilizan para indicar el tamaño del buffer (BS, Buffer Size).
Cada paquete del Flujo de Transporte posee un código de identificación de paquete
(PID, Packet Identification). Los paquetes que son del mismo Flujo Elemental tienen
el mismo PID, de esta manera el Decodificador puede seleccionar y reordenar los
distintos flujos.
Cada paquete MPEG-2 que conforma el Flujo de Transporte, tiene poca capacidad y
todos los paquetes son iguales. Por este motivo, estos paquetes son más robustos
que los paquetes que conforman el Flujo de Programa. Esta es una de las razones
por la cual el Flujo de Transporte (TS, Transport Stream) es utilizado en transmisión.
HDTV LA NUEVA TECNOLOGÍA EN TV
COMPRESIÓN DE VIDEO MPEG-2 Y AUDIO AC-3
134
Al final de cada paquete se le agregan los bytes de paridad, para detectar y corregir
errores, en el sistema ATSC se agregan 20 bytes al final de cada paquete, así el
paquete tendrá un total de 208 bytes.
En el estándar MPEG-2, tiene dos tipos de Flujo de Transporte:
• SPTS (Single Program Transport Streams). Flujo de Transporte de un
Programa Simple.
• MPTS (Multi Program Transport Streams). Flujo de Transporte de
Múltiples Programas.
El SPTS contiene diferentes flujos de PES, pero estos corresponden a un programa
simple, este flujo contiene un video y diferentes audios. En cambio el MPTS,
transporta dos o más flujos SPTS o de programas simples.
Después para obtener el Flujo de Transporte final (TS) se extraen porciones en
forma aleatoria de 188 bytes de cada uno de los PES, con su cabecera de
información incluida, este flujo final es el que se inyecta al excitador del equipo
transmisor, en donde va a ser modulada por medio del 8-VSB.
HDTV LA NUEVA TECNOLOGÍA EN TV