monografía científica - ilustrados · hiciera cambiar nada y la recepción de señal siguiera...

105
Monografía Científica Autores: J. G. Viera Santana, J. Portillo Meniz, D. Rodríguez Esparragón, J. C. Hernández Haddad y J. Castillo Ortiz Universidad de Las Palmas de Gran Canaria 2007

Upload: others

Post on 30-Apr-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Monografía Científica

Autores: J. G. Viera Santana, J. Portillo Meniz, D. Rodríguez Esparragón, J. C. Hernández Haddad y J. Castillo Ortiz

Universidad de Las Palmas de Gran Canaria

2007

Monografía Científica © José Guillermo Viera Santana, Jorge Portillo Meniz, Dionisio Rodríguez Esparragón, Juan Carlos Hernández Haddad y Jesús Castillo Ortiz. Las Palmas, 2007.

Índice de contenidos.

Digitalización y compresión de la señal de Televisión

I

Índice de contenidos.

Digitalización y compresión de la señal de Televisión

II

Índice de contenidos

Capítulo I. Introducción. 1

1.1. Reseña histórica. 2

1.2. La TV Digital y sus ventajas. 4

Capítulo II. Introducción a la televisión digital. 6

2.1. Introducción 7

2.2. Muestreo 7

2.2.1. Aliasing 9

2.3. Cuantificación 10

2.4. Codificación 12

2.4.1. Formato de codificación. 13

2.4.1.1 Codificación de las señales compuestas. 13

2.4.1.2. Codificación de componentes. 14

2.5. La norma UER-SMPTE-OIRT. 15

2.5.1. Señales codificadas. 16

2.5.2. La frecuencia de muestreo. 16

Índice de contenidos.

Digitalización y compresión de difusión de la señal de Televisión

III

Capítulo III. Fundamentos de la Compresión de Video MPEG-2. 21

3.1. Introducción. 22

3.2. Entropía y redundancia. 22

3.3. Codificación de Longitud Variable (VLC). 24

3.3.1. Codificación de Huffman. 24

3.3.2. Codificación Run Length. 26

3.4. Compresión MPEG-2. 27

3.5. Redundancia espacial. 27

3.5.1. Codificación espacial. 28

3.5.1.1. La Transformada del Coseno Discreto. 29

3.5.1.2. Cuantificación. 30

3.5.1.3. Codificación por Entropía. 32

3.6. Redundancia temporal. 32

3.6.1. Codificación temporal 33

3.7. Redundancia estadística. 35

3.8. Codificador hibrido DCT/DPCM. 35

3.9. Compensación de Movimiento. 36

3.10. Imágenes en MPEG-2. 38

3.10.1. Imágenes I. 38

3.10.2. Imágenes P. 39

3.10.3. Imágenes B. 39

3.11. Codificación en forma entrelazada o progresiva. 39

3.12. Estructura por cuadro y campo. 40

3.13. Secuencia de imágenes en MPEG-2. 42

3.14. La estructura 4:4:4. 43

3.15. La estructura 4:2:2. 44

3.16. La estructura 4:2:0. 45

Capítulo IV. Procesos en la Compresión de Vídeo MPEG-2. 47

4.1. Introducción. 48

4.2. Procesos en la Compresión de Video MPEG-2. 48

4.3. El proceso DCT (Transformada del Coseno Discreto). 50

4.4. Barrido en Zig Zag. 58

4.5. Diagrama de un Codificador MPEG-2. 59

Índice de contenidos.

Digitalización y compresión de difusión de la señal de Televisión

IV

4.6. Diagrama de un Decodificador MPEG-2 61

Capítulo V. Estándar MPEG-2. 63

5.1. Introducción. 64

5.2. Características principales del estándar de vídeo MPEG-2. 65

5.3. Perfiles y Niveles en MPEG-2. 67

5.4. Codificación MPEG-2 de Audio. 70

5.4.1. Principios de la compresión de audio MPEG. 71

5.4.2. Las capas de la codificación de audio MPEG. 74

5.4.3. Formato general de la trama MPEG de audio. 76

Capítulo VI. Múltiplex y Flujo de Transporte MPEG-2. 78

6.1. Introducción. 79

6.2. Empaquetado PES. (Packetized Elementary Stream). 80

6.2.1. PES- Packet Header. 81

6.3. Múltiplex tipo “PROGRAM STREAM”. 85

6.4. Múltiplex tipo “TRANSPORT STREAM”. 87

6.4.1. Formación del “Transport Stream” 88

6.4.2. “Transport Packet” 89

6.4.2.1. Transport Packet Header. 90

6.5. Tabla de Asociación de Programas (PAT) y Tabla de Mapa de Programas (PMT).

91

6.6. Resumen de la formación del Flujo Transporte. 94

Capítulo VIII. Bibliografía. 97

8.1. Introducción. 98

8.2. Bibliografía. 98

8.3. Direcciones WEB. 99

Capítulo 1. Introducción.

Digitalización y compresión de la señal de Televisión

1

Capítulo I:

Capítulo 1. Introducción.

Digitalización y compresión de la señal de Televisión

2

CAPÍTULO 1. Introducción

1.1. Reseña histórica

Desde hace ya algunas décadas, la tecnología digital se ha ido implantando en

muchos de los campos del mundo de las telecomunicaciones y, el que aún hoy sigue

siendo el principal medio de comunicaciones del mundo, la televisión, no se podía

quedar atrás, ya que son cuantiosas las ventajas que ofrece la llamada Televisión Digital

frente a la tradicional Analógica.

Podemos diferenciar dentro de un esquema general de la televisión, tres campos

a los que la tecnología digital ha afectado de distinta forma y en diferentes etapas:

Producción. Comprende aquellos pasos anteriores a que la señal salga del

estudio (toma de imágenes, grabación, edición, postproducción, etc.)

Transmisión. La señal se traslada desde el estudio (centro de producción) hasta

repetidores primarios.

Difusión. La señal llega al público.

Así pues, la primera etapa en digitalizarse fue, sin lugar a dudas, la de producción,

ya que, por otra parte es la más susceptible a cambios (mientras a los usuarios no se les

Capítulo 1. Introducción.

Digitalización y compresión de la señal de Televisión

3

hiciera cambiar nada y la recepción de señal siguiera siendo analógica, da lo mismo

cómo se cree en el estudio). En cuanto a la transmisión se comenzó por la transmisión

digital del sonido, siendo la difusión (o radiodifusión) la última de las etapas en

convertirse a digital.

También cabe diferenciar entre los diferentes sistemas de transmisión, ya que no

ha ido al mismo ritmo la digitalización en TV vía cable, vía satélite o TV Terrestre, pero

no nos detendremos en el estudio cronológico de implantación, sino en las técnicas

utilizadas para conseguir la viabilidad de estos sistemas. Estos sistemas de trasmisión de

televisión digital quedan englobados para Europa en el proyecto DVB, “Digital Video

Broadcasting” (DVB-C para cable, DVB-S para satélite y DVB-T en el caso de la

terrestre), el cual ha tomado como estándar de codificación digital el MPEG-2 que será

tratado con profundidad más adelante.

De lo que no cabe duda es que el paso a TV Digital se ha convertido en uno de

los acontecimientos más importantes en área tecnológica del comienzo de este milenio.

Los primeros pasos que han permitido que las emisiones de televisión digital

sean una realidad podemos fijarlos allá por el año 1987, cuando se crea el JPEG (Joint

Photographic Experts Group) por parte de la Organización de Estandarización

Internacional (ISO) y por la Comisión Electrotécnica Internacional (IEC) y cuyo

director fue Hiroshi Yoshuda. La finalidad de este grupo de expertos era crear un

estándar que permitiera disminuir la cantidad de espacio de almacenamiento requerido

para las imágenes fijas. Ese mismo año, Leonardo Chiariglione, uno de los asistentes al

encuentro JPEG, propone a Yoshuda la creación de otro grupo que se encargara de

estandarizar la codificación digital de las imágenes en movimiento. Es así como surge el

año siguiente, 1988, Comité Técnico Unido sobre Tecnologías de la Información,

Subcomité 29, Grupo de Trabajo 11 (ISO/IEC JTC1/SC29/WG11), más conocido como

MPEG (Moving Pictures Experts Group), bajo la dirección de Chiariglione y también

bajo la tutela de las organizaciones ISO/IEC. La misión, entonces, de este nuevo grupo,

era el desarrollo de estándares para la representación codificada de imágenes en

movimiento, la información del audio adjunta a ella, y su combinación para la grabación

y lectura en un medio de almacenamiento digital. El equipo comenzó su andadura con

12 miembros y no fue hasta casi cinco años después cuando, en 1993, salió a la luz su

Capítulo 1. Introducción.

Digitalización y compresión de la señal de Televisión

4

primer gran resultado, el MPEG (ó MPEG-1, ya que en el año siguiente saldría el

llamado MPEG-2).

Las diferencias entre estos dos estándares se verán a lo largo del trabajo punto

por punto, pero se puede adelantar que el primero hacía un tratamiento estático de la

imagen (aunque utiliza tanto compresión espacial, dentro de una misma imagen, como

compresión temporal, entre imágenes sucesivas), el cual obtuvo su mayor aplicación en

los CD-I y VCD (CD interactivos y video CD, no en transmisión de imágenes, sino en

su tratamiento y almacenamiento). En cuanto al MPEG-2 se puede decir que en cierta

forma completa a su predecesor y permite aplicaciones con vistas a la televisión, siendo,

de hecho, la elección del proyecto europeo ya mencionado DVB (que se estaba

desarrollando paralelamente) como estándar de codificación. Este proyecto tiene unas

recoge características específicas de cómo transmitir las señales digitales

(modulaciones, etc.) que en ningún momento pasaremos a nombrar aquí, ya que eso es

digno de ser desarrollado en otros trabajos, limitándonos aquí al proceso de

digitalización y compresión anterior a la difusión de la señal.

1.2. La TV Digital y sus ventajas.

En un tema tan en boga como la implantación de la TV digital, no es difícil

encontrar mucha información por diversos medios, pero a veces esa información no está

dada por personas expertas y puede llevar a confusión y ambigüedades.

Hasta el momento en nuestro país, hemos tenido siempre una televisión terrestre

analógica y está previsto el apagón analógico (fin de emisiones de televisión analógicas)

en el año 2010. Otra cuestión son las plataformas digitales que desde 1997 tenemos por

medio de Vía Digital y Canal Satélite Digital (DVB-S). La implantación de estos

sistemas se hace realmente atrayente por una serie de ventajas, de las cuales

mencionamos las más significativas.

Permite transmitir varios programas ocupando el mismo espectro que utiliza la

TV tradicional analógica para la transmisión de uno sólo (el cual ocupa casi

Capítulo 1. Introducción.

Digitalización y compresión de la señal de Televisión

5

todo el canal). Esto es así gracias a la compresión de la señal, que en el caso

analógico era imposible.

Asimismo, permite acompañar la imagen de muchos más canales de sonido

(con la posibilidad, por ejemplo, de recibir distintos idiomas de un mismo

programa).

La definición de la imagen mejora notablemente evitando las interferencias y

pérdidas en la señal durante su transmisión (señal prácticamente exenta de

ruido).

Los servicios Multimedia que se pueden desarrollar son innumerables (acceso a

INTERNET, interoperatividad del usuario, etc.).

Posibilidad de transmisión de múltiples datos auxiliares (el teletexto de los

canales analógicos se nos queda verdaderamente pobre ante de las posibilidades

de información en la TV Digital)

Creación de efectos de 2D y 3D y otros efectos especiales en la imagen

imposibles de imaginar con un sistema analógico.

Realizar múltiples copias de las señales sin degradación alguna (muy útil en los

estudios).

Posibilidad de estandarización a nivel internacional de esta nueva realidad para

una mayor compatibilidad entre países que en la TV analógica (lo cual se ha

conseguido, al menos en la digitalización, aunque no en la transmisión Ej.: el

proyecto DVB está “sólo” vigente en Europa).

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

6

Capítulo II:

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

7

CAPÍTULO 2. Digitalización de la señal de televisión.

2.1. Introducción.

La introducción de la televisión digital permite obtener una notable mejora en la

calidad de la señal de televisión. Se mejora en la calidad de la señal de transmisión, el

tratamiento de la imagen y la multicopia magnética.

La digitalización es el proceso a través del cual se obtiene una señal de

naturaleza digital a partir de una señal analógica. El proceso es el mismo para cualquier

tipo de señal (audio, vídeo, etc...). Esta operación se realiza en tres pasos bien

diferenciados los cuales se detallan a continuación.

2.2. Muestreo.

Con esta operación se consigue obtener niveles de la señal analógica en

intervalos regulares de tiempo, es decir, se toma una muestra. El dispositivo que

muestrea la señal se compone de dos elementos, un circuito que mantiene y genera las

muestras, y un reloj que define los instantes en que las muestras son obtenidas.

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

8

Analíticamente esta operación equivale a multiplicar la señal analógica por un tren de

impulsos, los cuales se modulan en amplitud por la amplitud de la señal analógica.

Esta operación se ilustra detalladamente en el siguiente ejemplo:

Señal analógica: Señal muestreadora (tren de impulsos):

Figura 2.1. Señal a muestrear. Figura 2.2. Señal muestreadora.

Señal muestreada PAM (Pulse Amplitud Modulated):

Figura 2 .3. Señal muestreada.

En el dominio de la frecuencia el muestreo equivale a obtener una réplica del

espectro de la señal analógica ubicado en cada una de las frecuencias múltiplas de la

frecuencia de muestreo:

Figura 2.4. Representación espectral de efecto del muestreo.

)2cos(2

)sen()( wtAwtAte ⋅−⋅=

E (t)

Señal P. A. M.

E (f) S (f)

Bw BwFs Fs2·Fs 2·Fs

S (f)M

S (t)

∑+∞

−∞=

−=n

nTtts )()( δ

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

9

En este proceso aparece un parámetro fundamental que definirá la transmisión

de la señal. Éste es la frecuencia de muestreo.

En la práctica no se pueden utilizar velocidades de muestreo

indiscriminadamente altas, ya que ésta determina la cantidad de información que se

envía por segundo, y por tanto el ancho de banda necesario para su transmisión.

En cualquier canal de transmisión, el costo por Mhz es elevadísimo, resulta pues

fundamental conocer cual es la frecuencia de muestreo mínima para poder enviar la

señal con garantía de su correcta reconstrucción.

Nyquist estudió esta problemática y determinó a partir del análisis del espectro

de la señal muestreada que la frecuencia mínima de muestreo debe ser el doble del

ancho de banda de la señal a muestrear, para poder recuperar de forma íntegramente la

señal original a partir de la señal muestreada.

2.2.1. Aliasing.

El efecto de “aliasing”, se produce cuando se utiliza una frecuencia de muestreo

inferior al doble del ancho de banda de la señal a muestrear, o sea, cuando no se cumple

el Criterio de Nyquist. Este efecto provoca un solapamiento entre los espectros de

muestras consecutivas, impidiendo la recuperación de la señal original

El aliasing es un efecto indeseable, causante de que señales continúas distintas

se tornen indistinguibles cuando se les muestrea digitalmente. Su efecto se traduce en

un solapamiento entre muestras diferentes de la señal. Cuando esto sucede, la señal

original no puede ser reconstruida de forma unívoca a partir de la señal digital.

Figura 2.6. Frecuencia de muestreo ≥ 2 * BW No aliasing

No hay solapamiento entre muestras Figura 2.5. Señal en banda

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

10

2.3. Cuantificación.

El siguiente paso para la digitalización, una vez muestreada la señal, consiste en

cuantificar los valores de cada muestra. En este proceso el valor numérico de la muestra

se aproxima a un valor dentro de un número finito de amplitudes posibles.

Evidentemente se introduce una distorsión por el error que se comete al aproximar, que

es lo que se conoce como error o ruido de cuantificación. La curva que caracteriza a un

cuantificador es la siguiente:

Figura 2.8. Curva de cuantificación.

En esta gráfica podemos distinguir los siguientes parámetros:

· xsc: valor de sobrecarga. Valor máximo de la señal a muestrear.

· xk: Nivel o umbral de decisión. Valor entre intervalos sucesivos.

· yk: Nivel de representación o de reconstrucción. Valor a que se aproximan

todos los valores comprendidos entre xk y x(k+1).

· ∆: Escalón de cuantificación. Es el tamaño de cada intervalo.

Q (x)

XXsc-Xsc

XkXk+1

Yk

Yk+1

Figura 2.7. Frecuencia de muestreo < 2 * BW aliasing

Solapamiento entre muestras

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

11

Como cada nivel de reconstrucción se va a representar mediante un código

binario, el número de niveles será siempre una potencia de 2, de forma que:

L = 2n es el número de niveles; n = log2·L es el número de bits

Hay un error inherente al proceso de cuantificación que se define como la

diferencia entre la entrada y la salida del cuantificador:

q = x-Q(x) donde qmax = ± ∆/2

Cuando los valores de las muestras a la entrada varían con el tiempo, la

diferencia q(t)=x(t)-Q[x(t)] se conoce como ruido de fondo.

Un parámetro importante en este proceso es la relación señal a ruido (SNR) de

cuantificación que se define como:

Se admite generalmente que un valor aceptable para la relación señal a ruido de

una señal de vídeo es de 45 dB.

La cuantificación puede ser uniforme o no uniforme, con el fin de mantener una

SNR constante, ya que el error que se comete para valores pequeños es mayor que el

que se comete para valores grandes de señal:

Figura 2.9. Curvas de cuantificación uniforme y no uniforme.

qxSNR q 2

2

)( =qxSNR q 2

2

log10)( ⋅=

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

12

Figura 2.10. Ejemplo de error de cuantificación

2.4. Codificación.

Tras cuantificar las muestras de una señal, éstas se representan mediante

secuencias de bits de longitud fija denominados palabras código o caracteres. Sabemos

que con n bits se pueden representar L = 2n niveles. Se pueden asignar cualquier

combinación de n bits a cada nivel de cuantificación con la única condición de que no

hayan dos niveles con la misma palabra código. Lo normal es tratar con códigos

simétricos que asignan el primer bit para indicar el signo de la muestra y los restantes

para la magnitud. Si el primero es “1” la muestra es positiva y si es “0” la muestra es

negativa. [2]

Figura 2.11. Curva de codificación.

Q (x)

XXsc

-XscXk

Xk+1

Yk

Yk+1

111

110

101

100

000

001

010

011

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

13

2.4.1. Formato de codificación.

Para nuestro caso particular, señales de televisión, hay dos formatos de

codificación, gozando cada uno de ellos de partidarios y detractores.

2.4.1.1 Codificación de las señales compuestas. Esta solución propone digitalizar las señales compuestas existentes (NTSC,

PAL, SECAM). No se evita el problema de las distintas normas de televisión y el del

intercambio de programas. Tras la conversión digital/analógico obtenemos de nuevo las

señales NTSC, PAL y SECAM. Un segundo problema es que a la hora del montaje de

programas se debe respetar la secuencia de 4 y 8 campos para NTSC y PAL.

La ventaja es que un equipo de este tipo se puede implantar sin la menor

dificultad en los estudios analógicos existentes sin codificar o decodificar la señal

original, pero esto supone sólo una ventaja durante la fase de la transición de los

estudios o equipos de producción analógicos a digitales. Hay dos configuraciones

posibles, según la fase en que nos encontremos:

A. Configuración durante la fase de transición. Pueden ser necesarias

varias conversiones A/D y D/A.

Figura 2.12. Configuración en fase de transición.

NTSC PAL

SECAM FUENTE

DE IMAGEN

CODIFICADOR DAAD

PROCESADO DIGITAL

NTSC,PAL,SECAM

AD DA

NTSC,PAL,SECAM

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

14

B. Situación en un estudio digital completo. Es necesario un único

proceso de conversión A/D y D/A. Cada fuente tiene su propio codificador.

Figura 2.13. Configuración en un estudio digital completo.

2.4.1.2. Codificación de componentes.

Con este método se digitalizan las tres señales, Y, K1(R-Y) y K2 (B.Y) en las

que k representa un factor de multiplicación determinado por las características del

sistema digital.

Las ventajas son, por un lado, que se posibilita la existencia de un método

compatible para los tres sistemas de televisión. Se hace posible el intercambio

internacional de imágenes digitales. La codificación podría realizarse en el extremo de

la cadena de producción, justo antes del emisor. No se necesita más de un codificador

de televisión. Por otra parte, se resuelven todas las dificultades inherentes a la

secuencia de campos PAL y NTSC. La luminancia y crominancia pueden tratarse por

separado sin las consecuencias perturbadoras de la decodificación/codificación y la

pérdida de calidad de las señales.

Durante la fase de transición de los estudios analógicos a digitales, esta

codificación no constituye el método más apropiado. Pero en estudios digitalizados

resulta bastante sencillo.

Las dos configuraciones posibles son:

R

GFUENTE DE

IMAGEN CODIFICADOR DAC ADC

NTSC PAL

SECAM

PROCESADO DIGITAL

NTSC,PAL,SECAM

B

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

15

A. Configuración de tratamiento de señal de televisión durante la

transición a un estudio digital completo. Cada equipo digital precisa de un

codificador y un decodificador.

Figura 2.14. Configuración en fase de transición.

B. Configuración de estudio completamente digitalizado. Precisa de

un solo codificador de televisión al final de la cadena.

Figura 2.15. Configuración en un estudio digital completo.

2.5. La norma UER-SMPTE-OIRT.

Las normas de la televisión digital se fijaron por la ‘Recomendación 601’ y la

‘Memoria 629-2’ del CCIR. Estas fueron aceptadas por la UER, la SMPTE y la OIRT.

Se refiere pues a una norma mundial. En las mismas se especifican las características

principales de la digitalización de la señal de televisión.

DECODIFICADOR DAC ADC NTSC PAL

SECAM

PROCESADO DIGITAL

CODIFICADOR

B-Y

R-Y

YNTSC PAL SECAM

B-Y

R-Y

Y

FUENTE IMAGEN DAC ADC

NTSC PAL

SECAM

PROCESADO DIGITAL

CODIFICADOR

B-Y

R-Y

Y

B-Y

R-Y

Y

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

16

2.5.1. Señales codificadas.

Se trata de un sistema de codificación de componentes, es decir se muestrean la

señal de luminancia Y y las dos señales diferencia de color (R-Y) y (B-Y). Pero para

una saturación al 100% las señales varían entre los valores:

Para reducir esto valores a 1 voltio, es decir, que los valores oscilen entre +0.5 V

y –0.5 V, se calculan los coeficientes KR y KB:

KB = 0.5/0.701 = 0.713

KR = 0.5/0.886 = 0.564

Las señales muestreadas son pues:

Y

0.713 (R-Y)

0.564 (B-Y)

2.5.2. La frecuencia de muestreo.

A la hora de elegir una frecuencia de muestreo fue necesario optar por aquella

que cumpliera tres exigencias:

· Primera exigencia. La frecuencia de muestreo debe ser como mínima el

doble de la mayor frecuencia a transmitir. Como hay normas de televisión en las

que la señal de luminancia se emite con un ancho de banda de 6 Mhz, se hace

preciso para una norma internacional que la frecuencia de muestreo sea por lo

menos de 12 Mhz.

VxVYR 701.0701.0)( −≤≤→−

VxVYB 886.0886.0)( −≤≤→−

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

17

· Segunda exigencia. Para favorecer la uniformidad de las memorias

digitales al almacenar las diferentes líneas de televisión muestreadas, es

preferible que el número de muestras por línea sea idéntico para todas. Esto

significa que la frecuencia de muestreo debe ser un múltiplo entero de la

frecuencia de líneas. Se habla de muestreo ortogonal.

· Tercera exigencia. Para obtener una frecuencia de muestreo universal, ésta

debe ser un múltiplo de todas las frecuencias de línea de los estándares

existentes en el mundo. En este momento existen dos normas distintas: una con

625 líneas y otra con 525 líneas por cuadro lo que corresponde a las frecuencias

respectivas: 15625 Hz y 15734.26573 Hz. El mínimo común múltiplo de estas

frecuencias es 2.25 Mhz. Esta frecuencia es sin duda demasiado baja ya que

tenía que ser superior a 12 Mhz. Un valor adecuado es 6 x 2.25 Mhz = 13.5 Mhz

que corresponde a:

6 x 143 x frecuencia de línea NTSC = 858 x frecuencia de línea NTSC.

Y

6 x 144 x frecuencia de línea PAL = 864 x frecuencia de línea PAL.

Cada píxel de una imagen de televisión se compone de información de luz

(luminancia) e información de color (crominancia).

Si queremos tener la misma información para la señal de luminancia y para cada

componente de la señal de croma, (R-Y) y (B-Y), debemos muestrearlas utilizando la

misma frecuencia 13,5 Mhz.

El muestreo descrito para la luminancia y las señales diferencia de color está

determinado en las recomendaciones de la BT601 y BT635 de la ITU (Unión

Internacional de Telecomunicaciones) y está definido como muestreo 4:4:4. Se eligen

estos números para poder configurar todas las posibilidades de muestreo para todo tipo

de servicios.

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

18

El muestreo 4:4:4 no considera que el ojo humano tiene una sensibilidad menor

al color que a la luminancia. La recomendación 601 prevé otros tipos de muestreo como

el 4:2:2 y submuestreos que aprovechan al máximo la característica antes mencionada,

como 4:1:1 y 4:2:0.

El muestreo 4:2:2, por cada cuatro muestras de luminancia toma dos de cada una

de las señales diferencia de color. Así pues la frecuencia de muestreo se fijó en 13,5

Mhz para la señal de luminancia. Para las señales diferencia de color basta con un ancho

de banda más limitado. Se muestrean a la mitad de la frecuencia de la luminancia, o sea,

6.75 Mhz.

Esto conduce respectivamente en PAL y NTSC a 864 y 858 muestras por línea

para la luminancia y a 432 y 439 para las señales diferencia de color. La estructura de

muestreo es ortogonal.

Esta estructura se repite cada campo y cuadro. Las muestras de las señales

diferencia de color se toman al mismo tiempo que las muestras impares de la

luminancia. La codificación es lineal y se compone de 8 bits por muestra, tanto para la

luminancia como para diferencia de color, lo que corresponde a 256 niveles de

cuantificación. Se toman 220 niveles para la luminancia siendo el nivel 16 el que

corresponde al nivel de negro y el nivel 235 al nivel de blanco. Se utilizan 224 niveles

de cuantificación para las señales diferencia de color con un valor del cero analógico

correspondiente al número digital 128, lo que proporciona como valores extremos 128

±112 o sea entre 240 y 16.

Para evitar una velocidad de muestreo demasiado alta se puede omitir el

muestreo durante la supresión de línea, puesto que la información que se haya en ese

intervalo es idéntica para todas las líneas y es bien conocida. Cabe llamar la atención

sobre el hecho de que la codificación lineal con 8 bits es la forma en la que las señales

tienen que presentarse a la salida de los equipos. Dentro de los mismos el número puede

ser diferente.

El esquema del proceso de muestreo está representado en la siguiente figura:

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

19

Figura 2.16. Esquema del proceso de muestreo.

Las señales analógicas R, G, B, procedentes de la cámara, corregidas en gamma,

corrección debida a la no-linealidad entre los tubos de la cámara y del tubo de rayos

catódicos, son convertidas al formato Y, (R-Y) y (B-Y) (matrizadas), según la fórmula:

Y = 0.299R+0.587G+0.114B

B-Y = -2.299R-0.587G+0.886B

R-Y = 0.701R-0.587G-0.114B

Una vez matrizadas son filtradas con filtros paso bajo. El ancho de banda de

filtrado de la señal de luminancia es 5.75 Mhz y el de las señales de color es de 2.75

Mhz.

Las señales resultantes del proceso de filtrado son muestreadas a una velocidad

de 13.5 Mhz para la señal de luminancia y de 6.75 Mhz (mitad de las muestras) para las

señales diferencia de color.

Si cada muestra de cuantifica con 8 bits (1 byte) la cantidad de información que

se envía será:

13.5 x 8 bits = 108

6.75 x 8 bits = 54

6.75 x 8 bits = 54

_______________

TOTAL = 216 Mbits por segundo.

RGB

A

YUV

MATRIZ

ADC 13,5 MHZ

F.P.B 5,75 MHZ

F.P.B 2,75 MHZ

F.P.B 2,75 MHZ

ADC 6,75 MHZ

ADC 6,75 MHZ

8 BITS

8 BITS

8 BITS

Y

CB

CR

ADC = Conversor analógico digital

R

G

B

Capítulo 2. Digitalización de la señal de televisión.

Digitalización y compresión de la señal de Televisión

20

El muestreo elegido para el estándar de la televisión digital es el submuestreo

4:2:0, ya que el ojo humano no es capaz de identificar una resolución de color mayor.

El flujo binario necesario para enviar una señal codificada según este estándar

será:

13.5 x 8 bits = 108

6.75 x 8 bits = 54

_______________

TOTAL = 162 Mbits por segundo.

Según el criterio de Nyquist, la frecuencia del corte del filtro necesario, y por

tanto el mínimo ancho de banda para su transmisión, será al menos la mitad del flujo

binario, es decir 81 Mhz.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

21

Capítulo III:

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

22

CAPÍTULO 3. Fundamentos de la Compresión de

vídeo MPEG.

3.1. Introducción.

De los valores de flujo binario que se obtiene a la salida del conversor

analógico digital y ancho de banda necesario para su transmisión se deduce a la

necesidad de realizar una compresión. Es imprescindible reducir la tasa binaria

necesaria para enviar la señal de televisión, en primer lugar debido al excesivo ancho de

banda que se necesita para su transmisión, y en segundo lugar a la dificultad que plantea

el tratamiento y almacenamiento de un volumen de información semejante.

Por ello nos centraremos en los fundamentos que toma el MPEG-2 para

establecer una buena compresión.

3.2. Entropía y redundancia.

Todas las imágenes que se puedan imaginar están compuestas por dos partes

fundamentales: entropía y redundancia.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

23

La Entropía es la parte de la señal que contiene información útil, ya que la

señal redundante no suma información alguna, aporta una información repetitiva. Un

codificador ideal tendría que ser capaz de delimitar estas áreas y poderlas emitir, así

como un decodificador tendría que recrear una impresión original de la información

obtenida. Mientras nos vamos acercando a los ideales, la complejidad de los

codificadores y el tiempo de trabajo (delay) van apareciendo. En la figura 4.1 vemos

como se incrementa la complejidad con el factor de compresión (4.1.A) y como crece el

tiempo de trabajo con el factor de compresión (4.1.B). Naturalmente tendríamos que

trabajar con un canal que aceptase cualquier tipo de entropía que el codificador extrajera

para así tener una calidad transparente. Como resultado de la ganancia de una

codificación moderada dónde sólo eliminamos la redundancia sin la necesidad de

sumarle elementos artificiales, diremos que hemos codificado con una pérdida mínima

subjetiva. Si el canal no es suficiente para esto, el codificador tendrá que eliminar de

cierta manera información propia de la entropía, resultando artificial. Un codificador

imperfecto puede errar en la separación de esta información.

Figura 3.1

Cuando se usa el mismo tipo de información entrante, un estudio de la misma

permite que los diferentes resultantes posibles, tengan determinados sus valores

resultantes. Como que los resultantes son de longitudes variables, se puede determinar

con un estudio anterior cuales serán los más utilizados para otorgarles los valores más

cortos.

Mejor Calidad

Peor Calidad

Complejidad

Mejor Calidad

PeorCalidad

Retardo

Factor de compresión

Factor de compresión

A B

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

24

3.3. Codificación de longitud variable (VLC).

VLC (“Variable Length Coding”). Esta codificación asigna un número

distinto de bits a las palabras digitales. Así cada dato a codificar no usa el mismo

número de bits y por tanto tiende a dar lugar a un régimen binario no fijo. La asignación

del número de bits a cada palabra se realiza en base al dato que se envía con esa palabra

y a la probabilidad de que aparezca dicho dato.

Los datos más probables, o que más veces se dan, se codifican con palabras de

pocos bits y los menos probables con palabras de más bits. La codificación VLC supone

la existencia de una tabla estandarizada que asocia a cada dato una palabra de una cierta

longitud.

En el caso de MPEG-2, la codificación VLC usada se basa en el método

“HUFFMAN” con un estudio estadístico previo. Además, se realiza para la asignación

de palabras una codificación “run-length” encubierta. Una codificación “run-length”

simplifica la codificación de largas cadenas de ceros. Para ello, codifica un dato

alternativo: “número de ceros consecutivos”, en vez de codificar cada cero como dato

independiente.

Figura 3.2. Codificación VLC.

3.3.1. Codificación Huffman.

Este código es un código óptimo dentro de los códigos de codificación

estadística, ya que es el código de menor longitud media.

IMAGEN FUENTE A CODIFICAR

DATOS DE IMAGEN

VECTORES DE MOVIMIENTOS

ERRORES DE PREDICCIÓN

DCT VLC

VLC

DCT VLC

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

25

La construcción de este código se fundamenta en asignar a cada símbolo del

alfabeto fuente una secuencia de bits cuya longitud esté relacionada de forma directa

con la probabilidad de aparición de ese símbolo. De esta forma, a los símbolos con

mayor frecuencia de aparición se les asignarán las palabras de código de menor

longitud.

En el proceso de construcción de este código, lo primero que se hace es

ordenar el conjunto de símbolos del alfabeto fuente en orden decreciente de

probabilidades de aparición. A continuación se juntan los dos símbolos con menor

probabilidad de aparición en un único símbolo cuya probabilidad será la suma de las

probabilidades de los símbolos que dieron origen a este nuevo símbolo.

Se repite este proceso hasta que sólo tengamos dos símbolos.

A continuación se realiza el proceso de codificación. Primeramente asignamos

un 1 a uno de los dos símbolos que tenemos y un 0 al otro. Posteriormente recorreremos

la estructura que hemos construido hacia atrás de forma que cuando dos símbolos hayan

dado origen a un nuevo símbolo, estos dos símbolos "heredarán" la codificación

asignada a este nuevo símbolo y a continuación se le añadirá un 1 a la codificación de

uno de los símbolos y un 0 a la del otro símbolo.

Figura 3.3. Ejemplo de codificación HUFFMAN.

ValorMuestras

PCMCodificación Probabilidad

de valores

K1

K2

K3

K4

K5

K6

1

00

011

0100

01010

01011

0,4

0,3

0,1

0,1

0,06

0,04

0,4

0,3

0,1

0,1

0,1

0,4

0,3

0,2

0,1

0,4

0,3

0,3

0,6

0,4

0

0

0

0

0

11

1

1

1

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

26

3.3.2. Codificación Run Lenght.

Es tal vez el esquema de compresión sin pérdidas más sencillo, y también uno

de los más ineficaces. Está basado en sustituir la información gráfica de píxeles que se

repiten por el valor del color de uno de ellos y la posición de cada uno de los puntos que

lo utilizan.

Esta técnica es eficiente cuando dentro del fichero gráfico que se va a

comprimir se repite un byte sucesivamente por un número grande de veces. En estos

casos, todos los bytes iguales se sustituyen por dos, el primero de los cuales indica el

número de veces que se repite el segundo.

Existen diferentes formas de implementar RLE, todas ellas patentadas. Una de

ellas, la más ineficiente, es utilizar un carácter, llamado comúnmente DLE, que sirva

para indicar que se ha producido una repetición de un carácter. Otra es utilizando un

carácter "centinela", con un bit que indica si la siguiente información es acerca de una

repetición o son datos sin repetición.

Este método permite obtener un alto nivel de compresión en imágenes que

contengan muchas áreas del mismo color, sin que se produzcan pérdidas de calidad. El

problema surge cuando los colores de la imagen son muy dispares, caso en el que se

pueden obtener archivos de mayor tamaño que los originales.

RLE es el algoritmo utilizado en los formatos gráficos BMP y PCX, aunque

cada uno usa un método distinto de implementación.

Otro ejemplo: se considera una pantalla que contiene texto en negro sobre un

fondo blanco. Habría muchas secuencias de este tipo con píxeles blancos en los

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

27

márgenes vacíos, y otras secuencias de píxeles negros en la zona del texto. Supongamos

una única línea con N representando las zonas en negro y B las de blanco:

BBBBBBBBBBBBNBBBBBBBBBBBBNNNBBBBBBBBBBBBBBBBBBBBBBBBNBBBBBBBBBBB

BBB

Si aplicamos la codificación run-lenght a está línea, obtendríamos lo siguiente:

12BN12B3N24BN14B

3.4. Compresión MPEG-2.

El estándar MPEG además de aprovechar la redundancia espacial intrínseca de

una imagen fija utilizada en la codificación JPEG, aprovecha la redundancia temporal

que aparece en la codificación de imágenes animadas, permitiendo encontrar similitudes

entre las imágenes sucesivas de vídeo.

Debido a que la calidad en la compresión de vídeo en el estándar MPEG-1 era

de baja calidad y no servia para otras aplicaciones, se creo la norma ISO/IEC 13818,

mucho más conocida con el nombre de MPEG-2. Esta norma permite un flujo de

transmisión hasta el orden de los 20 Mbits/s, transportando tanto imagen como sonido.

3.5. Redundancia espacial.

La redundancia espacial ocurre porque en un cuadro individual los

píxeles cercanos (contiguos) tienen un grado de correlación, es decir, son muy parecidos

(por ejemplo, en una imagen que muestre un prado verde bajo un cielo azul, los valores

de los píxeles del prado serán muy parecidos entre ellos y del mismo modo los del

cielo).

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

28

Fig.3.4. Redundancia espacial.

3.5.1 Codificación espacial.

Cuando las imágenes individuales son comprimidas sin referencia a las demás,

el eje del tiempo no entra en el proceso de compresión, esto por lo tanto se denomina

codificación intra (intra=dentro) o codificación espacial. A medida que la codificación

espacial trata cada imagen independientemente, esta puede emplear ciertas técnicas de

compresión desarrolladas para las imágenes fijas.

Un análisis de las imágenes de televisión revela que existe un alto contenido de

frecuencias espaciales debido al detalle en algunas áreas de la imagen, generando una

cantidad pequeña de energía en tales frecuencias. A menudo las imágenes contienen

considerables áreas en donde existen píxeles con un mismo valor espacial. El promedio

de brillo de la imagen se caracteriza por componentes de frecuencia de valor cero.

Simplemente omitiendo los componentes de alta frecuencia de la imagen, esta se vuelve

inaceptable debido a la perdida de definición de la imagen.

Mucho detalle baja redundancia

Poco detalle alta redundancia

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

29

Una disminución en la codificación se puede obtener, tomando como ventaja

que la amplitud de los componentes espaciales disminuye con la frecuencia. Si el

espectro de frecuencia espacial es dividido en subbandas de frecuencia, las bandas de

alta frecuencia se pueden describir en pocos bits, no solamente porque sus amplitudes

son pequeñas sino porque puede ser tolerado más ruido. La Transformada Discreta del

Coseno se usa en MPEG para determinar el dominio de la frecuencia espacial en

imágenes bidimensionales.

Figura 3.5. Proceso de codificación espacial.

3.5.1.3. La Transformada del Coseno Discreto.

DCT (“Discrete Cosine Transform”). La transformada del coseno consiste en

realizar una operación matemática sobre los datos originales de manera que se obtienen

otros datos que se relacionan unívocamente con aquellos (operación inversa “IDCT” sin

pérdidas). Los datos originales para la operación se seleccionan en bloques de NxN

DCT

149 120 79 49 120 94 58 32 78 58 29 9 49 33 9 0

120 59 1 -1 59 15 -2 1 2 -2 1 -1 -1 0 -1 0

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

30

(típico 8x8) formando matrices. Los datos resultantes tienen las siguientes

características:

Igual número de datos y ordenación en bloque NxN.

Datos con valores reales positivos y/o negativos.

Significado “espectral” respecto a datos originales.

Gran cantidad de valores cercanos a cero (muchos más que

en el bloque original).

3.5.1.2. Cuantificación.

El proceso de cuantificación asigna por aproximación un valor a cada

coeficiente de frecuencia dentro de una limitada gama de valores admitidos. El

codificador selecciona una ’’matriz de cuantificación’’ que determina el modo en que

será cuantificado cada uno de los coeficientes del bloque transformado.

Como se sabe, el ojo humano tiene poca sensibilidad para los detalles y por

tanto no es necesario cuantificar con precisión los coeficientes de alta frecuencia de la

transformada, es decir, habrá menos valores admitidos para éstos que para los

coeficientes de frecuencias bajas. Esta operación se realiza dividiendo los coeficientes

por un valor ‘n’ mayor que uno y rodeando el resultado al entero más próximo (en el

campo digital). El factor de ponderación ‘n ‘varia con la posición del coeficiente en el

bloque, correspondiendo a los coeficientes de frecuencias altas, mayores valores de ‘n’.

En consecuencia, gran parte de los coeficientes de la transformada se

cuantifican al valor cero, habrá muy pocos de alta frecuencia distintos de cero y algunos

de baja frecuencia distinto de cero. Un caso especial es el coeficiente que representa el

valor de la componente continua del bloque que normalmente se cuantifica con la

máxima precisión.

La matriz de cuantificación del MPEG que contiene los valores de ’n’ tiene

también en cuenta lo siguiente:

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

31

Si esta procesando información de luminancia o de

crominancia, lo que supone una distinta respuesta del ojo humano.

Si el bloque proviene de una imagen /o tiene una imagen

de predicción, ya que la distribución de las amplitudes de los coeficientes

es distinta.

La situación del bloque dentro de la imagen y el contenido

de la imagen. Algunos bloques tienen que codificarse con mayor

precisión que otros como, por ejemplo, en el caso de un bloque

correspondiente a gradientes muy suaves en donde la pequeñas

imprecisiones son muy apreciables.

Además de esta cuantificación dependiente de la frecuencia, también es posible

reducir el número de niveles de cuantificación necesario para describir los valores de los

coeficientes utilizando una ley de cuantificación no lineal, es decir, dependiente de la

amplitud. Vemos en la figura siguiente que los valores altos de los coeficientes se

codifican con menos precisión que los pequeños. La longitud de la palabra de código a

la salida de la cuantificación se reduce con respecto a la de entrada. Además, todos los

valores de la zona muerta se llevan a cero.

El MPEG permite cambiar los valores de la matriz de cuantificación para cada

bloque DCT cuando se codifican imágenes de gran complejidad. Naturalmente todos los

cambios de la matriz tienen que transmitirse al decodificador.

Figura 3.6. Características de la cuantificación no lineal.

Zona muerta

Entrada

Salida

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

32

3.5.1.3. Codificación por Entropía.

Según el teorema de Shanon, la entropía de una fuente S, donde “pi” es la

probabilidad de que el símbolo “si” ocurra en dicha fuente, es definida por la siguiente

expresión:

H(S)=∑i pi log 21/pi

Por teoría de la información, si los símbolos son distintos, entonces el número

medio de bits necesitados para codificarlos está siempre limitado por el valor de su

entropía.

En una señal codificada en n bits, hay 2n posibles valores para cada muestra (si

la probabilidad de las muestras es igual, su entropía es n).

Los codificadores de entropía se basan en asignar palabras de código de

longitud variable a cada muestra. Asignan palabras cortas a los valores de muestras más

probables, y palabras largas a los valores de muestras menos probables. El modelo de

probabilidad para la asignación de palabras de código, pueden obtenerse o directamente

de los valores de entrada o de suposiciones previas sobre dichos valores. Los dos

mecanismos más utilizados son la codificación Huffman, y la codificación Aritmética.

3.6. Redundancia temporal.

En secuencias de vídeo, hay también una correlación significativa entre

muestras vecinas temporalmente.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

33

Figura 4.7. Redundancia temporal.

3.6.1 Codificación temporal.

También llamada codificación Inter, aprovecha la ventaja que existe cuando las

imágenes sucesivas son similares. En lugar de enviar la información de cada imagen por

separado, el codificador inter envía la diferencia existente entre la imagen previa y la

actual en forma de codificación diferencial. El codificador necesita de una imagen, la

cual fue almacenada con anterioridad para luego ser comparada entre imágenes

sucesivas y de forma similar se requiere de una imagen previamente almacenada para

que el decodificador desarrolle las imágenes siguientes.

Los datos que se generan al hacer la diferencia entre dos imágenes, también se

pueden tratar como una nueva imagen, la cual se debe someter al mismo tratamiento de

transformadas utilizado en la compresión espacial.

Desafortunadamente existe la posibilidad de transmitir errores, si se utiliza una

secuencia ilimitada de imágenes previstas. Por esto es mejor utilizar un número limitado

de imágenes previstas para de este modo garantizar una mejor transmisión de los datos.

En MPEG periódicamente se envía una imagen la cual no ha sido tratada con

algún método de compresión con perdidas y que a su vez es idéntica a la imagen

original, refrescando los datos en la secuencia de transmisión.

Información que no cambia y no se envía

Información que cambia y se envía

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

34

La figura siguiente muestra el recorrido de una imagen original, llamada

imagen I o intra, la cual es enviada entre imágenes que han sido creadas usando una

diferencia entre imágenes, llamada imágenes P o previstas. La imagen I requiere

grandes cantidades de información, mientras que las imágenes P requieren una cantidad

menor. Esto ocasiona que el flujo de transmisión de datos sea variable hasta cuando

llegan a la memoria intermedia, la cual genera a su salida una transmisión de datos de

forma constante. También se puede observar que el preeditor necesita almacenar datos

de menor proporción puesto que su factor de compresión no cambia de una imagen a

otra.

I=Imagen codificada intra P=Imagen codificada diferencialmente

Una secuencia de imágenes que esta constituida por una imagen I y las

siguientes imágenes P hasta el comienzo de otra imagen I, se denomina grupo de

imágenes GOP (Group Of Pictures). Para factores de compresión altos se utiliza un

número grande de imágenes P, haciendo que las GOP aumenten de tamaño

considerablemente; sin embargo un GOP grande evita recuperar eficazmente una

transmisión que ha llegado con errores.

En el caso de objetos en movimiento, puede que su apariencia no cambie

mucho entre imágenes, pero la representación de los bordes si cambia

considerablemente. Esto es de gran ventaja si el efecto de movimiento se representa por

la diferencia entre imágenes, generando una reducción en la codificación de datos. Este

es el objetivo de la compensación de movimiento.

P P B

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

35

Figura 3.8. Proceso de codificación temporal.

3.7. Redundancia estadística.

La redundancia estadística tiene que ver con las limitaciones físicas del ojo

humano, que tiene una limitada respuesta para fijarse en los detalles espaciales y es

menos sensitivo al distinguir detalles en las esquinas o los cambios rápidos. Por tanto, el

proceso de codificación puede ser capaz de minimizar el bit-rate mientras se mantiene

constante la calidad a la que el ojo humano ve la imagen decodificada.

3.8. Codificador híbrido DCT/DPCM.

El codificador híbrido consiste en aplicar una DCT seguido de un PCM

diferencial, es decir, seguido de un codificador diferencial. Este tipo de codificador

pretende evitar generalmente los tipos de redundancia conocidos desde la temporal

hasta la espacial.

Tras dividir la imagen en bloques, se aplica una transformada a cada bloque,

pero luego en vez de enviar los coeficientes de la transformación se envía su diferencia

con una predicción hecha tomando como base los coeficientes de la transformada de

bloques anteriores. El esquema siguiente representa este tipo de codificador.

Área de búsqueda

Imagen de referencia

Imagen a codificar

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

36

Fig. 3.9. Codificador híbrido.

3.9. Compensación de Movimiento.

Esta técnica tiene como objetivo principal eliminar la redundancia temporal

entre las imágenes que componen una secuencia con el fin de aumentar la compresión.

Para eliminar dicha redundancia, la idea inicial que puede ocurrírsenos es

transmitir la diferencia entre un píxel en una posición de un fotograma (imagen) y el

píxel situado en la misma posición pero en el fotograma siguiente. Esto sirve cuando las

imágenes son estáticas. Pero lo normal es tener imágenes dinámicas y por tanto no

podemos implementar lo anterior tal cual, sino que previamente habrá que estimar el

movimiento que ha sufrido un píxel de un objeto de un fotograma al siguiente. Habrá

que calcular el vector de movimiento asociado a cada píxel de la imagen. Al

decodificador se transmite la diferencia y los vectores de movimiento calculados. Si los

vectores están bien calculados la diferencia entre una imagen y la siguiente compensada

será muy pequeña, ya que la escena no cambia bruscamente en un corto intervalo de

tiempo. Se ha ganado pues en compresión.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

37

Los vectores de movimiento representan la translación de las imágenes de los

bloques entre cuadros. Estos vectores se necesitan para la reconstrucción y son

codificados de forma diferencial en el flujo de datos. Se utiliza codificación diferencial

ya que reduce el total de bits requeridos para transmitir la diferencia entre los vectores

de movimiento de los cuadros consecutivos. La eficiencia de la compresión y la calidad

de la reconstrucción de la señal de vídeo dependen de la exactitud en la estimación del

movimiento.

El método para este cálculo no se especifica en el estándar y por lo tanto está

abierto a diferentes implementaciones y diseños, aunque evidentemente existe una

relación directa entre la exactitud de la estimación de movimiento y la complejidad de

su cálculo.

Fig. 3.10. Compensación en movimiento.

Macrobloque

Frame k (P Frame)

Frame J (I Frame)

MV

MH

MV = VECTOR VERTICAL. MH = VECTOR HORIZONTAL.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

38

3.10. Imágenes en MPEG-2.

Una imagen puede ser un cuadro o un campo de una imagen.

Matemáticamente, cada imagen es realmente una unión de los valores que

representan a un píxel: una componente de luminancia y dos de crominancia; es decir,

tres matrices de píxeles. Ya que el ojo humano no es muy sensible a los cambios de la

región cromática comparada con la región de luminancia, las matrices de croma son

decimadas o reducidas en tamaño por un factor de dos en ambas direcciones horizontal

y vertical.

MPEG-2 adicionalmente permite la posibilidad de no decimar o sólo decimar

horizontalmente la componente croma, consiguiente formatos 4:4:4 y 4:2:2

respectivamente.

Las imágenes pueden clasificarse principalmente en tres tipos basados en sus

esquemas de compresión.

I (Intraframes) o intra cuadros.

P (Predictive) o cuadros predecidos.

B (Bi-directional) o cuadros bidireccionales.

3.10.1 Imágenes I.

Se codifican como si fuesen imágenes fijas utilizando la norma JPEG, por

tanto, para decodificar una imagen de este tipo no hacen falta otras imágenes de la

secuencia, sino sólo ella misma. No se considera la redundancia temporal (compresión

intraframe).

Se consigue una moderada compresión explotando únicamente la redundancia

espacial. Una imagen I siempre es un punto de acceso en el flujo de bits de vídeo. Son

las imágenes más grandes.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

39

3.10.2 Imágenes P.

Están codificadas como predicción de la imagen I ó P anterior usando un

mecanismo de compensación de movimiento. Para decodificar una imagen de este tipo

se necesita, además de ella misma, la I ó P anterior. El proceso de codificación aquí

explota tanto la redundancia espacial como la temporal.

3.10.3 Imágenes B.

Se codifican utilizando la I ó P anterior y la I ó P siguiente como referencia

para la compensación y estimación de movimiento. Para decodificarlas hacen falta,

además de ellas mismas, la I ó P anterior y la I ó P siguiente. Estas imágenes consiguen

los niveles de compresión más elevados y por tanto son las más pequeñas.

3.11 Codificación en forma entrelazada o progresiva.

Dependiendo del trabajo a realizar, las imágenes entrelazadas pueden ser

tratadas de manera diferente según la importancia de los movimientos entre los dos

campos de una misma imagen (los casos extremos son, por un lado, cuando se

transmiten películas cinematográficas por televisión "telecine" donde no hay

movimiento entre los dos campos de TV, puesto que proceden de la exploración del

mismo fotograma de la película, y por otro lado, las imágenes de vídeo de

acontecimientos deportivos, donde puede haber importantes movimientos entre los dos

campos de una imagen).

La figura siguiente representa la secuencia temporal de la posición vertical de

las líneas de los campos sucesivos en un sistema entrelazado.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

40

Fig. 3.11. Codificación entrelazada.

Para la codificación Intra de las imágenes entrelazadas, MPEG-2 permite elegir

entre dos estructuras de imágenes llamadas frame (estructura "imagen" o "campo"") o

field (estructura "campo").

3.12 Estructura por cuadro y campo.

Estructura por cuadro: También llamada "progresiva", es apropiada para los

casos donde hay poco movimiento entre dos campos sucesivos. Los bloques y

macrobloques se dividen en la imagen completa y la DCT se efectúa, sobre puntos

verticales que distan 20 ms en el tiempo, lo que no plantea problemas si los dos campos

difieren poco.

Figura 3.12. División de los macrobloques en bloques en modo imagen (frame).

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

41

En este caso, siempre es posible codificar los bloques de mayor animación en

modo inter-campo, es decir, dividiéndoles en un campo.

Estructura por campo: También llamada "entrelazada", es preferible cuando

el movimiento de un campo a otro es importante. En este caso, a fin de evitar un

contenido en frecuencias verticales elevadas que reduciría la eficacia de la compresión

tras efectuar la DCT, la división de los macrobloques se hace considerando cada uno de

los campos como una imagen independiente en el interior del cual se toman los bloques.

Figura 3.13. División de los macrobloques en bloques en modo campo

(field.)

En cuanto a la estimación de movimiento, también hay varios modos previstos:

Un macrobloque puede predecirse en modo "imagen", "campo" o "mixto".

El Modo "Frame"

Un macrobloque formado en el campo impar sirve para predecir el bloque

correspondiente del próximo campo impar, y lo mismo para los bloques del campo par,

por tanto, la predicción se hace sobre un tiempo de 40 ms (2 campos).

El Modo "Field"

La predicción de un bloque se efectúa a partir de un bloque del campo anterior,

entonces aquí, los vectores de movimiento corresponden a un tiempo de 20ms.

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

42

El Modo "Mixto"

Los bloques se predicen a partir de dos bloques que corresponden a dos

campos.

3.13 Secuencia de imágenes en MPEG-2. (GOP).

Las imágenes pueden ser combinadas para producir un GOP (grupo de

imágenes) que comienza con una imagen I. El GOP es la unidad fundamental de

codificación temporal. En el estándar MPEG, el uso de GOP es opcional, pero esta en la

práctica es necesaria. Un GOP puede ser abierto o cerrado. En un GOP cerrado, las

últimas imágenes B requieren de una imagen I para el siguiente GOP por decodificar y

la secuencia de bits puede ser cortada al final de la GOP.

Cuando algunas GOP son combinadas se produce una secuencia de vídeo con

un código de inicio, seguido por un encabezamiento, y luego termina con un código

final.

Los códigos de soporte adicional pueden ser situados al inicio de la secuencia.

La secuencia de soporte especifica el tamaño horizontal y vertical de la imagen, norma

de barrido, la rafa de imágenes, si se usa un barrido progresivo o entrelazado, el perfil,

nivel, velocidad de transferencia de bits, y cuales matrices de cuantificación se usan

para codificar imágenes espaciales y temporales.

Sin la secuencia de soporte de datos, un decodificador no puede comprender el

flujo de bits y por lo tanto no puede comenzar la operación de decodificación correcta.

Figura 3.14. Ejemplo de grupo de imágenes, para M=3, N=12

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

43

Los dos parámetros M y N definen la manera en que las imágenes I, P y B se

encadenan:

M es la distancia (en número de imágenes) entre dos imágenes P (previstas)

sucesiva.

N es la distancia entre dos imágenes I (intra) sucesivas.

Para alcanzar un flujo de vídeo de 1.15 Mbits/s con una calidad satisfactoria, al

tiempo que se mantiene una resolución de acceso aleatorio aceptable (< 0.5 segundos),

los parámetros comúnmente utilizados son M=3 y N= 12 como se muestra en la figura

3.14.

3.14 Estructura 4:4:4.

Este tipo de formato indica que no se ha despreciado ninguna de las muestras

de crominancia y que por lo tanto se utiliza todas.

En este caso de formato de crominancia 4:4:4, al haber las mismas muestras de

luminancia que de crominancia, para un determinado trozo de imagen, a las matrices

correspondientes a Y, CR y CB que define ese trozo de imagen, son de igual dimensión,

tanto vertical como horizontal.

Figura 3.15. Posición de los muestreos en formato 4:4:4.

Si tomamos como ejemplo un trozo de imagen de 16x16 píxeles, que es un

valor muy típico y que servirá para identificar a un macrobloque, a partir de él se

obtiene matrices cuadradas de 8x8, que serán denominadas bloques. Para la señal de

Luminancia

Crominancia

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

44

luminancia se obtendrán cuatro matrices y otras cuatro para cada una de las señales de

crominancia.

3.15 Estructura 4:2:2.

En esta estructura se desprecian la mitad de las muestras de crominancia,

eligiendo una si, otra no, siendo el tratamiento el mismo para todas las líneas. En

sentido vertical, hay columnas en las que en todos los píxeles tienen 3 muestras

(luminancia y dos de crominancia) y hay columnas en las que solo hay muestras de

luminancia.

Para un determinado trozo de imagen, si los datos se adquieren de acuerdo a

este formato, cada una de las matrices de crominancia, en sentido vertical tendrán la

misma dimensión que la matriz de luminancia, pero en sentido horizontal el tamaño de

las matrices de crominancia será la mitad.

Figura 3.16. Posición de los muestreos en formato 4.2.2

Luminancia

Crominancia

16x16

8x8 8x8 8x8 8x8

Crominancia CR

Crominancia CB

Luminancia Y

8x8 8x8 8x8 8x8

8x8 8x8 8x8 8x8

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

45

Como ejemplo, si se toma un trozo de imagen 16x16 pixels, se obtendrá para

luminancia una matriz de 16 x16, y para cada una de las señales de crominancia una

matriz de 16x 8 pixels. Si se convierten en matrices cuadradas, que es como se trabaja

con ellas, para la señal de luminancia se obtendrán cuatro matrices de 8x8 pixels y para

cada una de las señales de crominancia dos matrices también de 8x8.

3.16 Estructura 4:2:0.

Cuando los datos se obtienen de esa forma, además de despreciar en sentido

horizontal una de cada dos muestras (según se ha visto en el formato 4:2:2) también se

desprecia una de cada dos muestras en sentido vertical.

Puede comprobarse que para un determinado trozo de imagen, la matriz

formada por las muestras de luminancia es de tamaño doble al de cada una de las

matrices de crominancia tanto en fila como en columnas.

Figura 3.17. Posición de los muestreos en formato 4:2:0

16x16 8x8

8x8

8x8

8x8

8x8 8x8 8x8 8x8

Crominancia CR

Crominancia CB

Luminancia Y

Luminancia

Crominancia

Capítulo 3. Fundamentos de la compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

46

Para el ejemplo que se viene considerando, de un trozo de imagen de 16x16

píxeles, la matriz de luminancia será también de 16x16, pero cada una de las matrices

de crominancia será de 8x8. Si se decide utilizar matrices cuadradas, todas del mismo

tamaño, la situación será la representada.

El total de filas y de columnas de una imagen deberá ser un múltiplo de 16,

para que den origen a un número entero de macrobloque de este tipo. En el caso de que

no fuese, siempre se rellenará con ceros por la parte derecha e inferior hasta que se

cumpla esta situación.

Crominancia CR

Crominancia CB

16x16 8x8

8x8

8x8 8x8 8x8 8x8 Luminancia Y

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

47

Capítulo IV:

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

48

CAPÍTULO 4. Proceso de compresión de vídeo

MPEG-2.

4.1. Introducción. En este capítulo se pretende dar una completa descripción del tratamiento que

da el MPEG-2 a la señal de vídeo.

4.2. Proceso de compresión de vídeo MPEG-2.

En el caso de una imagen de vídeo la variación de los píxeles se produce en las

direcciones horizontal y vertical. Para procesar la imagen se utiliza una función

matemática bidimensional conocida como "Transformada Discreta en Coseno (DCT)".

Esta función se aplica a muestras de la imagen tomadas en "bloques" de 8x8

píxeles y calcula, por cada bloque, los 64 coeficientes que corresponden a las

frecuencias horizontales y verticales del bloque.

La utilidad de la DCT radica en que, en el dominio del tiempo, las amplitudes

de las 64 muestras de cada bloque de 8x8 píxeles suelen tener valores diferentes y de

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

49

elevada cuantía, mientras que muchos de los 64 coeficientes de la función transformada

suelen ser pequeños y muy iguales, y sólo unos pocos tienen un peso relevante. Esto

permite cuantificarlos y codificarlos de una manera eficiente con códigos. Para

optimizar el número de ceros consecutivos, la lectura de los coeficientes se hace en

zigzag y no horizontalmente. Hay que resaltar que la DCT por sí misma no reduce los

datos. Es la naturaleza de la señal de vídeo la que hace que muchos coeficientes valgan

cero, o tengan un valor tan pequeño que el ojo humano no pueda apreciar su efecto.

Una primera reducción de flujo se consigue convirtiendo la señal de entrada

4:2:2 de 10 bits a 4:2:0 y 8 bits. Después se aplica la DCT y se hace una cuantificación

inteligente de los coeficientes para disminuir la redundancia de la señal. Finalmente se

codifica la entropía resultante con códigos de secuencias y de longitud variable. Para

suavizar y limitar el flujo de datos de salida, la cuantificación se hace más o menos

severa mediante una señal de control que llega desde el tampón de salida.

Cuando hay movimiento, la información de un bloque puede variar de un

campo al siguiente. El cálculo de los vectores de movimiento se hace con macrobloques

de 16x16 píxel (4 bloques) e investigando el sentido de los desplazamientos entre

imágenes sucesivas. La codificación Intercuadro trabaja sobre las imágenes aún no

comprimidas y es un proceso sin pérdidas. Partiendo de la imagen actual y sus

correspondientes vectores de movimiento, se calcula y predice la imagen siguiente. Esta

imagen predicha se resta de la actual para obtener una imagen error denominada

"Imagen P" cuyo contenido de información es pequeño y puede comprimirse

fácilmente. Las Imágenes P contienen sólo predicción unidireccional.

MPEG-2 utiliza también imágenes predichas bidireccionalmente, es decir, con

los cuadros anteriores y posteriores. A estas imágenes se las llama "Imágenes B".

Contienen muy poca información pero son muy eficaces para controlar los errores de

movimiento.

La idea básica de las imágenes P y B radica en que se necesita menos

información para mandar los vectores de movimiento que la que se requeriría para

mandar la información comprimida del macrobloque de píxel, con lo que la compresión

resulta más eficiente.

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

50

Las imágenes comprimidas I, P y B se transmiten en grupos de hasta 12 ó 15

imágenes. Cada grupo de imágenes se denomina GOP (Group-of-Pictures), comenzando

con una imagen tipo I, y se extiende hasta la siguiente imagen I. Entre ellas se

transmiten, con un orden preestablecido, las imágenes P y B.

El flujo binario de salida del codificador es un bloque de datos de gran tamaño

organizado según una estructura jerárquica anidada. La jerarquía comienza en el nivel

denominado "secuencia de vídeo" y termina en el nivel correspondiente a los "bloques

de la DCT". Se denomina "Corriente Binaria Elemental (Elementary bit Stream) y

contiene toda la información fundamental de la señal de vídeo codificada.

4.3 El proceso DCT.

La energía de vídeo de la imagen tiene una frecuencia espacial bastante baja,

que varía lentamente con el tiempo. Por tanto una transformada puede concentrar la

energía en muy pocos coeficientes. Para esta transformada la imagen actual se divide en

bloques para decrementar la complejidad. Todos los bloques (8x8) son transformados

de acuerdo con una Transformada Discreta del Coseno (DCT) de dos dimensiones que

puede ser considerada como una DCT unidimensional en las columnas y otra en las

filas. A cada coeficiente se le asocia una función específica de frecuencias horizontales

y verticales, y su valor (después de la transformación) indica la contribución de estas

frecuencias al bloque de la imagen. Sin embargo, la DCT no reduce el número de bits

que se requieren para la representación del bloque. Esta reducción se hace después de

comprobar que la distribución de los coeficientes no sea uniforme. La transformada

concentra la mayor parte de la energía de vídeo en las bajas frecuencias provocando que

la mayoría de los coeficientes sean cero o casi cero. Se consigue la compresión

saltándose todos los coeficientes que están cerca de cero y cuantificando los restantes

(se cuantifican los coeficientes con un número finito de bits pudiendo producirse

pérdidas de compresión).

Las ventajas de la DCT son la gran compactación de coeficientes (el resultado

es normalmente un numero reducido de coeficientes), que se utilizan algoritmos de

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

51

cálculo rápido y que es una transformada real. Las desventajas son la introducción de un

ruido granular (al cuantificar los coeficientes), la pérdida de resolución y el efecto

bloque (al aplicar la DCT sobre bloques y no sobre la imagen global se pueden

independizar los bloques entre sí y se observa la separación que existe entre ellos.

En las siguientes figuras se dará un ejemplo de este proceso que conlleva la

transformada.

Si tenemos una señal como la de la figura siguiente:

Fig. 4.1 Señal recogida para ejemplo.

La forma normal es determinar el brillo de cada uno de los 64 píxeles y

escalarlos dentro de unos limites, normalmente de 0 a 255 (en MPEG se usa un rango de

–256,255) donde 0 significa negro y 255 blanco.

Fig. 4.2 Valores de los 64 píxeles.

120 108 90 75 69 73 82 89

127 115 97 81 75 79 88 95

134 122 105 89 83 87 96 103

137 125 107 92 86 90 99 106

131 119 101 86 80 83 93 100

117 105 87 72 65 69 78 85

100 88 70 55 49 53 62 69

89 77 59 44 38 42 51 58

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

52

También podemos representarlo mediante un diagrama de barras 8x8:

Fig.4.3. Diagrama de barras de esos 64 píxeles.

Normalmente los valores son procesados línea a línea. Esto requiere 64 bits de

almacenaje.

Pero podemos definir todos los 64 valores por solo 5 enteros, aplicando la

fórmula de la DCT:

Donde f(x,y) es el brillo del píxel en la posición [x,y]. El resultado es F, una

matriz 8x8. Siguiendo el ejemplo anterior:

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

53

700 90 100 0 0 0 0 0

90 0 0 0 0 0 0 0

-89 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

Fig. 4.4. Matriz una vez realizada la DCT.

Como se puede ver, la mayoría de los valores son 0. Como los valores distintos

de 0 están concentrados en la esquina superior derecha la matriz es transferida al

receptor en orden de escaneado en zigzag:

Esto resulta en: 700 90 90 89 0 100 0 0 0 .... 0. Por supuesto, los ceros no se

transmiten, en su lugar se codifica una señal de final de bloque.

El decodificador puede reconstruir los valores de los píxeles usando la fórmula

de la inversa de la transformada del coseno (IDCT):

Fig. 4.5 Ecuación de la IDCT.

Donde F(u,v) es el valor de la matriz transformada en la posición [u,v].

Los resultados son los valores originales de los píxeles. De esta manera,

podríamos considerar la compresión MPEG como sin perdidas, pero esto no es cierto,

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

54

porque los valores transformados están cuantificados. Están divididos (división entera)

por un cierto valor mayor o igual que 0 debido a que la DCT soporta valores hasta 2047.

Para reducirlos hasta estar al menos bajo la longitud del byte se aplica el valor

de cuantificación 8. El decodificador multiplica los resultados por el mismo valor.

Lógicamente los resultados difieren de los valores originales, pero debido a

algunas propiedades del ojo humano el error no es visible.

En MPEG hay una matriz de cuantificación que define un valor diferente de

cuantificación para cada valor transformado dependiendo de su posición.

El valor de la esquina superior izquierda de la matriz transformada es llamado

valor DC (direct current) y determina la media de brillo en el bloque. El resto de los

valores son llamados valores AC (alternating current) y describen la variación sobre el

valor DC.

Así, supongamos una matriz transformada tal que así:

Fig.4.7 Matriz transformada.

El valor DC seria 700.

El resultado de aplicarle la IDCT seria:

700 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

55

87 87 87 87 87 87 87 87

87 87 87 87 87 87 87 87

87 87 87 87 87 87 87 87

87 87 87 87 87 87 87 87

87 87 87 87 87 87 87 87

87 87 87 87 87 87 87 87

87 87 87 87 87 87 87 87

87 87 87 87 87 87 87 87

Fig.4.8. Matriz después de la IDCT.

En diagrama de barras:

Fig.4.9. Diagrama de barras de la matriz anterior.

La imagen, pues, es un cuadrado gris.

Si añadimos un valor AC de 100:

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

56

Fig.4.10. Matriz generada por añadir a la matriz anterior un valor de AC de 100.

El resultado de aplicar IDCT sería:

Fig.4.11. A la matriz de la figura 5.10 se le aplica la IDCT.

En diagrama de barras:

Fig.4.12. Diagrama de barras de la matriz anterior.

700 100 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

105 102 97 91 84 78 73 70

105 102 97 91 84 78 73 70

105 102 97 91 84 78 73 70

105 102 97 91 84 78 73 70

105 102 97 91 84 78 73 70

105 102 97 91 84 78 73 70

105 102 97 91 84 78 73 70

105 102 97 91 84 78 73 70

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

57

La imagen resultante sería:

Como ultimo ejemplo, añadamos un valor AC 100 en otra posición distinta:

Fig.4.13. Matriz al añadir el AC en una posición distinta.

Al aplicar la IDCT obtenemos:

Fig.4.14. Matriz al aplicarle la IDCT a la figura anterior.

700 0 100 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

104 94 81 71 71 81 94 104

104 94 81 71 71 81 94 104

104 94 81 71 71 81 94 104

104 94 81 71 71 81 94 104

104 94 81 71 71 81 94 104

104 94 81 71 71 81 94 104

104 94 81 71 71 81 94 104

104 94 81 71 71 81 94 104

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

58

En diagrama de barras:

Fig.4.15. Diagrama de barras.

La imagen resultante sería:

4.4. Barrido Zig Zag.

Después de realizar la DCT a un bloque de 8x8 píxeles, se nota que

generalmente los coeficientes más significativos de la DCT se encuentran en la parte

superior izquierda de la matriz. Una vez evaluados, los coeficientes de menor valor

pueden ser redondeados a cero. Permitiendo de este modo, una transmisión de datos

más eficiente, debido a que los coeficientes no-cero son enviados primero, seguido de

un código el cual indica que todos los demás números son ceros.

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

59

La exploración es una técnica que aumenta la probabilidad de alcanzar este

resultado, porque ella envía los coeficientes en orden descendente según su

probabilidad. La Figura muestra que en un sistema no-entrelazado, la probabilidad de

hallar coeficientes de mayor peso es más alta en la parte superior izquierda que en la

parte inferior derecha. Aquí una exploración en forma diagonal a 450 es la que se

denomina una exploración en zig-zag, la cual es la mejor secuencia para emplear en este

caso.

Fig. 4.16. Barrido Zigzag.

4. 5. Diagrama de un codificador MPEG-2.

A partir de la imagen digitalizada en formato 4:2:0 (caso del main profile), el

codificador elige para cada imagen su tipo (I, P o B) y si esta debe ser codificada en

modo frame (imagen) o field (campo). El codificador a continuación debe estimar los

vectores de movimiento para cada macrobloque de 16x16 píxeles. El número de

vectores depende del tipo de imagen y del modo de codificación escogido para cada

bloque.

En el caso más general, donde el codificador es capaz de generar imágenes B

(bidireccionales), deberá reordenar las imágenes antes de la codificación y la

transmisión.

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

60

La unidad básica de codificación es el macrobloque, compuesto por 4 bloques

de luminancia de 8x8 píxeles y (en el caso del formato 4:2:0) de 2 bloques de

crominancia (un Cr y un Cb) de 8x8 píxeles que abarcan la misma zona de la imagen.

Todos los macrobloques de la imagen se codifican secuencialmente de

izquierda a derecha y de arriba abajo, eligiéndose un modo de codificación

independiente para cada uno de ellos.

Una vez que se ha elegido el modo de codificación, la predicción con

compensación de movimiento del contenido del bloque se hace a partir de la imagen de

referencia (I o P) pasada (caso de las imágenes P) y eventualmente futura (caso de las

imágenes B). La predicción se elimina de los datos reales del macrobloque, lo que da la

señal de error de predicción.

En una imagen con estructura frame, el codificador deberá elegir entre efectuar

la DCT en modo frame o field. Esto depende principalmente de la amplitud del

movimiento entre los campos de la imagen.

La señal de error se separa inmediatamente en bloques de 8x8, a los que se

aplica la DCT. Cada bloque de coeficientes resultante se cuantifica y barre en zig-zag

para formar una serie de coeficientes. Seguidamente, se codifica la información auxiliar

necesaria para que el decodificador pueda reconstruir el bloque (modo de codificación,

vectores de movimiento, etc.), codificando los coeficientes cuantificados con ayuda de

una tabla VLC (codificación Huffman).

La unidad de control de flujo supervisa el estado de ocupación de la memoria

intermedia de salida, utilizando esta información como retorno para controlar el número

de bits que el codificador generará para los bloques siguientes, jugando principalmente

con los coeficientes de cuantificación. Se obtiene entonces a la salida del codificador un

tren binario completo, ya utilizable para un decodificador.

Para aumentar la calidad de la imagen decodificada, el propio codificador

almacena y decodifica (decuantificacion de los coeficientes después de la DCT inversa)

las imágenes I y P, como referencia para reconstruir otras imágenes obtenidas por

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

61

predicción con compensación de movimiento en el decodificador, y calcula una señal de

error que se añade a la señal de predicción.

Fig. 4.17. Codificador MPEG-2

4. 6. Diagrama de un decodificador MPEG-2.

Como ya se ha dicho, la decodificación es más sencilla que la codificación, ya

que no tiene que efectuar alguna estimación de movimiento, que es una de las partes

más complejas del codificador.

La memoria intermedia (buffer) de entrada recibe los datos del canal de

transmisión, y el decodificador lee el tren binario hasta encontrar el principio de una

imagen, su tipo (I, P o B) y su estructura (frame o field).

Empieza la decodificación con la primera imagen I, almacenándola en su

memoria, así como la imagen P siguiente, para servir de referencia a las imágenes P o B

que dependen de ella.

Para las imágenes I, la decodificación propiamente dicha consiste en aplicar a

cada bloque la decodificación VLC, la decuantificación de los coeficientes y la

transformación DCT inversa.

Capítulo 4. Proceso de compresión de vídeo MPEG-2.

Digitalización y compresión de la señal de Televisión

62

Para las imágenes P o B, este proceso consiste en construir la predicción de

cada macrobloque a partir de su tipo, de los vectores de movimiento y de las imágenes

de referencia memorizadas. El decodificador lee, decodifica y decuantifica los

coeficientes DCT del error de predicción transmitido para cada bloque de 8x8 píxeles,

y, después de la transformada DCT inversa, añade el resultado a la predicción.

La reconstrucción de la imagen se efectúa cuando todos los macrobloques han

sido tratados.

La última etapa de la descodificación es poner las imágenes en el orden inicial

de visualización.

Como se vio anteriormente, la necesidad de memoria para el decodificador es

de unas tres imágenes (dos imágenes de referencia mas la imagen en vía de

reconstrucción), siendo para una imagen 4:2:0, de aproximadamente 16 Mbits.

Fig. 4.18. Decodificador MPEG-2

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

63

Capítulo V:

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

64

CAPÍTULO 5. Estándar MPEG-2.

5.1. Introducción.

El Motion Pictures Expert Group (MPEG) es un grupo de trabajo común de la

ISO (International Standars Organitation) y la IEC (International Electrotechnical

Committe). Este grupo, fundado en 1988 desarrolló inicialmente la recomendación

ISO/IEC-11172, conocida como MPEG-1 y posteriormente ha desarrollado la

recomendación ITU-H.262 ó ISO/IEC-13818 conocida como MPEG-2. Ambas

recomendaciones van dirigidas a la codificación de información, con fines muy

concretos en el primer caso (MPEG-1) y con fines más generales en el segundo

(MPEG-2).

Los estándares MPEG contemplan la compresión y descompresión

(recuperación) de imágenes en movimiento y de sonido, y la formación de una

estructura multiplexada de datos en forma de señal digital serie que incluya tanto al

vídeo y al audio, comprimidos como los datos de cualquier otro servicio auxiliar

añadido. Además, contempla la sincronización adecuada durante la reproducción del

vídeo, el audio y los datos entre sí.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

65

El estándar MPEG-2 intenta servir para un amplio número de aplicaciones

como medios de grabación digitales, difusión de televisión y comunicaciones.

Concretamente, este estándar MPEG-2 es muy flexible ya que no es un método o norma

única, sino que engloba un conjunto de éstas, de entre las que elige la más adecuada a

cada aplicación. El método general es el mismo, pero hay diferencias en los valores

asignados a los parámetros y en las características.

El proceso de codificación MPEG-2 da lugar a una señal digital serie cuya

interpretación no es directa, ni a veces evidente, pero cuyo procesado adecuado en el

decodificador da lugar a la recuperación de las señales de vídeo y audio originales, a la

vez que también se pueden recuperar una serie de datos auxiliares.

Las señales originales que usa el codificador MPEG-2 son señales en banda

base tanto para vídeo como para audio, estando la de vídeo en componentes ( Y, (R-Y)

y (B-Y)) y pudiendo ser de definición estándar o de alta definición. El uso de señales en

banda base analógicas exige la existencia de conversores A/D en el codificador MPEG-

2, lo que enrarece el equipo, por lo que generalmente se considera que la señal banda

base disponible ya está en formato digital, concretamente AES/EBU para audio y vídeo

digital en componentes.

5.2. Características principales del estándar de vídeo

MPEG-2.

Los sistemas de señal digital pueden organizar los datos de una manera directa

fácilmente relacionada con los datos originales o de manera más compleja y

aparentemente caprichosa. En este segundo caso, deben preverse elementos que

permitan identificar dichos datos y la recuperación de las señales originales. Además

debe tenerse en cuenta la problemática derivada de que una señal incluya datos de

diversas señales originales que tenían una relación temporal intrínseca.

Por tanto podemos hacer una división respecto al tipo de datos en base a su

contenido:

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

66

- Datos del sistema (o capa del sistema). Es el conjunto de bits

encargado de información sobre temporización, detalles del método de

compresión usado, método usado para la multiplexación del vídeo, audio y datos

auxiliares; e información para reproducción sincronizada.

- Datos de señal (o capa de compresión). Es el conjunto de bits que

llevan la información útil de imagen, sonido y otros, comprimidos, además de

ciertos parámetros del método de compresión usado.

A la hora de definir el sistema aparecen tres aspectos importantes que

configuran tres fases de organización de datos:

- Elementary Stream (ES). Estos datos pertenecen a la capa de

compresión y corresponden a cada una de las señales que componen un único

programa. Por ejemplo la señal de vídeo comprimida MPEG-2 de un programa o

la señal de audio comprimida del mismo programa. El ES es una señal digital

continúa con un régimen binario concreto. Cualquier otra señal comprimida de

vídeo o audio de otros programas es también una ES.

- Packetized Elementary Stream (PES). La señal ES se divide en

paquetes de longitud no necesariamente fija, a los que se añade su

correspondiente “header” (cabecera) que identifica y sincroniza los datos de

dicho paquete respecto a los otros paquetes obtenidos del mismo ES o de otros,

para lo que incorpora datos a la capa de sistema.

- Program Stream (PS) y Transport Stream (TS). Son las señales

MPEG-2 completas. Consisten en la sucesión de PES correspondientes a un solo

programa o a varios programas (sólo en el caso de TS) multiplexados con

indicación de los detalles de sincronización, de acceso condicional y otros.

La razón de la existencia de dos tipos de estructuras, PS y TS, se debe a que

cada una articula una serie de detalles adicionales a la simple agrupación de PES que las

hace más adecuadas a diversos tipos de aplicaciones.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

67

El criterio de selección de uno u otro se basa en si se manda un solo programa

o varios y en si el medio de transmisión al que se introduce la señal MPEG-2 va a estar

sometido a errores o no.

Si son varios programas es necesario usar el TS. Si es un único programa

puede usarse el PS o el TS.

Si el medio está sometido a errores (transmisión, grabación,...), la estructura a

usar es la de “Transport Stream”. Si el medio no está sometido a errores (conexiones

cortas o interiores de equipos electrónicos) la agrupación se realiza como “Program

Stream”.

Figura 5.1. Sistema MPEG-2 para 1 programa.

5.3. Niveles y perfiles (“Level@Profile”).

El nivel permite seleccionar el procesado en base a la estructura espacial de

muestras, es decir, en base al número de pixeles y líneas a codificar. Está relacionado

con la resolución de la imagen.

Audio PES

Video PES

E.S. Video

E.S. Audio

MPEG-2 Program Stream

MPEG-2 Transport

Stream

VÍDEO AUDIO

CODIFICADOR DE VÍDEO

CODIFICADOR DE AUDIO

CODIFICADOR DE VÍDEO

CODIFICADOR DE AUDIO

PACK &

MUX PS.

PACK &

MUX T.S.

CAPA DE SISTEMA

CAPA DE COMPRESIÓN

FORMACIÓN DE SEÑALES MPEG-2 (iso/iec-13818)

PROGRAMA

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

68

Los posibles niveles que nos podemos encontrar se muestran en la siguiente tabla:

NIVEL CARACTERÍSTICAS High Muestreo (codificación) de 1920x1152 muestras activas High – 1440 Muestreo (codificación) de 1440x1152 muestras activas. Main Muestreo (codificación) de 720x576 muestras activas. Low Muestreo (codificación) de 352x288 muestras activas.

Tabla 5.1. Tabla de Niveles de MPEG-2.

Solo se codifican las muestras activas indicadas. Las señales originales, según

la norma de muestreo digital usado tendrán muestras activas y no activas. Las no activas

no son codificadas por MPEG-2 y serán regeneradas con nivel de borrado en el

decodificador. Las activas pueden coincidir en número con las usadas por MPEG-2 o no

coincidir. En el primer caso se recuperarán todas las muestras en la decodificación y en

el segundo, las muestras activas originales no codificadas en MPEG-2 serán regeneradas

con nivel de borrado por el decodificador. Para que esto sea posible, uno de los datos de

sistema que se transmiten es el del formato digital original.

Existe una relación directa entre el tipo de señal original y el nivel a elegir. Así,

una señal HDTV usará los niveles “High” o “High-1440”. Una señal SDTV de calidad

usará el nivel “Main” y el nivel “Low” se destina a señales SDTV de calidad

comparable a VHS para aplicaciones de menor calidad.

El perfil establece un juego de “herramientas” y posibilidades en el procesado

que no vienen marcados por la señal original. Mientras que los niveles marcan

claramente su capacidad para cada tipo de señal original, no es así de evidente la

selección de perfiles. Establece la relación de compresión.

En la siguiente tabla se muestran los diferentes perfiles que se han fijado para

la compresión en MPEG-2.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

69

PERFIL CARACTERÍSTICAS

Simple No se usan imágenes tipo B. El muestreo es 4:2:0.

Main Se usan imágenes tipo I, P y B. El muestreo es 4:2:0.

SNR Scalable

Se usan imágenes tipo I, P y B. El muestreo es 4:2:0. La transmisión es escalable en SNR, pudiéndose recibir imagen completa con menos bits/muestra (menor SNR) en caso de recepción defectuosa

Spatially Scalable

Se usan imágenes tipo I, P y B. El muestreo es 4:2:0. La transmisión es escalable en resolución espacial (número de muestras), pudiéndose recibir imagen completa con menos pixeles en caso de recepción defectuosa. Se definen dos capas: nivel base y nivel mejorado.

High Se usan imágenes tipo I, P y B. El muestreo puede ser 4:2: ó 4:2:2. La transmisión es escalable tanto en SNR como espacialmente.

4:2:2 Se usan imágenes tipo I, P y B. El muestreo es 4:2:2 (aunque puede reducirse a 4:2:0). La transmisión no es escalable. Sólo utilizable con el nivel “main”, incrementando además el número de pixeles y líneas activas respecto a dicho nivel. Concretamente usa 720 muestras activas y 680 líneas/cuadro (en sistema 625/50)

Tabla 5.2. Tabla de Perfiles MPEG-2.

La selección de un método MPEG-2 exige siempre determinar un nivel y un

perfil. Existen en este momento 4 niveles y 6 perfiles, por lo que podrían existir 24

posibles métodos básicos de MPEG-2. Sin embargo no todas las posibles

combinaciones Nivel @ Perfil están consideradas.

Tabla 5.3. Relación entre niveles y Perfiles en MPEG-2.

Perfiles

Niveles

Simple 4:2:0 I, P

Main 4:2:0 I, P, B

SNR scalable

4:2:0 I P B

Spatially scalable 4:2:0 I, P, B

High 4:2:2 ó 4:2:0

I, P, B

High (1920x1152)

No

considerada

No considerada

80 Mbps

No considerada

No considerada

No considerada

100 Mbps

High-1440 (1440x1152)

60 Mbps

60 Mbps 80 Mbps

Main (720x576)

15 Mbps 15 Mbps

15 Mbps No considerada

No considerada

20 Mbps

Low (352x288)

derada con No

considerada

4 Mbps

4 Mbps No considerada

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

70

En el vídeo de definición estándar, la combinación más usada es el nivel

“Main” con el perfil “Main”.

5.4. Codificación MPEG-2 de Audio.

La utilización del audio digital resulta familiar para todo el mundo desde la

aparición del disco compacto (Compact Disc), a principios de los años 80.

Puesto que su finalidad era obtener una calidad de alta fidelidad, la banda de

paso requerida debía ser de 20 Khz como mínimo, lo que implicaba, pues, una

frecuencia de muestreo superior a los 40 Khz; finalmente se adoptó el valor de 44,1

Khz. También debía garantizar una relación señal a ruido y una respuesta dinámica altas

(superiores a los 80 dB).

La digitalización de una señal analógica (o Pulse Code Modulation, PCM)

introduce sobre el bit de menor peso el llamado ’ruido de cuantificación’

correspondiente a la incertidumbre, que se traduce por una relación señal/ruido de 6 dB

por bit de cuantificación, es decir, 96 dB con la digitalización sobre 16 bits adoptada.

De ello resulta un flujo de 44,1 x 16 x 2 = 1,4 Mbits/seg para una señal estéreo.

Hay otras dos frecuencias de muestreo corrientemente utilizadas: 32 Khz (D2-

MAC, NICAM,...) y 48 Khz (grabación en estudio, casete de audio digital DAT,...). Las

normas MPEG-1 y 2 preveían la posibilidad de utilizar una de las tres frecuencias

anteriores como fuente de las señales de audio muestreadas. Los flujos que ofrecen son

ligeramente distintos, pero siguen siendo del mismo orden de magnitud (de 1 a 1,5

Mbits/seg), es decir, bastante más elevado para ser utilizados tal cual como sonido de

acompañamiento de una imagen codificada con la norma MPEG-1 o MPEG-2. Como

para el vídeo había que hacer frente a la necesidad de comprimir los datos procedentes

de la digitalización de la señal de audio.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

71

5.4.1. Principios de la compresión de audio MPEG.

Al comenzar los trabajos del grupo MPEG de audio, había, como mínimo, 14

propuestas diferentes, clasificadas en 4 grupos, de los cuales, tan solo 2 (MUSICAM y

ASPEC) se han mantenido para servir de base a la especificación final.

También aquí se aprovechan los ‘puntos débiles’ del oído humano para reducir

la cantidad de datos que hay que transmitir, sin deteriorar de forma perceptible la

calidad de la señal de audio. Hace tiempo se observó que el oído presentaba la máxima

sensibilidad entre 1 Khz y 5 Khz. La curva de sensibilidad que presenta el umbral de

audición de una señal en función de su frecuencia en ausencia de señal ‘perturbadora’ se

representa en la siguiente figura, donde la señal A es audible, puesto que sobrepasa el

umbral de percepción:

Figura 5.2. Curva de sensibilidad del oído.

Más recientemente, se ha observado que esta curva se veía afectada en

presencia de múltiples señales: por ejemplo, en el caso de dos señales de frecuencia

relativamente cercanas, la señal más fuerte hacía subir el umbral de audición en sus

proximidades, cuyo efecto era disminuir la sensibilidad del oído alrededor de estas

frecuencias.

La siguiente figura representa este caso, donde la señal A, antes audible, es

ahora enmascarada por la cercana señal B, más potente que A. Este efecto recibe el

nombre de enmascaramiento frecuencial.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

72

Figura 5.3. Efecto del enmascaramiento frecuencial.

También existe un efecto de enmascaramiento temporal: un sonido de elevada

amplitud enmascara igualmente los sonidos más débiles inmediatamente anteriores o

posteriores:

Figura 5.4. Efecto del enmascaramiento temporal.

Numerosos experimentos han permitido determinar un modelo psicoacústico

del oído humano, utilizado después como referencia a la hora de diseñar el codificador

llamado ‘perceptual’, que se caracteriza por una curva de enmascaramiento y una

cuantificación variables en función de las señales que se vayan a codificar. El principio

de esta codificación consiste en dividir la banda de paso de audio en 32 subbandas de la

misma anchura por medio de un banco de filtros llamado ‘polifases’. La señal de salida

de un filtro de subbanda, correspondiente a una duración de 32 muestras PCM de

entrada, se llama muestreo de subbanda.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

73

Figura 5.5. Espectro de audio filtrado por subbandas.

El modelo psicoacústico permite eliminar las señales de subbandas inferiores al

umbral del modelo psicoacústico (no percibidos por el oyente) y define la precisión de

cuantificación necesaria para cada una de las subbandas, de forma que el ruido de

cuantificación permanece inferior al umbral de audición en esta subbanda.

De esta forma, las zonas donde el oído es más sensible pueden ser

cuantificadas con mayor precisión que las otras. Los esquemas de bloques bastante

simplificados de un codificador MPEG de audio se representan a continuación.

Figura 5.6. Codificador MPEG de audio.

Nivel(dB)

Señales percibidas

Espectro de audio filtradoFrecuencia

B F A I N L C T O R O D S E 32

MODELO

PSICO ACÚSTICO

M U L T I P L E X A D O

Q1

CONTROL

Q1

Q1

ENTRADA PCM

TREN MPEG AUDIO

CUANTIFICACIÓN

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

74

El análisis de la señal para determinar la curva de enmascaramiento y la

cuantificación no se hace para cada muestra PCM, sino en un intervalo de tiempo

llamado trama. En este intervalo, el codificador evalúa también la amplitud de la señal

más elevada para definir un factor de escala (scaling factor) que se codificará sobre 6

bits.

6.4.2. Las capas de la codificación de audio MPEG.

Las normas MPEG de audio definen tres capas (layers) de codificación que se

distinguen por su tasa de compresión para una calidad de audio percibida dada. La

norma de televisión DVB prescribe para el sonido la utilización de las capas I y II de la

especificación MPEG-1 de audio, que prevé cuatro modos principales de transmisión:

·Estéreo. Los canales I y D se codifican de manera

completamente independiente.

·Joint Estéreo. Aprovechamiento de la redundancia entre

los canales izquierdo y derecho a fin de reducir el flujo

·Dual channel. Los dos canales son independientes.

·Mono. Un solo canal de sonido.

La norma MPEG-2 de audio toma lo más esencial de MPEG-1 y prevé además

la posibilidad de extensión ‘multicanal’, que permite la transmisión de sonido por

canales múltiples (por ejemplo ‘Surround sound’, de 5 canales) al tiempo que sigue

siendo compatible con el modo estéreo MPEG-1 básico, lo que permite la evolución

posterior de la especificación DVB.

Los datos suplementarios ‘ancillary data’ se encuentran al final de la trama.

Estos datos son ignorados por un decodificador MPEG-1 de audio estándar, pero si son

tratados por un decodificador MPEG-2 para una extensión complementaria.

La norma MPEG-2 de audio prevé, además, la posibilidad de utilizar

frecuencias de muestreo iguales a la mitad de los valores estándar (16 Khz / 22,05 Khz /

24 Khz), duplicando de esta forma la duración de las tramas y dividiendo el flujo por

dos, a costa, por supuesto, de reducir la banda de paso a la mitad.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

75

Capa I.

También llamada ‘pre-MUSICAM’, utiliza el algoritmo PASC (Precision

Adaptive Subband Coding), desarrollado por PHILIPS para su casete de audio digital

(DCC). Utiliza una velocidad fija entre las 14 posibles (de 32 a 448 Kbits/seg); la

calidad Hi-Fi necesita 192 Kbits /seg por canal de audio (384 Kbits/seg en estéreo).

Su principal ventaja es la relativa sencillez para la implementación del

codificador y el decodificador. La cuantificación de los coeficientes de subbanda está

definida para toda la duración de la trama por un número de 4 bits, permitiendo una

codificación de 0 a 15 bits para cada subbanda, así como el factor de escala sobre 6 bits.

Capa II.

Su algoritmo se conoce bajo el nombre de MUSICAM, es el estándar adoptado

para la radio (DAB) y televisión (DVB) digitales europeas. Permite obtener una calidad

equivalente con un flujo menor (reducción del 30 % al 50 %) que el de la capa I, a costa

de un incremento moderado de la complejidad tanto del codificador como del

decodificador.

El flujo constante, puede escogerse entre 32 y 192 Kbits/seg por canal, la

calidad subjetiva Hi-Fi se obtiene a partir de 128 Kbits/seg por canal, es decir 256

Kbits/seg en estéreo.

El modelo psicoacústico utilizado es el mismo que para la capa I, pero la trama

tiene el triple de duración, lo que reduce la proporción de bits de ‘sistema’, haciendo

que la cuantificación de los coeficientes de subbanda tenga una resolución decreciente

(cuantificación definida sobre 4 bits para las bandas bajas, 3 bits para las bandas medias

y 2 bits para las bandas más elevadas) en lugar del formato uniforme sobre 4 bits de la

capa I. Por otro lado, 3 muestras de subbanda consecutivas pueden ser eventualmente

reagrupadas en ‘gránulos’ para ser codificadas por un solo coeficiente, de ahí la

reducción del flujo.

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

76

Capa III.

Es de desarrollo más reciente y utiliza un modelo psicoacústico diferente –

llamado ‘modelo 2’-, una codificación Huffman y un análisis de la señal basado en la

DCT en vez de en la codificación en subbandas de las capas I y II. Están permitidos los

dos tipos de codificación joint estéreo.

Permite el flujo variable y una tasa de compresión aproximadamente 2 veces

más elevada que la capa II, a costa de una complejidad claramente mayor del

codificador y del decodificador, así como de un tiempo de codificación/descodificación

más largo. La calidad Hi-Fi se obtiene de los 64 Kbits/seg por canal (128 Kbits/seg en

estéreo).

Esta destinada principalmente a aplicaciones de redes de baja velocidad (por

ejemplo RDSI) y actualmente su utilización no esta prevista en DVB.

Como en el caso de los perfiles y niveles MPEG de vídeo, las capas MPEG de

audio soportan la compatibilidad ascendente entre ellas; es decir, que un decodificador

de capa III descodificará también las capas I y II, y que un decodificador de capa II

descodificara la capa I.

6.4.3. Formato general de la trama MPEG de audio.

La trama constituye la unidad de acceso elemental para una frecuencia de audio

MPEG. Una trama (capa I, II o III), se descompone en 4 partes:

Cabecera de 32 bits (header);

Paridad sobre 16 bits (CRC);

Datos de audio (AUDIO), longitud variable;

Datos auxiliares (AD, ancillary data).

Capítulo 5. Estándar MPEG-2.

Digitalización y compresión de la señal de Televisión

77

Capa I.

La trama MPEG de audio capa I se compone de 384 muestras PCM de audio

de entrada. Como el número de muestras PCM es independiente de la frecuencia de

muestreo, la duración de la trama es inversamente proporcional a la frecuencia de

muestreo. Ésta es de:

12 ms a 32 Khz; 8,7 ms a 44,1 Khz; 8 ms a 48 Khz.

Fig. 5.7. Formato trama MPEG audio Capa I.

Capa II.

La trama se compone en este caso de 12 gránulos de 3 x 32 = 96

muestras de audio PCM, es decir, 36 ms a 32 Khz; 26,1 ms a 44,1 Khz; 24 ms a 48 Khz.

La estructura de la parte de ‘audio’ difiere de la capa I debido a una asignación de bits

más compleja, motivada por la mayor cantidad de opciones de codificación.

Figura 5.8. Formato trama MPEG audio Capa II.

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

78

Capítulo VI:

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

79

CAPÍTULO 6. Múltiplex y Flujo de Transporte

MPEG-2.

6.1. Introducción.

En el conjunto de estándares de TV digital denominado DVB (Digital video

Broadcasting) se especifican los fundamentos de los sistemas para diferentes medios de

transmisión: satélite, cable, difusión terrestre, etc. Cada estándar define los esquemas

decodificación de canal y de modulación para el medio de transmisión de que se trate,

pero en todos los casos la codificación de fuente es una adaptación del estándar

MPEG2.

Más concretamente, la señal de entrada y salida especificada para todos los

sistemas es la denominada “MPEG-2 Transport Stream” (TS) o “Flujo de transporte

MPEG-2".

En este documento se describe la estructura del citado flujo de transporte (TS),

según está definido en el estándar ISO/IEC 13818-1, también se hará referencia al

denominado“MPEG-2 Program Stream” o “Flujo de programa MPEG-2". Este tipo de

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

80

flujo de señal se emplea para almacenamiento y recuperación de información digital en

entornos libres de errores. A diferencia del anterior, que multiplexa varios programas,

éste sólo puede acomodar un programa.

6.2. Empaquetado PES (Packetized Elementary Stream).

Ya en la “Capa de Sistema” nos encontramos con los “Empaquetadores

P.E.S.”, que constituyen el siguiente paso en la generación tanto del múltiplex de

programa como del múltiplex de transporte MPEG-2.

Se trata de convertir cada “Elementary Stream (E.S.)” compuesto

exclusivamente por “Access Units”, en un “Packetised Elementary Stream (P.E.S.)”.

Un P.E.S. está compuesto íntegramente por “PES-Packets”.

Figura 6.1. Conversión de un ES a un PES.

Un “PES-Packet” se compone de una “Cabecera” o “Header” y de una

“Carga Util”o “Payload”.

El “Payload” consiste simplemente en bytes de datos tomados

secuencialmente desde el “Elementary Stream (E.S.)” original. No hay ningún

“Elementary Stream (E.S.)”, compuesto por “unidades de acceso (Access Units)”

“Packetised Elementary Stream (P.E.S.)”, compuesto por “PES-Packets”

PES-PacketPES-Packet

PES-Packet

PES-Packet Payload

“Access “Access “Access A.U

E.S

Conversión de E.S a

P.E.S

P.E.S

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

81

requerimiento para alinear el comienzo de una “Access Unit” y el comienzo de un

“PES-Packet Payload”. Así, una nueva“Access Unit” puede comenzar en cualquier

punto del “Payload” de un “PES - Packet”, y también es posible que varias pequeñas

“Access Unit” estén contenidas en un simple “PES -Packet”.

Los “PES - Packets” pueden ser de longitud variable, limitados normalmente a

64kBytes, aunque la excepción a esta norma se da precisamente en los “Vídeo PES”,

cuando se emplean en un “transport stream”, donde pueden tener longitud indefinida.

Esta flexibilidad en la longitud de los paquetes PES puede ser explotada por los

diseñadores de diferentes maneras: pueden usarse paquetes de longitud fija si interesa, o

por ejemplo pueden ser de longitud variable de forma que siempre coincida el inicio de

una unidad de acceso con el comienzo de la carga útil de cada paquete PES.

6.2.1-. PES- Packet Header.

La figura 6.2 muestra los campos que comprenden la “Cabecera” o “Header”

de un “PES-Packet”. Dicha cabecera tiene longitud variable, e incorpora a su vez datos

para autoinformar de su longitud.

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

82

Figura 6.2.- Cabecera de un PES-Packet.

En la tabla 6.1 pueden verse algunos detalles complementarios relativos a los

campos de la cabecera de un paquete PES.

Tabla 6.1.- Estructura de la cabecera de un PES-Packet.

CAMPO DEFINICIÓN Nº DE BITS

Start_code_prefix Código de inicio (0x00,0x00;0x01)

24

Stream_id Identificación del PES 8 Packet_length Longitud del PES-

Packet 16

PES_scrambling_control Indica si hay cifrado, y su código

2

Flags Marcadores 14 PES_header_length Longitud restante de la

cabecera (x+y) 8

PES_header_subfields Campo variable, función de los flags

X bytes

Stuffing Relleno Y bytes

msb lsb

PES-Packet

Payload Header

x x x x x x x x

1 0 x x x x x x

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

x x x x x x x x

P D x x x x x x

x x x x x x x x

x x x x x x x x

PES_header_subfields

PES Packet Start_code_prefix Stream_id PES Packet_length Flag 1 Flag 2 PES header length

Presentation Time Stamp (si existe) Decoding Time stamp (si existe)

Stuffing

PES_scrambling_control (2 bits)

X Bytes

Y Bytes

1 Byte

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

83

PES-Packet start code:

Los primeros 4 bytes, es decir: el “PES-packet start code prefix” más el

“Stream_id” constituyen el “PES-Packet start code”. Debe garantizarse que esta

combinación de 32 bits únicamente aparece en el comienzo de la cabecera de un PES-

packet, excepción hecha de los datos de tipo “privado”.

El byte “Stream_id” permite distinguir los PES-packets pertenecientes a los

diferentes Elementary Stream de un mismo Programa. MPEG especifica los valores

permitidos para este campo, disponiéndose de 32 valores para E.S. de audio y de otros

16 valores para E.S. de vídeo.

Flags 1 y 2:

Los bytes “Flag 1" y “Flag 2" son indicadores que muestran la presencia o

ausencia de varios campos opcionales que pueden estar incluidos en la cabecera de un

PES-packet.

Estos campos opcionales llevan información complementaria relativa al PES,

tales como: si está cifrado o no, prioridad relativa, datos de “copyright”, un campo para

identificación de errores en el paquete, etc.

Particularmente importantes son los 2 bits más significativos del “Flag 2",

marcados como P y D en la figura 6.2. Cuando están, estos bits indican respectivamente

la presencia de un campo denominado “Presentation Time Stamp (PTS)” y de otro

campo denominado“Decoding Time Stamp (DTS)” dentro de la cabecera del PES-

packet.

Time Stamps:

Los “Time Stamps” o “marcas de tiempo” son el mecanismo proporcionado

por la “Capa de sistema” de MPEG-2 para asegurar una correcta sincronización en el

decodificador entre “Elementary Streams” que están relacionados. Dichos “Time

Stamps” son valores binarios de 33 bits expresados en unidades de 90kHz.

El más importante de los “Time Stamps” es el “Presentation Time Stamp

(PTS)”.

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

84

Especifica el momento en que una “Unidad de Acceso” debe retirarse del

buffer del decodificador, ser decodificada y seguidamente presentada al espectador.

MPEG supone que todo esto puede realizarse instantáneamente, aunque como en la

práctica lleva algún tiempo, es responsabilidad del diseñador del decodificador resolver

este problema.

En muchos tipos de “Elementary Streams” es suficiente con los PTS, pero en el

caso de Elementary Streams compuestos por vídeo codificado MPEG, puede necesitarse

un segundo tipo de “Time Stamp”, que es el denominado “Decoding Time Stamp

(DTS)”.

Un “DTS” especifica el momento en que una “Unidad de Acceso” debe

retirarse del buffer del decodificador y ser decodificada, pero no presentada al

espectador. En lugar de esto último, la imagen decodificada se almacena temporalmente

para ser presentada más tarde. Tal tratamiento es necesario únicamente para imágenes

de tipo I y P de una secuencia de vídeo codificada MPEG; estas imágenes I y P son las

que por interpolación permiten generar las imágenes de tipo B.

Un “DTS” nunca aparece aislado, sino que debe ir acompañado de un “PTS”,

que es el que informa del momento en que la Unidad de Acceso almacenada

temporalmente debe presentarse al espectador. De esta forma, el PTS siempre será

mayor que su DTS asociado (es decir, posterior en el tiempo), puesto que la

presentación de la imagen al espectador ocurrirá más tarde.

No es necesario ubicar “time stamps” para cada unidad de acceso. El

decodificador normalmente conoce de antemano el ritmo al que las unidades de acceso

tienen que ser decodificadas, siendo suficiente proporcionar ocasionalmente los “time

stamps” simplemente para asegurar el sincronismo del proceso de decodificación a

largo plazo.

El requerimiento especificado en MPEG es que un “time stamp” debe aparecer

al menos cada 0,7 segundos en los PES de vídeo o audio. Por otra parte, si una unidad

de acceso tiene un “time stamp” asociado con ella, entonces ese “time stamp” tiene que

estar codificado en la cabecera del PES-packet en que dicha unidad de acceso comienza.

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

85

PES_header_length:

El “PES header data length field” es el último de los bytes obligatorios de una

cabecera de un PES-packet. Su valor indica el número de bytes opcionales presentes en

la cabecera, hasta que se alcanza el primer byte del “PES-packet payload”.

Hay 25 campos opcionales en una cabecera, que pueden contener por tanto un

total de 200 bits de datos adicionales.

6.3. Múltiplex tipo “PROGRAM STREAM”.

El tipo de múltiplex denominado “Program Stream” o “Flujo de Programa”

se crea a partir de uno o varios PES pertenecientes al mismo Programa Audiovisual, que

deben, compartir obligatoriamente el mismo reloj de referencia.

Este “Program Stream” está compuesto por “packs”, que a su vez

comprenden: una cabecera del pack o “pack-header”, opcionalmente una cabecera de

sistema o “system-header”, y un número indeterminado de PES-packets, tomados de los

Elementary Streams que componen el Programa Audiovisual, en cualquier orden. La

figura 6.2 muestra la estructura de este múltiplex.

Figura 6.3.- Estructura del múltiplex MPEG-2 “Program Stream”

No existe una especificación acerca de la longitud que debe tener cada “pack”

de un “Program Stream”. Únicamente debe aparecer un “pack-header” al menos cada

D

V V V V V V V V V A A D D

Video PES-packet

Opcional “System-header”

Pack-header

Audio PES-packet

Pack-header

Pack-header

V A Data PES-packet

PROGRAM STREAM

“Pack”

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

86

0,7 segundos, puesto que la citada cabecera contiene importante información para la

sincronización: la denominada “Referencia del Reloj de Sistema” o “System Clock

Reference (SCR)”.

En efecto: En un “Program Stream” que puede contener únicamente un

programa audiovisual, el reloj en el multiplexor se llama: “System Clock”. Todas las

Unidades de Acceso de los “Elementary Streams” del programa tienen asignados “time

stamps” basados en este System Clock, que están contenidas en la cabecera de los PES-

packets. A su vez, muestras del “System Clock”, las denominadas “System Clock

Referentes (SCR)” se encuentran codificadas en los campos opcionales de los “pack-

headers” del “Program Stream”. Son números binarios de 42 bits que expresan unidades

de 27MHz.

En el campo opcional “system-header” de un Pack se incluye un sumario de las

características del “Program Stream” tal como: su velocidad binaria máxima, el número

de “Elementary Streams” de vídeo y de audio que lo componen, información

complementaria de temporización, etc. Así, un decodificador puede usar la información

contenida en este “system header” para establecer si es capaz de recuperar la

información del “Program Stream” o no.

El “Program Stream” está concebido para su empleo en entornos libres de

errores, puesto que es bastante vulnerable a ellos. Hay dos razones para esto: En primer

lugar, el “Program Stream” comprende una sucesión de paquetes relativamente largos y

de longitud variable. Como se ha visto, cada paquete comienza con unas cabeceras que

contienen información importante para su recuperación, por lo que cualquier error en

dichas cabeceras puede provocar la pérdida entera del paquete. A su vez, como el

paquete de un “Program Stream” puede contener muchos kilobytes de datos, la pérdida

de un solo paquete puede representar la pérdida o corrupción de una trama de vídeo

completa.

En segundo lugar, la diferente longitud de los paquetes implica que un

decodificador no puede predecir donde termina un paquete y comienza otro, por lo que

se ve obligado a leer e interpretar el campo incluido en la cabecera que informa de la

longitud del paquete. Si este campo que identifica la longitud del paquete se corrompe

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

87

por un error, el decodificador perderá el sincronismo con el flujo de datos, resultando

como mínimo la pérdida de un paquete.

6.4. Múltiplex tipo “TRANSPORT STREAM”. El múltiplex tipo “Transport Stream” está compuesto íntegramente por

“paquetes de transporte” o “transport packets” que tienen siempre una longitud fija de

188 bytes. Cada“paquete de transporte” incluye una “Cabecera” o “Header” (4 bytes)

seguida a veces de un “Campo de Adaptación” o “Adaptation Field” (usado

eventualmente para rellenar el exceso de espacio disponible) y en cualquier caso, de una

“Carga Útil” o “Payload”.

Los paquetes de transporte se forman a partir de los “PES-Packets”

correspondientes a cada “Flujo Elemental” de señal (vídeo, audio, datos, etc.), según se

muestra en la figura 6.4.

Figura 6.4.- División de un “P. E. S.” en una serie de “Transport Packets”

El proceso de formación de los paquetes de transporte está sujeto al

cumplimiento de las dos condiciones fundamentales siguientes:

a). El primer byte de cada PES-Packet debe ser el primer byte del “payload“ de

un transport packet.

Header Payload Adaptation field (usado para rellenar

espacio sobrante)

P.E.S Packets

Transport Packets

“Packetised elementary Stream (P.E.S)”, compuesto por “PES-Packets”

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

88

b). Un transport packet solamente puede contener datos tomados de un PES-

Packet.

Es improbable que un PES-packet rellene las “cargas útiles” de un número

entero de paquetes de transporte de forma exacta. Como se muestra en la figura 6.4, con

frecuencia se dará el caso de que, para no contravenir las dos condiciones anteriores, el

espacio sobrante del último paquete de transporte correspondiente a un PES-packet, se

rellene deliberadamente mediante un “campo de adaptación” de longitud apropiada.

Este despilfarro de espacio puede minimizarse mediante una elección

cuidadosa de la longitud de los PES-packets. En principio, PES-packets muy largos

asegurarían una mayor proporción de paquetes de transporte completamente llenos de

datos útiles. Además de la función de relleno, el Campo de Adaptación se utiliza también

para la transmisión del “Reloj de Referencia del Programa” o “Program Clock

Reference” (PCR).

Estas marcas de tiempo, que permiten sincronizar el reloj del decodificador con

el “Program Clock” del Programa al que pertenecen los paquetes de transporte, deben

aparecer en el “Transport Stream” al menos una vez cada 0,1 segundos.

6.4.1. Formación del “Transport Stream”.

Los paquetes de transporte resultantes del proceso anterior, aplicado a cada uno

de los flujos elementales de señal (vídeo, audio, datos, etc.) pertenecientes a su vez a

varios programas audiovisuales, se disponen secuencialmente para configurar el “Flujo

de Transporte MPEG-2" o “MPEG-2 Transport Stream” (TS).

No existen condiciones en cuanto al orden en que los paquetes de transporte

deben aparecer en el múltiplex tipo TS; tan sólo debe respetarse el orden cronológico de

los paquetes de transporte pertenecientes a un mismo flujo elemental.

Es importante destacar que en el TS, además de los paquetes de transporte

asociados a los flujos elementales de señal, es necesario incorporar paquetes de

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

89

transporte que contienen información sobre el servicio, así como paquetes de transporte

“nulos” que se emplean para absorber eventuales reservas de capacidad del múltiplex.

La figura 6.5 ilustra de forma simplificada el proceso de conformación del

múltiplex “MPEG-2 Transport Stream”.

Figura 6.5.- Conformación del múltiplex “Transport Stream” a partir de un

número prácticamente ilimitado de flujos elementales de señal.

6.4.2. “Transport Packet”. La figura 6.6 ilustra la estructura de un “paquete de transporte” o “transport

packet”.

Figura 6.6. Estructura de un “transport packet”

“Adaptation Field” (Eventual) Payload

1er byte PID (13 Bits)(identificador del paquete de transporte)

4º byte

Sync_byteTransport_error_indicator

Payload_unit_start_indicatorTransport_priority

Transport Packet Header

TRANSPORT PACKET

188 bytes

msb lsb adaptation_field_control continuity_counter

Transport_scrambling_control

0 1 0 0 0 1 1 1

V V A V V D SI

V

A A A A A

V V V V V

SI

SI

SI

SI

SI

D D D D D

N N N N N

Paquete de transporte de video

Paquete de transporte de audio

Paquete de transporte de datos

Paq. de trans. con info de servicioPaquete de transporte nulos

MPEG-2 Transport Stream

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

90

6.4.2.1 Transport Packet Header. A diferencia de los “PES-Packet”, cuya cabecera tiene longitud variable,

la cabecera o “header” de un paquete de transporte tiene siempre una longitud fija de 4

bytes. El formato de esta cabecera puede verse en la figura 6.6 y en la tabla 6.2:

Tabla 6.2.- Estructura de la cabecera de un Paquete TS. De los varios campos que contiene la cabecera de un paquete de transporte, hay

4 que son particularmente importantes:

Sync Byte:

Es el primer byte de la cabecera y siempre tiene el valor 47 (hexadecimal).

Dicho valor no es único dentro de un paquete de transporte y puede ser bastante

frecuente que aparezca en otros campos. Sin embargo, el hecho de que un “sync byte”

aparezca siempre cada 188 bytes dentro de un transport stream hace fácil el proceso de

su localización por los decodificadores para identificar el comienzo de cada paquete de

transporte.

Packet Identifier (PID):

Como se ha explicado, un TS puede contener muchos programas diferentes,

cada uno de los cuales contiene a su vez muchos flujos elementales distribuidos en

paquetes de transporte. El campo de 13 bits “Packet Identifier (PID)” se emplea para

distinguir los paquetes de transporte asociados a un determinado flujo elemental, de

entre todos los demás.

CAMPO DEFINICIÓN Nº DE BITS

Sync_byte Byte de sincronización 0100 0111 (0x47) 8

Transport_error_indicator Identifica un error detectado más atrás 1 Payload_unit_start_indicator Inicio de PES en el paquete de transporte 1

Transport_priority Indicador de prioridad 1 PID Identificador del paquete de transporte 13 Transport_scrambling_control Tipo de cifrado de transporte 2 Adaptation_field_control Control del campo de adaptación en el paquete 2

Continuity_counter Contador de continuidad entre paquetes afines 4

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

91

De los 213 valores posibles para el PID, 17 están reservados para usos

especiales. Esto deja 8.175 posibles valores que pueden asignarse a los diferentes flujos

elementales, por lo que esta cifra representa el máximo número de éstos que un TS

puede contener. Es responsabilidad del multiplexor asegurar que cada flujo elemental

tenga asignado un exclusivo valor de PID de entre todos los posibles. Por lo demás,

MPEG no condiciona la asignación de valores concretos a los diferentes flujos

elementales.

Payload Unit Start Indicator:

Se pone a 1 para indicar que el primer byte del “payload” del paquete de

transporte es también el primer byte de un PES-packet.

Continuity count field:

Se incrementa entre sucesivos paquetes de transporte pertenecientes al mismo

flujo elemental. Esto permite al decodificador detectar la pérdida o ganancia de un

paquete y así poder ocultar los errores que de otra forma podrían presentarse.

6.5. Tabla de Asociación de Programas (PAT) y Tabla de Mapa de Programas (PMT).

Program Association Table (PAT):

Esta tabla, de inclusión obligatoria, es transportada por los paquetes con

PID=0x0000 y contiene una lista completa de todos los programas disponibles en el

Transport Stream. Cada programa aparece junto con el valor del PID de los paquetes

que a su vez contienen la tabla con los datos que identifican a dicho programa (Program

Map Table,PMT).

La PAT debe transmitirse sin cifrar aunque todos los demás programas lo estén.

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

92

Figura 6.7. Representación de una tabla PAT

Como se muestra a modo de ejemplo en la figura 6.7, una sola Program

Map Table (la nº 244) puede contener los detalles de varios programas (los numerados

como 7, 8 y 10).

Conditional Access Table (CAT):

Esta tabla debe estar presente si al menos un programa del múltiplex es de

acceso condicional. Se transporta por los paquetes con PID=0x0001, y proporciona

detalles de los sistemas de cifrado empleados, así como los valores de los PID de los

paquetes de transporte que contienen la información del control de acceso condicional.

Los datos para el acceso condicional se envían en forma de “Entitlement

Management Messages (EMM)”. En estos “EMM” se especifican los niveles de

autorización o los servicios a que pueden acceder determinados decodificadores, y

pueden ir dirigidos a decodificadores individuales o a grupos de ellos.

Paquete de transporte conteniendo la Program Association Table (PAT)

Nº de Valor de PID de la prog. program map table

0 10 1 306 3 1127

18 17 7 244 8 244 10 244 4 17

Network information

table ----- ----------- ----- ----------- ----- ----------- ----- -----------

Program Map Table para el

Prog. Nº 1 ----- ----------- ----- ----------- ----- ----------- ----- -----------

Program Map Table para el

Prog. Nº 3 ----- ----------- ----- ----------- ----- ----------- ----- -----------

PID= 0X0000

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

93

El formato de esta información no está especificado en MPEG-2, puesto que

depende del tipo de sistema de cifrado empleado.

Program Map Table (PMT):

Cada programa audiovisual incluido en un Transport Stream tiene una tabla

PMT asociada con él. Dicha tabla proporciona detalles acerca del programa y de los

flujos elementales que comprende.

Según MPEG-2, las tablas PMT pueden ser transportadas por paquetes con

valores de PID arbitrarios, exceptuando los valores 0x0000, reservado para PAT, y

0x0001 reservado para CAT. Sin embargo, las especificaciones DVB-SI también

restringen el uso de los valores de PID que van desde 0x0002 hasta 0x001F (ver tabla

6.3).

En la figura 6.8 se muestra un ejemplo de tabla PMT. Mediante ella, un

decodificador puede determinar que el flujo elemental codificado de vídeo

correspondiente al programa nº 3 se encuentra en los paquetes de transporte

identificados mediante el PID=726 y que el flujo elemental cuyos paquetes están

etiquetados con PID = 57 lleva el audio correspondiente en inglés.

Figura 6. 8. Ejemplo de una tabla PMT

Paquete de transporte conteniendo la Program Map Table (MT) del programa nº3

PID= 1127

Program Map Table para el Prog. Nº 3 PID para el Program Clock Referente=726 PID para el Video=726 PID para el Audio (Inglés)=57 PID para el Audio (Francés)=60 PID para el Audio (Alemán)=1022 PID para subtitulos=123

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

94

En las tablas PMT los datos de los PID no pueden estar cifrados. Sin embargo,

dichas tablas PMT también pueden contener información privada relativa al programa,

que eventualmente sí puede estar cifrada (por ejemplo datos para el control de acceso).

6.6 Resumen de la formación del Flujo Transporte.

En la figura 6.9 se muestra de manera esquemática la secuencia de operaciones

que da lugar a los flujos de programa y de transporte MPEG-2.

Figura 6.9.- Flujos de Programa y de Transporte MPEG-2.

Reloj de sistema (STC) nº N

PACK & MUX PS.

VÍDEO AUDIO

CODIFICADOR DE VÍDEO

CODIFICADOR DE AUDIO

Empaquetador PES video

Empaquetador PES de audio

PACK & MUX T.S.

PROGRAMA audiovisual

nº1

CCIR

601

AES/EB

U

ES

video

ES

audio

PES

video

PES

audio

Reloj de sistema (STC) Nº1

PCR/SCR

VÍDEO AUDIO

CODIFICADOR DE VÍDEO

CODIFICADOR DE AUDIO

Empaquetador PES video

Empaquetador PES de audio

PROGRAMA audiovisual

nº N

CCIR

601

AES/EB

U

ES

video

ES

audio

PES

video

PES

audio

Service de información (S.I)

Capa del sistema Capa de compresión

MPEG2 Program

Stream nº 1

MPEG2 Transport

Stream

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

95

Dicha secuencia de operaciones puede dividirse en dos grandes bloques,

denominados “Capa de Compresión” y “Capa de Sistema”:

En la “Capa de Compresión” se realizan las operaciones propiamente dichas

de codificación MPEG, recurriendo a los procedimientos generales de compresión de

datos, y aprovechando además, para las imágenes, su redundancia espacial (áreas

uniformes) y temporal (imágenes sucesivas), la correlación entre puntos cercanos y la

menor sensibilidad del ojo a los detalles finos de las imágenes fijas.

En cuanto al audio, se utilizan modelos psicoacústicos del oído humano, que

tienen en cuenta la curva de sensibilidad en frecuencia (máxima entre 1 y 5 kHz), los

efectos de enmascaramiento frecuencial (señales simultáneas a diferentes frecuencias) y

enmascaramiento temporal (un sonido de elevada amplitud enmascara sonidos más

débiles anteriores o posteriores), para reducir la cantidad de datos que hay que

transmitir, sin deteriorar de forma perceptible la calidad de la señal de audio.

En la “Capa de Sistema” se realizan las operaciones que conducen a la

obtención de los flujos de señal MPEG-2, consistente en la organización en “paquetes”,

de los datos comprimidos y el posterior multiplexado de todas las señales asociadas al

programa (vídeo, audio, datos, etc).

En el caso de Flujos de Programa MPEG-2, se multiplexan todos los

componentes del programa (vídeo, audio, datos, etc.) y se incorpora el reloj del sistema,

pero solamente se transmite la información correspondiente a un único programa

audiovisual.

En cambio, en el caso de Flujos de Transporte MPEG-2, además de la

posibilidad de multiplexado de varios programas audiovisuales, se añaden en el

múltiplex diversas informaciones relativas al servicio: Tabla de Asociación de

Programas (PAT), Información para Acceso Condicional (CAT), Mapa de cada

Programa (PMT), Tabla de datos de la red (NIT), etc.

Capítulo 6 .Múltiplex y flujo de transporte MPEG-2.

Digitalización y compresión de la señal de Televisión

96

Características básicas de los flujos MPEG-2:

Conviene resaltar dos características notables de los múltiplex MPEG-2:

No existen protecciones contra errores dentro del

múltiplex. Las citadas protecciones y la subsiguiente modulación de los

flujos MPEG son objeto de bloques de procesado posteriores, que son

función del medio de transmisión elegido.

No hay especificación física o eléctrica para los múltiplex

MPEG. El diseñador puede elegir los niveles de señal y tipo de conector

que mejor se adapte a su aplicación.

Terminología empleada:

“Program” o “Programa”

Según la terminología MPEG, “Program” significa: Un servicio o canal

simple de radiodifusión.

“Elementary Stream” (E.S.) o “Flujo Elemental”.

Un “Elementary Stream” es el nombre dado a cada componente simple de un

“Programa”, después de que se ha codificado digitalmente y comprimido según MPEG,

Así, un programa ya comprimido de TV se compone de varios “Elementary Streams”:

Uno para el vídeo, varios para sonido estéreo en diferentes idiomas, otro para el

teletexto, etc.

“Packetised Elementary Stream” (P.E.S.).

Cada “Elementary Stream” se estructura en paquetes, dando lugar a un flujo

que se denomina “Packetised Elementary Stream” (P.E.S.), y que está compuesto por

“PES-packets”.Como cada P.E.S. se obtiene directamente de cada E.S., y éstos son

independientes, existirá por tanto un P.E.S. por cada E.S. original.

Capítulo 7. Bibliografía.

Digitalización y compresión de la señal de Televisión

97

Capítulo VII:

Capítulo 7. Bibliografía.

Digitalización y compresión de la señal de Televisión

98

CAPÍTULO 7. Bibliografía

7.1 Introducción. En este capítulo se van a exponer los títulos de las obras utilizadas en la

documentación sobre el contenido de esta monografía. Así mismo también se indicarán

las direcciones de las páginas web consultadas para la búsqueda de información.

7.2 Bibliografía.

[1] “Televisión Digital”

Autor: Hervé Benoit.

Editorial: Paraninfo.

[2] “Sistemas para la Recepción de TV Analógica y Digital”

Autor: Televés.

Editorial: Televés.

Capítulo 7. Bibliografía.

Digitalización y compresión de la señal de Televisión

99

[3] “Televisión Digital; MPEG-2 y DVB”

Autor: Luis Ortiz Berenguer.

Editorial: E.U.I.T.T. – UPM.

[4] “Televisión por Satélite”

Autor: F.A. Wilson.

Editorial: CEAC.

[5] “Fundamentos de Comunicaciones Analógicas y Digitales”

Autores: José Ramón Velázquez Monzón, Santiago Tomas Pérez

Suárez, Sofía Martín González, Rafael Pérez Jiménez, Juan Ruiz Alzola.

Editorial: Departamento de Señales y Sistemas – ULPGC.

[6] “Principles of Digital Comunications and Coding”

Autores: Andrew J. Viterbi, Jim K. Omura.

Editorial: McGrawHill.

7.3 Direcciones WEB.

www.dvb.org www.dvbgroup.com

www.etsi.org.

www.mpeg.org.

www.monografias.com/trabajos10/vire/vire.shtml.

www.gti.ssr.upm.es/gente/ex/pfcs/pfces/fss/introduccion.html.

www.imagendv.com/mpeg.htm.

http://en.wikipedia.org/wiki/Run_length_encoding.

www.tvdi.net/