dpto. de ingeniería de comunicaciones imagen digital.pdf · formatos de codificación (no deben...
TRANSCRIPT
11111
Constantino Pérez Vega
2011
Dpto. de Ingeniería de Comunicaciones
LA IMAGEN DIGITAL
22
Aspectos históricos: tubos de cámara. Iconoscopio (c. 1930-40)
33
Orthicón de Imagen (1940 a c.1980)
44
Disector de imagen (c. 1940-50) (se usó muy poco)
55
Vidicón (c. 1948-70)
66
Plumbicón
Trinicón
Saticón
77
88
99
1010
Apariencia de los CCD
1111
Diversos tipos de CCD
1212
CCD de línea
1313
1 píxel
1 píxel
Sensor de una línea
Sensor de tres líneas
1414
Escáner CCD de sobremesa
1515
Escáner CIS (Contact Image Sensor)
1616
LUZ INCIDENTE
MICROLENTE
FILTRO DE COLOR
FOTODIODO
Microlente y filtro de color
1717
Patillas de conexión
Conexiones con hilo de oro
Almohadillas de conexión
Substrato de silicio
Paquete de cerámica o plásticoArea de imagen
Registro en serie
Amplificador en chip
Estructura de un CCD
1818
Optica Interna
Separa la luz incidente de la escena en tres colores primarios, generalmente rojo, verde y azul, mediante el empleo de espejos, filtros o prismas dicroicos
191919
Luz reflejada por la escena
Rojo
azul + verde
azul
verde
espejo neutro
dicroico
rojo
dicroicoazul
espejo neutro
sensorrojo
sensorverde
sensorazul
E
E
E
R
G
B
SISTEMA OPTICO
EXTERNO
SISTEMA OPTICO
INTERNO
CONVERSION
OPTO-ELECTRICA
Generación de la señal de vídeo cromático
2020
OPTICA EXTERNA OPTICA INTERNA
SISTEMA DE PRISMAS PARA SEPARACION DE COLORES
CCD VERDE
CCD ROJO
CCD AZUL
LUZ INCIDENTE
LENTE
Arquitectura de prismas en una cámara de 3 CCD
2121
CCD de transferencia de cuadro
2222
CCD de transferencia de línea
2323
Filtro Bayer
2424
2525
2626
2727
Imagen digital RGB – 4:4:4
2828
Formato 4:4:4
720
480
Luminancia y crominancia a plena resolución.
Píxels/cuadro:
3x720x480 = 1'036,800
Flujo de datos:
8 x 30 x 1'036,800 =
= 248.832 Mbit/seg.
292929
3030
720
360
480
480
480
Y
Cr
Cb
NTSC
480 líneas activas por cuadro
720 muestras/línea
El número de elementos de imagen (píxels) por cuadro resulta:
480(720 + 360 + 360) = 691,200
Codificando cada muestra a 8 bits:
691200 x 8 = 5'529,600 bits 5.3 MBytes
El flujo binario resultante será:
5.3 MB/cuadro x 30 cuadros/seg = 159 MB/s
Formato 4:2:2
313131
Muestreo 4:2:2
3232
720
480
240
240
360
Formato 4:2:0
Luminancia: 480 líneas activas
Crominancia: 240 líneas activas
Píxels por cuadro:
720 x 480 + 2 x 240 x 360 = 518,400 píxels
Flujo de datos:
518,400 x 8 x 30 = 124.416 Mbit/s
333333
Muestreo 4:2:0
3434
Ancho de Banda requerido por la señal digital:
Radiodifusión Terrestre de TV y Cable: 6 MHz (NTSC) y 7 u 8 MHz (PAL)
Señal digital en el entorno del estudio, sin modulación digital:
216 MHz (4:2:2)
324 MHz (4:4:4)
27 canales PAL de 8 MHz
40 canales PAL de 8 MHz
PARA UNA SOLA SEÑAL DE VÍDEO
Satélite:
Suponiendo transpondedores de 36 MHz :
6 canales de satélite (4:2:2)
9 canales de satélite (4:4:4)
3535
Jerarquía de codificación
4:4:4
4:2:2
4:2:0
Tipos de imagen posibles
HDTV
Relación de aspecto 16:9. Aprox. 1200 líneas/cuadro. Barrido entrelazado o progresivo
EDTV
Relación de aspecto 4:3. 750 líneas. Barrido progresivo
SDTV
Relación de aspecto 4:3. 525/625 líneas. Barrido entrelazado.
3636
Generación y CAD Producción/Postproducción
4:4:4 4:2:2 4:2:0
CompresiónFlujo de transporte
Audio digital
Otros datos
MUX
Flujo MPEG-2
373737
Recomendación UIT BT.601-5
4:4:4 324 Mbit/s RGB
4:2:2 216 Mbit/s YCrCb
4:2:0 162 Mbit/s YCrCb
Señal analógica
Vídeo digital
COMPRESIONCOMPRESION
H.261 MPEG1, MPEG2, H.263
MPEG4 Visual, H.264/MPEG4 AVC
VC-1 (WMV9)
3838
3. INTRODUCCION A LA COMPRESION DE VIDEO
393939
Compresión de vídeo:
Se basa en aprovechar las propiedades de las imágenes y las características perceptuales del sistema visual humano:
• Redundancia espacial
• Redundancia temporal
• Compactación de energía
• Eliminación de información irrelevante
• Respuesta visual humana
Compresión de audio
Se basa principalmente en la explotación de las características psicofisiológicas del sistema auditivo humano:
• Enmascaramiento
• Respuesta en frecuencia del oído interno (cóclea)
• Compactación de energía
404040
Compresión:
Es la reducción del flujo o tasa binaria:
• Reduciendo la información redundante
• Eliminando la información irrelevante
Información redundante:
Información superflua, presente varias veces en el flujo binario, o que nocontiene información, o que puede recuperarse fácilmente sin pérdidas, mediante un proceso matemático simple en el receptor.
Información irrelevante:
Es la que no puede ser percibida por el sistema visual humano, de modo que puede ser eliminada sin pérdida de la calidad subjetiva.
414141
Redundancia Espacial
Zonas en que los elementos de imagen son prácticamente iguales con muy pocas variaciones entre uno y otro
Zonas con elementos de imagen similares, aunque con algunas variaciones más notorias perceptualmente
424242
Cuadros sucesivos
Objetos en movimiento
Entre cuadros sucesivos la información entre cuadros es la misma, excepto en la posición de los objetos en movimiento. La información redundante entre cuadros se puede eliminar
Redundancia temporal
434343
Imagen Original
Dominio espacial
8x8 pixels
DCT
Dominio de la transformada
8x8 coeficientes
Procesado en el Estudio
Calidad de contribución
Cuantificación perceptual
Algoritmos de compresión
Señal comprimida
1 pixel = 1 muestra Y+ Cr + Cb
444444
Imagen original
DCT
Hadamard
Fourier
Seno discreto
Karhunen-Loeve
Propiedades de compactación de coeficientes de diversas transformadas
45
la DCT parte el área de la imagen en frecuencias discretas en dos dimensiones
Bajas frecuenciasespaciales
Altas frecuencias espaciales
4646
81.47 95.75 42.17 67.87 27.69 43.87 7 90.93 95.97
90.57 96.48 91.57 75.77 4.61 38.15 75.46 34.03
12.69 15.76 79.22 74.31 9.71 76.55 27.60 58.52
91.33 97.05 95.94 39.22 82.34 79.52 67.97 22.38
63.23 95.71 65.57 65.54 69.48 18.68 65.50 75.12
9.75 48.53 3.57 17.11 31.70 48.97 16.26 25.50
27.84 80.02 84.91 70.60 95.02 44.55 11.89 50.59
54.68 14.18 93.39 3.18 3.44 64.63 49.83 69.90
Bloque original de 8 x 8 valores de intensidad de la imagen
4747
152.59 192.16 196.70 146.24 114.56 146.70 136.28 152.75
42.77 37.86 1.62 47.19 -30.54 0.75 40.16 9.92
9.85 -16.79 5.94 -5.06 -44.61 -3.43 2.45 31.69
-4.23 48.00 -67.48 5.65 26.11 -38.42 -3.67 10.91
52.98 21.88 13.37 -21.91 14.81 -0.54 43.49 33.48
-11.35 11.94 2.51 10.06 54.27 25.35 -23.18 -3.34
-47.85 -67.68 -48.24 -31.83 -49.98 21.74 -22.52 12.80
-27.36 -10.90 9.70 41.56 12.02 -18.61 -12.09 46.73
Bloque original de 8 x 8 transformado mediante la DCT
4848
El bloque transformado se divide luego elemento a elemento por los elementos de una matriz de cuantificación perceptual.
Como el ojo percibe peor las altas frecuencias espaciales, los coeficientes correspondientes a estas frecuencias se reducen en mayor medida que los coeficientes correspondientes a las bajas frecuencias
494949
Coeficientes de cuantificación perceptual
5050
19.07 12.01 10.35 6.64 4.40 5.43 4.69 4.49
2.67 2.36 0.07 1.96 -1.13 0.02 1.18 0.26
0.51 -0.76 0.22 -0.18 -1.53 -0.10 0.07 0.83
-0.19 2.18 -2.59 0.20 0.90 -1.13 -0.09 0.27
2.40 0.84 0.49 -0.75 0.46 -0.01 1.08 0.69
-0.43 0.44 0.08 0.31 1.55 0.63 -0.48 -0.05
-1.84 -2.50 -1.66 -0.93 -1.31 0.47 -0.40 0.18
-1.01 -0.37 0.27 1.09 0.26 -0.33 -0.17 0.56
5151
19 12 10 6 4 5 4 4
2 2 0 1 1 0 1 0
0 0 0 0 1 0 0 0
0 2 2 0 0 1 0 0
2 0 0 0 0 0 1 0
0 0 0 0 1 0 0 0
1 2 1 0 1 0 0 0
1 0 0 1 0 0 0 0
5252
19 12 10 6 4 5 4 4
2 2 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 2 2 0 0 0 0 0
2 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 2 0 0 0 0 0 0
0 0 0 0 0 0 0 0
53
Compensación de movimiento
Imagen de referencia Predicción hacia adelante
Imagen de referencia Predicción hacia atrás
Imagen actual
tiempo
54
Reducción de redundancia temporal
55
Modelo temporal
Modelo espacial
Codificador de entropia
Salida codificada
Vídeo digital no comprimido Residuo Coeficientes
Vectores de movimiento (códigos binarios cortos)
Imágenes previas y futuras
Codificación híbrida
56
Flujo óptico
57
Cuadro n Cuadro n ± k
Diferencia
58
bloques de 16 x 16 bloques de 8 x 8
bloques de 4 x 4
Residuos
El residuo es la resta de la predicción del codificador y de la señal actual de entrada
595959
Codificación de recorrido
frecuencia horizontal
frecuencia vertical
606060
Evolucion de la capacidad de compresión
6161
¿Y todo esto para qué?
6262
Ch 7 Ch 8 Ch 9Ch 6 Ch 10
Grado de utilización del espectro en TV analógica
No se pueden usar canales adyacentes porque producen interferencia
Sólo un programa por canal
El espectro sólo puede aprovecharse en un 50%
6363
Ch 7 Ch 8 Ch 9Ch 6
8-VSB COFDM 8-VSBCOFDM
Grado de utilización del espectro en TV digital
• De 4 a 6 programas por canal
• Pueden utilizarse los canales adyacentes
• Aprovechamiento espectral prácticamente de 100%
6464
Ch 7 Ch 8 Ch 9Ch 6 Ch 10
8-VSB COFDM
Los canales analógicos pueden coexistir con canales digitales adyacentes sin interferencia
656565
Formatos de codificación (no deben confundirse con formatos de compresión)
CIF (Common Intermediate Format) Usado para estandarizar las resoluciones horizontal y vertical en píxels de secuencias de vídeo en componentes YCbCr.
Se diseñó para convertir fácilmente PAL NTSC y se propuso inicialmente en el estándard H.261.
Define una secuencia de vídeo con resolución de 352(H)x288(V) y una frecuencia de cuadro de 30000/1100 (aprox. 29.97 cuadros/seg) con codificación de color YCbCr 4:2:0.
QCIF (Quarter CIF). Significa "un cuarto de CIF" y ocupa la cuarta parte del área en CIF. La altura y el ancho se reducen a la mitad.
También se utilizan SQCIF (Sub Quarter CIF), 4CIF (4× CIF) y 16CIF (16×CIF).
666666
Formato Resolución (HxV)
SQCIF 128 × 96
QCIF 176 × 144
CIF 352 × 288
4CIF 704 × 576
16CIF 1408 × 1152
676767
Todos los formatos XCIF resultan en imágenes con relación de aspecto 4:3
Los tamaños de imágen XCIF son múltiplos de macrobloques(16x16 píxels)
Por ejemplo, una imagen CIF (352x288) corresponde a 22x18 macrobloques.
4CIF es adecuado para SDTV (TV estándard) y DVD
CIF y QCIF se usan generalmente para videoconferencia
QCIF o SQCIF son adecuados para aplicaciones multimedia móviles
6868
Original 5.03 x 3 MB
2592 x 1944 pixels
6969
640 x 480 píxels
307 x 3 KB
7070
320 x 240 píxels
76.8 x 3 KB
7171
160 x 120 píxels
20.4 x 3 kB
727272
Formatos de computadora
73
Wavelets: Electroencefalograma de una persona normal
74
Wavelets: Electroencefalograma de un paciente con Alzheimer