resumen - uah.es · resolución, y n k es un vector generalizado de ruido. asumiendo que i es...

19
1 Amplía ese reflejo y compensa la imagen, quizás podamos ver la cara del asesino. ¿Mitos de CSI? Tal vez no… Leticia Aguilar de la Red Escuela Politécnica Superior, Ingeniero de Telecomunicación Email: [email protected] Resumen En este trabajo vamos a abordar la principal problemática de cómo obtener imágenes en alta resolución (HR) a partir de imágenes de baja resolución (LR) empleando diversas técnicas matemáticas según la fuente de dichas imágenes. En caso de disponer de video, utilizaremos técnicas de block matching y de interpolación utilizando la información temporal disponible. En el caso de disponer de imágenes independientes (still images), utilizaremos una técnica de deep learning conocida como sparse-coding que utiliza subespacios vectoriales de un elevado número de dimensiones. Introducción Seguro que todos hemos visto en la televisión como el guionista aplica grandes derroches de imaginación para salvar la trama en un momento determinado. Que si un “amplía y compensa” para ver el reflejo del asesino en el brillo de la cabeza de un tornillo, estilo CSI o una ampliación de la región de un video para reconocer una cara, como hacen en Underworld. Todos sabemos que esto no es posible, pero el uso y abuso de este recurso ha llegado hasta tal punto que en Futurama han decidido parodiarlo (ver Figura 1). Pero… ¿tienen razón? ¿Es verdad que no se puede hacer? Una imagen digital es un muestreo periódico en 2 dimensiones de la luz que se percibe, y como sabemos, al muestrear una señal, se pierde información. ¿Podemos recuperar esa información de alguna forma? La comunidad científica dice que sí, y lo han demostrado. Este proceso conocido como super resolución utiliza distintas técnicas para conseguirlo. Cuales aplicar depende de la naturaleza de esas imágenes y si estas provienen de un video o es una única imagen. Por definición, una imagen contiene únicamente información espacial, pero si disponemos de un video, podemos combinar la información espacial con la información temporal para conseguir recuperar la información perdida. La clave está

Upload: others

Post on 14-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

1

Amplía ese reflejo y compensa la imagen, quizás

podamos ver la cara del asesino. ¿Mitos de CSI?

Tal vez no…

Leticia Aguilar de la Red

Escuela Politécnica Superior, Ingeniero de Telecomunicación

Email: [email protected]

Resumen

En este trabajo vamos a abordar la principal problemática de cómo obtener imágenes

en alta resolución (HR) a partir de imágenes de baja resolución (LR) empleando

diversas técnicas matemáticas según la fuente de dichas imágenes. En caso de

disponer de video, utilizaremos técnicas de block matching y de interpolación

utilizando la información temporal disponible. En el caso de disponer de imágenes

independientes (still images), utilizaremos una técnica de deep learning conocida

como sparse-coding que utiliza subespacios vectoriales de un elevado número de

dimensiones.

Introducción

Seguro que todos hemos visto en la televisión como el guionista aplica grandes

derroches de imaginación para salvar la trama en un momento determinado. Que si un

“amplía y compensa” para ver el reflejo del asesino en el brillo de la cabeza de un

tornillo, estilo CSI o una ampliación de la región de un video para reconocer una cara,

como hacen en Underworld. Todos sabemos que esto no es posible, pero el uso y

abuso de este recurso ha llegado hasta tal punto que en Futurama han decidido

parodiarlo (ver Figura 1). Pero… ¿tienen razón? ¿Es verdad que no se puede hacer?

Una imagen digital es un muestreo periódico en 2 dimensiones de la luz que se

percibe, y como sabemos, al muestrear una señal, se pierde información. ¿Podemos

recuperar esa información de alguna forma? La comunidad científica dice que sí, y lo

han demostrado. Este proceso conocido como super resolución utiliza distintas

técnicas para conseguirlo. Cuales aplicar depende de la naturaleza de esas imágenes

y si estas provienen de un video o es una única imagen.

Por definición, una imagen contiene únicamente información espacial, pero si

disponemos de un video, podemos combinar la información espacial con la

información temporal para conseguir recuperar la información perdida. La clave está

Page 2: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

2

Figura 1: al intentar hacer un upsampling de una señal muestreada es necesario hacer una

estimación de la información que ha sido descartada en el proceso de muestreo. Esto

normalmente se lleva a cabo mediante procesos de interpolación, procesos que no consiguen

recuperar la información perdida y que por lo tanto dan lugar a imágenes ampliadas de poca

calidad.

en el muestreo que hablábamos antes: dado que un pixel es una muestra en una

posición fija, si en el siguiente frame del video hay un ligero desplazamiento a nivel de

sub-pixel, podemos usar la información recuperada por el 2º frame en el 1º, lo que nos

permitirá hacer la ampliación. Conseguir este desplazamiento no es difícil: si hablamos

de una cámara de un móvil, los pequeños temblores producidos por el pulso de la

persona que sujeta la cámara son suficientes. En el caso de una cámara fija, si esta

está en espacios abiertos, puede ser el viento el que proporcione esos movimientos.

¿Se puede aplicar super resolución cuando solo disponemos de una imagen? Es más

difícil y los resultados obtenidos son mucho más limitados que en múltiples imágenes,

pero si se puede y con cierta calidad. ¿De dónde obtenemos la información que nos

falta? ¿Estamos seguros de que esta no se encuentra presente en la propia imagen y

no hemos sido capaces de verlo? ¿Se podría usar información de otras imágenes que

no tuvieran nada que ver (como por ejemplo de flores) para reconstruir imágenes de

tráfico?

Necesidades

Por lo general, la mayoría de las aplicaciones que obtienen imágenes o vídeos de HR

suelen estar basadas en el análisis y procesamiento posterior de las imágenes

adquiridas. La mayor calidad de las imágenes de HR facilita la interpretación humana y

ayuda también a su procesado mediante técnicas de inteligencia artificial. La

resolución de la imagen determina el nivel de detalle con el que la imagen ha sido

captada, a mayor resolución, mayor será el nivel de detalle de la imagen.

Page 3: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

3

Una imagen digital está compuesta de pequeños elementos pictóricos llamados

píxeles. Pueden distinguirse distintos tipos de resolución de una imagen: la resolución

de píxeles (la cantidad de píxeles por unidad de superficie en una impresión o en una

imagen en pantalla), resolución espacial (referida al número de píxeles por unidad de

superficie de la escena de una imagen), resolución espectral, resolución temporal y

resolución radiométrica.

La resolución espacial de una imagen digital está limitada por el tipo de sensor

utilizado en la cámara digital. En la actualidad los sensores de las cámaras suelen ser

de tecnología CCD1 (charge-coupled device: dispositivo de cargas eléctricas

interconectadas) o de tecnología CMOS2 (complementary metal-oxide-semiconductor:

estructuras semiconductor-óxido-metal complementarias). Ambos sensores están

organizados en una matriz bidimensional de sensores fotoeléctricos llamados fotositos

que capturan la imagen bidimensional. En principio la resolución de las imágenes

captadas depende del número de fotositos del sensor. Un alto número de fotositos

posibilita una resolución espacial alta de los sistemas de imagen. Los sensores para

capturar la imagen deben muestrear la señal continua que les llega procedente de la

escena real. La frecuencia de muestreo determina las componentes de alta frecuencia

(detalles de la imagen) que pueden ser captadas. Esto es, a menor resolución del

sensor menor será la frecuencia de muestreo y menor será el número de componentes

de alta frecuencia que puedan ser captadas. La elección de un sensor con un número

bajo de fotositos darían lugar a imágenes de LR en las que se apreciarían efectos de

bloque (imágenes pixeladas).

Una forma de aumentar la resolución espacial de las imágenes sería aumentando el

número de píxeles a costa de disminuir el tamaño de los fotositos. Sin embargo, la

disminución del tamaño de los fotositos conlleva la disminución de la cantidad de luz

que incide sobre cada fotosito, causando el conocido ruido de disparo (shot noise).

Esto obliga a establecer un equilibrio entre el tamaño del sensor y la calidad de la

señal captada. En consecuencia, las limitaciones hardware derivadas del tamaño del

sensor restringen la resolución espacial de las imágenes que pueden ser capturadas.

Paralelamente, también los detalles de la imagen (componentes de alta frecuencia)

están limitados, entre otros factores, por la óptica, debido al emborronamiento de las

lentes (asociado con la función de dispersión puntual: point spread funtion (PSF)), el

efecto de las aberraciones de las lentes, la difracción de apertura y el

emborronamiento debido al movimiento.

La construcción de sistemas de imagen de HR con ópticas de calidad resulta

demasiado costosa. Además de las limitaciones por el costo, pueden aparecer

limitaciones adicionales propias de su aplicación, como por ejemplo, en el caso de

cámaras usadas en vídeo-vigilancia, limitaciones por la velocidad de respuesta y la

capacidad de almacenamiento. En el caso de las imágenes de satélite, las

restricciones físicas propias del satélite (como peso, condiciones extremas, etc.)

limitan el uso ópticas de calidad y de sensores de AR.

Otra forma de abordar este problema es procesando las señales de las imágenes tras

su captura sacando partido a su degradación y a costa de invertir en medios

computacionales tanto hardware como software. Estas técnicas son, específicamente,

conocidas como Super Resolución (SR).

Page 4: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

4

Campos de aplicación

Las aplicaciones de la SR se extienden prácticamente a todos los campos donde se

capturen imágenes y se quiera o se necesite mejorar su calidad. En algunos casos,

este proceso sólo persigue el aumento de la calidad perceptual, como en las

aplicaciones de fotografía o vídeo domésticos, pero en el resto de casos, el proceso de

SR podría ayudar de forma importante a otros sistemas de procesamiento de

imágenes, como podría ser el caso de los detectores de objetos o los reconocedores

ópticos de caracteres (OCR), donde una mejor calidad de la imagen del texto a

reconocer mejora de forma importante la cantidad de caracteres correctamente

reconocidos. O en seguridad, donde gracias a aplicaciones de SR se puede reconocer

una cara o recuperar la matrícula de un vehículo en películas que han sido grabadas

por una cámara de seguridad de escasa calidad o a mucha distancia. No podemos

olvidarnos de las aplicaciones médicas donde una mejor calidad de imágenes de

radiografías, ecografía o resonancia magnética puede resultar decisiva a la hora de

encontrar una malformación, una fisura, un trombo o un tumor, por citar solo algunos

ejemplos.

En la Figura 2 vemos un ejemplo claro de qué se puede conseguir con la aplicación de

técnicas de SR

Figura 2. Imagen de baja resolución transmitida por el Mars Pathfinder(a) y el resultado

obtenido por la NASA tras un proceso de SR combinando 10 imágenes de LR.

Page 5: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

5

Súper Resolución a partir de múltiples

imágenes

Para solucionar el problema de la SR se han sugeridas una variedad de

aproximaciones que se pueden englobar principalmente en tres familias: métodos

espaciales, soluciones que operan en el dominio de la frecuencia y una familia de

técnicas según las cuales la inversión a una imagen HR desconocida es realizada en

presencia de muy pocas imágenes LR y modelos propensos a errores de borrosidad.

En este trabajo nosotros nos centraremos en los métodos espaciales.

Se parte de la hipótesis básica, de que para aumentar la resolución espacial es

necesaria la existencia de varias imágenes de baja resolución de la misma escena con

pequeños desplazamientos entre ellas, típicamente referidos a desplazamientos de

subpixeles. En la figura 3 se muestra una idea intuitiva de lo anterior mediante una

rejilla de pixeles (o), seguido de pixeles (Δ y +) de otras dos imágenes con

desplazamientos de subpixel. De esta manera las imágenes (Δ) y (+) contienen

detalles de la escena no capturados por (o), que luego pueden ser fusionados para

proveer en general una escena de máxima resolución.

Figura 3. Desplazamiento de subpixel

Note que la imagen (Δ) contiene un desplazamiento exacto de un subpixel, mientras

que la imagen (+) contiene un desplazamiento de un pixel más un subpixel, a lo cual

indica que la aportación de la imagen (+) a la reconstrucción será la menor en el borde

izquierdo del marco de referencia (o). Antes de que una imagen de alta resolución I

pueda ser reconstruida, se debe especificar un modelo para el cual cada una de las k

imágenes de baja resolución gk son generadas a partir de una imagen desconocida i.

Luego concibiendo la imagen como pares o vectores (i, gk), se puede formar la

siguiente relación:

Page 6: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

6

Donde la matriz Wk modela el proceso de generación único para cada imagen de baja

resolución, y nk es un vector generalizado de ruido. Asumiendo que I es discreto, sin

solapamientos de muestreo basta incluir en Wk el movimiento relativo al marco de

referencia (típicamente los referidos a traslaciones txk y tyk y rotación Δk), el aspecto

borroso y la tasa de sub-muestreo (horizontalmente por un factor de L1 y verticalmente

por un factor L2). La figura 4 resume este proceso.

Figura 4. Proceso de LR a HR

El proceso para reconstruir la imagen HR a partir de varias en LR consta de dos

etapas: la primera, consistente en la estimación relativa del movimiento entre varios

frames ,la realizaremos mediante una versión jerárquica del método conocido como

block-matching, mientras que la segunda, de reconstrucción, ubicará la información de

las distintas imágenes en una nueva malla de mayor resolución, interpolando aquellos

puntos en los que no se haya podido recuperar ninguna información, como se puede

apreciar en la Figura 5)

Figura 5. Disposición ordenada de la información obtenida de las imágenes LR para formar la

imagen HR.

Page 7: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

7

Estimación del movimiento relativo

El algoritmo empleado se basa en generar una pirámide gaussiana (Figura 6) que nos

permita obtener una gran precisión a la hora de estimar el movimiento, hasta llegar a

un desplazamiento de 1/8 de pixel y a la vez evitar el efecto conocido como ojo de

buey o problema de la apertura (ver Figura 7) que se origina como consecuencia de

utilizar una pequeña ventana de observación en la que se puede observar cómo se

desplaza un borde, pero sin llegar a observar una esquina y como consecuencia de

ello no es posible determinar el movimiento de un objeto de forma precisa

A) B)

Figura 6: una pirámide gaussiana es una herramienta muy utilizada en visión artificial y consiste

en que a partir de la imagen original (la base) I0 se van generando los distintos niveles Ik

realizando un downsampling del nivel anterior Ik-1 obteniendo una imagen de un cuarto del

tamaño de este. El adjetivo gaussiano hace referencia a que cada etapa de downsampling

viene seguida de un desenfoque gaussiano que suaviza la imagen actuando de filtro paso bajo

2D.

Figura7: en esta figura se ilustra el problema de la apertura que da lugar a un error en la

estimación del movimiento al utilizar una ventana de observación demasiado pequeña en

relación con el objeto sujeto de la observación. En la primera fila se puede observar

(erróneamente) un desplazamiento horizontal, pero al verlo fuera de la ventana de observación

podemos apreciar que el movimiento también tiene una componente vertical.

Page 8: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

8

Reconstrucción de la imagen HR

Una vez que cada una de las k-1 imágenes LR de no referencia sean registradas

respecto a una imagen LR de referencia (estimación del movimiento relativo), los

efectos de la tasa de sub-muestreo son superados por la unión de los pixeles

registrados de baja resolución en una malla para formar la imagen de alta resolución,

como se ilustra en la Figura 5 (el marco de referencia es denotado con (o)). Como las

k-1 imágenes LR de no referencia probablemente no tengan desplazamientos exactos

de n/L1 y m/L2 horizontal y vertical (con n y m ∈ ℝ), la malla HR terminará con la

mayoría de los pixeles LR cayendo entre las posiciones de los pixeles de HR. Así, la

interpolación de los pixeles HR no asignados será necesaria. Esto es representado en

el tercer marco de la Figura 5 donde el residuo de los pixeles HR está dado por

valores interpolados. Finalmente, como los pixeles LR fueron muestreados a partir de

una imagen HR borrosa, es necesario un proceso de desenborronamiento para

restaurar una estimación clara de la imagen HR original.

Debido a que una vez colocados nos encontraremos con que para para algunos

pixeles no contamos con información en la red de alta resolución, será necesario hacer

una estimación del valor. Para ello, veremos en este trabajo dos soluciones diferentes,

interpolación bilineal y los vecinos más cercanos ponderados (weighted nearest

neighbors).

Interpolación bilineal

La interpolación bilineal es una extensión de interpolación lineal para dos dimensiones.

Para interpolar un punto dado en la red de HR, se usa el píxel más cercano LR, junto

con sus tres vecinos de la misma imagen LR. Los cuatro píxeles LR son los vértices de

un cuadrado, con el punto que se interpola ubicado dentro de la plaza. Esto se refleja

en la Figura 8.

Figura 8. Imagen 1 se corresponde con X; imagen 2 puntos; imagen 3 triángulos, imagen 4

diamantes

Page 9: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

9

En la Figura 8, queremos interpolar el punto dirigido por una flecha. Con el fin de

hacerlo, buscamos el píxel más cercano. En el ejemplo, se corresponde con un píxel

de la imagen 4 (de diamantes en la Figura 8). Entonces, vamos a utilizar los próximos

3 píxeles más cercanos de la misma imagen. Con estos valores, se utiliza la ecuación

siguiente (véase Figura 9) y se obtiene el valor del píxel.

Figura 9. Interpolación Bilineal

Interpolación ponderada del vecino más cercano

Un modelo mejor para interpolar los valores sería el uso de la información de los

píxeles cercanos de cualquier imagen. Esto se corresponde con la interpolación del

vecino más cercano ponderado.

Se da diferentes pesos dependiendo de la distancia de los píxeles desde el píxel que

podemos calcular su valor. Con el fin de hacer esto, se utilizará la siguiente ecuación:

El número del vecino puede ser elegido. En la Figura 10 se expone la metodología

utilizada con tres vecinos. El peso del píxel de la Figura 10 será más alto que los

píxeles de las imágenes de dos y tres.

Page 10: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

10

Figura 10. La imagen 1 se corresponde con X, la imagen 2 con puntos, la imagen 3 con

triángulos y la imagen 4 con diamantes.

Resultados obtenidos

Resultados cuantitativos

Para medir la calidad de los algoritmos de SR se utiliza el PSNR (Pico de la relación

señal a ruido).

Con

En la tabla siguiente (Tabla 1) se observa como la weighted nearest neighbor da

mejores resultados que la interpolación bilineal, ya que, a mayor PSNR mejor será la

reconstrucción realizada.

Page 11: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

11

Tabla 1. PSNR frente al número de imágenes con un factor de up-sampling de 2.

Resultados cualitativos

Para obtener los resultados cualitativos se ha utilizado un teléfono móvil grabando en

modo video, que debido a las pequeñas vibraciones producidas por el pulso del

observador, ha generado los pequeños desplazamientos entre frames necesarios para

generar la imagen HR.

Ejemplo 1: cartel indicador de calle

Figura 11: esta imagen muestra cartel con el nombre de la calle a la que pertenece y el cual es

imposible de leer dadas las condiciones de resolución y calidad de esta imagen.

Page 12: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

12

A) B)

Figura 12: en A) se muestra un recorte de la Figura 11 ampliado mediante técnicas

tradicionales de zoom, como se puede ver, el nombre de la calle sigue siendo imposible de

entender. En el caso de B) se muestra el resultado del algoritmo de super resolución, en este

caso, ya si que se puede leer que el nombre de la calle es la Via S. Simone.

Ejemplo 2: matricula de coche.

Figura 13: en esta imagen se muestra un coche cuya matrícula es imposible de distinguir

debido a la distancia y a la calidad de la imagen.

Page 13: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

13

Figura 14: imagen ampliada usando técnicas de zoom tradicionales.

Figura 15: imagen SR utilizando una pirámide gaussiana con 4 vecinos utilizando el método de

interpolación weighted nearest neighbor.

Al igual que en el ejemplo anterior, se observa una mejora considerable al aplicar SR a

la matrícula del coche, ya que pasamos de no apreciar ningún dígito de la misma, a

ver los mismos con una claridad suficiente, ya que una vez aplicado SR, es posible

distinguir el identificador del vehículo.

Page 14: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

14

Súper resolución a partir de una única imagen

El problema de aplicar SR a una única imagen consiste en que dada una imagen Y de

baja resolución, debemos recuperar una imagen de alta resolución X de la misma

escena. En este trabajo veremos dos soluciones a este problema:

1. Que exige que la X recuperada debe ser coherente con la Y de entrada con

respecto al modelo de observación de la imagen.

2. Sparse coding, asume que los parches de alta resolución pueden ser

representados por un diccionario elegido apropiadamente, y que sus

representaciones dispersas pueden ser recuperadas a partir de la observación

de baja resolución.

1. El problema de la SR puede verse como un problema inverso (Figura 16):

Donde,

Yk - imagen LR

X - imagen HR

D - Matriz de submuestreo

Bk - Matriz de emborronamiento

Mk - Matriz de warping (desplazamiento relativo)

nk - ruido aleatorio

Figura 16. Esquema típico de formación de una imagen de baja resolución a partir de una de

HR.

Así, sabiendo que los datos de que disponemos realmente son los de la imagen en

baja resolución, podemos realizar una estimación de la imagen en alta resolución que,

tras pasar por el sistema descrito, produjo las mismas.

Page 15: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

15

Este procedimiento presenta el problema de que hay infinitas imágenes de HR que

satisfacen esta restricción, por lo que se desarrolla el siguiente método que obtiene la

mejor la solución posible.

2. En este caso los conjuntos de entrenamiento son modelados como dos

diccionarios (uno para los patrones de LR y el otro los patrones de HR) y ambos con el

mismo número de patrones. Este algoritmo busca, para cada patrón obtenido de la

imagen observada, el conjunto de patrones vecinos en el conjunto de patrones

ejemplo de LR, que minimicen la norma L1, más robusta al ruido que la norma L2

(distancia euclídea) que se ha usado en anteriores trabajos.

Descripción detallada del algoritmo que se implementa en [2]

1. Entrada: Diccionarios entrenados Dh y Dl, y la imagen de baja resolución Y.

2. Por cada parche de 3x3 y, perteneciente a Y, tomado a partir de la esquina superior

izquierda con 1 superposición de píxeles en cada dirección,

Calculamos la media de valores de píxel m del parche y. Resolvemos el problema de optimización siguiente:

Donde:

Siendo en la mayoría de los casos β=1, y F y P se obtiene de resolver el siguiente

problema de optimización:

donde la matriz P extrae la región de superposición entre el parche de destino actual y

la imagen de alta resolución reconstruida previamente, y w contiene los valores de la

imagen previamente reconstruida de alta resolución en la superposición.

Generar el parche de alta resolución x, tal que:

Y ponemos el parche generado x+m en una imagen de alta resolución X0.

3. Fin.

Page 16: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

16

4. Usando la técnica del gradiente descendente, encontrar la imagen más cercana a

X0 que satisface la restricción de reconstrucción:

5. Salida: Imagen X* de alta resolución.

Resultados

En las Figuras 17, 18 y 19 podemos apreciar que se consigue gracias al método

explicado. De izq. a dcha., imagen original en baja resolución, interpolación bicubica y

el método indicado en [2].

Figura 17.

Figura 18.

Figura 19.

Page 17: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

17

En todas las imágenes apreciamos la mejora visual que obtenemos entre la

interpolación bicubica (interpolación de mejor calidad que se usa por defecto) y el

método implementado en [2], que aplica SR cuando disponemos solo de una única

imagen.

Evaluando los resultados cuantitativos mediante el Error Cuadrático Medio (RMSE)

obtenemos los siguientes resultados:

Figura 17 Figura 18 Figura 19

Interpolación bicúbica

6.843 4.066 12.724

Método indicado en [2]

6.525 3.761 11.817

El Error Cuadrático Medio (RMSE o RMSD) es el promedio espacial de las diferencias

al cuadrado entre la predicción y el análisis del modelo o de las observaciones de

verificación, validas para el mismo instante.

Cuanto menor sea el valor del RMSE obtenido mejor será nuestro modelo. Por tanto,

el algoritmo implementado mejora los resultados obtenidos por la interpolación

bicúbica.

Futuras líneas de trabajo

Tradicionalmente se ha venido utilizando el PSNR para cuantificar el rendimiento de la

súper resolución. No obstante, consideramos que no es la mejor forma de cuantificar

este proceso, dado que no tiene en cuenta el factor humano. Se dan casos que

utilizando un algoritmo A, la imagen resultante IA obtiene un PSNRA más alto que

usando un algoritmo B, sin embargo, la imagen IB se aprecia mejor, por algo tan

sencillo como que los bordes estén más acentuados y por lo tanto la imagen parezca

mejor enfocada. ¿Es por lo tanto el PSNR una mala medida? Creemos que no, ya que

mide la fidelidad de la imagen ampliada con la imagen original, sin embargo sería

Page 18: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

18

interesante complementarlo con un análisis perceptual, que permita modelar que

algoritmo daría un mejor resultado desde el punto de vista humano. Para ello, y como

se viene comentando en algunos foros de debate, creemos que debería usarse el

método SSIM (Structural SIMilarity), dado que es más consistente con la percepción

del ojo humano.

Donde,

o la media de ;

o la media de ;

o la varianza de ;

o la varianza de ;

o la covarianza de e ;

o , son dos variables que establecen la división con un tenue

denominador

o el rango dinámico del valor de los pixeles (típicamente es );

o y por defecto

Naturalmente, todo esto depende del uso que se vaya a dar a estas imágenes

reconstruidas. En el caso de utilizar las imágenes en el contexto de una investigación

policial, será más interesante aplicar un modelo perceptual para la recuperación con el

objetivo de que se puedan reconocer mejor las caras de los implicados. Sin embargo,

si dichas imágenes van a conformar la entrada de un sistema de visión por

computador, interesará ser lo más fiel posible a la imagen inicial.

Por norma general, y recuperando las aplicaciones citadas anteriormente, auguramos

que el análisis perceptual va a ser el que más beneficie a la expansión de estas

técnica, lo que es consistente con otros avances tecnológicos ocurridos con

anterioridad que han tenido una gran explosión como consecuencia de utilizar este tipo

de análisis y modelos, como es el caso del formato de compresión MPEG LAYER 3

más comúnmente conocido como MP3.

Page 19: Resumen - uah.es · resolución, y n k es un vector generalizado de ruido. Asumiendo que I es discreto, sin solapamientos de muestreo basta incluir en W k el movimiento relativo al

19

Bibliografía

[1] Reconstrucción de imágenes de alta resolución mediante técnicas de super

resolución en el dominio espacial.

Eduardo García Martin

[2] Image Super-Resolution via Sparse Representation

Jianchao Yang,Student Member, IEEE,John Wright,Student Member, IEEEThomas

Huang,Life Fellow, IEEE and Yi Ma, Senior Member, IEEE

[3] Artículo: Superresolución

Ing. Fausto Morales

[4] http://en.wikipedia.org/wiki/Root-mean-square_deviation

[5] Bagon S. Glasner, D. and Irani.M. Super-resolution from a single image.

In Proc. of the 12th IEEE International Conference on Computer Vision, (ICCV), 2009.

[6] Algoritmos para superresolución en imágenes y vídeo

D. Francisco Comeztagle Sepulveda

[7] http://en.wikipedia.org/wiki/Superresolution

[8] http://en.wikipedia.org/wiki/Structural_similarity