estimacion borrosa de la distancia camara-objeto …...procesar una gran cantidad de datos,...

7
ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO SOBRE IMAGEN VISUAL R. López, M. C. García-Alegre Instituto de Automática Industrial (IAI) Consejo Superior de Investigaciones Científicas (CSIC) 28500 Arganda Madrid. {rlopez, [email protected]) Matilde Santos Facultad de Informática, Universidad Complutense de Madrid [email protected] Resumen En este trabajo se presenta un método de estimación de distancia sobre imagen visual basado en lógica borrosa que utiliza información de contexto. Se estima la distancia a la estructura natural que se va a analizar a partir de un conjunto de descriptores obtenidos del histograma que presenta la imagen en tres regiones y de la información de contexto. El método propuesto se ha aplicado en la estimación de la profundidad a la que se encuentra la primera fila de olivos en campo respecto a la cámara, para su utilización futura en algoritmos de segmentación de imagen. Palabras Clave: Visión artificial, sistemas borrosos, histogramas, escenarios naturales. 1 INTRODUCCIÓN La visión es uno de los mecanismos sensoriales de percepción más importantes en el ser humano, razón por la cual la percepción visual mediante sistemas de visión artificial es fundamental en la automatización de sistemas. El tratamiento inteligente de imágenes digitales constituye un tema de gran interés en el desarrollo de mecanismos de percepción para sistemas autónomos [7] La detección de objetos y la extracción de regiones de interés constituyen uno de los retos de los sistemas de visión artificial para aplicaciones industriales, donde el tiempo real es un requisito indispensable. La dificultad de este tipo de tratamiento radica en escoger el umbral adecuado T que permita diferenciar el fondo, de los objetos de interés, pues en muchos casos la elección del umbral óptimo es incierto y sobre todo en el caso de imágenes complejas como las imágenes de exterior, sujetas continuamente a cambios de iluminación y que constituyen sistemas complejos en los que no hay un modelo cuantitativo que describa el proceso. Ahora bien, es posible formular un modelo cualitativo basado en la heurística, que embebe el razonamiento inteligente realizado por un humano en la toma de decisiones, manejando información imprecisa [5] y [6]. En un entorno natural la separación entre estructura de interés y el resto de la imagen depende mucho de la información de contexto relativa al escenario. Por otra parte, en visión cada vez está más reconocido el hecho de que la información contextual es necesaria para una extracción fiable de regiones y objetos en la imagen [1] y [4]. Este problema surge en el guiado de un vehículo agrícola mediante estructuras naturales parametrizables. Así, en un entorno como el de un campo de olivos, la detección visual de olivos en imágenes captadas por una cámara CCD proporciona información sobre los obstáculos más representativos, y permite al robot optimizar las estrategias de actuación para el guiado automático. A la hora de abordar el problema, se han de tener en cuenta varios factores: en primer lugar el proceso debe dar una respuesta en tiempo real del robot. En segundo lugar el proceso ha de ser lo más independiente posible de cambios que se producen en la componente cromática del color así como en la intensidad. Otro factor que se tiene que tener en cuenta son los efectos de las sombras, así como las condiciones climáticas. El trabajo se estructura en cuatro partes: en la primera parte, que contiene dos secciones, se realiza una introducción tanto al proceso de binarización de imágen digital con el objetivo de extraer regiones de interés como a la lógica borrosa. Posteriormente se describe el proceso desarrollado para estimar la posición relativa en la que se encuentra el robot respecto de los olivos, utilizando características del histograma correspondiente al plano G de la imagen RGB captada por una cámara CCD, donde un sistema

Upload: others

Post on 09-Apr-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO …...procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si

ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO SOBRE IMAGEN VISUAL

R. López, M. C. García-Alegre Instituto de Automática Industrial (IAI)

Consejo Superior de Investigaciones Científicas (CSIC) 28500 Arganda Madrid. {rlopez, [email protected])

Matilde Santos

Facultad de Informática, Universidad Complutense de Madrid [email protected]

Resumen En este trabajo se presenta un método de estimación de distancia sobre imagen visual basado en lógica borrosa que utiliza información de contexto. Se estima la distancia a la estructura natural que se va a analizar a partir de un conjunto de descriptores obtenidos del histograma que presenta la imagen en tres regiones y de la información de contexto. El método propuesto se ha aplicado en la estimación de la profundidad a la que se encuentra la primera fila de olivos en campo respecto a la cámara, para su utilización futura en algoritmos de segmentación de imagen. Palabras Clave: Visión artificial, sistemas borrosos, histogramas, escenarios naturales. 1 INTRODUCCIÓN La visión es uno de los mecanismos sensoriales de percepción más importantes en el ser humano, razón por la cual la percepción visual mediante sistemas de visión artificial es fundamental en la automatización de sistemas. El tratamiento inteligente de imágenes digitales constituye un tema de gran interés en el desarrollo de mecanismos de percepción para sistemas autónomos [7] La detección de objetos y la extracción de regiones de interés constituyen uno de los retos de los sistemas de visión artificial para aplicaciones industriales, donde el tiempo real es un requisito indispensable. La dificultad de este tipo de tratamiento radica en escoger el umbral adecuado T que permita diferenciar el fondo, de los objetos de interés, pues en muchos casos la elección del umbral óptimo es incierto y sobre todo en el caso de imágenes complejas como las imágenes de exterior, sujetas continuamente a cambios de iluminación y que

constituyen sistemas complejos en los que no hay un modelo cuantitativo que describa el proceso. Ahora bien, es posible formular un modelo cualitativo basado en la heurística, que embebe el razonamiento inteligente realizado por un humano en la toma de decisiones, manejando información imprecisa [5] y [6]. En un entorno natural la separación entre estructura de interés y el resto de la imagen depende mucho de la información de contexto relativa al escenario. Por otra parte, en visión cada vez está más reconocido el hecho de que la información contextual es necesaria para una extracción fiable de regiones y objetos en la imagen [1] y [4]. Este problema surge en el guiado de un vehículo agrícola mediante estructuras naturales parametrizables. Así, en un entorno como el de un campo de olivos, la detección visual de olivos en imágenes captadas por una cámara CCD proporciona información sobre los obstáculos más representativos, y permite al robot optimizar las estrategias de actuación para el guiado automático. A la hora de abordar el problema, se han de tener en cuenta varios factores: en primer lugar el proceso debe dar una respuesta en tiempo real del robot. En segundo lugar el proceso ha de ser lo más independiente posible de cambios que se producen en la componente cromática del color así como en la intensidad. Otro factor que se tiene que tener en cuenta son los efectos de las sombras, así como las condiciones climáticas. El trabajo se estructura en cuatro partes: en la primera parte, que contiene dos secciones, se realiza una introducción tanto al proceso de binarización de imágen digital con el objetivo de extraer regiones de interés como a la lógica borrosa. Posteriormente se describe el proceso desarrollado para estimar la posición relativa en la que se encuentra el robot respecto de los olivos, utilizando características del histograma correspondiente al plano G de la imagen RGB captada por una cámara CCD, donde un sistema

Page 2: ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO …...procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si

de control borroso realiza la estimación de la distancia relativa cámara-objeto de interés. Finalmente se presentan los resultados experimentales obtenidos en imágenes de campo reales, y termina el trabajo con las conclusiones. 2 BINARIZACIÓN DE IMÁGENES La utilización de umbrales para la detección de objetos, sobre todo en aplicaciones que requieren procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si suponemos que tenemos el histograma de intensidad de la figura 1 para una determinada imagen f(x, y) compuesta por objetos claros sobre fondo oscuro, teniendo los píxeles del objeto y del entorno intensidades agrupadas en dos tonos dominantes, una forma sencilla de aislar los objetos del entorno es seleccionar un nivel de intensidad T que separe los dos tonos de intensidad. De esta forma, un píxel (x, y) para el cual f(x, y) > T, será un píxel del objeto; mientras que en caso contrario será un punto del entorno.

Figura 1: Histograma de intensidad de una imagen digital En general, se puede considerar que la fijación del umbral consiste en realizar una serie de pruebas con respecto a una función T, de forma que:

)],(),,(,,[ yxfyxpyxTT = (1)

Donde f(x, y) es la intensidad en el punto (x, y) y p(x, y) es alguna propiedad local del punto, como por ejemplo la intensidad media de un entorno de vecindad centrado en (x, y). Se creará una imagen binaria g(x, y), definiendo:

≤>

=Tyxfsi

Tyxfsiyxg

),(1

),(0),( (2)

Cuando T depende sólo de f(x, y), el umbral se llama global. Si T depende tanto de f(x, y) como de p(x, y), entonces el umbral se llama local. Si T depende de las coordenadas espaciales x e y, se denomina umbral dinámico [7]. 3 SISTEMA DE CONTROL BORROSO El siguiente diagrama de bloques, muestra los componentes característicos de un controlador borroso [2] y [3]:

Figura 2: Diagrama de bloques de un controlador borroso. Preproceso La función de este bloque es preparar y acondicionar las medidas antes de que entren en el controlador. Ejemplos de preproceso, son: la normalización de los datos de entrada, filtrado de la señal para la eliminación de ruido, diferenciación o integración de la señal,… Fuzzyficación Convierte cada dato de entrada en grados de pertenencia mediante las funciones de pertenencia de los términos lingüísticos. Tiene que haber un grado de pertenencia por cada término lingüístico.

Fuzyficación

Base de Conocimiento

Motor de Inferencia

Defuzyficación

Postproceso

Preproceso

Page 3: ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO …...procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si

Base de conocimiento Son un conjunto de reglas del tipo IF-THEN que asocian conjuntos borrosos de entrada con conjuntos borrosos de salida Motor de inferencia El objetivo de esta parte del controlador y que viene a representar el núcleo del sistema, es el de determinar los valores de las funciones de pertenencia de la salida teniendo en cuenta el conjunto de reglas de la base de conocimiento. Se diferencian tres procesos:

Agregación Activación Acumulación

Agregación. Operación por la cual se calcula el peso αk de la condición de la regla k-ésima. Es decir, si tenemos una regla cuyo antecedente es a and b y los valores de las funciones de pertenencia son µa y µb, entonces la agregación consiste en la combinación µa and µb. Activación. Consiste en la deducción de la conclusión de una regla. El operador que se utiliza para calcular la conclusión (operador de actuación) viene a ser el min o producto (*) . Acumulación. Todas conclusiones activadas son posteriormente acumuladas, utilizando el operador max. Después se realiza la suma acumulada (3) para generar la salida:

nn sss ∗++∗+∗ ααα ...2211 (3)

En el caso de áreas que se solapen, la suma acumulada sólo se tiene en cuenta una sola vez. Defuzzyficación Proceso por el cual se transforma el conjunto borroso resultante en un único número que ha de ser enviado al proceso como señal de control. Es decir, el conjunto borroso es defuzzyficado en una señal de control clásica. Existen varios métodos de defuzzyficación: centroide, método del centro de gravedad para singletones, bisectriz del área, “mean of maxima” (MOM), “leftmost maximum (LM) and rightmost maximum (RM)”. Posprocesado Consiste en el escalado de la señal neta de salida del sistema de control borroso.

4 ESTIMACION BORROSA DE LA DISTANCIA RELATIVA CÁMARA-OBJETO En una primera fase lo que se ha realizado es escoger una muestra representativa de imágenes de olivos RGB de resolución 1368x1712 píxeles/canal y se han analizado de la siguiente manera: se ha dividido cada imagen en tres sectores horizontales de manera que vienen a representar las partes de arriba, en medio y abajo de la imagen. Se han analizado únicamente los histogramas de la componente G del tercio superior de las imágenes (ver figura 3, histograma marcado en rojo) para tres situaciones diferentes “Lejos”, “Medio” y “Cerca”, de forma que el histograma se ha aproximado a una suma de tres campanas de Gauss.

Figura 3: Descomposición de la imagen en tres secciones: Superior, Media, Inferior. Debajo de cada tercio de imagen se muestra el histograma de los planos de color RGB En la figura 3, se representa el histograma de intensidad utilizado para estimar la distancia relativa y se corresponde con la componente G, en el sistema de representación del color RGB. El hecho de considerar únicamente el tercio superior de la imagen en vez de toda la imagen, se debe a que presenta una mayor sensibilidad respecto a la distancia relativa que se pretende estimar. En la figura 4, se representan los histogramas para una distancia relativa grande (“Lejana”) y media (“Mediana”) considerando la imagen completa. Se observan diferencias, sobre todo en lo relativo al pico de mayor intensidad cuya altura disminuye en unas diez veces para el caso de una distancia “Mediana” respecto a una distancia “Lejana”.

Superior Media Inferior

Page 4: ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO …...procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si

Figura 4: Histogramas de intensidad para la componente G de toda la imagen para dos distancias diferentes: “Lejana” y “Mediana”. Considerándose únicamente el tercio superior de la imagen, se obtienen mayores diferencias en el histograma respecto a la distancia relativa, tal y como se observa en la figura 5.

Figura 5: Histogramas de intensidad para la componente G del tercio superior de la imagen y para dos distancias diferentes: “Lejana” y “Mediana”. Por otra parte la utilización del plano G para obtener los histogramas no es determinante y se podrían haber utilizado cualquiera de las otras dos componentes RGB, pues se obtienen histogramas cualitativamente similares. Tras analizar varias imágenes (6 en total con resolución 1368x1712 píxeles, ver el apartado 5 de resultados) se han encontrado una serie de relaciones cualitativas que se van a utilizar posteriormente para diseñar el sistema borroso que estimará la posición relativa y que constituye el conocimiento que es introducido a priori por un experto, según la literatura. Entre estas relaciones cualitativas, se ha encontrado por ejemplo que en la situación “Lejos” aparece un pico muy dominante de gran intensidad

que se encuentra asociado con el cielo que rellena prácticamente todo el tercio superior de la imagen. Es decir, el pico de mayor intensidad contribuye prácticamente con todos los píxeles. En la posición media, lo que se ha observado es que el pico de mayor intensidad (pico 1) es relativamente importante (aunque tiene una amplitud aproximadamente 10 veces menor que en el caso de “Lejos”) mientras que el pico de intensidad intermedia (pico 2) es inexistente y el pico de menor intensidad (pico 3) presenta bastante dispersión. Por último en la situación de “Cerca”, el pico 1 es pequeño (unas 100 veces de menor amplitud que en la situación de “Lejos”), los otros dos picos se fusionan en uno único de gran dispersión. Una vez se ha realizado la aproximación del histograma a una suma de tres Gaussianas, se van a utilizar como variables de entrada del sistema borroso los descriptores siguientes:

• ( )21log aa

• ( )31log aa

• ∆1 • ∆2

donde a1, a2 y a3 son las alturas de los picos de mayor intensidad, intensidad intermedia y menor intensidad y ∆1, ∆2 vienen a ser las distancias entre el pico 1 y el pico 2 y entre el pico 1 y el pico 3 respectivamente (ver figura 6). Se han elegido medidas relativas y no absolutas con el objetivo de que el sistema sea lo más independiente posible a cambios en la intensidad de la imagen.

Figura 6: Descriptores de histograma utilizados en el sistema borroso para estimar la distancia: a1, a2, a3, ∆1 y ∆2 El sistema borroso que se ha elegido es un sistema borroso en el que las variables lingüísticas de entrada son: “R1” (log(a1/a2)), “R2” (log(a1/a3)), “D1” (∆1) y “D2” (∆2), con las etiquetas lingüísticas y funciones de pertenencia que aparecen en la figura 7.

Page 5: ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO …...procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si

Figura 7: Funciones de pertenencia asociadas a variables lingüísticas de entrada al módulo1: R1, R2, D1 y D2 La variable ligüística de salida se llama “D” (distancia relativa cámara-objeto) y sus etiquetas lingüísticas y funciones de pertenencia vienen a ser las que se representan en la figura 8.

Figura 8: Etiquetas lingüísticas y funciones de pertenencia de la variable de salida: D (distancia) El conjunto de reglas de la base de conocimiento se ha implementado teniendo en cuenta el comportamiento cualitativo observado y mencionado anteriormente durante los ensayos. Este conjunto de reglas considera todos los casos posibles que se pueden dar entre las variables lingüísticas de entrada, y la de salida. Tabla 1. Tabla 1. Conjunto de reglas que constituye la base de

conocimiento del sistema borroso para estimar la distancia.

R1: IF (R1 Grande) AND (R2 Grande) THEN (D Lejana) R2: IF (R1 Normal) AND (R2 Pequeña) AND (D1 Pequeña) AND (D2 Grande) THEN (D Cercana) (0.5)

R3: IF (R1 Pequeña) AND (R2 Pequeña) AND (D1 Pequeña) AND (D2 Grande) THEN (D Mediana) (0.5) R4: IF (R2 Normal) AND (D1 Pequeña) AND (D2 Grande) THEN (D Mediana) R5: IF (R2 Grande) AND (D1 Pequeña) AND (D2 Grande) THEN (D Lejana)

R6: IF (D1 Pequeña) AND (D2 Pequeña) THEN (D Lejana)

R7: IF (R1 Grande) AND (D1 Grande) AND (D2 Pequeña) THEN (D Lejana)

R8: IF (R1 Normal) AND (D1 Grande) AND (D2 Pequeña) THEN (D Mediana)

R9: IF (R1 Pequeña) AND (R2 Pequeña) AND (D1 Grande) AND (D2 Pequeña) THEN (D Mediana)

R10: IF (R1 Pequeña) AND (R2 Normal) AND (D1 Grande) AND (D2 Pequeña) THEN (D Cercana)

R11: IF (R1 Pequeña) AND (D1 Grande) AND (D2 Grande) THEN (D Cercana)

R12: IF (R2 Pequeña) AND (D1 Grande) AND (D2 Grande) THEN (D Cercana)

R13: IF (R1 Grande) AND (R2 Normal) AND (D1 Grande) AND (D2 Grande) THEN (D Mediana)

R14: IF (R1 Normal) AND (R2 Grande) AND (D1 Grande) AND (D2 Grande) THEN (D Mediana)

R15: IF (R1 Normal) AND (R2 Normal) AND (D1 Grande) AND (D2 Grande) THEN (D Mediana)

En este conjunto de reglas el peso de cada una de ellas no es el mismo. Como se puede ver en la tabla 1, las reglas 2 y 3, tiene un menor peso (0.5) que el resto (1). Por último hay que decir que el método que se ha adoptado para los conectores and y or son el min-max, para la implicación el min, para la agregación en la inferencia el max y como método de defuzzyficzaión el del centroide.

Page 6: ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO …...procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si

5 RESULTADOS Para la parametrización de las funciones de pertenencia se han utilizado un conjunto de 6 imágenes de entrenamiento de 1368x1712 píxeles, en las diferentes distancias relativas.

El sistema borroso da resultados satisfactorios en todas las imágenes que han sido probadas (25 en total) y para diferentes condiciones climáticas (soleado y nublado). En la siguiente figura (figura 9) se recogen algunos de los resultados obtenidos

Posición “Lejana”

Posición “Mediana”

Posición “Cercana”

Figura 9: Estimación de la distancia relativa vehículo-objeto en imágenes de un campo de olivos irregular. Los resultados han sido obtenidos sobre 25 imágenes con resolución 1368x1712 píxeles. 4 CONCLUSIONES En este trabajo se ha presentado un sistema borroso para estimar de una forma cualitativa la distancia relativa que existe entre un sensor CCD y la primera fila de olivos en un campo de olivos. Esto se asemeja a disponer de un láser software de poca resolución y con un ángulo de visión máximo de unos 70º. Lógicamente no es lo mismo que un radar láser, pero este método es útil y económico cuando lo único que se pretende es obtener una idea aproximada de la profundidad a la que se encuentran los objetos de interés y no se dispone de un radar láser o de los recursos económicos necesarios para comprar un sistema de medición láser para exteriores cuyo precio en el mercado puede alcanzar con facilidad los 4000 euros. Por último, este trabajo ha surgido de la necesidad de estimar la distancia relativa a los objetos de interés (olivos) antes de comenzar a realizar una segmentación de la imagen por binarización mediante detección de umbral para separar los olivos del resto de la imagen y de esta forma detectarlos. Agradecimientos El trabajo ha sido financiado por la Comisión Interministerial de Ciencia y Tecnología (CICYT) del Ministerio de Educación y Ciencia y el Plan

Regional de Investigación Científica e Innovación Tecnológica (PRICIT) de la Comunidad Autónoma de Madrid (CAM), proyectos: CICYT-AGL2005-06180-C03-03 Extracción de conocimiento espacio temporal y visión artificial para la automatización de tratamientos localizados, CICYT- DPI-2006-14497: Integración de percepción, planificación y acción en una arquitectura cognitiva y distribuida de agentes de comportamiento y ROBOCITY2030: Robots de Servicios- PRICIT-CAM-2005. Referencias [1] A. Bosch, X. Muñoz, J. Freixenet.

Segmentation and description of natural outdoor scenes, Image and Vision Computing 25 (2007) 727–740.

[2] Jantzen Jan “Design of fuzzy controllers”,

Technical University of Denmark, Department of Automation.

[3] Jantzen Jan “Tutorial on Fuzzy Logic”,

Technical University of Denmark, Department of Automation.

[4] A.Torralba, Contextual priming for object

detection, International Journal of Computer Vision 53 (2) (2003) 169-191.

Page 7: ESTIMACION BORROSA DE LA DISTANCIA CAMARA-OBJETO …...procesar una gran cantidad de datos, constituye una de las principales técnicas de los sistemas de visión industriales. Si

[5] L. García-Pérez, M.C. García-Alegre. Dynamic threshold selection for image segmentation of natural structures based upon a performance criterion. 3ECPA-3 European Conf. On Precision Agriculture, Montpellier. June, 2001. (ISBN: 2-900792-13-4).

[6] L. García-Pérez, J. Marchant, T. Hague, M.C.

García-Alegre. Fuzzy Decisión System for Threshold Selection to Cluster Cauliflower Plant Blobs from Field Visual Images. SCI2000, Orlando, pp. 23-28. July, 2000.

[7] Pajares, Gonzalo. De la Cruz, Jesús M. (2001).

“Visión por Computador”, Ed. Ra-Ma.