reconocimiento de torres de alta tensión mediante...

Universidad Politécnica de Madrid

Escuela Técnica Superior de Ingenieros Industriales

Grado en Ingeniería en Tecnologías Industriales

Especialidad Automática y Electrónica

Trabajo de Fin de Grado:

Reconocimiento de torres de alta tensión

mediante algoritmos de visión por computador e

inteligencia artificial:

LR, SVM, CNN

Sergio Cordón Luis

Tutores:

Pascual CampoyCarlos Sampedro

Agradecimientos

Quiero agradecer, en primer lugar a Cristina, que me ha acompañado du-rante estos años, por sus ánimos, apoyo y por estar siempre que la necesito.

También quiero agradecer a mi familia, a mis compañeros de carrera yal resto de mis amigos por su apoyo incondicional.

Además, quiero agradecer el gran trabajo de mi tutor Carlos, que ha ejerci-do de mentor para el aprendizaje del mundo de la visión por computadory la inteligencia artificial. Y ha demostrado una gran paciencia para ense-ñarme nuevos conceptos y resolverme dudas.

Por último, quiero agradecer a Pascual Campoy la oportunidad de rea-lizar este trabajo y de aprender tanto de gente tan brillante.

3

Resumen

Introducción

La demanda eléctrica se ha duplicado en los últimos 20 años y se esperaque se vuelva a duplicar en los siguientes 20. En este contexto, la distri-bución de la energía, toma un papel protagonista. Esta distribución se ha-ce mayoritariamente a través de lineas y torres eléctricas. Los fallos en lasmismas han demostrado ser en ocasiones devastadores, por lo que el man-tenimiento y la prevención son fundamentales. Actualmente, este tipo detareas son llevadas a cabo por expertos que invierten ingentes cantidadesde tiempo revisando horas de vídeo capturado durante las inspecciones.El desarrollo de técnicas de reconocimiento automático, tanto de las to-rres como de los defectos, ayudarían a reducir tiempo de procesamiento yrecursos humanos.

Alcance

El objetivo de este trabajo es el desarrollo de algoritmos basados en téc-nicas de inteligencia artificial para el reconocimiento de torres eléctricasen secuencias de vídeo capturadas por drones o helicóptero, como eta-pa previa al diagnóstico de defectos en los componentes de las líneas detransmisión eléctrica .Para acometer este propósito, se han estudiado las técnicas actuales conmayor relevancia en visión por computador, inteligencia artificial, clasifi-cación y clustering. En base a ello, se han desarrollado algoritmos y mode-los para la detección de las torres.Adicionalmente, se ha realizado un estudio de los modelos creados y sehan seleccionado las mejores soluciones tanto en precisión como en efi-ciencia.

5

6 RESUMEN

Por último, se han estudiado las posibles lineas futuras y mejoras del ac-tual trabajo.

Estructura de la solución propuesta

En la solución propuesta se ha desarrollado un algoritmo que consigueidentificar las torres eléctricas en un vídeo siguiendo los bloques que semuestran a continuación:

Generación de candidatos: dada una imagen de entrada, este módu-lo es el encargado de “escanear” la imagen tomando regiones de in-terés (ROIs) de la misma, que serán la entrada al clasificador basadoen aprendizaje automático.

Pre-procesamiento: las imágenes generadas se transforman a escalade grises y se re-dimensionan adecuadamente.

Clasificación: Para cada ROI (región de interés) procedente de la eta-pa anterior, se aplica un clasificador previamente entrenado, que seráel encargado de clasificar el ROI actual en las clases fondo o torre.

Postprocesamiento: Todas las ventanas clasificadas como positivaspor el bloque anterior se filtran para generar el resultado final.

Figura 1: Diagrama de los bloques utilizados para la detección de torres

Los modelos de clasificación propuestos son de tres tipos: regresión lo-gística, máquinas de vectores de soporte (SVM) y redes neuronales con-volucionales. Para el procesamiento en los dos primeros tipos se usará eldescriptor HOG.

RESUMEN 7

La estructura del trabajo, para el desarrollo óptimo del algoritmo y el en-trenamiento de los modelos se puede dividir en cuatro etapas:

La primera etapa es el procesamiento de la información. En esta eta-pa, se seleccionarán y etiquetarán las imágenes obtenidas de vídeos.Además se transformará en espacio de color y se crearán nuevas imá-genes a través de algoritmos de data augmentation. Por otro lado, seseparará la información en grupos para el entrenamiento, validacióny test.

La segunda etapa, reúne las técnicas de entrenamiento y validacióncruzada, que se han realizado usando una división en k-folds. De estepaso se extraen las métricas necesarias para comparar unos algorit-mos con otros.

En la tercera etapa, se entrenan los modelos y se los analiza paraconocer el error y precisiones finales.

En la última etapa se prueban estos modelos usando vídeo real dereconocimiento de torres. En esta etapa es necesario la creación decandidatos a través del algoritmo de sliding window y la unión delos candidatos que resulten positivos con técnicas de clustering, paraello, se ha usado algoritmos como k-means y el parámetro intersectionover union.

Experimentación y resultados

Se han diseñado distintos modelos variando los hiperparámetros de la re-gresión logística y los SVM, así como distintas arquitecturas de redes neu-ronales.Se han comparado estos modelos para llegar hasta las mejores combina-ciones de los parámetros y se han obtenido precisiones por encima del98 %.

8 RESUMEN

Conclusiones y lineas futuras

El rendimiento de todos los modelos ha sido muy satisfactorio, hasta elmodelo más sencillo, la regresión logística ha obtenido 97,98 % de preci-sión. Pero el modelo óptimo de los usados ha sido el de redes neuronalesconvolucionales, con una precisión del 99.03 %.Como posibles mejoras se plantea experimentar con algoritmos que dis-minuyan el tiempo en la generación de candidatos, como el uso de traking.En cuanto a las lineas futuras, este trabajo está pensado como una partede un proyecto a mayor escala de detección de defectos en torres eléc-tricas. Por ello, más adelante, se podría continuar creando algoritmos dedetección de partes de las torres y detección de defectos. Otra de las líneasfuturas podría ser la implementación en UAV y comprobar la eficacia delconjunto en condiciones reales.

Palabras clave

Torres eléctricas, machine learning, deep learning, inteligencia artificial,detección, clasificación, redes neuronales, HOG, SVM.

Códigos UNESCO

120304 INTELIGENCIA ARTIFICIAL120601 CONSTRUCCIÓN DE ALGORITMOS120903 ANÁLISIS DE DATOS120905 ANÁLISIS Y DISEÑO DE EXPERIMENTOS330104 AERONAVES330423 LENGUAJES DE PROGRAMACIÓN330521 CONSTRUCCIONES METÁLICAS330609 TRANSMISIÓN Y DISTRIBUCIÓN331101 TECNOLOGÍA DE LA AUTOMATIZACIÓN332204 TRANSMISIÓN DE ENERGÍA

Índice general

Agradecimientos 3Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Lista de figuras 11

Lista de tablas 13

1. Introducción 11.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Solución propuesta . . . . . . . . . . . . . . . . . . . . . . . . 11.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Estado del arte 52.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Fundamentos teóricos 113.1. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1.1. Sliding Window . . . . . . . . . . . . . . . . . . . . . . 123.1.2. Piramidal Sliding Window . . . . . . . . . . . . . . . 13

3.2. Extracción de características . . . . . . . . . . . . . . . . . . . 153.2.1. HOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.3. Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3.1. Regresión Logística . . . . . . . . . . . . . . . . . . . . 183.3.2. SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.3.3. Redes neuronales . . . . . . . . . . . . . . . . . . . . . 23

4. Metodología 294.1. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1.1. Obtención de fotografías . . . . . . . . . . . . . . . . . 294.1.2. Selección de imágenes . . . . . . . . . . . . . . . . . . 304.1.3. Preprocesamiento de imágenes . . . . . . . . . . . . . 30

9

10 ÍNDICE GENERAL

4.1.4. Extracción de características + Clasificación . . . . . . 324.2. Comparación de modelos . . . . . . . . . . . . . . . . . . . . 35

4.2.1. Validación cruzada usando K-Fold . . . . . . . . . . . 354.3. Aplicación del modelo seleccionado . . . . . . . . . . . . . . 36

4.3.1. Generación de candidatos. Sliding Window . . . . . . 364.3.2. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 37

5. Experimentación y resultados 395.1. Matriz de confusión y métricas . . . . . . . . . . . . . . . . . 395.2. Proceso de entrenamiento y testeo de los modelos . . . . . . 405.3. Resultados según los modelos . . . . . . . . . . . . . . . . . . 41

5.3.1. Regresión Logística . . . . . . . . . . . . . . . . . . . . 415.3.2. SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.3.3. Redes neuronales . . . . . . . . . . . . . . . . . . . . . 485.3.4. Postprocesamiento . . . . . . . . . . . . . . . . . . . . 52

6. Conclusiones y lineas futuras 556.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.2. Lineas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.3. Valoración de responsabilidad legal, ética y profesional . . . 56

7. Planificación temporal y presupuesto 597.1. Planificación temporal. Diagrama de Gantt . . . . . . . . . . 597.2. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Índice de figuras

1. Diagrama de los bloques utilizados para la detección de torres 6

1.1. Detección de torre . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1. Demanda global de electricidad . . . . . . . . . . . . . . . . . 62.2. Inspección de torres y líneas mediante grúa . . . . . . . . . . 72.3. Robot autónomo modular . . . . . . . . . . . . . . . . . . . . 82.4. Interfaz del software PoLIS . . . . . . . . . . . . . . . . . . . 9

3.1. Funcionamiento de la ventana deslizante . . . . . . . . . . . 133.2. Transformación a gradientes . . . . . . . . . . . . . . . . . . . 163.3. Histograma de gradientes de la celda roja . . . . . . . . . . . 173.5. HOG de la imagen inicial usando celdas de menor tamaño . 173.4. HOG de la imagen inicial . . . . . . . . . . . . . . . . . . . . 183.6. Curva logística . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.7. Máquina de soporte vectorial. La línea roja determina el hi-

perplano. La zona amarilla es el margen máximo. . . . . . . 203.8. SVM - Aumento de dimensión . . . . . . . . . . . . . . . . . 213.9. Clasificación usando RBF . . . . . . . . . . . . . . . . . . . . 223.10. Función de activación ReLU . . . . . . . . . . . . . . . . . . . 243.11. Red neuronal con una capa oculta . . . . . . . . . . . . . . . 253.12. Filtro convolucional 5× 5 . . . . . . . . . . . . . . . . . . . . 263.13. Histograma de gradientes de la celda roja . . . . . . . . . . . 27

4.1. Ejemplos de las imágenes disponibles para entrenamiento.A la izquierda un ejemplo de torre. A la derecha, un ejemplode fondo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2. Diagrama de Intersection over union . . . . . . . . . . . . . . . 374.3. Ejemplo de clustering. El cuadrado rojo es la salida final del

programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

11

12 ÍNDICE DE FIGURAS

5.1. Medias y desviaciones del accuracy para LR según el pará-metro de regularización C . . . . . . . . . . . . . . . . . . . . 42

5.2. Medias y desviaciones del precision para LR según el pará-metro de regularización C . . . . . . . . . . . . . . . . . . . . 42

5.3. Medias y desviaciones del recall para LR según el parámetrode regularización C . . . . . . . . . . . . . . . . . . . . . . . . 43

5.4. Medias y desviaciones del F1 para LR según el parámetrode regularización C . . . . . . . . . . . . . . . . . . . . . . . . 43

5.5. Matriz de confusión de LR normalizada . . . . . . . . . . . . 445.6. Matriz de confusión de SVM normalizada . . . . . . . . . . . 475.7. Valor de accuracy de la red A6 según las épocas . . . . . . . . 505.8. Valor de loss de la red A6 según las épocas . . . . . . . . . . . 505.9. Comparativa de eficiencias:tiempos de prediccion de 100

veces el dataset contra accuracy de cada modelo. . . . . . . . . 515.10. Ejemplo de clustering. No se incluye el ROI aislado . . . . . 525.11. Ejemplos de falsos positivos . . . . . . . . . . . . . . . . . . . 525.12. Ejemplo de clustering 2 . . . . . . . . . . . . . . . . . . . . . . 535.13. Ejemplo de clustering 3 . . . . . . . . . . . . . . . . . . . . . . 535.14. Ejemplo de clustering 3 . . . . . . . . . . . . . . . . . . . . . . 54

7.1. Diagrama de Gantt . . . . . . . . . . . . . . . . . . . . . . . . 60

Índice de cuadros

5.1. Comparación de accuracy para SVM . . . . . . . . . . . . . . 465.2. Comparación de recall para SVM . . . . . . . . . . . . . . . . 465.3. Comparación de F1 para SVM . . . . . . . . . . . . . . . . . . 475.4. Modelos entrenados según sus hiperparámetros del bloque

de convolución . . . . . . . . . . . . . . . . . . . . . . . . . . 495.5. Accuracy obtenido para los distintos modelos en los entre-

namientos de validación . . . . . . . . . . . . . . . . . . . . . 495.6. Accuracy y tiempos de predicción de 100 veces el dataset

según el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 51

7.1. Presupuestos TFG . . . . . . . . . . . . . . . . . . . . . . . . . 61

13

14 ÍNDICE DE CUADROS

Capítulo 1

Introducción

1.1. Motivación

Desde la invención de la electricidad, el uso de esta ha crecido de mane-ra exponencial. Actualmente, es prácticamente imposible encontrar unaactividad del día a día que no dependa de ella. La transmisión eléctricaes un proceso costoso y complicado, del que dependen incluso la vida demuchas personas en la sociedad actual. Los problemas en el suministroeléctrico son críticos, y la pérdida de una línea de transmisión puede dejarpueblos o ciudades en completa oscuridad. Por ello, es esencial el manteni-miento y la evaluación de las torres. Este proceso tiene un amplio margende mejora en cuanto a calidad y coste ya que en la actualidad es realizadopor expertos que revisan durante horas los vídeos capturados durante lasinspeccione. Pr ello, la implementación de algoritmos de inteligencia arti-ficial y visión por computador automatizar el proceso ayudando a reducirtiempos de procesamiento y recursos humanos. Por último, la incursiónde los drones en estos ámbitos ha ocasionado que se puedan aplicar nue-vas técnicas y se creen nuevas soluciones que seguro aportarán un granbeneficio a la sociedad.

1.2. Solución propuesta

Con el objetivo de automatizar la detección de torres eléctricas, se vana estudiar distintos algoritmos de aprendizaje automático que permitanencontrar, si las hay, las torres en las imágenes o vídeos suministrados al

1

2 CAPÍTULO 1. INTRODUCCIÓN

programa. En la solución propuesta se ha desarrollado un algoritmo queconsigue identificar las torres eléctricas en un vídeo siguiendo los bloquesque se muestran a continuación:

Generación de candidatos: dada una imagen de entrada, este mó-dulo es el encargado de “escanear” la imagen tomando regiones deinterés (ROIs) de la misma, que serán la entrada al clasificador basa-do en aprendizaje automático. Este proceso se llevará a cabo a travésdel algoritmo de Sliding Windowque se aplicará de dos modos:

• El modo normal: en el que se generan candidatos pasando laventana deslizante por cada imagen.

• El modo piramidal: en el que se generan candidatos adicionaleshaciendo un escalado de cada una de las imágenes y repitiendoel modo normal.

Pre-procesamiento: las imágenes generadas se transforman a escalade grises y se re-dimensionan adecuadamente.

Clasificación: Para cada ROI (región de interés) procedente de la eta-pa anterior, se aplica un clasificador previamente entrenado, que seráel encargado de clasificar el ROI actual en las clases fondo o torre. Eneste bloque se desarollarán diversos algoritmos de aprendizaje au-tomático que trabajarán en dos fases: extracción de características yclasificación. Se van a estudiar tres grandes tipos de algoritmos: re-gresión logística (LR), SVM (support vector machines) y algoritmos conredes neuronales convolucionales (CNN). En estos últimos se utiliza-rán diversos tipos de arquitecturas, tanto de la parte convolucional,de extracción de características, como de la parte “densa” en la quese consigue la clasificación.

Postprocesamiento: Todas las ventanas clasificadas como positivaspor el bloque anterior se filtran para generar el resultado final. Paraello se aplicaran algoritmos de clustering para seleccionar la verda-dera posición de la torre en función de los candidatos generados ysu clasificación.

1.3. OBJETIVOS 3

Figura 1.1: Detección de torre

1.3. Objetivos

El objetivo del trabajo es la detección de torres de alta y media tensiónpor medio de algoritmos de inteligencia artificial y machine learning. Pa-ra la consecución de esto, es necesario desgranar el objetivo principal ensubobjetivos:

Estudio del estado del arte acerca de la detección actual de torres detensión.

Estudio sobre las técnicas de visión por computador

Aprendizaje de algoritmos de machine learning

Aprendizaje de Python y librerías necesarias para poner en prácticalos algoritmos: Numpy, Keras, TensorFlow, Scikit-learn, OpenCV etc.

Desarrollo del algoritmo de lectura de imágenes a partir de vídeo eimplementación del algoritmo de Sliding window.

Uso de HOG para extracción de características para LR y SVM

Desarrollo de los modelos de LR, SVM y redes neuronales, así comoel procesamiento de imágenes para el uso en los modelos

4 CAPÍTULO 1. INTRODUCCIÓN

Entrenamiento y comparación de los modelos obtenidos, tanto enaciertos como en rendimiento durante el uso.

Implementación de los algoritmos de clustering

Montaje del conjunto en forma de vídeo.

Como objetivo secundario, hacerlo funcionar a tiempo real.

Capítulo 2

Estado del arte

2.1. Antecedentes

La demanda mundial eléctrica se ha duplicado en los últimos 20 años, yse espera que se vuelva a duplicar en los siguientes 20 [1]. La generacióny distribución de la energía es un proceso tedioso y complicado, en el quelas torres eléctricas ejercen un papel fundamental.

Las torres, se ven expuestas a gran cantidad de factores que hacen peligrarsu correcto funcionamiento, como son las precipitaciones, vientos, o la ve-getación colindante. Por lo tanto, el mantenimiento y reparación de estas,es un trabajo fundamental que cuesta grandes cantidades de dinero y es-fuerzo a las compañías eléctricas. Este trabajo se lleva a cabo generalmentede manera manual, poco automatizada. Lo habitual es que la inspecciónde las torres y líneas se realice mediante la toma de imágenes o vídeo queserán evaluadas posteriormente por un experto. Hay varias maneras derealizar este proceso. A grandes rasgos, hay dos vertientes, los vehículosque están pilotados por humanos y los que no, aunque también se siguehaciendo inspección a pie, es decir, que un grupo de expertos se mueva detorre a torre inspeccionándolas [2].

Pilotados: En primer lugar, destaca el uso de vehículos aéreos [3] [4].En general la manera tradicional de inspeccionar líneas es el uso dehelicópteros que vuelan cerca de las de las torres tomando datos, oaviones que las sobrevuelan. Este procedimiento es altamente peli-groso tanto para las personas que pilotan el aparato y como para laslíneas y torres, ya que cualquier accidente sería catastrófico. Otra vía,

5

6 CAPÍTULO 2. ESTADO DEL ARTE

Figura 2.1: Demanda global de electricidad

es el uso de brazos o grúas ancladas a un vehículo [5]. El uso de estasse ve restringido a torres de media tensión debido a la altura ya quealgunas torres alcanzan más de 150 m. Este tipo de máquinas suelenser usadas para mantenimiento correctivo, es decir, después de queocurra el problema .

No pilotados: Debido a la peligrosidad. la maniobrabilidad y el cos-te, se han desarrollado los llamados Rolling on Wire Robots (ROW)que son robots que se deslizan por las líneas, como el Explainer [6].Estos pueden ser usados tanto para la inspección como para el man-tenimiento. Mientras que son posiblemente la mejor opción para dis-tinguir defectos en las líneas, no son los más adecuados para la ins-pección de las torres. Aún así, en estos últimos años se están desa-rrollando conjuntos modulares de robots que permiten realizar dife-rentes tareas y mejorar el uso de los ROW [7]. Con este método sepueden unir módulos actuadores, de aumento de batería o módulospara transportar UAV. Esto nos permite introducir a los UAV (Un-manned Aerial Vehicules). El desarrollo de tecnológico de este tipo devehículos ha sido exponencial en estos últimos años, es por esto, quesu uso en este tipo de trabajos es cada vez mayor, ya que nos permi-ten acercarnos a las torres de manera más segura y controlada quecon los helicópteros o aviones y a un precio mucho menor.Aunque se han creado propuestas interesantes como robots tipo zep-

2.1. ANTECEDENTES 7

Figura 2.2: Inspección de torres y líneas mediante grúa

pelin [8] o robots con alas rígidas [9], los modelos que más impactotienen son los helicópteros multirrotor no tripulados, que destacansobre todo por su maniobrabilidad y estabilidad, lo que es esencialen la toma de vídeo [10].

Como se ha comentado anteriormente, la manera habitual de inspección esla recopilación de imágenes y vídeo para su posterior análisis. Para haceresta tarea más fácil, y para automatizarla se han propuesto en los últimosaños algoritmos de visión por computador en tres vertientes:

1. Detección de torres y líneas: En este primer paso se intentan diferen-ciar las torres de tensión y las líneas eléctricas del fondo [11].

2. Detección de elementos de importancia: Varios de los elementos delas torres tienden a estropearse, como son los aislamientos y los he-rrajes. Por ello es necesario inspeccionarlos especialmente. En con-secuencia, se han desarrollado algoritmos de visión por computadorque se centran específicamente en detectar cada una de las partesque componen la torre [12].

3. Detección de defectos: En conjunción con lo anterior, una vez defi-nidos los elementos que pueden estropearse, es posible desarrollaralgoritmos de visión por computador que permitan detectar estosdefectos [13].


Figura 2.3: Robot autónomo modular

Este trabajo se basa en el análisis de la primera etapa, es decir, en la detec-ción de las torres.Para la detección de las torres se siguen cuatro pasos: generación de can-didatos, descripción de la imagen, clasificación de la imagen y agrupaciónde resultados positivos.

En la bibliografía se utilizan distintas aproximaciones que combinan los al-goritmos y técnicas más comunes generando soluciones nuevas. Algunosutilizan técnicas clásicas de visión por computador como la transformadade Hough combinada con un filtro Otsu y usando el algoritmo K-meansen el espacio de Hough [14]. Otros enfoques similares son los que usan unfiltro Canny-Edge más la transformada de Hough [15]. También es comúnel uso de Support Vector Machines (SVM) después de hacer pasar la ima-gen por un descriptor como Histogram of Oriented Gradients (HOG), SpeedUp Robust Features (SURF) o Bag of Words (BoW) [16]. Otro gran grupo dealgoritmos se fundamentan en el uso de redes neuronales convoluciona-les, que hacen a la vez la extracción de las características y la clasificaciónde las imágenes entregando resultados excepcionales pero quizás con uncoste computacional más elevado [17].

Adicionalmente, se ha planteado de manera reciente el uso de HOG parala extracción de características y una red neuronal para la clasificación [18][19]. Otros grupos usan algoritmos menos comunes como la detección consemivariograma en coordenadas polares usando radar en lugar de imáge-nes tomadas con cámara [20]. También se encuentra entre lo menos común

2.1. ANTECEDENTES 9

pero novedoso el uso de enrejados, lattices, para detectar las torres [21]. Di-cho esto, el enfoque que parece más exitoso es el uso de HOG con SVM oel uso de redes neuronales con el que se ha creado el software de deteccióny clasificación de torres PoLIS [22].

Figura 2.4: Interfaz del software PoLIS

Capítulo 3

Fundamentos teóricos

Las técnicas de visión por computador son muy variadas, pero la estruc-tura de trabajo es siempre parecida. En este capítulo se van a desgranar lastécnicas que se van a usar para conseguir la detección de las torres. Tam-bién, se aportará la base teórica suficiente para entender cómo funcionanlos algoritmos que se van a desarrollar durante todo el trabajo. Las fasesque se van a acometer son las siguientes:

Pre-procesamiento

Extracción de características

Clasificación

Post-procesamiento

En la fase de pre-procesamiento, se utilizarán algoritmos para la obtenciónde imágenes y para su estandarización.Dentro de la segunda fase, la extracción de características, se explicará eldescriptor HOG, algoritmo que nos permitirá obtener la información dela imagen en un formato que los siguientes bloques puedan procesar. Porotro lado se explicarán las redes convolucionales, pero debido a la relacióncon las redes neuronales, se explicarán al final, a continuación de estas.En la tercera fase, encontramos los algoritmos de clasificación, entre losque se han elegido la regresión logística, las máquinas de soporte vecto-rial o en inglés Support Vector Machines y por último las redes neuronales.En la última fase, se utilizarán algoritmos de clustering para agrupar lasimágenes que formen parte de la misma torre.

11

12 CAPÍTULO 3. FUNDAMENTOS TEÓRICOS

3.1. Preprocesamiento

Durante la fase de procesamiento se ejecutarán distintos pasos que se ex-plicarán más adelante en el capítulo sobre Metodología. Pero de ellos, solomerece la pena entrar en detalle del algoritmo de Sliding Window (SW) oventana deslizante.

3.1.1. Sliding Window

El objetivo del algoritmo de SW es la descomposición de la imagen de en-trada (como puede ser un fotograma del vídeo) en diversas imágenes quesean candidatas para su clasificación como torres. Para ello, se deslizarásobre la imagen inicial una ventana que obtendrá una subimagen. El mo-vimiento de esta ventana por la imagen se realizará mediante el uso dedos bucles anidados: uno que mueve la imagen en horizontal y otro que lamueve en vertical. De esta manera, se consigue barrer la imagen comple-ta. El número de imágenes obtenidas por este método vendrá dado por elancho y alto de la imagen:Iw, Ih, ancho y alto de la ventana: Vw, Vh y porel paso o stride que determinará el avance de la ventana en horizontal yvertical: Sw, Sh. Entonces, el número de ventanas será:

nV,w =Iw − Vw

Sw

+ 1 (3.1)

nV,h =Ih − Vh

Sh

+ 1 (3.2)

nV = nV,w × nV,h = (Iw − Vw

Sw

+ 1)× (Ih − Vh

Sh

+ 1) (3.3)

Donde nV,w y nV,h representan el número de ventanas en horizontal y ver-tical respectivamente y nV el número total de ventanas. Con este cálculoobtenemos el número de candidatos obtenidos por cada imagen suminis-trada al algoritmo.

3.1. PREPROCESAMIENTO 13

Figura 3.1: Funcionamiento de la ventana deslizante

3.1.2. Piramidal Sliding Window

Un problema que se presenta con el método anterior es que los objetos quequeramos identificar, en este caso las torres pueden encontrarse a distintaslejanías, por lo que un tamaño estándar de ventana podría ser demasiadogrande o demasiado pequeño para que englobase justo al objeto de interés.Una solución a este problema podría ser aumentar la ventana o disminuir-la, pero eso haría que tuviéramos que cambiar el tamaño del necesario deentrada a los clasificadores, lo que no es práctico. Por esta razón, optamospor cambiar el tamaño de la imagen y dejar la ventana igual. Para cam-biar las dimensiones de la imagen seguimos una progresión exponencial,empezando a tamaño real y acabando con una imagen de un tamaño si-milar al de la ventana. A esta solución se le llama Piramidal Sliding Window(PSW). Para la implementación de este algoritmo solo debemos utilizar elSW añadiendo un bucle más que modifique el tamaño de la imagen. Parasaber cuantas iteraciones necesita el bucle, hay que ver cuándo la reduc-ción de la imagen es tal que no cabría dentro otra ventana. Primero, hayque calcular los límites en horizontal y vertical y después ver cual de elloses menor:

Vw � Iw × f rw → rw = floor(log( Iw

Vw)

log(f))) (3.4)


Vh � Ih × f rh → rh = floor(log( Ih

Vh)

log(f))) (3.5)

r = min(rw, rh) = min(floor(log( Iw

Vw)

log(f))), f loor(

log( IhVh)

log(f)))) (3.6)

Donde f es el factor que multiplica a la imagen para reducirla y rw, rh, rson las máximas reducciones por ancho, alto y totales respectivamente. Lafunción floor() es el redondeo hacia abajo. Para el cálculo total de imáge-nes habrá que implementar la fórmula 3.3 para cada nivel:

r∑

i=0

(Iw × f i − Vw

Sw

+ 1)× (Ih × f i − Vh

Sh

+ 1) (3.7)

3.2. EXTRACCIÓN DE CARACTERÍSTICAS 15

3.2. Extracción de características

El objetivo de la extracción de características es la construcción de imáge-nes que sean más fáciles de identificar y procesar por los clasificadores.Este proceso lo llevan a cabo los descriptores, que extraen las característi-cas importantes de una imagen descartando el resto. El que se ha usado eneste trabajo ha sido el descriptor de histogramas de gradientes ordenados,HOG.

3.2.1. HOG

Este descriptor de imágenes se basa la importancia de los gradientes. Es-tos, habitualmente determinan donde acaba un objeto y empieza otro ytambién las distintas zonas dentro de los objetos [23].Para obtener el HOG de una imagen se deben seguir los pasos a continua-ción:

1. Cálculo de gradientes:Para calcular los gradientes se hace un filtro haciendo uso de lossiguientes kernels: [−1, 0, 1] y [−1, 0, 1]T Estos gradientes tienen unalongitud y un ángulo que indica la dirección de máxima intensidad.

2. Obtención de histogramas por celdas:En segundo lugar se divide la imagen en celdas normalmente cua-dradas y de cada una de ellas se obtiene el histograma de los gradien-tes, que es un vector con varios contenedores en los que se almace-nan los gradientes. A cada contenedor le corresponde la informaciónrelativa a los gradientes con un cierto ángulo, de manera que va acu-mulando el módulo de los gradientes con ese intervalo de ángulos.Cabe destacar que en la práctica, los ángulos usados se encuentranen un rango de 0o a 180o, lo que se suele llamar unsigned gradients,y se hacen positivos aquellos que van desde 0o a −180o. Esto creael problema de que gradientes con ángulos muy similares acabanen contenedores distintos. La solución a este problema es hacer unainterpolación bilineal en orientación entre los contenedores más cer-canos. Un problema similar surge con la asignación por celdas, por


Figura 3.2: Transformación a gradientes

lo que tambien se realiza otra interpolación bilineal, pero en este casoespacial entre las celdas cercanas.

3. Normalización por bloques de celdas:El siguiente paso es una normalización entre celdas colindantes. Lanormalización se realiza porque algunas zonas pueden estar más ilu-minadas que otras, debido a esto, sus contenedores tendrán valoresmás altos y es necesario que los descriptores entreguen informacióndel mismo orden, o normalizada, a los clasificadores. Para ello, se usaun algoritmo parecido al explicado anteriormente de SW, solo que eneste caso se desplaza un bloque que normaliza las celdas de su inte-rior. Lo habitual para este paso es el uso la norma L2. El resultadofinal se puede ver en la siguiente imagen:

De manera demostrativa se han usado celdas grandes para que se aprecienlos pasos, pero el resultado final se ve mejor con celdas más pequeñas:

3.2. EXTRACCIÓN DE CARACTERÍSTICAS 17

Figura 3.3: Histograma de gradientes de la celda roja

Figura 3.5: HOG de la imagen inicial usando celdas de menor tamaño

El cálculo del tamaño del descriptor final se realiza de la siguiente manera:

nbloques = nceldas − n celdasbloque

+ 1 (3.8)

ntotal = (nbloques × n celdasbloque

)w × (nbloques × n celdasbloque

)h × ncontenedores (3.9)


Figura 3.4: HOG de la imagen inicial

3.3. Clasificación

El objetivo de los algoritmos de clasificación es la elección de la clase ade-cuada para cada elemento. En este caso concreto, los algoritmos debendecidir si las imágenes que se evalúan son torres o por el contrario sonparte del fondo.

3.3.1. Regresión Logística

El algoritmo de regresión logística, al contrario de lo que su nombre indica,no es un algoritmo de regresión, sino de clasificación. El funcionamientodel algoritmo se basa en la hipótesis de que la probabilidad de que uninput z pertenezca a la clase sigue una función logística:

g(z) =1

1 + e−z(3.10)

Cuya gráfica es de la siguiente manera:

3.3. CLASIFICACIÓN 19

Figura 3.6: Curva logística

El objetivo es crear una función de coste que represente el error cometidoal asignar una clase yi. Si la clase es asignada correctamente el error es 0,si no, el error crece exponencialmente.Los input del sistema estarán ponderados según los pesos wi del siguientemodo:

zi = xTi wi (3.11)

Estos pesos, serán lo que modificaremos para minimizar la función de cos-te. Teniendo en cuenta todo lo anterior se puede crear una función de costecon la siguiente forma:

Coste =n∑

i=1

(log(1 + exp(−yi(xTi w)))) (3.12)

Para evitar el sobre-aprendizaje, u overfitting se añade a esta expresión lospesos multiplicados por el parámetro de regularización λ. Con la adiciónde este término, se fuerza a que los pesos sean menores. La ecuación finalqueda de la siguiente manera:

Coste =λ

2wTw +

n∑

i=1

(log(1 + exp(−yi(xTi w)))) (3.13)

Cabe resaltar que para la implementación del algoritmo se usa como pa-rámetro de regularización C = 1

λ. Con lo que la ecuación de coste equiva-

lente es la siguiente:

Coste =1

2wTw + C

n∑

i=1

(log(1 + exp(−yi(xTi w)))) (3.14)


Para la elección del término añadido correspondiente a los pesos, se haelegido la norma L2, ya que es la más frecuente. Aunque en algunos casosse puede elegir la norma L1 u otro tipo de normas.Para la resolución del mínimo coste hay multitud de algoritmos como eldel descenso del gradiente. Pero para el trabajo se ha utilizado el algoritmosuministrado por liblinear [24] a través de la librería de scikit-learn[25].

3.3.2. SVM

Las máquinas de soporte vectorial han sido durante muchos años el esta-do del arte en algoritmos de clasificación. La idea general de los SVM esque las clases, que queremos clasificar, son grupos que se forman en espa-cios de dimensión n. Entonces, el objetivo de los SVM es la creación de unhiperplano que separe con el mayor margen posible estas clases, es decir,que los puntos pertenecientes a cada clase se alejen lo máximo posible delhiperplano [29] [30].

Figura 3.7: Máquina de soporte vectorial. La línea roja determina el hiper-plano. La zona amarilla es el margen máximo.

Por lo tanto, la estrategia será similar a la utilizada en el apartado ante-rior, en la regresión logística. Se crea una función de coste, se le añade laexpresión de regularización y se aplica un algoritmo que minimice esta


expresión de coste. De manera genérica:

Coste =1

2wTw + C

n∑

i=1

ζi (3.15)

sujeto a yi(wTφxi + b) � 1− ζi; ζi � 0, i = 1, ..., n (3.16)

El problema con esta aproximación surge cuando los datos no son sepa-rables mediante un plano. Ante esto, surge la posibilidad de aumentar ladimensión del hiperplano. Hay distribuciones que no son separables porun plano en cierta dimensión pero aumentado el número de dimensionesde trabajo sí lo son:

Figura 3.8: SVM - Aumento de dimensión

Este aumento en la dimensión de los inputs se consigue mediante el uso delos kernels. Estos, se basan en la transformación de la multiplicación escalarde los vectores, en la aplicación de una función K(xi, xj).La no aplicación de un kernel es equivalente al kernel lineal:

K(xi, xj) = xTi xj (3.17)


Otro de los kernels relevantes es el RBF (Radial Basis Function), que usacomo kernel una curva normal:

K(xi, xj) = exp(−λ ‖xi − xj‖2) (3.18)

Donde λ esta asociada a la varianza en la curva:

λ =1

2σ2(3.19)

Figura 3.9: Clasificación usando RBF

Para la obtención del mínimo coste se ha utilizado el algoritmo suminis-trado por libSVM [26] a través de la librería de Scikit-learn[27].


3.3.3. Redes neuronales

Como un intento de simular un sistema biológico, en los años 40 se creanmodelos neuronales que han evolucionado hasta lo que hoy conocemoscomo redes neuronales. La composición de estas es a priori simple, se for-man a base de neuronas conectadas. Cada neurona recoge la informaciónde las neuronas que la preceden y tras una transformación, la cede a lassiguientes neuronas.

3.3.3.1. Modelos de neurona

Hay infinidad de modelos de neurona, en este apartado se explicarán los4 más importantes:

1. Modelo binario:Posiblemente el más simple es el del perceptrón o neurona binaria:La neurona recibe información de múltiples entradas xi. Cada unade estas entradas, tendrá una importancia relativa que se medirá conla implementación de pesos wi que multiplican a cada entrada. Des-pués, se compara el valor de la suma de todas las entradas pesadascon un umbral b (también llamado sesgo, o bias). Si el valor obtenidoes mayor que el umbral, entonces la salida de la neurona, su activa-ción, es 1, en otro caso es 0.

∑wixi − b > 0 → y = 1 (3.20)

∑wixi − b � 0 → y = 0 (3.21)

En la notación estándar se supone el umbral como un peso más cuyaactivación xi es siempre 1.

∑wixi > 0 → y = 1 (3.22)

∑wixi � 0 → y = 0 (3.23)

El modelo binario es muy simple, y debido a esto nos encontramosserias limitaciones. Dos neuronas que consigan superar el umbral deactivación mostrarán el mismo número, 1, aunque una tenga un va-lor apenas superior a b y la otra, decenas de veces mayor. Debido aesto, se implementa un sistema en el que se toman salidas interme-dias entre 0 y 1. Por otro lado, para la modelización de sistemas no


lineales es conveniente el uso de funciones que tampoco sean linea-les.

2. Modelo logístico:Una de las maneras más sencillas es la implementación de una fun-ción no lineal que cumpla las características necesarias es la funciónlogística vista en ecuación 3.10.El funcionamiento de esta nueva neurona es muy similar al percep-trón, pero con la diferencia que no comparamos con el umbral, sinoque usamos la función logística para evaluar la suma de las entradasponderadas. De este modo la salida queda acotada entre 0 y 1.

y =1

1 + exp(−∑wixi)

(3.24)

3. ReLU:La unidad lineal rectificada es el modelo más utilizado en la actuali-dad debido a su eficiencia y simplicidad. La ecuación que aplica esla siguiente:

f(z) = max(0, z) (3.25)

Su gráfica es de la siguiente manera:

Figura 3.10: Función de activación ReLU

Cabe destacar que tiene otras variaciones como la Leaky ReLU o laNoisy ReLU.


4. Softmax:Esta función comprime un vector de números reales en uno que re-presenta la probabilidad de cada uno de ellos. Su fórmula es la si-guiente:

σ(�z)i =ezi∑nk e

zk(3.26)

3.3.3.2. Arquitectura

El siguiente paso para hacer más complejo el sistema es unir las neuronasentre si, a esto, se le llama capa, cuya agrupación forma la red neuronal.A la primera capa se le llama normalmente input layer, capa de entrada;a la última capa ouput layer, capa de salida; y a las capas intermedias hid-den layers, capas ocultas. En esta distribución, las neuronas de una capase conectan con todas las neuronas de la siguiente capa. Las líneas queconectan las neuronas representan los pesos, de tal manera que para unaarquitectura con solamente una capa oculta, tendríamos un diagrama dela siguiente manera:

Figura 3.11: Red neuronal con una capa oculta

Este diseño con las capas completamente conectadas, fully connected es elmás habitual.


3.3.3.3. CNN

Las redes neuronales convolucionales, CNN, tiene su origen en los experi-mentos de Hubel y Wiesel en 1962, cuando descubrieron que ciertas neu-ronas relacionadas con la visión se activaban con la exposición a los bordesde los objetos en las imágenes. Algunas con los horizontales, otras con losverticales y otras con estados intermedio.Las redes convolucionales tienen una estructura especial. Las neuronas,se organizan en kernels y hacen de filtro en una operación convolucionalsobre la imagen que reciben como entrada. Es decir, que se mueven comoen el algoritmo de SW ya explicado y multiplican a porciones de la imagen.

Figura 3.12: Filtro convolucional 5× 5

Para adaptar el tamaño final la imagen se podrá rellenar el borde con ceros.Esto es lo que se llama zero-padding, P . Por lo tanto si la imagen inicial teníaun tamaño de Iw × Ih × C (canales) y se usan nF filtros de F × F con unstride S se obtendrá una imagen de salida de tamaño:

(Iw − F + 2P

S+ 1)× (

Iw − F + 2P

S+ 1)× nF (3.27)

Lo habitual es el uso de:

P =F − 1

2; S = 1 (3.28)


A continuación se añade una capa de pooling, cuyo objetivo es la reduccióndel tamaño de las imágenes generadas, con lo que se consiguen dos cosas:un aumento de eficiencia por el menor número de parámetros y como con-secuencia el control del overfitting. El pooling es una operación a modo deventana deslizante que suele tomar el máximo de los datos que engloba.Cabe destacar que también se usan otras funciones en lugar del máximocomo la norma L2 o la media, pero el máximo es la función más utilizada.El pooling tiene también asociado una tamaño de kernel y un stride. Pero lohabitual es tomar ambos de tamaño 2× 2.Estos bloques de convolución + pooling se repiten varias veces hasta for-mar la arquitectura completa, con lo que se forma el descriptor. Lo ha-bitual, es continuar la red con un clasificador en forma de red neuronalfully connected cuyas neuronas de salida tienen una función de activaciónsoftmax o sigmoide, para determinar la probabilidad de que la imagen per-tenezca o no a una clase.

Figura 3.13: Histograma de gradientes de la celda roja

Capítulo 4

Metodología

La ejecución del proyecto ha constado de tres fases diferenciadas entre sí.La primera parte, el entrenamiento, se compone a su vez de tres etapas:selección de fotogramas en los vídeos, etiquetado de los mismos y el en-trenamiento de los modelos con las imágenes obtenidas.La segunda parte, es la comparación de los modelos. En esta, se explicaráel modelo usado de validación para elegir qué modelo es el que presentamayor precisión o accuracy.La tercera parte es la aplicación del modelo seleccionado y entrenado avídeos reales.

4.1. Entrenamiento

Para la consecución del objetivo principal del proyecto hemos seguido lametodología clásica de los problemas de visión por computador. Por lotanto, en nuestro caso particular, para la creación de un sistema de detec-ción de torres de alta tensión en vídeos, hemos realizado los pasos que seexponen a continuación.

4.1.1. Obtención de fotografías

Los vídeos de los que disponemos han sido tomados por una cámara abordo de un helicóptero que sobrevuela las torres eléctricas para obtenerimágenes de las mismas. El vídeo presenta una resolución de 720x576 pí-xeles a 25 fotogramas por segundo en RGB.

29

30 CAPÍTULO 4. METODOLOGÍA

4.1.2. Selección de imágenes

A partir de los vídeos obtenidos, se ha establecido una frecuencia para laselección de los fotogramas que emplearemos en los pasos venideros. Elsiguiente paso en el procesamiento de los fotogramas ha consistido en laselección de las Regiones de Interés o Regions of Interest (ROI). El mencio-nado proceso de selección de las ROI es realizado de forma manual, me-diante el recorte de una imagen rectangular del fotograma original. Así, sehan obtenido 1795 ROIs de torres de alta tensión y 4668 ROIs de fondosque no contienen torres.

4.1.3. Preprocesamiento de imágenes

Este paso se realiza con el objetivo de facilitar la labor de reconocimientoy clasificación más adelante.El preprocesamiento de las imágenes consta de tres fases que se realizaránen el orden mostrado a continuación:

1. Elección del espacio de color:El primer paso a realizar es la elección del espacio de color, ya quela misma imagen puede puede destacar unas zonas concretas si seelige un canal determinado en el espacio de color adecuado.

2. EstandarizaciónOtra parte del pre-procesamiento es la estandarización de las imáge-nes, es decir, es necesario que todas compartan ciertas característicascomunes para poder procesarlas igual. Como ya hemos tratado elcolor, lo que falta es hacer que tengan la misma resolución. La ele-gida en este caso es 64x128. Esta elección no es al azar, se debe avarias razones: lo primero, y quizás más importante, es que son po-tencias de 2 lo que nos facilitará el trabajo más adelante. Lo segundo,es que representan un rectángulo del doble de altura que anchura,lo que refleja de manera aproximada las dimensiones de las torres.Por último, son dimensiones lo suficientemente grandes como paradistinguir con éxito las torres pero lo suficientemente pequeñas paraque sean procesadas rápidamente.

3. Data augmentationOtro punto dentro del pre-procesamiento es el aumento de las foto-

4.1. ENTRENAMIENTO 31

grafías disponibles (data augmentation). Para ello se aplicarán funda-mentalmente 3 técnicas:

a) Imagen especularCrearemos de todas las imágenes disponibles, imágenes espe-culares. Este método es realmente sencillo y duplica nuestrasmuestras.

b) Imagen rotadaCon probabilidad 1/2 aplicaremos una rotación aleatoria a ca-da imagen de entre -10 a 10º. A la parte de la imagen que sequedaría vacía se le aplica el reflejo de la imagen girada.

c) Imagen con zoomCon probabilidad 1/2 y también de manera aleatoria se realiza-rá un zoom a la imagen con un aumento del 20 %.

Las imágenes conseguidas con estos métodos se distribuirán de la siguien-te manera:

1. A todas las imágenes con torres se les crea una imagen especular.

2. Se hace una división de todas las imágenes en train set / test set conporcentajes 80%/20%.

3. A la porción de entrenamiento se le aplican las técnicas de rotación yzoom para aumentar el número de imágenes. Este grupo se dividiráposteriormente para crear la validación (explicada más adelante).

Figura 4.1: Ejemplos de las imágenes disponibles para entrenamiento. A laizquierda un ejemplo de torre. A la derecha, un ejemplo de fondo


4.1.4. Extracción de características + Clasificación

Este paso es complicado porque el programa debe discernir entre las imá-genes aprendiendo cuáles son torres y cuáles fondo. Es aquí donde apli-caremos distintas técnicas y enfoques para comparar el mejor método declasificación. Los modelos que se implementarán serán modelos de apren-dizaje supervisado, es decir que para entrenarlos se conocerán tanto lasimágenes captadas por el helicóptero como los ROI en las que realmentese encuentran las torres.Los modelos usados son tres: regresión logística, SVM y Redes NeuronalesConvolucionales. Entre los modelos es necesario diferenciar dos grupos,separando el modelo con redes neuronales del resto. Esto es así porquelas imágenes pre-procesadas pueden usarse directamente en el modelo deredes neuronales pero no en el resto, ya que para ellos hay que someterlaspreviamente a un descriptor. El descriptor de imagen es el encargado decrear una representación simplificada de la imagen de modo que extraigalas características con mayor información de las imagen y desprecie las ca-racterísticas superfluas. El descriptor que se va a usar es HOG (histogramade gradientes orientados).

4.1.4.1. HOG

El objetivo de este descriptor es la obtención de un vector de una dimen-sión 1× n a partir de una imagen (o en general una matriz) de Iw × Ih × 1,ancho, alto, más un canal, que hemos seleccionado como escala de grises.Para ello, la información que extraerá de la imagen es la de los gradientesde la intensidad, es decir, que cuando haya un contraste alto en una regiónel gradiente será mayor allí y por lo tanto esa es la información importan-te. Esta información es relevante porque las zonas altos contrastes suelenrepresentar bordes de los objetos. Esto se debe a que dentro de los objetoslos píxeles suelen ser muy parecidos entre sí. La elección de los paráme-tros del HOG que se va a utilizar se ha realizado en base al artículo [23] enel que se eligen 9 orientaciones, es decir que reduciremos el histograma a9 barras (bins). El tamaño elegido de las celdas es de 8× 8 y los bloques denormalización de 2× 2 celdas. La regla de normalización a usar será la L2en base a los artículos [23] [28].

4.1. ENTRENAMIENTO 33

4.1.4.2. REGRESIÓN LOGÍSTICA

Es posiblemente el modelo más sencillo que se puede usar para clasifica-ción. La resolución de este modelo se hará en base a la librería de Liblinearaplicada a Python con la librería Scikit-learn. Para mejorar este modelo so-lo es necesario variar el parámetro de regularización. Por ello utilizaremoslos siguientes valores:

′C ′ : [1, 5, 10, 5× 10, 102, 5× 102, 103, 5× 103, 104, 5× 104, 105, 5× 105, 106]

4.1.4.3. SVM

Dentro de los SVM hay varios parámetros importantes, que se van a modi-ficar para encontrar la mejor combinación de cara a obtener los resultadosóptimos. De estos parámetros, el más importante es el kernel. Los cuatrokernels más relevantes son lineal, polinómico, sigmoide y de base radial.De entre ellos, se va a usar únicamente el de base radial, ya que aportala complejidad necesaria para poder clasificar las imágenes y, aunque sepodría aplicar también el kernel lineal, ya se está probando la regresión lo-gística, que es muy parecida. Esta complejidad del modelo, hará por unaparte que sea más fiel a los datos pero a la vez será más caro computacio-nalmente que la regresión logística.La resolución de estos modelos se hará en base a la librería LibSVM apli-cada a Python a través de la librería Scikit-learn. Este modelo trabaja condos parámetros, el de regularización, C y el parámetro asociado al radiodel kernel, γ. Como los resultados obtenidos no hacen a los parámetros in-dependientes, probaremos todas las combinaciones posibles en la lista deparámetros. La explicación de esto es que se puede obtener cierto errorbuscando la mejor C y el mejor γ por separado pero se obtendrá menorerror aún haciendo uso de la combinación correcta de ambos. Para ello seprobarán los siguientes parámetros:

′C ′ : [1, 5, 10, 5× 10, 102, 5× 102, 103, 5× 103, 104, 5× 104, 105, 5× 105, 106]

′γ′ : [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1, 1, 10]


4.1.4.4. Redes neuronales

Hay muchos modelos de redes neuronales, pero para el procesamiento deimágenes el método más efectivo es el uso de redes neuronales convolu-cionales. La arquitectura de estas se basa en tres partes: un bloque con-volucional, un bloque de reducción de muestreo (pooling), y un bloque declasificación. Con el fin de obtener los mejores resultados se probarán va-rias arquitecturas. Las primeras arquitecturas a probar contendrán todasel mismo bloque de clasificación:

Úna primera capa de 64 neuronas con función de activación ReLU ya las cuales se les implementará un dropout de 0.5. Esto quiere decirque se apagarán la mitad de las neuronas en cada entrenamiento.Esta práctica es muy común para mejorar la robustez del sistema.

Una capa con una única neurona con función de activación sigmoidepara clasificar la salida. Se ha usado la sigmoide en lugar de unafunción softmax para que automáticamente sature el valor a 0, si esfondo o 1 si es torre.

En cuanto a la capa de convolución se han creado 7 arquitecturas que vanaumentando la complejidad:

La primera arquitectura tiene 2 capas idénticas con 8 filtros de kernel3×3. La activación es ReLU y cada capa está seguida de una capa deMaxPooling 2× 2.

La segunda arquitectura tiene 2 capas. La primera de ellas con 16filtros de kernel 3×3. La segunda con 32 filtros de kernel 3×3. La acti-vación es ReLU y cada capa está seguida de una capa de MaxPooling2× 2.

La tercera arquitectura tiene 2 capas idénticas con 64 filtros de kernel3×3. La activación es ReLU y cada capa está seguida de una capa deMaxPooling 2× 2.

La cuarta arquitectura tiene 3 capas idénticas con 8 filtros de kernel3×3. La activación es ReLU y cada capa está seguida de una capa deMaxPooling 2× 2.

La sexta arquitectura tiene 3 capas. Las dos primeras idénticas con 32filtros de kernel 3× 3. La tercera con 64 filtros de kernel 3× 3. La acti-vación es ReLU y cada capa está seguida de una capa de MaxPooling2× 2.

4.2. COMPARACIÓN DE MODELOS 35

La quinta arquitectura tiene 3 capas. La primera de ellas con 8 filtrosde kernel 3 × 3. La segunda con 16 filtros de kernel 3 × 3. La terceracon 32 filtros de kernel 3 × 3. La activación es ReLU y cada capa estáseguida de una capa de MaxPooling 2× 2.

La séptima arquitectura tiene 3 capas idénticas con 64 filtros de kernel3×3. La activación es ReLU y cada capa está seguida de una capa deMaxPooling 2× 2.

El resumen de las arquitecturas se puede encontrar en la tabla 5.4.

4.2. Comparación de modelos

En esta sección se explicará el sistema de la división de las imágenes engrupos que nos permitan comparar unos modelos con otros y obtener elerror final de los modelos entrenados. Para ello se divide, como se explicóen el pre-procesamiento, el conjunto de imágenes en el train set (80%) y estest set (20%). Al conjunto de entrenamiento, se le aplican los algoritmos dedata augmentation y con este “conjunto ampliado” se aplicará el algoritmode validación K-Fold.

4.2.1. Validación cruzada usando K-Fold

Para la aplicación de este algoritmo, es necesario dividir el “conjunto am-pliado” en K partes, folds. Lo habitual, y lo que se ha realizado para estetrabajo es la división en 5 partes, K = 5. Con cada modelo se hace unentrenamiento con cuatro de las partes y se valida en la quinta. De estemodo, se obtiene el primer valor de precisión en validación. A continua-ción, se cambia la sección de validación por la siguiente de las cinco y seentrena con las cuatro restantes. Así, se realizan 5 entrenamientos con 5precisiones en validación distintas. Para la obtención de la total, se hacela media. Este valor obtenido es el que nos permite discernir qué modelosson mejores que otros. Pero no podemos tomarlo como la precisión realdel modelo, ya que esta medida, se ha obtenido entrenando también enlos bloques de validación. Esta es la razón de separar al comienzo el 20 %para hacer el test final. Para ello, se juntan los 5 folds y se hace un últimoentrenamiento sobre el conjunto. Este será el modelo final entrenado y sele examinará con el bloque de test.


4.3. Aplicación del modelo seleccionado

En esta sección se pondrá a prueba los modelos entrenados sobre imáge-nes o vídeo. Lo primero, se realizará una división del vídeo en los fotogra-mas que lo componen. A continuación, se generarán una serie de regionesde interés (ROIs) que serán candidatos a torres. Después, es necesario ha-cer el mismo pre-procesado que a las imágenes de entrenamiento, en casocontrario, los modelos podrían tener un error distinto al calculado en laetapa de entrenamiento, ya que estaríamos cambiando las condiciones ini-ciales. Es decir, que habrá que transformar la imágenes al mismo espaciode color y realizar la misma estandarización de tamaño, en caso de quesea necesaria. Por último, se introducirán estos candidatos en el modeloseleccionado para evaluar si verdaderamente corresponden a la clase detorre o no.

4.3.1. Generación de candidatos. Sliding Window

Para la generación de candidatos se utilizará el algoritmo ya explicado dePiramidal Sliding Window. Para lo cual, hay que definir ciertos parámetros:

Tamaño de la ventana Se ha elegido un tamaño de (Vw×Vh = 64×128)que es el tamaño con el que hemos entrenado los modelos y que porlo tanto no hará necesaria otra transformación de las dimensiones.

Tamaño del paso (Stride) Es el espacio entre una ventana y las co-lindantes. El tamaño elegido es el mismo que es de las ventanas(Sw × Sh = 64 × 128). De esta manera se barre todo el espacio de laimagen pero sin solapamientos de ventana. Esto no se hace porquelos solapamientos sean negativos, simplemente es que podremos ge-nerar los candidatos necesarios sin ellos, porque como ya veremosserá en general necesario juntar varios candidatos para componercada torre.

Factor de reducción Como se ha explicado anteriormente, reduci-remos exponencialmente la imagen. El factor que vamos a usar esf = 1.5.

4.3. APLICACIÓN DEL MODELO SELECCIONADO 37

4.3.2. Clustering

Para poder identificar claramente los objetos hay que juntar las ventanasque se hayan determinado como positivas usando uno de los modelos.Este proceso se conoce como clustering.Hay distintas maneras de afrontar este problema, pero se ha elegido unasolución en dos pasos:

1. Creación de grupos

2. Unión de los ROI de cada grupo

Para el primero de los pasos se utilizará como métrica la IOU (intersectionover union), que muestra qué porcentaje de un ROI cubre a otro.

Figura 4.2: Diagrama de Intersection over union

De esta manera, un ROI será parte de un grupo si tiene un mínimo de IOUcon los componentes de ese grupo. En caso contrario, formará un gruponuevo. Para obtener en ROI total de cada uno de los grupos de usará elalgoritmo k-means.Con el objetivo de evitar falsos positivos se desestimarán los grupos pe-queños. Esto podría ocasionar que se perdieran positivos verdaderos, perosi un grupo es muy pequeño querrá decir que en caso de que sea verda-dero, está lejos, y por eso no lo rodean más ventanas. Así que de cara ala utilidad del software, que se pierdan torres lejanas (que aun así no sepodrían inspeccionar desde esa distancia), no es un grave problema.


Figura 4.3: Ejemplo de clustering. El cuadrado rojo es la salida final delprograma

Capítulo 5

Experimentación y resultados

En este capítulo se expondrán los experimentos realizados para saber quemodelos son más efectivos así como una medición de su eficiencia midien-do el tiempo que les toma hacer predicciones. En base a esto se elegirá elmodelo que se considere mejor para la tarea en cuestión.Durante toda la fase de experimentación se han usado los modelos pro-gramados en Python con el uso de las librerías: Keras, TensorFlow, Scikit-learn y OpenCV.El ordenador usado tiene las siguientes características:

Procesador: AMD Ryzen 5 1600 Six-Core Processor

RAM: 8 GB

Tarjeta gráfica: Nvidia GEFORCE GTX 1050 Ti OC 4GB GDDR5

Cabe destacar que para todos los experimentos y para la obtención de con-clusiones el parámetro que marcará el éxito sera el accuracy. Aunque paratodos también se obtendrán otras métricas. Por ello, es necesario explicarla obtención de estas en función de la matriz de confusión.

5.1. Matriz de confusión y métricas

La matriz de confusión está formada por 4 parámetros que surgen al hacerpredicciones. Las cuatro posibilidades que pueden aparecer son:

Verdaderos positivos (TP): se predice una clase como un positivo ylo es.

39

40 CAPÍTULO 5. EXPERIMENTACIÓN Y RESULTADOS

Verdaderos negativos (TN): se predice una clase como un negativo ylo es

Falsos positivos (FP): se predice una clase como un positivo y es enrealidad un negativo. También son llamados error tipo I.

Falsos negativos (FN): se predice una clase como un negativo y es enrealidad un positivo. También son llamados error tipo II.

Con el objetivo de tener una medida que agrupe a estos parámetros surgendiferentes métricas. En la definición siguiente se nombraran en español einglés, pero en el resto del trabajo se utilizarán los nombre en inglés ya queen español pueden dar lugar a confusión:

Precisión o accuracy:

Accuracy =TP + TN

TP + TN + FP + FN(5.1)

Exactitud o precision:

Precision =TP

TP + FP(5.2)

Sensibilidad o recall:

Recall =TP

TP + FN(5.3)

Métrica F1:F1 = 2× Precision×Recall

Precision+Recall(5.4)

5.2. Proceso de entrenamiento y testeo de los mo-

delos

Los modelos se han entrenado usando los métodos mencionados anterior-mente:

1. División de los datos en train (80 %) + test (20 %)

2. Uso del bloque de train para el aumento de los datos con las técnicasya comentadas y con la consecuente creación del bloque aumentado.

5.3. RESULTADOS SEGÚN LOS MODELOS 41

3. Uso del bloque aumentado para la validación cruzada usando K-Fold y dividiendo los datos en 5 folds, obteniendo de este modo lasmétricas en validación, 5 medidas, una por cada fold más la media detodas.

4. Establecimiento de los mejores parámetros en función del error me-dio de validación.

5. Entrenamiento completo sobre los 5 folds.

6. Obtención del error final con los datos de test (20 %)

Para comparar el tiempo que necesitan los modelos se les cronometrarámientras ejecutan las predicciones sobre todos los datos 100 veces. Estamedida no tiene como fin saber lo que tardarían en predecir la clase de unaimagen, sino es simplemente una medida comparativa entre unos mode-los y otros con el fin de saber cuales son más rápidos.

5.3. Resultados según los modelos

5.3.1. Regresión Logística

5.3.1.1. Entrenamiento

Para la regresión logística se ha variado el parámetro de regularización en-tre los siguientes valores:

′C ′ : [1, 5, 10, 5× 10, 102, 5× 102, 103, 5× 103, 104, 5× 104, 105, 5× 105, 106]

El algoritmos de resolución usado ha sido “liblinear” con penalización L2y se ha fijado un máximo de iteraciones sin convergencia de 1000. La con-vergencia se supone alcanzada cuando el error es menor de 10−4.Se ha realizado el entrenamiento y se ha obtenido las métricas de valida-ción. Este proceso se ha repetido 5 veces más y los resultados obtenidoshan sido los siguientes:

Accuracy:


Figura 5.1: Medias y desviaciones del accuracy para LR según el parámetrode regularización C

Precision:

Figura 5.2: Medias y desviaciones del precision para LR según el parámetrode regularización C

Recall:


Figura 5.3: Medias y desviaciones del recall para LR según el parámetro deregularización C

F1:

Figura 5.4: Medias y desviaciones del F1 para LR según el parámetro deregularización C


Resultados:En base a las gráficas anteriores, es evidente que las mejores métricas las

presenta el modelo con parámetro de regularización 1. Por lo tanto, esteserá el modelo seleccionado para hacer el test. El accuracy que presentaeste modelo en media es 0.9824.

5.3.1.2. Test

Matriz de confusiónUsando el modelo con mayor accuracy en el entrenamiento, se ha entre-

nado el modelo con todo el bloque de train y los resultados de la fase detest para ese modelo se pueden resumir en la siguiente matriz de confu-sión:

Figura 5.5: Matriz de confusión de LR normalizada

Las métricas derivadas de esta matriz son:

Accuracy: 0.9796

Recall: 0.9798


F1: 0.9796

Estudio de eficiencia en el tiempoEl tiempo tardado para predecir 100 veces todas las imágenes disponi-

bles ha sido 0.4336s.

5.3.2. SVM


Para el SVM se ha variado el parámetro de regularización entre los si-guientes valores:

′C ′ : [1, 5, 10, 5× 10, 102, 5× 102, 103, 5× 103, 104, 5× 104, 105, 5× 105, 106]

Como se ha usado un kernel RBF también se ha variado independiente-mente el parámetro γ referente al kernel:

′γ′ : [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1, 1, 10]

El algoritmos de resolución usado ha sido “libSVM” con penalización L2y en este caso no se ha fijado un máximo de iteraciones sin convergencia.La convergencia se supone alcanzada cuando el error es menor de 10−3.Los resultados del entrenamiento como media de los 5 folds han sido:

Resultados:A la vista de los datos se escogerá como mejor el modelo que presenta

el mayor accuracy, 0.9851 con parámetros C = 50, γ = 0.01

5.3.2.2. Test

Matriz de confusión:Usando el modelo con mayor accuracy en el entrenamiento, se ha entre-

nado el modelo con todo el bloque de train y los resultados de la fase detest para ese modelo se pueden resumir en la siguiente matriz de confu-sión:


γ 0.0001 γ 0.0005 γ 0.001 γ 0.005 γ 0.01 γ 0.1 γ 1 γ 10C 1 0,8788 0,9491 0,9608 0,9775 0,9821 0,9743 0,5670 0,5670C 5 0,9496 0,9699 0,9760 0,9834 0,9850 0,9753 0,5670 0,5670C 10 0,9602 0,9759 0,9809 0,9824 0,9850 0,9753 0,5670 0,5670C 50 0,9760 0,9821 0,9803 0,9819 0,9851 0,9753 0,5670 0,5670C100 0,9804 0,9801 0,9792 0,9819 0,9851 0,9753 0,5670 0,5670C 500 0,9800 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670C 1000 0,9780 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670C 5000 0,9774 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670C 10000 0,9774 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670C 50000 0,9774 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670C 100000 0,9774 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670C 500000 0,9774 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670C 1000000 0,9774 0,9781 0,9789 0,9819 0,9851 0,9753 0,5670 0,5670

Cuadro 5.1: Comparación de accuracy para SVM


Cuadro 5.2: Comparación de recall para SVM



Cuadro 5.3: Comparación de F1 para SVM

Figura 5.6: Matriz de confusión de SVM normalizada

Las métricas derivadas de esta matriz son:


Accuracy: 0.9853

Recall: 0.988

F1: 0.9853

Estudio de eficiencia en el tiempoEl tiempo tardado para predecir 100 veces todas las imágenes disponi-


5.3.3. Redes neuronales


En entrenamiento de las redes se han usado los siguientes hiperparáme-tros fijos:

Batches: 32. Es decir, que se le suministran las imágenes a la red de32 en 32 para el entrenamiento.

Épocas máximas: 50. Es decir, la red pasa 50 veces por todos los datosde entrenamiento.

Métrica: accuracy.

Loss: binary crossentropy. Hace referencia a la función de coste usada.

Optimizador: adam.

Early stopping: patience = 5. Se ha usado un método que detieneel entrenamiento si la función de coste empeora durante 5 épocasseguidas. De este modo se evita el sobre-aprendizaje.

El resumen de las arquitecturas formadas es el de la siguiente tabla:


Nombre Kernel Capas Nº Filtros Capa 1 Nº Filtros Capa 2 Nº Filtros Capa 3A1 3× 3 2 8 8 0A2 3× 3 2 16 32 0A3 3× 3 2 64 64 0A4 3× 3 3 8 8 8A5 3× 3 3 8 16 32A6 3× 3 3 32 32 64A7 3× 3 3 64 64 64

Cuadro 5.4: Modelos entrenados según sus hiperparámetros del bloque deconvolución

Los entrenamientos se pueden resumir en la siguiente tabla:

Nombre Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 AverageA1 0,9856 0,9818 0,9848 0,9863 0,9856 0,9848A2 0,9909 0,9917 0,9894 0,9886 0,9833 0,9887A3 0,9856 0,9818 0,9894 0,9901 0,9901 0,9874A4 0,9734 0,9833 0,9795 0,9689 0,9757 0,9762A5 0,9780 0,9757 0,9810 0,9742 0,9848 0,9787A6 0,9872 0,9917 0,9947 0,9796 0,9909 0,9888A7 0,9810 0,9780 0,9765 0,9757 0,9818 0,9786

Cuadro 5.5: Accuracy obtenido para los distintos modelos en los entrena-mientos de validación

Resultados:A la vista de los datos se escogerá como mejor el modelo que presenta

el mayor accuracy, 0.9888 correspondiente a la arquitectura A6.

5.3.3.2. Test

Entrenamiento final:Se han obtenido las gráficas del accuracy y loss del entrenamiento final,

como se muestran a continuación:


Figura 5.7: Valor de accuracy de la red A6 según las épocas

Figura 5.8: Valor de loss de la red A6 según las épocas


Resultados:El valor final de validación ha sido de 0.9903.

Estudio de eficiencia en el tiempo:El tiempo tardado para predecir 100 veces todas las imágenes disponi-


5.3.3.3. Comparación

Para elegir un modelo sobre otro se ha hecho la siguiente comparativa conel accuracy y los tiempos de prediccion de 100 veces el dataset.

Métrica LR SVM CNNAccuracy 0.9796 0.9853 0.9903Tiempo (s) 0.4336 0.4589 0.4668

Cuadro 5.6: Accuracy y tiempos de predicción de 100 veces el dataset segúnel modelo

Figura 5.9: Comparativa de eficiencias:tiempos de prediccion de 100 vecesel dataset contra accuracy de cada modelo.


5.3.4. Postprocesamiento

En esta etapa se han unido las ROI clasificadas como torre, tomando aque-llas separadas del resto como falsos positivos. Esto se puede ver en la si-guiente figura en la que a la izquierda se obtiene un falso positivo pero nose engloba dentro del cluster final (cuadrado rojo):

Figura 5.10: Ejemplo de clustering 1. No se incluye el ROI aislado

Se ha podido comprobar que se dan como positivas algunas zonas de altavegetación y cultivos que recuerdan a figuras verticales, como se puedever a continuación:

Figura 5.11: Ejemplos de falsos positivos


Aún con estos falsos positivos, el resultado general es satisfactorio y la re-gión final seleccionada por el programa engloba a la torre. También cabedestacar que el programa detecta bien el cuerpo de las torres pero no siem-pre las partes que sobresalen de ella, como podemos ver en los siguientesejemplos:

Figura 5.12: Ejemplo de clustering 2

Figura 5.13: Ejemplo de clustering 3


En las siguientes imágenes se muestran los resultados de la aplicación delalgoritmo a frames de una secuencia de vídeo:

Figura 5.14: Clustering en secuencia de vídeo

Capítulo 6

Conclusiones y lineas futuras

Durante el desarrollo de este trabajo se han implementado algoritmos devisión por computador e inteligencia artificial para clasificar la posiciónde torres de alta tensión en vídeos reales.A continuación se muestran los puntos conseguidos por el trabajo

Se conseguido un dataset a partir de vídeo, se ha transformado elmismo en el espacio de color y se ha estandarizado.

Se ha incrementado la información inicial con técnicas de data aug-mentation

Se han creado distintos modelos con diversos parámetros. Modelosde regresión logística, modelos de SVM y modelos con CNN usandodistintas arquitecturas.

Se han entrenado los modelos y se han comparado mediante valida-ción cruzada con el uso del algoritmo de k-fold.

Se han estudiado los resultados usando como métrica el accuracy y eltiempo de predicción.

Se ha implementado el algoritmo de SW para la generación de can-didatos a través de imágenes o vídeo.

Se ha implementado un algoritmo de clustering haciendo uso del al-goritmo k-means en conjunción con IOU.

55

56 CAPÍTULO 6. CONCLUSIONES Y LINEAS FUTURAS

6.1. Conclusiones

Tras el estudio de la eficiencia de los modelos, y viendo que las diferenciasen tiempo son prácticamente despreciables para el número de prediccio-nes (4, 5s para 100 datasets), se considera que el mejor modelo es el de redesneuronales convolucionales con arquitectura A6, que ha presentado un ac-curacy en test del 0.9903.

6.2. Lineas futuras

En primer lugar cabe destacar que durante el uso del algoritmo completoen vídeo, la mayoría del tiempo se ocupa en la gestión de las SW. Por lotanto, seria conveniente aplicar algoritmos de seguimiento o quizás otrotipo de algoritmos como selective search que mejoren el tiempo dedicado ageneración de candidatos.En segundo lugar cabe destacar que el algoritmo presentado solo es unaparte de una concepción a una escala mayor: encontrar defectos en torreseléctricas. Para la consecución de esto, haría falta hacer otros dos algo-ritmos parecidos a este. En el primero se deberían detectar los elementosimportantes dentro de las torres y en el segundo, detectar si tienen o nodefectos.En tercer lugar, se plantea como línea futura la implementación de estealgoritmo en un UAV y comprobar la eficacia en condiciones reales.

6.3. Valoración de responsabilidad legal, ética y

profesional

El desarrollo posterior del trabajo y su aplicación al mundo real podríaconllevar una mejora en los sistemas de detección de torres. Uno de losobjetivos del trabajo es la obtención de modelos eficientes, que puedan serimplementados en UAVs de modo que se generaría un impacto ambientalbeneficioso en comparación con el uso de helicópteros, debido al gran usode combustible de estos últimos. Por otro lado, se conseguiría reducir elnúmero de accidentes en los trabajos de inspección de torres, ya que losoperarios podrían trabar a mayor distancia.

6.3. VALORACIÓN DE RESPONSABILIDAD LEGAL, ÉTICA Y PROFESIONAL57

En cuanto a los aspectos legales, no se deberían generar muchos cambiosrespecto al modelo actual. El uso de drones, es muy similar al de los heli-cópteros convencionales. Además, la toma de imágenes ya se realiza desdehace tiempo, por lo que la implementación de estos algoritmos no supon-dría problemas adicionales.Por otro lado, la operación deficiente de los algoritmos en la detección defallos podría producir problemas de responsabilidad legal.

58 CAPÍTULO 6. CONCLUSIONES Y LINEAS FUTURAS

Capítulo 7

Planificación temporal ypresupuesto

En este capítulo se tratarán la distribución temporal del trabajo a lo largodel año a través de un diagrama de Gantt y adicionalmente se hará unbreve estudio de los costes relacionados con al trabajo que se mostrará enforma de tabla.

7.1. Planificación temporal. Diagrama de Gantt

A continuación se muestra el diagrama de Gantt sobre la planificacióntemporal del trabajo.

59

60 CAPÍTULO 7. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

Figura 7.1: Diagrama de Gantt

7.2. PRESUPUESTO 61

Concepto Precio unitario Horas % Impuestos Total (€)Salario del investigador 15 450 30 8775Salario del tutor 25 15 30 485.5Ordenador(10 % amortización) 1000 21 121

Software 0 21 0Material de oficina 20 21 24.2Impresión del trabajo 40 21 48.4Total 9454.1

Cuadro 7.1: Presupuestos TFG

7.2. Presupuesto

A continuación se muestra el presupuesto del trabajo

62 CAPÍTULO 7. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO

Bibliografía

[1] https://www.iea.org/statistics/

[2] KATRASNIK, J., PERNUS, F., & LIKAR, B. (2010), A Survey of Mobile Ro-bots for Distribution Power Line Inspection IEEE Transactions on PowerDelivery, 25(1), 485–493.

[3] C. C. WHITWORTH, A. W. G. DULLER, D. I. JONES, AND G. K. EARP,“Aerial video inspection of overhead power lines,” Power Eng. J., vol. 15,no.1, pp. 25–25, 2001.

[4] I. GOLIGHTLY AND D. JONES, “Corner detection and matching for visualtracking during power line inspection,” mage Vis. Comput., vol. 21, no. 9,pp. 827–827, 2003.

[5] H. SIMAS, V. BARASUOL, R. KINCELER, E. RAPOSO, D. MARTINS, E.R. PIERI, V. J. DE NEGRI, M. STEMMER, E. B. CASTELAN, “KinematicConception of a Hydraulic Robot Applied to Power line insulators maintenan-ce” 20th International Congress of Mechanical Engineering, Gramado,RS, Brazil, 2009

[6] DEBENEST, P., GUARNIERI, M., KENSUKE TAKITA, FUKUSHIMA, E.F., SHIGEO HIROSE, KIYOSHI TAMURA, . . . FUMINORI SHIGA. (2008),Expliner - Robot for inspection of transmission lines In 2008 IEEE Interna-tional Conference on Robotics and Automation. IEEE.

[7] SALES GONÇALVES, ROGÉRIO & CARVALHO, JOAO. (2013), Re-view and Latest Trends in Mobile Robots Used on Power TransmissionLines International Journal of Advanced Robotic Systems. 10. 1-14.10.5772/56791.

[8] GERKE, M., & SEIBOLD, P. (2014). , Visual inspection of power lines byU.A.S. In 2014 International Conference and Exposition on Electricaland Power Engineering (EPE). IEEE.

63

64 BIBLIOGRAFÍA

[9] ONG, G., CHEN, X., WANG, B., ZHANG, J., LIU, L., WANG, Q., &WEI, C. (2012), nspecting transmission lines with an unmanned fixed-wings aircraft. In 2012 2nd International Conference on Applied Ro-botics for the Power Industry (CARPI). IEEE.

[10] LUQUE-VEGA, L. F., CASTILLO-TOLEDO, B., LOUKIANOV, A., &GONZALEZ-JIMENEZ, L. E. (2014), Power line inspection via an unman-ned aerial system based on the quadrotor helicopter In MELECON 2014 -2014 17th IEEE Mediterranean Electrotechnical Conference. IEEE.

[11] STEIGER, O., LUCAS, E., & MARET, Y. (2014), Automatic detection oftransmission towers In IEEE SENSORS 2014 Proceedings. IEEE

[12] ZHAO, Z., LIU, N., & WANG, L. (2015), Localization of multiple insu-lators by orientation angle detection and binary shape prior knowledge IEEETransactions on Dielectrics and Electrical Insulation, 22(6), 3421–3428.

[13] VARGHESE, A., GUBBI, J., SHARMA, H., & BALAMURALIDHAR, P.(2017), Power infrastructure monitoring and damage detection using dronecaptured images In 2017 International Joint Conference on Neural Net-works (IJCNN). IEEE.

[14] ZHANG, J., LIU, L., WANG, B., CHEN, X., WANG, Q., & ZHENG,T. (2012), High Speed Automatic Power Line Detection and Tracking fora UAV-Based Inspection In 2012 International Conference on IndustrialControl and Electronics Engineering.

[15] TRAGULNUCH, P., CHANVIMALUANG, T., KASETKASEM, T., ING-PRASERT, S., & ISSHIKI, T. (2018), High Voltage Transmission Tower De-tection and Tracking in Aerial Video Sequence using Object-Based ImageClassification In 2018 International Conference on Embedded Systemsand Intelligent Technology & International Conference on Informa-tion and Communication Technology for Embedded Systems (ICESIT-ICICTES). IEEE.

[16] HOMMA, R. Z., SOHN, O., & BOSE, R. C. (2017), Analysis of the re-cognition and localisation techniques of power transmission lines componentsin aerial images acquired by drones. CIRED - Open Access ProceedingsJournal, 2017(1), 29–32.

[17] TAO, X., ZHANG, D., WANG, Z., LIU, X., ZHANG, H., & XU, D.(2018), Detection of Power Line Insulator Defects Using Aerial ImagesAnalyzed With Convolutional Neural Networks. Transactions on Systems,Man, and Cybernetics: Systems, 1–13.

BIBLIOGRAFÍA 65

[18] MARTINEZ, C., SAMPEDRO, C., CHAUHAN, A., & CAMPOY, P.(2014), Towards autonomous detection and tracking of electric towers foraerial power line inspection. In 2014 International Conference on Unman-ned Aircraft Systems (ICUAS). IEEE.

[19] SAMPEDRO, C., MARTINEZ, C., CHAUHAN, A., & CAMPOY, P.(2014)., A supervised approach to electric tower detection and classifica-tion for power line inspection. In 2014 International Joint Conference onNeural Networks (IJCNN). IEEE.

[20] ZENG, T., GAO, Q., DING, Z., TIAN, W., YANG, Y., & ZHANG, Z.(2017), Power Transmission Tower Detection Based on Polar Coordinate Se-mivariogram in High-Resolution SAR Image. IEEE Geoscience and Remo-te Sensing Letters, 14(12), 2200–2204.

[21] SHARMA, H., SEBASTIAN, T., & PURUSHOTHAMAN, B. (2017), ALattice-Theoretic Approach for Segmentation of Truss-Like Porous Objects inOutdoor Aerial Scenes. In Lecture Notes in Computer Science (pp. 586–595)Springer International Publishing.

[22] MARTINEZ, C., SAMPEDRO, C., CHAUHAN, A., COLLUMEAU, J. F.,& CAMPOY, P. (2018), The Power Line Inspection Software (PoLIS): A ver-satile system for automating power line inspection Engineering Applica-tions of Artificial Intelligence, 71, 293–314.

[23] DALAL, N. AND TRIGGS, B. (2005), “Histograms of Oriented Gradientsfor Human Detection,” IEEE Computer Society Conference on Compu-ter Vision and Pattern Recognition, 2005, San Diego, CA, USA.

[24] R.-E. FAN, K.-W. CHANG, C.-J. HSIEH, X.-R. WANG, C.-J. LIN(2008), “Liblinear: A Library for Large Linear Classification” J. MachineLearning Research, vol. 9, pp. 1871-1874.

[25] https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

[26] CHIH-CHUNG CHANG AND CHIH-JEN LIN (2001), “LIBSVM: A Li-brary for Support Vector Machines”

[27] https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

[28] D. LOWE, Distinctive image features from scale-invariant keypoints IJCV60 (2) (2004) 91–110

[29] CORTES, C., & VAPNIK, V. (1995), Support-vector networks. MachineLearning

66 BIBLIOGRAFÍA

[30] C.-C. CHANG AND C.-J. LIN,, A library for support vectormachines ACM Transactions on Intelligent Systems and Tech-nology, vol. 2, pp. 27:1– 27:27, 2011. Software available athttp://www.csie.ntu.edu.tw/ cjlin/ libsvm

reconocimiento de torres de alta tensión mediante...

Documents