propuesta para trabajo de gradopegasus.javeriana.edu.co/~cis1410is02/descargas/memoria... · web...

140
CIS1410IS02 APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA Autor (es): ALEX ARIEL ARIAS RIOS PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERIA CARRERA DE INGENIERIA DE SISTEMAS BOGOTÁ, D.C. 2014

Upload: doduong

Post on 23-Apr-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

CIS1410IS02APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO,

CASO DE ESTUDIO CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA

Autor (es):ALEX ARIEL ARIAS RIOS

PONTIFICIA UNIVERSIDAD JAVERIANAFACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMASBOGOTÁ, D.C.

2014

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

CIS1410IS02APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA

BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO

CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA

Autor (es):ALEX ARIEL ARIAS RIOS

MEMORIA DEL TRABAJO DE GRADO REALIZADO PARA CUMPLIR UNO DE LOS REQUISITOS PARA OPTAR AL TITULO DE INGENIERO DE

SISTEMAS

Director

BLANCA ELVIRA OVIEDO TORRESJurados del Trabajo de Grado

Julio Ernesto Carreño

Freddy Grajales

Página web del Trabajo de Grado

http://pegasus.javeriana.edu.co/~CIS1410IS02/

Página ii

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica

PONTIFICIA UNIVERSIDAD JAVERIANAFACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMASBOGOTÁ, D.C.

2014

PONTIFICIA UNIVERSIDAD JAVERIANAFACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMAS

Rector Magnífico

Joaquín Emilio Sánchez García S.J.

Decano Académico Facultad de Ingeniería

Ingeniero Jorge Luis Sánchez Téllez

Decano del Medio Universitario Facultad de Ingeniería

Padre Antonio José Sarmiento Nova S.J.

Director de la Carrera de Ingeniería de Sistemas

Ingeniero Germán Alberto Chavarro Flórez

Director Departamento de Ingeniería de Sistemas

Ingeniero Rafael Andrés González Rivera

Página iiiPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Artículo 23 de la Resolución No. 1 de Junio de 1946

“La Universidad no se hace responsable de los conceptos emitidos por sus alumnos en sus proyectos de grado. Sólo velará porque no se publique nada contrario al dogma y la moral católica y porque no contengan ataques o polémicas puramente personales. Antes bien, que se vean en ellos el anhelo de buscar la verdad y la Justicia”

Página iv

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica

AGRADECIMIENTOS

Agradezco primeramente a Dios por permitirme llegar hasta este punto de la carrera, sin él

todas las cosas serían prácticamente imposibles de hacer.

Agradezco a la Secretaria Distrital del Ambiente Bogotá, especialmente al grupo de la Red

de Monitoreo de Calidad del Aire (RMCAB) por el acompañamiento, la provisión de recurso

y el interés constante durante el desarrollo del proyecto. Agradezco a Jhon Freddy Grajales

(coordinador de la RMCAB), Oscar Molina y Helberth Morales por su comprensión, disposi-

ción, consejos e interés en el avance del trabajo de grado.

También Agradezco a la Ingeniera Blanca Elvira Oviedo por su disposición, enseñanzas,

consejos y correcciones constantes que hicieron posible que este trabajo de grado sea exitoso.

Así mismo agradezco a la Ingeniera Alexandra Pomares por brindarme una asesoría incondi -

cional en las inquietudes que se presentaron.

De igual forma mis más sinceros agradecimientos a mi familia que fueron el motor para lu-

char por este objetivo. A mi madre Flor Ríos por su amor y apoyo constante tanto espiritual

como anímicamente, a mi padre Alex Arias por acompañarme, ser mi amigo, brindarme sus

consejos y sobre todo por apoyarme incondicionalmente en mis decisiones, a mis hermanas

Ana María y Eddy Alexandra por su motivación y amor constante a lo largo de mi carrera. A

mi abuela Estela Sierra por apoyarme y motivarme en escoger esta prestigiosa universidad, la

Pontificia Universidad Javeriana a la cual también le agradezco por el conocimiento brindado

durante toda la carrera.

A mi novia Camila Romero, la cual estuvo en todo el transcurso de mi carrera, me apoyo en

todas las decisiones y me brindo ese amor incondicional que hizo posible que hoy esté a pun-

to de culminar una etapa tan importante de mi vida.

Página vPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Contenido

INTRODUCCIÓN.......................................................................................................1

I. DESCRIPCION GENERAL DEL TRABAJO DE GRADO...............................2

1. OPORTUNIDAD, PROBLEMÁTICA, ANTECEDENTES....................................................21.1 Descripción del contexto...........................................................................................41.2 Formulación del problema que se resolvió...................................................................51.3 Justificación..............................................................................................................61.4 Impacto Esperado..........................................................................................................7

2. DESCRIPCIÓN DEL PROYECTO....................................................................................82.1 Visión global..................................................................................................................92.2 Objetivo general.............................................................................................................92.3 Fases Metodológicas por cada objetivo específico.......................................................92.4 Método que se propuso para satisfacer cada objetivo especifico...............................10

II - MARCO TEÓRICO............................................................................................11

1. MARCO CONTEXTUAL..............................................................................................11

2. MARCO CONCEPTUAL..............................................................................................112.1 Contaminación atmosférica.........................................................................................112.2 Variables Meteorológicas.......................................................................................122.3 Series Temporales........................................................................................................132.4 Red de Monitoreo de Calidad del Aire........................................................................132.5 Minería de Datos.........................................................................................................152.6 Correlación de Pearson...............................................................................................17

III – DESARROLLO DEL TRABAJO....................................................................17

1. ENTENDER EL PROBLEMA.................................................................................181.1 Selección de herramientas a utilizar............................................................................18

2. ENTENDER LOS DATOS.............................................................................................192.1 Recopilar Registros......................................................................................................192.2 Explorar Datos.............................................................................................................202.3 Describir los datos iniciales........................................................................................202.4 Verificar la calidad de los datos..................................................................................22

3. PREPARAR LOS DATOS.............................................................................................243.1 Integración de las fuentes de la base de datos...........................................................241.2 Limpieza de Datos...................................................................................................24

Página vi

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica

1.3 Recopilar información de las técnicas de minería de datos...¡Error! Marcador no definido.3.4 Seleccionar las técnicas de minería de datos..............................................................263.5 Definir muestra del subconjunto de datos................¡Error! Marcador no definido.3.6 Creación de Variables Derivadas...........................................................................273.7 Crear formato de los atributos para las técnicas de minería de datos selecciona-das ¡Error! Marcador no definido.3.8 Vista Minable..........................................................................................................30

4. MODELAR.................................................................................................................314.1 Creación del diseño de Pruebas.............................................................................314.2 Selección de los algoritmos....................................................................................324.3 Generación de los Modelos de Minería..................................................................33

5. EVALUAR..................................................................................................................385.1 Evaluación de resultados.............................................................................................385.2 Comparar los modelos creados...................................................................................395.3 Creación de la base de conocimiento..........................................................................415.4 Revisión general............................................................¡Error! Marcador no definido.

6. DESARROLLO............................................................................................................426.1 Definir los requerimientos de la aplicación................................................................436.2 Crear el prototipo de alertas tempranas.....................................................................436.3 Pruebas de funcionalidad............................................................................................46

IV - RESULTADOS Y REFLEXIÓN SOBRE LOS MISMOS.............................46

1. CUMPLIMIENTO DE LOS OBJETIVOS ESPECÍFICOS.............................................461.1 Objetivo Especifico 1: “Determinar la información de calidad del aire pertinente para este proyecto, de acuerdo con los datos suministrados por la Secretaria Distrital de Ambiente.”.........................................................................................................................471.2 Objetivo Especifico 2: “Establecer una vista minable, enfocándose en los rezagos en el tiempo que este acentuando la relación entre una variable y otra.”............................471.3 Objetivo Especifico 3: “Determinar los modelos apropiados de minería de datos para buscar la relación entre las variables atmosféricas y los contaminantes.”.............481.4 Objetivo Especifico 4: “Validar los resultados que provea el entrenamiento de las técnicas de minería de datos con los resultados esperados y seleccionar la técnica de minería con más precisión.”..............................................................................................611.5 Objetivo Especifico 5: “Crear un prototipo de Sistema de Información que se integre con los resultados de la técnica de minería de datos seleccionada.”...............................64

CUMPLIMIENTO DEL OBJETIVO GENERAL.....................................................................67

V – CONCLUSIONES, RECOMENDACIONES Y TRABAJOS FUTUROS....67

1. CONCLUSIONES.................................................................................................67Calidad del aire.................................................................................................................691.3 Relaciones encontradas...............................................................................................70

Página viiPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

2. RECOMENDACIONES.........................................................................................72

3. TRABAJOS FUTUROS.........................................................................................73

VI - REFERENCIAS Y BIBLIOGRAFÍA..............................................................74

VII - ANEXOS............................................................................................................81

ANEXO P. POST-MORTEM............................................................................................81

ANEXO M. MARCO CONCEPTUAL................................................................................81

ANEXO 1.DOCUMENTO COMPRENSIÓN Y PREPARACIÓN DE LOS DATOS.....................81

ANEXO 2. TÉCNICAS DE MODELADO Y DISEÑO DE PRUEBAS......................................81

ANEXO 3. MUESTRA VISTA MINABLE.........................................................................81

ANEXO 4. CONSTRUCCIÓN DE LOS MODELOS...............................................................82

ANEXO 5. ANÁLISIS DE RESULTADOS DE LOS MODELOS..............................................82

ANEXO 6. BASE DE CONOCIMIENTO.............................................................................82

ANEXO 7. PLAN DE PRUEBAS.......................................................................................82

ANEXO 8. REQUERIMIENTOS........................................................................................82

ANEXO 9. DOC. DESCRIPCIÓN DE ARQUITECTURA DE SOFTWARE...............................82

ANEXO 10. MANUAL DE USUARIO...............................................................................82

ANEXO 11. MANUAL DE ADMINISTRACIÓN..................................................................83

ANEXO 12.MANUAL DE INSTALACIÓN.........................................................................83

Página viii

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica

ABSTRACT

Currently data mining is a process of extracting previously unknown valid, understandable

and useful knowledge found in large databases. This concept is typically applied when there

is a huge amount of data the trend is unknown. Unfortunately, traditional mining techniques

are not applicable to data variables corresponding to time series and today there is an infor-

mation system to make early warning of air pollution in the city based on data mining mod-

els. This work proposes applying grade data mining techniques for finding relationships be-

tween atmospheric variables and pollution variables (PM10 and O3) that match time series in

order to define the extreme values of pollution and link it to system early warning informa-

tion.

RESUMEN

Actualmente la minería de datos es un proceso que consiste en extraer conocimiento valido,

entendible y útil previamente desconocido que se encuentra en grandes bases de datos. Este

concepto se aplica típicamente cuando hay una enorme cantidad de datos cuya tendencia es

desconocida. Desafortunadamente las técnicas de minería de datos tradicionales no son apli-

cables a variables que responden a series de tiempo y en la actualidad no existe un sistema de

información que haga alertas tempranas de contaminación atmosférica en la localidad basada

en modelos de minería de datos. Este trabajo de grado propone aplicar técnicas de minería de

datos para la búsqueda de relaciones entre variables atmosféricas y variables contaminantes

(PM10 y O3) que responden a series de tiempo con el fin de definir los valores extremos de

contaminación y vincularlo a un sistema de información de alertas tempranas.

Página ixPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

RESUMEN EJECUTIVO

En la actualidad, la localidad de Puente Aranda se caracteriza por ser una de las zonas con

mayor contaminación atmosférica [12], esto se debe a las actividades constantes que ejerce el

ser humano en su proceso de desarrollo e industrialización, siendo estos procesos los princi-

pales causantes de que existan contaminantes tales como: Material Particulado (PM 10) y

Ozono Troposférico (O3) que a un nivel de exposición prolongando puede ocasionar enferme-

dades coronarias y respiratorias que más adelante podrían causar la muerte del involucrado.

Lastimosamente, en la actualidad no se cuenta con un sistema de información de alertas tem-

pranas basado en modelos de minería de datos que haga pronóstico y a su vez genere alertas a

la comunidad para prevenir estas enfermedades. A su vez los modelos que buscan relaciones

entre los contaminantes y las variables climatológicas que responden a series de tiempo son

muy costosos en su procesamiento y en la contratación de expertos que manejen dichos mo-

delos [81] [24] [82] [6][13][26][8] [15].

Con el fin de crear alertas tempranas a la comunidad de Puente Aranda y explorar ramas de la

estadística que permitan reducir los costos tanto operacionales como de contratación, el obje-

tivo del presente trabajo de grado es encontrar y aplicar técnicas de minería de datos que en -

cuentren relaciones relaciones entre variables atmosféricas que responden a series de tiempo

y variables contaminantes (ozono y material Particulado) para la localidad de Puente Aranda

y desarrollar un prototipo de Sistema de Información de alertas tempranas de contaminación

atmosférica a partir de las relaciones encontradas. La minería de datos extrae conocimiento

valido, entendible y útil que se encuentra oculto en los datos.

Paralelamente al aplicar y crear modelos de minería de datos que encuentren dichas relacio-

nes, con la intención de que futuros proyectos puedan extender el presente proyecto o aplicar

a un problema de cualquier ámbito minería de datos, se propone utilizar la metodología

CRISP DM que se enfoca en la orientación para el desarrollo de proyectos con minería de

datos y es flexible para personalizarlo de acuerdo a la necesidad del trabajo.

Página x

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Aplicación Práctica

Dado que el presente trabajo de grado se basa en la metodología CRISP DM, las fases de esta

metodología encajaron en los objetivos específicos, lo cual facilito el desarrollo y cumpli -

mento de cada uno de ellos. A continuación se presentan las fases y los métodos principales

usados para resolver los objetivos del proyecto.

Entender el problema: En esta fase se recopila la bibliografía referente a calidad del

aire, en especial en la localidad de Puente Aranda, las funciones de la Red de Monitoreo

de Calidad del Aire Bogotá (RMCAB), los trabajos relacionados al proyecto y todo lo

referente a minería de datos. Además se seleccionaron las herramientas que iban a

realizar las funciones del proyecto. (Ver sección Entender el problema del capítulo de

desarrollo).

Entender los datos: En esta fase se estudian más de cerca los datos entregados por la

RMCAB con el fin de definir si los datos pueden ser utilizados por las técnicas de

minería. Para el análisis de datos se utilizaron correlaciones de Pearson con el fin de

identificar cuales atributos se relacionan más fuerte con los atributos objetivos (que son el

O3 y PM10) utilizando las características de las series temporales. Se verifica la calidad

con que vienen los datos y las tendencias en alto nivel que se pueden percibir. (Ver

sección 2. Entender los Datos del capítulo de desarrollo).

Preparar los datos: En esta fase se acomodan los datos para aplicarles técnicas de

minería, para que fuera fácil el procedimiento se integraron las tablas entregadas y

segmentadas por años y previo a la creación de los formatos de los datos para cada

técnica, se seleccionaron dichas técnicas para encontrar las relaciones.(Ver sección 3.

Preparar los Datos del capítulo de desarrollo).

Modelar: Esta fase se ejecutó en múltiples iteraciones, donde se iban calibrando los

parámetros y verificando la precisión y la legibilidad de los patrones que se estaban

generando, para esta fase se seleccionaron los algoritmos que implementaron cada

técnica y se definió el conjunto de entrenamiento del modelo y el conjunto de prueba.

(Ver sección 4. Modelar del capítulo de desarrollo).

Evaluar: En esta fase se evaluaron los resultados generados por los modelos

seleccionados, teniendo en cuenta criterios de expertos en calidad del aire y

meteorología, también comparando los resultados obtenidos con trabajos relacionados a

lo que se estaba desarrollando. Los modelos generados se compararon entre sí con el fin

Página xiPreparado por el Grupo Investigación Istar- Versión 1.0 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

de seleccionar el más preciso para formar la base de conocimiento que hizo parte del

sistema de alertas tempranas. (Ver sección 5. Evaluar del capítulo de desarrollo).

Desarrollo: Esta fase implicó el desarrollo del prototipo con base en los modelos de

minería de datos seleccionados, donde cada modelo tenía un atributo objetivo distinto

(Ozono o Material Particulado). (Ver sección 6. Desarrollo del capítulo de desarrollo).

El proyecto dio como resultado seis modelos pertenecientes a las técnicas de reglas de asocia-

ción, agrupamiento (Clustering) y clasificación por arboles de decisión, donde tres modelos

pertenecen al atributo objetivo de Ozono y representan a cada una de las técnicas nombradas

anteriormente y los otros tres pertenecen al Material Particulado con las mismas característi -

cas. Cada uno de los modelos generados pasó las pruebas técnicas y teóricas a excepción del

modelo CPM10 (ver sección resultados). Las pruebas técnicas consistían en la ejecución del

conjunto de pruebas sobre el modelo generado con el conjunto de entrenamiento, en el cual se

revisaba su utilidad con base en gráficos de precisión, matrices de clasificación y validación

cruzada. Los modelos respondieron a una precisión de más del 80% de los datos de prueba

con base en el modelo y en el caso de las reglas de asociación, las métricas de mejora fueron

superiores a 1. Las pruebas teóricas se basaron en la revisión de los patrones comunes extraí-

dos por la experta en meteorología y con base en la tesis de maestría de la Ing. Blanca Ovie -

do. (Ver las relaciones encontradas y anexo 5).

Los modelos seleccionados para la creación de la base de conocimiento recibieron el nombre

de CAO3 y CAPM10 que implementan la técnica de clasificación por arboles de decisión

cuya poda se fundamenta en los patrones comunes extraídos por los modelos pertenecientes a

las otras técnicas.

Como resultado final los modelos escogidos se representan mediante un prototipo de sistema

de alertas tempranas que se basa en realizar un pronóstico de los contaminantes PM10 y O3

con estándares de peligrosidad que define la Agencia de Protección Ambiental (EPA por sus

siglas en inglés) por medio de la RMCAB que a su vez informe a la comunidad el peligro que

puede causar estos contaminantes en la salud de acuerdo a los parámetros establecidos por el

usuario. El prototipo fue revisado por el coordinador de la RMCAB. (Ver resultados de la re-

visión del producto final).

Página xii

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

INTRODUCCIÓN

El presente trabajo de grado se enfoca en la contaminación atmosférica de la localidad de

Puente Aranda, donde se busca encontrar relaciones entre variables climatológicas y las series

de tiempo con los contaminantes Material Particulado (PM10) y Ozono troposférico (O3) por

medio de técnicas de minería de datos que se puede definir como el proceso de extraer cono-

cimiento valido, útil y comprensible que se encuentra en grandes conjuntos de datos [42].

La característica principal de la minería de datos es que detecta tendencias escondidas en un

conjunto de datos que no son fáciles de identificar por medio de consultas o filtros a las varia -

bles (atributos) pertenecientes a la base de datos.

Para analizar la problemática de la calidad del aire en la localidad de Puente Aranda es nece-

sario mencionar sus causas. Una de ella es la actividad de tipo industrial. Se entiende por

actividad de tipo industrial, el conjunto de proceso y actividades que tienen como fin transfor-

mar las materias primas en productos de utilidad para el ser humano, otra causa fundamental

es el tráfico automotor [52].

El trabajo de grado se realizó por el interés de conocer y entender cuáles son las variables

climatológicas que influyen en la concentración de los contaminantes PM10 y O3 teniendo

en cuenta las series de tiempo y así implementar un prototipo de alertas tempranas para tomar

acciones correctivas que controlen la concentración alta de dichos contaminantes.

En el capítulo 1 se realiza el planteamiento del trabajo de grado, definiendo la problemática

que genera la mala calidad del aire a nivel global y en especial de la localidad de Puente

Aranda, se define la necesidad de realizar el proyecto, lo esperado por los involucrados, la

metodología trabajada y la finalidad, y limitación del desarrollo del trabajo de grado.

En el capítulo 2 se hará referencia a los trabajos relacionados con el presente proyecto, la

definición de los elementos que se utilizaron para el desarrollo del mismo y los conceptos

necesarios para que los involucrados comprendan lo realizado.

Página 1

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

En el capítulo 3 se describe cómo se llevó a cabo el presente trabajo de grado, que técnicas y

algoritmos de minería de datos se utilizaron (con su respectiva justificación) y cómo fue el

proceso de desarrollo de cada una de las fases de la metodología propuesta con sus respecti-

vos anexos.

En el capítulo 4 se presentan los resultados obtenidos en el capítulo 3 por medio de gráficas,

tablas y el software de interacción.

En el capítulo 5 se presenta un resumen de la reflexión de los resultados, la argumentación

del cumplimiento de los objetivos y el aporte a la problemática.

I. DESCRIPCION GENERAL DEL TRABAJO DE GRADO

1. Oportunidad, Problemática, Antecedentes

Existen problemáticas que afectan la salud de poblaciones muy grandes, esas problemáticas,

que están relacionadas con la morbilidad y la mortalidad, se denominan causantes de proble-

mas de salud pública. Según el Ministerio de Salud y Protección Social [54] un problema de

salud pública es una situación global que afecta la salud de la poblacional.

En la actualidad la calidad del aire juega un papel muy importante para la sociedad, principal-

mente en el área de la salud pública mundial, donde las concentraciones al aire de los conta -

minantes exceden las normas nacionales e internacionales de la calidad del aire. La mayoría

de los problemas de la contaminación del aire se deben a las actividades constantes que ejerce

el ser humano en su proceso de desarrollo e industrialización, siendo estos procesos los prin -

cipales causantes de que existan contaminantes tales como: Material Particulado (PM10) y

Ozono Troposférico (O3), por este motivo, se han creado organismos mundiales y locales que

trabajan por cuidar el medio ambiente [46][36]. Siendo un ejemplo de ello la Agencia de

Protección Ambiental de Estados Unidos (EPA por sus siglas en inglés), que se encarga de

proteger la salud pública y el medio ambiente desde 1970[46].

El Material Particulado, cuando se compone de partículas con diámetro menor a 10 micras

(PM10), puede afectar el sistema respiratorio humano produciendo enfermedades que tienden

al cáncer de pulmón [36] [5]. El Ozono troposférico (O3 ¿ es un gas altamente reactivo, de

Página 2

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

color azul pálido, que se encuentra cerca a nivel del suelo a una distancia entre los 0 y 12 km

de altura (por eso recibe su nombre de Ozono troposférico). Por su calidad oxidante, daña los

tejidos vivos causando síntomas como: irritación ocular, de nariz y garganta, tos, dificultad de

respiración profunda entre otras [36] [73] [72] [74].

La contaminación en el aire es un problema que lleva afectando a la población desde hace

décadas. En Londres en diciembre de 1873, una espesa nube de contaminación cubrió por

completo la ciudad dejando como resultado 1.115 muertes, así mismo en 1952 se experimen-

tó otro episodio de contaminación similar al anterior el cual ocasiono entre 4.000 y 8.000

muertes [75].

En 1930 en el tramo de valle de Meuse ubicado en Bélgica, caracterizada por su amplio desa-

rrollo industrial, una espesa niebla por causa de la dispersión de los contaminantes en el aire

cubrió gran parte del tramo donde vivían alrededor de 9000 personas, dejando como resultado

63 muertes de personas y 6.000 enfermos [77].

En Norteamérica el primer informe de desastre de contaminación del aire ocurrió en Donora,

Pensilvania en Octubre de 1948, ubicada en el condado de Washington, la ciudad contenía

grandes plantas de producción de acero, alambre, Zinc y ácido sulfúrico. Una nube de niebla

se encerró en dicha área, acompañada por el atrapamiento de contaminantes aéreo lo que

causó 20 muertes y 1.190 enfermos [75].

En Latinoamérica, cada año más de 70.000 personas mueren a consecuencia de la contamina-

ción aérea. Según un informe del Clean Air Institute [10] indican que en América Latina y el

Caribe hay alrededor de 100 millones de personas que están expuestas a las concentraciones

de contaminantes atmosféricos por encima de los límites recomendados por la Organización

Mundial de la Salud (OMS). Brasil, en especial la ciudad de Sao Paulo es el primer país (se-

gún dicho informe) que lidera la lista de los más contaminados de la región con 24.000 muer-

tes anuales por esta causa. México (con 15.000 fallecimientos anuales) y Argentina (con

10.000 muertes anuales), ocupan el segundo y tercer puesto de la lista por esta misma causa.

Página 3

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Colombia, un país perteneciente a América Latina, se ha caracterizado por sus proyecciones

en el aumento de la población, crecimiento industrial y el tráfico vehicular en los últimos

años, sin embargo, esto hace que los niveles de dióxido de azufre y Material Particulado pue-

dan aumentar entre el 100% y el 200% anualmente. Hay estudios que reflejan que cerca de

6.000 personas mueren al año por la contaminación del aire, según el Ministerio de Ambien-

te, se afirma que el alto costo de la contaminación no solo deja pérdidas humanas sino tam-

bién económicas ya que se pierden anualmente cerca de 1.5 billones de pesos por cuenta de

las ausencias laborales por enfermedades del sistema respiratorio y por los gastos hospitala -

rios que se corran [52].

Estudios realizados en la Habana-Cuba en 1998, en Cartagena (España) en el periodo de

1992-1996, en Bogotá Colombia en 1997, en la Ciudad de Taipéi- Taiwán en el periodo de

1994-1998, demuestran los expertos en salud junto con cardiólogos de la Universidad de

California (EE.UU), que las personas que se exponen a corto, mediano y largo plazo a conta-

minantes como Material Particulado (PM10) y ozono (O3) afectan la salud en el ámbito cardio-

vascular y respiratorio, aumentando así la mortalidad prematura y morbilidad en asma y otros

efectos secundarios como la conversión del agua en un elemento no consumible, la falta de

suelos limpios para sembrar, el daño en la vegetación, las flores, el deterioro del algodón y

los materiales sintéticos, las roturas en el caucho, el desteñido de ciertas pinturas, entre otros

[14][1][73].

1.1 Descripción del contexto

En este capítulo se describe el enfoque del presente trabajo de grado y el impacto generado para el entorno.

Según el IDEAM (Instituto de Hidrología, Meteorología y Estudios Ambientales) [23], Bogo-

tá es una de las ciudades que se encuentra en el ranking de los ambientes más contaminados

en Colombia, debido a su alto desarrollo industrial, alta población, cantidad de carros, entre

otros. Por este motivo, la capital cuenta con un sistema de monitoreo ambiental continuo con

transmisión de datos cuyo nombre es Red de Monitoreo de Calidad del Aire (RMCAB), per-

teneciente a la Secretaría Distrital de Ambiente (SDA), que cuenta con 15 estaciones de me-

dición distribuidas estratégicamente en Bogotá. La RMCAB cuenta con sensores meteoroló-

Página 4

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

gicos para la medición de temperatura, velocidad del viento, radiación solar, humedad relati-

va, presión atmosférica y precipitación.

Según los informes de calidad del aire [11] [12] emitidos por la RMCAB y el informe del

IDEAM [23], las zonas con mayores grados de contaminación nacional se encuentran en los

barrios Tunal, Kennedy y Puente Aranda. La localidad de Puente Aranda, ubicada al occiden-

te de Bogotá, se caracteriza por ser una zona industrial, en esta localidad se encuentran indus-

trias relacionadas con la elaboración y procesamiento de plásticos, textiles, químicos, metal-

mecánica, gaseosas, tabaco, concentrados e industrias alimenticias[26] y otras fuentes que

afectan al aire y que se encuentran en el sector, por esta razón la estación de la RMCAB ubi -

cada en el sector, presenta constantemente altos valores de concentración en O3 y PM10 [76]

[77][14][78].

Por otro lado, la dinámica de la atmósfera depende de la hora del día y los valores de las con-

centraciones de contaminantes son modulados por dicho comportamiento horario, por lo tan-

to, la concentración de los contaminantes depende de la hora del día [83]. Es decir, las series

de datos de mediciones de variables meteorológicas y de concentraciones de contaminantes,

responden a series de tiempo.

Según lo anterior, surge la inquietud de si un modelo de minería de datos podría dar un pro -

nóstico o una información temprana de episodios extremos de contaminación con el fin de

proveer una herramienta que permita tomar decisiones rápidas para las instituciones encarga-

das. Cabe recalcar que este proyecto tiene ámbitos investigativos en el sentido de explorar si

las técnicas de minería de datos se pueden utilizar en este contexto y de aplicación ya que se

requiere crear modelos y una aplicación que genere alertas tempranas.

1.2 Formulación del problema que se resolvió

¿Cómo encontrar relaciones entre variables que responden a series de tiempo, en especial de

aquellas relacionadas con la contaminación atmosférica en la localidad de Puente Aranda,

utilizando técnicas de minería de datos?

Página 5

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

1.3 Justificación

La contaminación atmosférica se ha convertido en un problema mundial, donde los principa-

les afectados somos nosotros los seres humanos y la naturaleza. Los contaminantes PM10 y O3

troposférico, tienden afectar a la población más sensible que son los niños; adultos mayores;

personas con problemas respiratorios, coronarios; personas que están expuestas al aire conta-

minado durante varias horas y la población de bajos estratos socio-económicos.

Puente Aranda, una localidad que dentro del Plan de Ordenamiento Territorial de Bogotá

(Decreto 190 de 2004), es una de las zonas industriales más importantes de Bogotá, en la cual

se realizan actividades del mismo tipo consideradas de alto impacto ambiental (mencionadas

en la sección 1.2) y que presenta altos valores de concentración de PM10 y O3 [51]. Lo cual

hace que este proyecto se enfoque en mejorar por medio de alertas tempranas los niveles de

salubridad de la calidad del aire.

Debido al alto peligro que puede causar la mala calidad del aire en la población de la locali -

dad de Puente Aranda, se desea buscar relaciones entre las concentraciones de los contami-

nantes O3 troposférico y PM10 y las variables atmosféricas como precipitación, velocidad de

los vientos, radiación solar y temperatura mediante técnicos de minería de datos.

Los resultados que se llevaron a cabo en el presente trabajo de grado permitirán a entidades

como la RMCAB crear reportes de contaminación a la comunidad con el fin de concientizar a

las personas más vulnerables a enfermedades cardiacas, respiratorias (como niños y ancianos)

[78] [72] y a los contribuyentes de la contaminación a crear campañas y mecanismos que

disminuyan las concentraciones de estos contaminantes, buscando así reducir sus concentra-

ciones.

Otro aspecto por el cual se consideró importante realizar este proyecto es debido a que la

Secretaria Distrital del Ambiente (SDA) tiene un programa llamado Plan Decenal para la

Descontaminación de la Calidad del Aire [79] (PDDCA) que consiste en la organización de

los proyectos orientados a la descontaminación reuniendo medidas que deberán ser imple-

mentadas con ayuda de sectores públicos y privados para lograr la reducción de contaminan-

Página 6

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

tes [79].Por ende este programa de PDDCA hace que este proyecto tenga relevancia en el

sector de contaminación, en especial en la localidad de Puente Aranda, ya que ofrecerá infor -

mación relevante para tomar decisiones políticas ambientales.

En la búsqueda de entender la relación entre las concentraciones de los contaminantes y las

variables atmosféricas, tradicionalmente se han utilizado las técnicas estadísticas enfocadas a

series de tiempo [6] [13]. Teniendo en cuenta que la Minería de datos se basa en la estadísti-

ca, [15] [8], se convirtió en una oportunidad para investigar si a través de esta técnica se pue-

den trabajar series de tiempo con resultados satisfactorios.

Los proyectos relacionados con el presente trabajo de grado han sido de tipo confirmatorio,

es decir que su objetivo es confirmar hipótesis ya planteadas, mientras que el presente trabajo

de grado busca explorar nuevos patrones y a su vez afirmar las relaciones existentes [81] [24]

[82] [6] [13] [26] [8] [15].

Este proyecto se enmarca en dos de las problemáticas que pretende atacar la Pontificia Uni-

versidad Javeriana desde su misión y es en el solucionar la “deficiencia y lentitud en el desa -

rrollo científico y tecnológico” y en “La irracionalidad en el manejo del medio ambiente y de

los recursos naturales.”[77]. Además es importante recalcar que la Ingeniería de Sistemas no

solo puede solucionar problemas en el ámbito tecnológico sino que también busca soluciones

eficaces en diversos ámbitos como en este caso el ambiental.

1.4 Impacto Esperado

Este proyecto tiene un impacto en el ámbito académico en cuanto a la investigación y aplica-

ción de si el uso de técnicas de minería de datos responde a relaciones entre las variables

climatológicas con los contaminantes teniendo en cuenta las series de tiempo y en cuanto a un

apoyo en la toma de decisiones en el ámbito ambiental, social, económico y tecnológico.

Página 7

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

1.4.1 Impacto Ambiental

Al ser un proyecto que se enfoca en dar una herramienta adicional para mejorar el conoci -

miento de la calidad del aire, se puede considerar que existe un impacto ambiental ya que

busca el beneficio del ambiente, en especial de la localidad de Puente Aranda, también contri-

buye al medio ambiente por sus resultados debido a que son generados y analizados de mane-

ra digital.

1.4.2 Impacto Social

Al ser un proyecto que se enfoca en ofrecer una herramienta adicional para mejorar el conoci-

miento de la salud pública de los habitantes, ya que se busca concientizar y prevenir a la so-

ciedad acerca de las consecuencias que causa la contaminación en la localidad de Puente

Aranda, además este proyecto puede ser útil para grupos de investigación o proyectos futuros

con el fin de ampliarlo o tomarlo como base a proyectos similares. Los principales beneficia-

dos en la identificación de las condiciones de ciertas variables atmosféricas que influyen en

las altas concentraciones de O3 y PM10 son niños, adultos mayores, personas que realizan

actividades al aire libre, personas con enfermedades respiratorias y cardiacas [13].

1.4.3 Impacto Económico

Este proyecto tendrá impacto en el ámbito económico ya que se puede ofrecer un modelo de

minería de datos que implica menos costo de operación que otros modelos que requieren alto

costo de procesamiento al analizar los patrones encontrados, los costos de conseguir un profe-

sional en estadística o matemáticas que ayude a interpretar dichas predicciones y además la

reducción de ausencias laborales y de gastos hospitalarios por enfermedades relacionadas con

calidad del aire.

1.4.4 Impacto Tecnológico

Este proyecto tendrá un impacto en el ámbito tecnológico ya que, por medio de un caso de

estudio específico, se podrá concluir si el uso de técnicas de Minería de Datos con series de

tiempo puede ser una alternativa viable para encontrar relaciones entre variables y pronosticar

comportamientos de las mismas.

Página 8

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

2. Descripción del Proyecto

En este capítulo se describen los detalles del trabajo de grado, alcance, fases de desarrollo

del proyecto, definición de herramientas y definición de variables de cada fase utilizada.

2.1 Visión global

En este trabajo de grado se realizó un prototipo que hace pronóstico de los contaminantes O3

y PM10 con el fin de crear alertas tempranas. Este prototipo es fundamentado en la creación

de modelos de minería de datos que permiten encontrar relaciones y detectar tendencias es-

condidas entre las variables atmosféricas cuyo valor depende de la hora y la fecha: velocidad

de los vientos, radiación solar global, precipitación, temperatura superficial con los contami-

nantes O3 y el PM10. Se incluyó el dióxido de nitrógeno (NO2) y el óxido de nitrógeno porque

aportan a la formación de O3. Este proyecto se enfocó en la localidad de Puente Aranda situa-

da al occidente de la ciudad de Bogotá y dio como resultado una nueva base de conocimiento.

2.2 Objetivo general

Encontrar y aplicar técnicas de minería de datos, que permitan hacer relaciones entre varia-

bles atmosféricas y variables contaminantes (ozono y material Particulado) para la localidad

de Puente Aranda con el fin de definir los valores asociados a eventos extremos de contami-

nación y desarrollar un prototipo de Sistema de Información de alertas tempranas de contami-

nación atmosférica a partir de las relaciones encontradas.

2.3 Fases Metodológicas por cada objetivo específico

En esta sección se especifican las fases metodológicas propuestas para el desarrollo del traba -

jo de grado, para cada fase se relacionan los objetivos específicos propuestos que se esperan

que se completen en el transcurso de cada fase. La primera fase contiene un sub-proceso con

el fin de utilizar la metodología por completo.

Página 9

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

2.3.1 Entender el problema

Sub- Proceso. Analizar los requerimientos del trabajo de grado para así acoplarlo a una defi-

nición de un problema de minería de datos.

2.3.2 Entender los datos

Objetivo 1. Determinar la información de calidad del aire pertinente para este proyecto, de

acuerdo con los datos suministrados por la Secretaria Distrital de Ambiente.

2.3.3 Preparar los datos

Objetivo 2. Establecer una vista minable, enfocándose en los rezagos en el tiempo que este

acentuando la relación entre una variable y otra.

2.3.4 Modelar

Objetivo 3. Determinar los modelos apropiados de minería de datos para buscar la relación

entre las variables atmosféricas y los contaminantes.

2.3.5 Evaluar

Objetivo 4. Validar los resultados que provea el entrenamiento de los modelos de minería de

datos con los resultados esperados y seleccionar los modelos de minería con más precisión.

2.3.6 Desarrollo

Objetivo 5. Crear un prototipo de Sistema de Información que se integre con los resultados de

los modelos de minería de datos seleccionada.

2.4 Método que se propuso para satisfacer cada objetivo especifico

Por ser un proyecto de aplicación práctica en el ámbito de la minería de datos, se propuso

trabajar con las metodologías SEMMA y CRIPS DM paralelamente ya que SEMMA abarca

el proceso a nivel general mientras que CRISP DM de forma más detallada para cada activi -

dad a resolver [80]. En el anexo P que contiene el Post – Mortem, se encuentra la justifica-

ción del cambio en las fases metodológicas de acuerdo a CRIPS DM.

Página 10

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

El ciclo vital contiene 6 fases (ver Ilustración 1 Ciclo Vital del Modelo [29]) de las cuales se

asignaron a partir de la fase 2 los objetivos específicos definidos en la propuesta. Para la fase

1 fue necesario asignar un sub- proceso mas no es un objetivo específico ya que se asemeja

más a una actividad. La asignación de los objetivos a cada una de las fases se encuentra en la

sección anterior. Por cada fase se pretende crear anexos que contenga información detallada

(reportes) del avance del proyecto y las justificaciones de lo que se ha realizado.

Ilustración 1 Ciclo Vital del Modelo [29]

II - MARCO TEÓRICO

1. Marco Contextual

La contaminación ambiental se ha convertido en un tema de estudio fundamental, donde dife-

rentes ciencias, como la ambiental, buscan la forma de identificar y tratar los contaminantes

que afectan a la salud humana y a la atmósfera. Se han realizado modelos dinámicos, compu-

tacionalmente muy complejos; modelos estadísticos que tienen dificultades para relacionar

físicamente las variables relacionadas; y modelos mixtos. En el Anexo M se detallan los tra-

bajos en el tema.

Página 11

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

2. Marco Conceptual

En este capítulo se presenta el estado del arte en cinco ámbitos principales de investigación

del presente trabajo de grado, donde cada uno de los ámbitos presentados a continuación

aporta información útil para el desarrollo exitoso de este proyecto.

2.1 Contaminación atmosférica

La contaminación atmosférica está compuesta por contaminantes clasificada como primaria o

secundaria. Los contaminantes primarios son aquellos procedentes directamente de las fuen-

tes de concentración como lo es para el caso de material Particulado (PM10) y los contaminan-

tes secundarios son aquellos originados en el aire por la interacción de dos o más contaminan-

tes clasificados como primarios, en este caso aplica para el O3 troposférico [25] [20].

El Ozono troposférico (O3) es un contaminante que se encuentra en la parte baja de la at-

mosfera cerca al suelo y se produce como resultado de relaciones entre los óxidos de nitró -

geno emitidos por los automóviles y por la industria, con compuestos orgánicos volátiles,

procedentes tanto de la industria (gasolina, disolventes y otros) como de la vegetación natural

(isopreno, terpenos y otros) y todos estos componentes en presencia de la radiación solar

producen dicho contaminante secundario [25]. El O3 troposférico, se produce cuando los

óxidos de nitrógeno (NOX) y los compuestos orgánicos volátiles (COV) reaccionan mediante

procesos fotoquímicos a la luz del sol [25].

El Material Particulado menor a 10 micras (PM10) son partículas sólidas y/o liquidas pre-

sentes en la atmósfera, dichas partículas se forman principalmente por compuestos inorgáni-

cos como silicatos y aluminatos, metales pesados y material orgánico asociados a las partícu-

las de carbono. Estas partículas penetran fácilmente en el sistema respiratorio, causando así

efectos adversos en especial para personas con enfermedades respiratorias y cardiacas, ya que

al viajar profundamente por los pulmones y por estar compuesta por elementos tóxicos debili-

ta el sistema respiratorio llegando a causar cáncer de pulmón, tos, dificultad al respirar, agra-

va el asma y en casos extremos muerte prematura en personas con padecimientos cardiacos o

respiratorios [5] [68].

Página 12

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

2.2 Variables Meteorológicas

Las variables meteorológicas son las que hacen referencia al estado climatológico de la zona,

es de suma importancia definir las variables que se tomaron en cuenta para el proyecto [68]

[12]:

Velocidad de los Vientos: El viento es el movimiento del aire en la atmósfera, en especial en

la tropósfera (ubicada a unos 12 km cerca al suelo), producido por causas naturales. Los vien-

tos se generan debido a los movimientos de rotación y de traslación terrestres que dan origen

a diferencias considerables en la radiación solar, la cual genera diferencias de temperatura en

masas de aire, produciendo el movimiento de las mismas.

Temperatura Superficial: Es una magnitud escalar relacionada con la energía sensible que

hace parte de la energía interna de un sistema termodinámico, dicha energía sensible está

asociada a los movimientos de las partículas del sistema y a medida que es mayor la energía

sensible de un sistema, su temperatura es mayor.

Radiación Solar: es el conjunto de ondas electromagnéticas emitidas por el sol. El sol se

comporta como un cuerpo negro que emite energía siguiendo la ley de Planck a una tempera-

tura de un 6000 k. En función de cómo reciben la radiación solar los objetos situados en la

superficie terrestre, se pueden distinguir cuatro tipos de radiación:

1. Radiación Directa: Es aquella que llega directamente del sol sin haber sufrido nin-

gún cambio en su dirección.

2. Radiación Difusa: Es la radiación reflejada por las nubes o absorbida por ella.

3. Radiación Reflejada: Es la radiación reflejada por la superficie terrestre.

4. Radiación Global: Es la suma de las tres radiaciones.

Lluvia: o también llamada precipitación, es un fenómeno atmosférico de estado líquido o

sólido que cae de las nubes hasta llegar a la tierra. La unidad de medida de la precipitación es

el milímetro (mm).

Página 13

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

2.3 Series Temporales

Una serie de tiempo es “una secuencia en el tiempo de valores del sistema x (t) que registra

una secuencia de valores experimentales x (t¿¿1) , x (t ¿¿2), x (t ¿¿3) ,… ..x (t ¿¿n)¿¿¿¿

para un intervalo de tiempo t=N con t 1< t2<t3<…<t n “[13], es decir que es un conjunto de

valores ordenados cronológicamente, en donde cada uno de estos valores describe el compor-

tamiento de una o más variables.

2.4 Red de Monitoreo de Calidad del Aire

La red de monitoreo de calidad del aire de Bogotá (RMCAB) es un sistema de monitoreo

ambiental continuo que cuenta con 15 estaciones de medición con disponibilidad de datos

meteorológicos y contaminación del aire.

La RMCAB actualmente monitorea partículas, gases y variables meteorológicas [36]. Cuenta

con una metodología para el procesamiento y captura de los datos, donde es aplicada en cada

una de las estaciones. En la Ilustración 2 se presenta dicha metodología.

Ilustración 2 Metodología para captura y análisis de datos Fuente: RMCAB [36]

Índice de Calidad del Aire (AQI)

La contaminación aérea cambia constantemente de un día para el otro o de hora en hora de-

pendiendo de la actividad antropogénica y las variables atmosféricas que se presentan en ese

Página 14

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

momento. Con el fin de capturar esa información cambiante, la EPA tiene una herramienta

llamada el (AQI) que es un índice que se enfoca en proporcionar de forma presentable y en-

tendible, información sobre la calidad del aire a nivel local y diariamente, y los relaciona con

los problemas de salud que causan los diversos niveles de concentración de un contaminante.

El AQI es un índice va de 0 a 500, cuando mayor sea el valor del AQI, mayor es el nivel de

contaminación y por ende la afectación de la salud. En la Tabla 1 se muestran las categorías y

los rangos del AQI para los contaminantes regulados.

Tabla 1 Índice Calidad del Aire Fuente: EPA [3]

La clasificación anterior se valores de variables de Ozono y PM10 con el fin de facilitar el uso

de técnicas de minería de tienen en cuenta para agrupar datos descriptivas y predictivas.

2.5 Minería de Datos

La minería de datos corresponde a una de las etapas del proceso llamado “Knowledge Disco-

very in Databases” (KDD) que consiste en extraer conocimiento valido, útil y comprensible

que se encuentre oculto en la base de datos, es decir, que a ojo humano o por medio de con-

sultas sea imposible de reflejar [7] [8] [22] [42]. La minería de datos se representa de la si -

guiente forma:

Tarea Predictiva: Esta tarea se encarga de los objetivos de un proyecto que requiera estimar

valores futuros o desconocidos de variables pertenecientes al conjunto de datos. Dentro de las

tareas predictivas se encuentran técnicas de clasificación y regresión. Los modelos predicti -

Página 15

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

vos requieren ser entrenados, utilizando un conjunto de datos cuyo valor de variable objetivo

es desconocido [29] [30] [42].

Tarea Descriptiva: Esta tarea se encarga de los objetivos de un proyecto que requiera identi-

ficar patrones y relaciones en los datos, explorando de forma profunda las propiedades de los

registros del conjunto de datos. Dentro de las tareas descriptivas se encuentran técnicas de

Clustering y las reglas de asociación.

2.5.3 Técnica de Reglas de Asociación

La función principal de las reglas de asociación es encontrar patrones y reglas útiles a partir

de grandes conjuntos de datos, para así detectar las relaciones que hay entre las variables de

entrada (pertenecientes al conjunto de datos) y la variable objetivo [29] [30] [42].

Las medidas que validan una regla de asociación son: el soporte, la confianza, la mejora y

para el caso del algoritmo PredictiveApriori, la medida PredictiveAccuracy.

2.5.4 Técnicas de Clasificación

Las técnicas de clasificación examinan las características de un registro de la base de datos y

lo asigna a una de las clases predefinidas, dichas clases predefinidas son estados del atributo

objetivo, el cual se quiere predecir. El objetivo de esta técnica es utilizar un conjunto de da-

tos y generar automáticamente un modelo que podrá predecir un comportamiento futuro.

2.5.4.1 Árboles de Decisión

Los arboles de decisión son: “un conjunto de condiciones organizadas en una estructura

jerárquica, de tal manera que la decisión final a tomar se pueda determinar siguiendo las

condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas [39].”

Este algoritmo genera un modelo de minería de datos mediante la construcción de una serie

de divisiones en el árbol, cada división se representa como nodos. El algoritmo adiciona un

nodo interno al modelo cada vez que un atributo de entrada tiene correlación con el atributo

predictivo. Los arboles de decisión de Microsoft utilizan la sección de características con el

fin de guiar la selección de loa atributos más útiles para el modelo, esta selección de caracte -

Página 16

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

rísticas ayuda a mejorar el rendimiento y la calidad del análisis ya que los atributos irrelevan-

tes utilizan tiempo en el procesador y desvían el modelo a resultados erróneos o confusos

[63].

2.5.5 Técnica de Clustering (Agrupamiento)

El proceso de agrupar un conjunto de elementos en clases o grupos, basado en la noción de

cercanía o similitud entre sus elementos recibe el nombre de Clustering [41] [58]. Dentro de

cada clúster o clase hay una colección de datos que son muy parecidos entre ellos y diferentes

a los datos pertenecientes a otros clústeres. Las técnicas de clustering son técnicas de clasifi-

cación no supervisada, es decir que no cuentan con un conocimiento a priori acerca de clasifi-

car un objeto dentro de una categoría o clase [59].

2.5.6 Vista Minable

La Vista Minable se enfoca en recoger y preparar la información necesaria para realizar una

tarea de minería de datos [38]. Es por esto que es de vital importancia realizar la preparación

y el análisis del conjunto de entrada para obtener unos modelos realmente significativos, ade-

más que sigue los estándares definidos para realizar proyectos der minería de datos [42] [43].

2.6 Correlación de Pearson

Para encontrar correlaciones entre los atributos de las bases de datos se utilizó el método de

correlación de Pearson , que se basa en analizar la relación entre dos variables medidas por

un intervalo, este intervalo va comprendido entre -1 y 1 y es llamado coeficiente de correla-

ción, su signo coincide por la pendiente de la recta de regresión (por eso fue fundamental

presentar los resultados de forma gráfica con tendencia lineal y de forma numérica), este

coeficiente es el que mide el grado de variación entre las variables que se pretenden analizar.

Si el resultado del coeficiente toma un valor de -1, la interpretación es que las dos variables

presentan una correlación negativa perfecta. Si el resultado del coeficiente toma un valor de

0, es porque no existe una correlación entre dichas variables. Si el coeficiente toma un valor

de 1 es porque la correlación es positiva perfecta.

Página 17

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

III – DESARROLLO DEL TRABAJO

Durante el desarrollo del trabajo de grado las fases de la metodología CRISP DM encajaron

en cada proceso del proyecto, por tal motivo para este capítulo se presenta el desarrollo del

trabajo de grado segmentado en cada fase metodológica, donde cada fase metodología tiene

uno o más anexos que muestran en detalle su procedimiento y los resultados obtenidos. Adi-

cionalmente para una mejor comprensión se muestra un diagrama de procesos de alto nivel,

usando la notación BPMN representada en cada fase.

1. Entender el problema

En esta fase fue necesario recopilar información acerca del contexto en el que se enmarca el

proyecto y en especial la localidad de Puente Aranda y los problemas de calidad del aire que

rodean el sector, también fue necesario revisar con el director de trabajo de grado los objeti -

vos específicos, generales y la pregunta generadora con el fin de crear una estrategia para

resolver cada tarea de una forma ordenada e incremental. Se tuvo una reunión en la RMCAB

en el departamento calidad del aire en las cuales se resolvieron preguntas de contexto y prin-

cipalmente se aclaró la justificación de realizar el trabajo de grado.

En la Ilustración 3 se presenta el diagrama de procesos para la fase 1.

Ilustración 3 Proceso alto nivel fase 1Fuente: Autor por medio de la herramienta Bizagi

1.1 Selección de herramientas a utilizar

Para escoger las herramientas que iban hacer parte del proceso de desarrollo del trabajo de

grado fue necesario recopilar información acerca de las herramientas mejor calificadas por

Página 18

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

los usuarios y su especialidad funcional. Se requirió instalarlas y probarlas con ejemplos pro-

vistos por dichas herramientas. Las herramientas elegidas están en la tabla Tabla 2

Herramienta Función

SPSS de IBM v.20 Fue necesaria para realizar correlaciones entre las variables (atributos) y fue seleccionada gracias a su facilidad de uso y su especialidad en el manejo de series temporales.

Weka 3.6 Esta herramienta fue utilizada para generar los modelos de reglas de asociación ya que la herramienta de Microsoft no contenía los algoritmos Apriori, PredictiveApriori y Tertius.

RapidMiner 5 Fue utilizada para generar gráficos de la técnica de Clustering ya que su visualización es fácil de entender y útil para el análisis de resultados.

SQL Analysis Services de Microsoft y Add –In de Excel para Minería de Datos 2010

Fue útil para la construcción de la vista minable, los modelos de clasificación y agrupamiento y las posteriores pruebas del modelo ya que este software es robusto, permitiendo así el tratamiento de grandes volúmenes de datos y fácil exportación de la base de conocimiento de los modelos.

NetBeans IDE 7.4 Utilizada para el prototipo de alertas tempranas.

Bizagi Process Modeler 2.7 Para crear el diagrama de procesos del proyecto.

Tabla 2 Herramientas utilizadas

2. Entender los Datos

Ilustración 4 Proceso alto nivel fase 2Fuente: Autor por medio de la herramienta Bizagi

En el anexo 1, capitulo 1 se encuentra en detalle el desarrollo y los resultados acordes a esta fase.

Página 19

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

2.1 Recopilar Registros

Para este proceso fue necesario crear una estrategia con la directora de grado experta en me-

teorología para identificar los datos iniciales que debían ser parte del desarrollo del proyecto,

recopilando bibliografía para encontrar información útil acerca de los contaminantes a traba-

jar en especial con variables climatológicas y precursores que contribuyen en la formación

del contaminante O3 y observando trabajos relacionados con calidad del aire donde se en-

contraban hipótesis acerca de la relaciones de algunas variables climatológicas con los conta-

minantes a trabajar. Esto fue necesario ya que la RMCAB entidad encargada de la entrega de

la información exigía una carta física detallando los atributos que se necesitan, el nombre de

la estación de la cual quieren la información y el motivo de la solicitud. Para este caso se

solicitó los registros históricos de la estación de Puente Aranda (por ser el caso de estudio) y

de Simón Bolívar ya que la primera estación no contaba con la captura de los valores de ra -

diación solar y según la investigación previa y la reunión con la experta en meteorología este

atributo era necesario para el proceso y extraerlo de otra estación no alteraba los resultados ya

que la distancia entre las dos estaciones es de 5 km.

2.2 Explorar Datos

Los registros históricos recibidos tienen una característica importante para el impacto del

proyecto y son las series de tiempo, por tal motivo fue necesario analizar el comportamiento

del este atributo en especial la hora y el mes con los contaminantes O3 y PM10. Para esto, se

separó este atributo de tipo date llamado fecha&Hora (cuyo formato es: día/mes/año hora:

minutos), en los atributos derivados hora, día y mes. Esta serie temporal contiene información

desde el primer día del mes de enero de 1999 a las 12 de la madrugada hasta el último día del

mes de diciembre del 2012 a las 12 de la madrugada. Adicionalmente esta división es de ayu-

da para crear otras variables derivadas relacionadas con las series temporales y por ende

cumplir el objetivo general del trabajo de grado. Se realizaron gráficos para conocer el com-

portamiento del O3 y PM10 tanto mensual como anualmente. Para más detalle diríjase al

anexo 1, capítulo 1 de análisis y exploración de datos.

Página 20

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

2.3 Describir los datos iniciales

Este proceso consistió en describir los atributos adquiridos, incluyendo el formato de los da-

tos, la cantidad y la calidad de los mismos. Para esto fue importante recopilar información

acerca de los equipos especializados que se encargan de la captura de los datos junto con las

coordenadas geográficas de la ubicación de la estación. Para conocer más a fondo los atribu-

tos de la base de datos fueron necesario utilizar la herramienta SQL Server Managment Stu-

dio 2012 ya que el formato en el que se adquirieron los registros históricos era compatible

con dicha herramienta.

2.3.1 Estado inicial de la Base de datos

En cada uno de los archivos se encontraron 4 tablas con los registros históricos del año 1999

hasta el año 2013, donde estaban distribuidas de la siguiente forma:

Página 21

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Tabla 3 Modelo de fuente de datos de 1999 a 2013Fuente: Autor por medio de RMCAB

Los atributos entregados por la RMCAB en los registros históricos entregados son los si -

guientes:

Nombre del Atributo Tipo de variable Tipo de Medición y/o formato Descripción

Fecha & Hora Datos Temporales dd/mm/aaaa h:mm Este atributo especifica la fecha y la hora en la que se toma la medición de cada uno de los atributos descritos posteriormente.

Ozono Continua Partes por billón (Ppb) Muestra el valor que presenta el contaminante de Ozono troposférico en tiempo real, según el índice de AQI [3]

PM10 Continua Microgramos por metro cubico (µg/ Muestra el valor que presenta el contaminante de Material Particulado en

Página 22

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

m3) tiempo real, según el índice AQI [3]

Vel Viento Continua Metros por segundo (m/s) Muestra el valor tomado en tiempo real de la velocidad del viento, que es la intensidad del viento, que se mide de acuerdo a una cantidad vectorial, su intensidad es variable ya que el flujo del aire no es constante.[17]

Temperatura Continua Grados centígrados (C°) Muestra el valor tomado en tiempo real de la temperatura, que es la medida de calor en un instante de tiempo, sus valores son >=0º.[17]

Lluvia Continua Milímetros (mm) Muestra el valor que se está tomando en tiempo real de la lluvia, que es el agua en forma líquida o sólida que viene de la atmosfera a la tierra. Esta variable incluye valores catalogados como: Lluvia, llovizna, roció, granizo, escarcha, nieve, etc...[17]

NO2 Continua Partes por billón (Ppb) Muestra el valor que presenta el contaminante de Dióxido de Nitrógeno en tiempo real, según el índice de AQI [3]

NOX Continua Partes por billón Muestra el valor del óxido de nitrógeno y este valor es calculado mediante la fórmula: NOX=NO+NO2 [33], siendo NO2 el atributo descrito anteriormente y NO es nobelio.

R_S Global ContinuaWatts por metro cuadrado (

wm2 )

Muestra el valor de la Radiación global solar, que viene siendo el resultado entre la suma de la radiación global directa y la radiación ultravioleta.

Tabla 4 AtributosFuente: Autor, con información de la página de la RMCAB

2.4 Verificar la calidad de los datos

La base de datos descrita en la tabla 5 y 6 contiene información únicamente continua por lo

que en muchos casos se presentaron campos que no contenían dicha característica y se identi-

ficaron como campos anómalos. Para identificar los datos anómalos fue necesario exportar la

base de datos que contenía los registros históricos a Weka con el fin de observar fácilmente la

cantidad de campos vacíos o con valores erróneos y gráficos de frecuencia que detectan los

dichos valores. Se listaron los valores de campos erróneos y posteriormente se consultó con

expertos en el tratamiento de las bases de datos de la RMCAB sobre cada uno de estos valo-

res donde explicaron el significado de cada valor y el tratamiento permitido para no alterar

los resultados posteriores. A continuación se muestra el tipo de errores que presentaban algu-

nos campos pertenecientes a los tres archivos de las bases de datos:

Valor del Campo Frecuencia Descripción

Página 23

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

de Campos

Vacío 123.743 No tiene valores numéricos ni ningún tipo de carácter.

Sin Data 89.316 El motivo de este valor es porque en ese momento se estaban realizando mantenimiento a las maquinas.

<Muestra 2.482 El motivo de este valor es porque al realizar la exportación por parte de la RMCA a un archivo .xls, el archivo toma algunos valores vacíos como muestra.

Apagado 860 Sucede cuando apagan el equipo de medición para realizar alguna actividad de chequeo en su funcionamiento.

Unknown 354 Sucede cuando el equipo de medición está en proceso de calibración.

FallTech 2.312 Sucede cuando el equipo de medición presenta fallas técnicas.

Fechas 2 El motivo de este valor es porque hay una interrupción de la operación en la estación.

Calib 1061 Sucede cuando el equipo de medición está en proceso de calibración.

Cero 99 Error de almacenamiento en la base de datos y queda como un carácter.

Spam 3 Error de almacenamiento.

Tabla 5 Base de datos con campos anómalosFuente: Autor gracias a la entrevista con el experto

2.3.2.1 Calidad de los atributos de la base de datos

La herramienta Weka permite identificar tanto de forma estadística como grafica los campos

erróneos y valores únicos que presenta cada atributo perteneciente a la base de datos, con el

fin de que en la siguiente fase se pueda identificar y solucionar los problemas de los datos.

Atributo % Campos Erróneos % Valores únicosOzono 14% 1%PM10 6% 0%

Vel vientos 2% 0%Temperatura 1% 0%

Lluvia 4% 0%R_S Global 6% 0%

NO2 6% 1%NOX 6% 4%

Tabla 6 Calidad de los campos por cada atributo

Página 24

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Fuente: Autor por medio de la herramienta Weka

Es importante recalcar que la RMCAB realiza mensualmente una validación de los datos

capturados por los equipos y esto hace que se ahorre el paso de evaluar la coherencia de los

datos.

3. Preparar los Datos

Ilustración 5 Proceso alto nivel fase 3Fuente: Autor por medio de la herramienta Bizagi

El anexo 1 (a partir del capítulo 2) contiene toda la información detallada de la construcción

de la vista minable. En el anexo 3 se encuentra la muestra de la vista minable por cada atribu-

to objetivo y técnica de minería.

3.1 Integración de las fuentes de la base de datos

La base de datos adquirida tenía 4 tablas divididas por los años en las que se capturaron los

datos de los contaminantes y las variables meteorológicas. Para mayor facilidad en la prepa-

ración de los datos y con el fin de mejorar la eficiencia y el tiempo de ejecución de los mode-

los, fue necesario unir estas 4 fuentes con los registros de cada fuente. La unión (dividido en

años) se realiza por medio de sentencias SQL.

3.2 Limpieza de Datos

En este proceso se realizó el tratamiento aplicado a los datos con valores únicos, datos incon-

sistentes, datos perdidos y problemas de integración con el fin de obtener una vista minable

Página 25

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

consistente para aplicar las técnicas de minería de datos y evitar que se distorsionen los resul-

tados.

Datos Perdidos:

En el motor de base de datos SQL Server 2012 los datos perdidos se representan con el valor

“NULL”. Debido a que los datos no contienen ninguna información, se consultó al experto en

el conocimiento de los datos quien sugirió no reemplazarlos por el promedio ni predecirlos

sino ignorar los registros con dichos campos perdidos ya que no representaban una cantidad

significativa en el total de registros. En muchos casos habían registros que contenían 2 o más

campos perdidos o vacíos.

Datos Inconsistentes:

Los campos clasificados como inconsistentes son los que tienen valores que no son de tipo

numérico para todos los atributos excepto para el atributo fecha&Hora. No se tuvieron en

cuenta los registros con datos inconsistentes ya que se podrían alterar los resultados de las

técnicas de minería de datos, sobre todo porque en muchos de los registros se encontraban

más de 2 campos con valores inconsistentes.

Valores Únicos

Los atributos de la base de datos contienen valores únicos que representaron el 6% de los

campos de la base de datos. Los valores únicos pueden desviar los resultados que provean las

técnicas de minería de datos, en especial la técnica de reglas de asociación, así que para este

caso fue necesario discretizar los siguientes atributos: Ozono, PM10, VelViento, Lluvia, NOX,

NO2 y Temperatura.

Reducción de dimensionalidad

La limpieza de datos, consistió en detectar los datos que podían presentar problemas de in-

consistencias y rendimiento a la hora de tomarlos como muestra de entrada en los algoritmos

de minería, así que los registros que contenían los campos que se describían en esa sección,

se eliminaron. La descripción en detalle del porcentaje de registros eliminados y los restantes

se encuentra en el anexo 1.

Página 26

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Suavizado de Datos

Es importante recalcar que la base de datos inicial, tiene la mayoría de sus atributos de tipo

numérico, por lo que puede suceder que en un escenario negativo cada campo pueda tomar

tanto valores como registros hay. En este caso muchas de las diferencias entre los valores de

los campos son a nivel de los decimales, así que son insignificantes para los resultados del

algoritmo de minería pero pueden degradar su desempeño.

3.3 Seleccionar las técnicas de minería de datos

Para el presente trabajo de grado se utilizaron diferentes técnicas de minería de datos para

solucionar el problema desde diferentes puntos de vista, con el fin de explorar cada uno de los

comportamientos de los modelos y concluir patrones comunes, especiales y únicos que pue-

den ser útiles para el prototipo de alertas tempranas. Además este proyecto busca generar un

nuevo conocimiento en el ámbito investigativo, afirmando que la minería de datos también

puede resolver problemas de calidad del aire usando series de tiempo.

Para seleccionar las técnicas de minería de datos apropiadas se tuvieron en cuenta diversos

aspectos como: si las técnicas escogidas tienen una forma de validar los resultados (por ejem-

plo por métricas de confianza y mejora o dividir el conjunto de entrenamiento y prueba), si el

tipo de dato de cada atributo se puede adecuar fácilmente para aplicar las técnicas selecciona-

das y si la cantidad y la calidad de los datos son suficientes para producir los modelos con

resultados fiables y útiles. Cabe recalcar que un filtro para seleccionar las técnicas de minería

es que no se hayan trabajado con frecuencia en proyectos relacionados y que sus resultados se

representen de forma distinta. En el anexo 2 se encuentra en detalle la justificación de las

técnicas seleccionadas.

Las técnicas seleccionadas que cumplen estos requisitos son:

3.3.1 Técnica de Reglas de Asociación

Esta técnica por ser descriptiva, se utilizó para determinar reglas que definan con que estados

climatológicos, las concentraciones de los contaminantes de Ozono y Material Particulado,

Página 27

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

son altas o bajas. También fue de utilidad para comprobar los patrones generados por la técni-

ca de clasificación.

3.3.2 Técnica de Clasificación

Esta técnica por ser predictiva, robusta frente a variables independientes y detalladas en su

resultado de precisión, se utilizó para crear la base de conocimiento que va hacer consultada

por el prototipo.

3.3.3 Técnica de Agrupamiento (Clustering)

Esta técnica fue de gran utilidad para conocer el comportamiento de cada variable climatoló-

gica y temporal con el contaminante objetivo, además fue de gran importancia para facilitar la

interpretación de los resultados generados por las otras técnicas.

3.4 Creación de Variables Derivadas

Las variables derivadas fueron creadas a partir de la combinación de los valores de dos o

más campos, con el fin de facilitar la interpretación de resultados, la construcción del modelo

de minería y el cumplimiento de los objetivos específicos del proyecto. La creación de las

variables derivadas se enfocó en extraer de las series de tiempo atributos útiles y concernien-

tes al tiempo que es fundamental para el cumplimiento de los objetivos. Las variables deriva-

das creadas que hacen parte de la vista minable son: Fin de semana, Trimestres del año, Pro-

mRadiacionSG, PromNOX y PromNO2. Las variables derivadas: Hora Pico, Clasificacio-

nHora, resultaron del atributo Hora, donde fue necesario investigar y asesorase con la exper-

ta en meteorología sobre cuáles son las horas pico en Bogotá (donde hay mayor congestión

vehicular) y los rangos horarios donde aumenta alguna variable climatológica que puede

afectar a los contaminantes. Los atributos Fin de Semana y Trimestre del Año derivaron del

atributo original mes donde su creación fue importante con el fin de explorar la dinámica de

la ciudad. El atributo PromRadiacionSG fue necesario para evitar el sobreajuste de la técnica

de clasificación y se utilizó el atributo radiación solar y ClasificacionHora calculando el

promedio por clasificación horaria.

La descripción y el detalle de cada una de las variables derivadas se encuentran en el anexo 1

sección 2.1.4 Creación de variables derivadas.

Página 28

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

3.5 Preparación de datos para las técnicas Reglas de asociación y

Clasificación

Una de las desventajas de las técnicas de Reglas de asociación y Clasificación, es que no

manejan muy bien los datos de entrada cuyos valores son continuos ya que afecta el desem-

peño, el cálculo de medidas como la confianza y el soporte y la certeza en clasificación de los

casos al atributo objetivo. Por tal motivo es necesario realizar una conversión de los atributos

de continuo a nominal. Esta conversión se realiza con escalas definidas por entidades científi-

cas como la EPA y la RMCAB entre otras. A continuación se muestran los atributos a los que

se les realizo la conversión. Los detalles de las escalas se encuentran en el anexo 1 capítulo 2.

VelViento

Este atributo por ser de tipo continuo fue necesario discretizarlo. El atributo VelViento se

categoriza de acuerdo a la escala de velocidad del viento – Beaufor [11] [12] especificado en

el informe anual de calidad del aire.

Temperatura

El atributo contiene un índice definido llamado temperatura efectiva Missenard, este índice

mide el estrés térmico tanto por altas como por bajas temperaturas y con este índice se realizó

el proceso de conversión.

Lluvia

Este atributo también tiene una escala definida por lo cual se usa para realizar la discretiza-

ción de los valores posibles, la escala es definida en los informes anuales de calidad del aire

realizado por la RMCA [12].

RadiaciónSolarGlobal

El atributo de radiación solar global no tiene como tal un índice de medición, así que fue

necesario utilizar las herramientas de SQL Server detección de categorías, donde se detecta-

ron 5 que se presentan en el anexo 1 con su respectiva importancia.

Página 29

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Óxido de Nitrógeno (NOX)

Este atributo no tiene un índice de medición como tal, así que fue necesario utilizar las herra -

mientas de detección de categorías que proporciona Aanalysis Services de SQL Server 2012,

esta herramienta crea categorías de tal modo que cada una de ellas quede con una cantidad de

campos proporcionado. Es importante recalcar que estas categorías creadas no definen si el

NOX es bajo o alto, simplemente se utiliza esta categorización por motivos de este trabajo de

grado para facilitar el proceso de aplicación de las técnicas de minería .La categoría que toma

el nombre “ALTO” cuando es mayor o igual a 195 ppb no se muestra con una importancia

alta ya que hay muy pocos valores que se encuentran con este estado. La categoría más fre-

cuente es “MUY BAJO”.

Ozono Troposférico (O3 ¿

A este atributo por su característica de tipo continua fue necesario aplicar discretización se-

gún los criterios que maneja la (EPA), dichos criterios se basan en un índice llamado AQI, así

que fue necesario primero convertir los valores del O3 a el índice.

En la sección 2.4 del marco teórico y en el anexo 1 se encuentran especificadas las escalas

para cada contaminante con valores AQI que fueron a los que se convirtieron para realizar

dicha categorización.

Dióxido de Nitrógeno NO2

Este atributo está incluido entre los contaminantes principales medidos por la EPA [3] y es

necesario realizar la conversión de ppb a AQI, y luego categorizar por rangos de AQI de

acuerdo al nivel de preocupación por la salud.

En la sección 2.4 del marco teórico y en el anexo 1 se encuentran especificadas las escalas

para este contaminante con valores AQI.

Material Particulado (PM10)

El Material Particulado (PM10), tiene un índice de calidad del aire definido por la EPA.

Página 30

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

3.6 Preparación de datos para las técnicas de Agrupamiento

Esta técnica por estar basada en distancias, aplica algunos procesos distintos a los de las re-

glas de asociación y clasificación, en esta sección se presentan los procesos a nivel general

que se realizaron a la base de datos para aplicar esta técnica.

3.6.1 Normalización

El método de normalización que se aplicó a la base de datos fue Min-Max [41], como su mis-

ma palabra lo dice se basa en el valor máximo y mínimo del campo de cada atributo.

Los atributos del conjunto de datos a los cuales se les aplico normalización son los siguientes:

ozono, NOX, NO2, radiacionSolar, temperatura, lluvia, VelViento, PM10. Es decir que estos

atributos quedaron en rangos de 0 a 1 para facilitar el proceso de agrupamiento de la técnica y

no viciar la distancia. Para esto fue necesario utilizar los valores continuos de cada atributo y

aplicar la fórmula de Min-Max. Este procedimiento se pudo realizar con Excel, importando la

base de datos de SQL server.

3.7 Vista Minable

Como se especificó anteriormente, fue necesario crear una vista minable dependiendo del

atributo objetivo y de la técnica de minería de datos. Para la técnica de Clustering se crearon

dos vistas minables, una que contiene la información acerca del atributo O3 y la otra el PM10.

Para las técnicas de reglas de asociación y clasificación se crearon dos vistas minables con las

mismas características anteriores. Si desea ver una muestra de las vistas minables generadas

abra el script del anexo 3 que contiene la vista minable.

Página 31

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

4. Modelar

Ilustración 6 Diagrama de procesos fase 4 alto nivelFuente: Aturo por medio de la herramienta Bizagi

En esta fase se presentaron varias iteraciones junto con la fase de preparación de datos, ya

que fue necesario ajustar la vista minable para ejecutar varios modelos ajustando los paráme-

tros de acuerdo a las necesidades del negocio y la precisión de los modelos utilizando el con -

junto de prueba. El anexo 2 contiene el plan de diseño de pruebas y la justificación de las

técnicas de modelado, el anexo 4 contiene un documento llamado “Proceso de construcción

de los modelos” donde se encuentra detalladamente el proceso realizado. El anexo 5 contiene

los resultados de los modelos generados por cada técnica.

4.1 Creación del diseño de Pruebas

El objetivo de crear el diseño de pruebas es para probar la calidad y validez de los resultados

arrojados por los modelos de minería generados (para más detalle ver anexo 2). De acuerdo a

los criterios establecidos, el plan para probar los modelos se basó en las siguientes:

1. Se dividió el total de registros, en el conjunto de prueba y entrenamiento para cono-

cer la precisión del modelo (ver fase de evaluación).

2. Se algunos patrones generados por las técnicas con patrones encontrados por otra

tesis de meteorología utilizando modelos estadísticos validados previamente. Esto fue

teniendo en cuenta los patrones comunes generados en ambos proyectos.

3. Se preguntó al equipo de la RMCAB algunas relaciones frecuentes en los datos con

el fin de comparar y revisar algunos patrones generados.

Página 32

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

4. Para el modelo CAO3 y CAPM10 pertenecientes al árbol de clasificación, fue nece-

sario realizar proceso de poda. (especificado en la fase de evaluación).

5. Se compararon los resultados de los modelos generados por las distintas técnicas

implementadas entre ellos, teniendo en cuenta los patrones comunes y especiales

(poco comunes).

6. Se seleccionan las reglas de asociación para los modelos RAO3 y RAPM10 que cum-

plan con la medida probabilística mejora mayor a 1 y cuyos resultados son redundan-

tes entre los atributos (un ejemplo son reglas que contengan el atributo mes y trimes-

tres del año).

7. Los patrones son revisados por la directora experta en meteorología.

8. Para la aplicación se realizaron pruebas con los posibles estados que podían tomar los

contaminantes y en qué casos pasaban dichos contaminantes, además se revisó su

funcionalidad por parte del equipo de la RMCAB.

9. Se reciben los registros históricos del 2013 para pasarlos como segundo conjunto de

prueba y observar los resultados de precisión con un porcentaje mayor al 75%.

4.2 Selección de los algoritmos

Para cada técnica de minería de datos, fue necesario realizar pruebas de cada algoritmo con

diferentes conjuntos (pequeño: 5.000 registros, mediano: 10.000 y grande 30.000 registros)

de datos para evaluar el desempeño y la precisión de cada uno de ellos por medio de métricas

probabilísticas y gráficos de precisión. También se tuvieron en cuenta los siguientes criterios:

1. El tipo de datos que soporta.

2. Cuales han sido los más populares por cada técnica.

3. Cuál es su estrategia con los datos para generar los modelos.

4. Si es robusto frente a outliers o variables independientes.

5. La estructura de datos para almacenar los registros.

Los algoritmos seleccionados para las reglas de asociación fueron: Apriori y PredictiveAprio-

ri. Algoritmo probado y rechazado: Tertius (desempeño muy bajo). Los algoritmos seleccio-

nados para Clasificación por arboles de decisión fueron: Arboles de decisión Microsoft. Al-

Página 33

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

goritmo probado y rechazado: J48 (resultados similares al de Microsoft y difíciles de exportar

a un archivo legible por el involucrado) y C.4.5 (resultados difíciles de entender).Los algorit-

mos seleccionados para Clustering fueron: K- means.

4.3 Generación de los Modelos de Minería

Este proceso se basó en la ejecución de los algoritmos, la selección de los atributos de entrada

y la configuración de paramentos cuyo proceso fue iterativo de acuerdo a su rendimiento.

Cada algoritmo de minería tiene una configuración de parámetros y atributos de entrada dife-

rentes, por ende se explica cada modelo generado en detalle.

4.3.1 Proceso para generar los modelos RAO3 y RAPM10

Estos modelos son los que implementan las técnicas de reglas de asociación por medio de los

algoritmos: Apriori y PredictiveApriori.

Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedían los

algoritmos y estudiar los posibles valores que dichos parámetros podrían tomar, además fue

necesario realizar un proceso de análisis y selección de las reglas generadas. La dinámica en

cuanto a ejecuciones de los algoritmos seleccionados se enfocó en la generación de reglas

detalladas y generales. Fue necesario realizar varias ejecuciones para cada conjunto de datos

que contienen el valor objetivo O3 y PM10. Se manejaron dos tipos de ejecuciones, donde

cada uno de ellos contenía algunos atributos de entrada distintos entre sí.

4.3.1.1 Selección de los atributos de entrada para los algoritmos

Como esta técnica permite seleccionar las reglas de asociación cuyas métricas de confianza,

soporte y mejora sean altas o bajas (dependiendo de la necesidad del problema) y gracias a

las correlaciones encontradas en la fase 2 entre las variables climatológicas y temporales con

los contaminantes O3 y PM10, se utilizaron la mayoría de los atributos con el fin de seleccio-

nar las reglas más interesantes. Los atributos seleccionados fueron: HoraPico, Hora, Clasifi-

cacionHora, Trimestres del Año, Mes, Lluvia, VelViento, RadiacionSolar, NOX, NO2 y tem-

peratura.

Página 34

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

4.3.1.2 Criterios para la selección de reglas de Asociación

Cada regla de asociación fue revisada con el fin de no encontrar los siguientes problemas:

reglas redundantes (con atributos que tienen el mismo sentido. Ejemplo: Mes, trimestre),

reglas obvias (reglas que reproducen éxitos pasados), reglas innecesarias (que tienen otro

atributo como consecuente, diferente al de cada contaminante), medida de Mejora ( lift) y Re-

glas con una confianza baja. Si la regla no cumple alguno de los criterios de selección, dicha

regla es descartada. La explicación de cada criterio de selección se encuentra detallada en el

anexo 2.

4.3.2 Proceso para generar los modelos CO3 y CPM10

Para crear estos modelos fue necesario utilizar las vistas minables con los atributos normali-

zados con el fin que los cálculos de distancia sean más precisos.

4.3.2.1 Selección de los atributos de entrada para el Algoritmo

El procedimiento realizado para la selección de atributos en ambos conjuntos de datos (cuyos

atributos objetivo son el PM10 y O3 ) se apoyó en la herramienta de SQL Analysis Services

con dos funcionalidades provistas por el mismo, gracias a la asesoría de expertos en el tema y

las correlaciones encontradas en la fase dos Entender los datos. Estas funcionalidades se en-

cargan de detectar los atributos que son más influyentes con el atributo objetivo. A continua -

ción se presentan las dos funcionalidades utilizadas:

Red de Dependencias de Microsoft: Esta herramienta contiene una opción de red de depen-

dencias, dicha red de dependencias analiza el conjunto de datos y muestra los atributos que

deberían pertenecer al conjunto de datos de entrada con el atributo predictor (que en este caso

sería el O3 o PM10) para obtener buenos resultados provistos por el algoritmo, teniendo una

certeza optima ya que se basa meramente en los registros históricos. Es importante recalcar

que para aplicar esta función se incluyeron todos los atributos iniciales y creados en la vista

minable.

Página 35

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Ilustración 7 Red de DependenciasFuente: Herramienta Visual Studio Data Tools 2010

Las variables derivadas como Hora Pico y los atributos como Lluvia no aparecieron en la red

de dependencias de ambos conjuntos de datos, lo cual según esta función, estas dos variables

no son buena opción para pertenecer en el conjunto de entrada de la técnica.

4.3.2.2 Ejecución del Algoritmo

Para la ejecución del algoritmo se utilizaron todos los datos de entrenamiento los cuales se

asignaron al componente de vista de origen de datos y fue necesario tener un proceso iterativo

con la configuración de los parámetros.

4.3.3 Proceso para generar los modelos CAO3 y CAPM10

Esta sección consistió en generar dos modelos de clasificación, que permita asignar registros

de los conjuntos de datos a los estados del atributo objetivo O3 y PM 10.

4.3.3.1 Algoritmo de Microsoft para Arboles de decisión

Una de las principales características por la que se escogió este algoritmo es que es robusto

frente al ruido de los datos y los atributos considerados independientes, aunque el ruido y la

calidad de los datos están controladas y tratadas en la fase de preparación de datos, es impor-

tante tener en cuenta esta característica para cuando otros trabajos de grado quieran escalar el

proyecto con otros conjuntos de datos. Otro aspecto importante por el cual se seleccionó este

algoritmo es por su facilidad de interpretar los resultados ya que contiene herramientas de

visualización muy fáciles de entender y de forma organizada, estas herramientas son creadas

por Microsoft.

Página 36

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

4.3.3.2 Selección de los Atributos de entrada

Se definieron los atributos de entrada utilizando tres criterios: el primero gracias a las depen-

dencias encontradas de algunos de los atributos de la base de datos con el atributo predictor

por medio de las correlaciones realizadas en la fase anterior, el segundo es gracias a la aseso-

ría de expertos en el tema y el tercero es por la funcionalidad de la herramienta Analysis Ser-

vices 2010 cuyo nombre es Selección de características.

4.3.3.2.1 Aplicación del método Selección de características para identificar los atributos de entrada

Esta función utiliza un conjunto de técnicas predeterminadas para aplicar de forma inteligente

la reducción de cardinalidad. El método eligió a los atributos que tienen una correlación sig-

nificativa con el atributo predictivo y tiene una probabilidad que indica su relación y la con-

fianza de que esos atributos seleccionados se usaran por el modelo. A continuación se mues-

tra el resultado de aplicar esta función en la construcción de los modelos con los dos conjun-

tos de datos:

Se puede observar que los atributos lluvia en ambos conjuntos de datos no tienen una relación

con el atributo objetivo. Cabe recalcar que el atributo RSG es el mismo RadiacionSolar.

Página 37

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

4.3.3 Evaluación técnica de los modelos

Este proceso se caracteriza por ser iterativo con el de generar el modelo ya que es importante

evaluar los modelos generados antes de presentarlos y/o implementarlos para uso de los ex-

pertos. La evaluación técnica realizada a los modelos es importante ya que esto evita que los

modelos generados arrojen reglas inútiles y ocasionen problemas de precisión y rendimiento

a la hora de utilizarlos. Este proceso se enfoca en la calidad y desempeño del modelo técnica-

mente, para esto fue necesario evaluar los modelos con los criterios establecidos (en el anexo

2 se encuentran en detalle estos criterios). A continuación se definen dichos criterios:

1. Se revisaron los gráficos de precisión (para modelos de Clustering y clasificación),

matriz de confusión (para modelos de clasificación) y métricas de confianza (para los

modelos de reglas de asociación) generados por el resultado de aplicar el conjunto de

prueba al modelo generado con el conjunto de entrenamiento. Si los resultados eran

precisos en más del 75% (valor definido por la herramienta), el modelo estaba listo

para ilustrar y analizar lo patrones generados [62].

2. Cada resultado provisto por cada técnica fue revisado por personas no expertas ni en

calidad del aire ni en minería con el fin de clasificar cuales técnicas tenían resultados

fáciles de interpretar y cuáles no.

3. Los resultados generados por cada técnica se compararon entre sí con el fin de encon-

trar patrones comunes para tener una confianza alta de las relaciones encontradas,

para esto también fue importante revisar que cada patrón generado tuviera una proba-

bilidad de predicción y/o de confianza superior al 60% que es lo sugerido para que un

patrón sea considerado confiable.

4. Los resultados deben tener sentido lógico (por ejemplo habían reglas que decían si el

O3=bueno → O3=bueno).

Página 38

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

5. Evaluar

Ilustración 8 Diagrama de procesos fase 5 alto nivelFuente: Autor por medio de la herramienta Bizagi

En esta fase se evaluaron los resultados generados por los modelos de minería de acuerdo al

contexto de calidad del aire, se definieron los resultados de precisión de los modelos seleccio-

nados cuyos resultados fueron generados por la herramienta Analysis Services, se definieron

los gráficos y documentación de análisis de los modelos seleccionados y se eligieron los mo-

delos (uno de cada contaminante) que iban hacer parte de la base de conocimiento del prototi-

po.

5.1 Evaluación de resultados

Este proceso consistió en analizar los resultados de los patrones comunes generados por los

modelos de minería con la directora del trabajo de grado experta en meteorología con ayuda

de algunos resultados generados por su tesis de maestría [83], la cual se basó en la creación

de modelos dinámicos en los que se arrojaron patrones que muestran relaciones entre las va-

riables climatológicas y los contaminantes tratados, comparando los resultados comunes de

dichos trabajos con los resultados provistos por el modelo de minería. Los resultados de los

modelos documentados (que se encuentran en el anexo 5) se presentaron a un experto en

calidad del aire quien está en proceso de revisión de los documentos. (Los resultados de la

validación de algunos patrones generados se encuentran en el anexo 7). Por el lado de la fun-

cionalidad del prototipo, se realizó una reunión con el equipo de la RMCAB quienes aproba-

ron su uso y formato (En la sección de resultados se encuentra los resultados de la califica-

ción de la visualización de los modelos escogidos y el prototipo).

Página 39

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

5.2 Comparar los modelos creados

Para la creación de la base de conocimiento que fue la base del prototipo fue necesario selec -

cionar dos modelos correspondientes a cada contaminante estudiado (PM10 y O3 ¿. En total

fueron 6 modelos de mineria de datos correspondientes a las técnicas de Agrupamiento, Re-

glas de Asociación y Clasificación (dos por cada técnica) que se generaron y se estudiaron

con el fin de cumplir uno de los objetivos principales que era la aplicación de técnicas de

minería en la contaminación, tres modelos tienen como atributo objetivo el O3 y los otros tres

el PM10.

Para cada uno de los modelos de minería, fue necesario realizar pruebas prácticas enfocándo-

se en criterios no funcionales con el fin de seleccionar los modelos más apropiados para crear

la base de conocimiento. Algunos de los criterios de evaluación son sugeridos por IBM y

Microsoft y los otros son definidos gracias a la recopilación de los trabajos de minería de

datos resueltos. Cada criterio de evaluación fue calificado en una escala de 1 a 10 teniendo en

cuenta que 1 es la puntuación más baja y 10 la más alta. Los modelos que no son selecciona -

dos quedan documentados con su proceso de creación y análisis de los resultados generados

en el anexo 4 y 5 respectivamente. A continuación se presenta el proceso realizado en cada

criterio de evaluación:

Criterio 1. ¿Los resultados son presentados con claridad y facilidad? :

Para evaluar este criterio fue necesario revisar los resultados que genera cada técnica de mi-

nería implementada y en especial los resultados de cada modelo. También fue importante el

concepto emitido por los de la RMCAB quienes entendieron los modelos de clasificación por

arboles de decisión con mayor facilidad.

Criterio 2. Facilidad de incorporar en la necesidad del prototipo:

Este criterio se evaluó de acuerdo a la funcionalidad del prototipo de alertas tempranas pla-

neado, donde la idea fue que de acuerdo a unos datos de entrada (que son datos de los atribu-

tos de los registros históricos), se estime el estado del contaminante junto con una probabili-

dad de confianza.

Página 40

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

En cuanto a los modelos pertenecientes a las técnicas de Clustering se pudo observar que la

salida que generan estos modelos de acuerdo a unos datos de entrada son: una medida proba-

bilística de asignación y el nombre del cluster al que se asignó ese registro de entrada, por lo

cual estos modelos no se acoplan fácilmente a la funcionalidad requerida.

Para los modelos pertenecientes a la técnica de reglas de asociación, la salida que generan los

modelos puede ser la adecuada al prototipo funcional, sin embargo hay reglas que obtuvieron

un porcentaje de soporte bajo (por debajo del 25%) y que no son significativas para el algorit-

mo aunque puedan ser importantes para el contexto del proyecto.

La salida generada por los modelos de árboles de decisión es la más adecuada para el prototi-

po, además la herramienta utilizada tiene facilidad para importar y generar la base de conoci-

miento de acuerdo a las especificaciones que tenga el usuario involucrado.

Criterio 3. Confiabilidad y precisión:

Para calificar los modelos por este criterio fue necesario revisar los gráficos de precisión, la

matriz de confusión de los modelos de clasificación y las métricas probabilísticas de mejora

de los modelos de reglas de asociación. Se compararon los modelos buscando los más preci-

sos por cada conjunto de datos correspondiente a los contaminantes.

Criterio 4. Rendimiento al ser escalable y calidad de resultados:

Se compararon los modelos generados por medio de diferentes tamaños de conjunto de datos

de entrada utilizando los registros históricos del año 1998 (que no se aplicaron como conjunto

de entrenamiento) y se dividieron en 3 partes: una con tamaño pequeño (5000 registros), me-

dio (15000 registros) y grande (30000 registros). Estos conjuntos se aplicaron a cada modelo

de minería, observando los tiempos de respuesta y la precisión de cada modelo, para observar

cual modelo se podría adaptar en cuanto a tiempos de respuesta de mejor forma en el momen-

to en que se quisieran aplicar los modelos a las demás estaciones diferentes a Puente Aranda.

Criterio 5. Tolerante a atributos no significativos:

Este criterio se definió para ser evaluado con el fin de que el proyecto sea escalable para en

futuros trabajos adicionar más atributos de entrada y ser aplicable a otras localidades de la

ciudad. Para esto se crearon modelos de prueba con los mismos parámetros y conjuntos de

Página 41

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

entrenamiento, con la diferencia que se agregaron atributos en los que no se encontraron rela-

ciones fuertes como lo son: lluvia y HoraPico. Después se observaron los resultados genera-

dos, las métricas de confianza y los gráficos de precisión para el caso de Clasificación y Clus-

tering.

5.3 Creación de la base de conocimiento

La base de conocimiento contiene información extraída de los modelos de minería de datos

seleccionados, esta información son las reglas seleccionadas y aprobadas con una clasifica -

ción de precisión alta donde se presentan todas las posibles combinaciones de los atributos de

entrada. Esta base de conocimiento de acuerdo a los registros de entrada consulta los modelos

de minería y genera como salida: la predicción de cada contaminante objetivo (el O3 y PM 10)

y la probabilidad de estimación que es calculada por el modelo de acuerdo a las relaciones

encontradas por el mismo.

Para crear la base de conocimiento fue necesario seleccionar el modelo de minería correspon-

diente a cada contaminante que iba hacer implementados y crear una tabla donde estuvieran

todas las posibles combinaciones de los estados de los atributos de entrada de los modelos,

estos recibieron el nombre de casos de prueba. Este procedimiento se hizo de igual forma

para los dos modelos seleccionados pertenecientes a cada contaminante, ya que sus conjuntos

de entrada eran distintos al igual que su resultado de predicción.

Después de tener la tabla con todos los casos de prueba creada en la herramienta SQL Server

Managent Studio por medio de la misma herramienta fue necesario conectarse a Analysis

Services (entorno donde se crearon los modelos ) y se realizó una consulta de predicción len-

guaje DMX (para modelos de minería de datos) asignando un origen de datos (que en este

caso es cada tabla con los casos de prueba) al modelo de minería de datos seleccionado, espe-

cificando que columnas de los atributos pertenecientes a los casos de prueba coinciden con

las columnas del modelo. Este procedimiento se realizó de forma independiente para los dos

modelos seleccionados. A continuación se muestra la consulta de predicción realizada al mo-

delo del contaminante O3:

Página 42

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Ilustración 9 Consulta de predicción al modelo CAO3Fuente: Autor por medio de Analysis Services

Después de realizar la consulta a cada modelo, los resultados (que son la predicción y la pro-

babilidad de predicción) se anexaron automáticamente como columnas a los casos de prueba

generando así la base de conocimiento para cada modelo seleccionado. Es importante recalcar

que previo a la creación de la base de conocimiento todos los modelos candidatos pasaron por

las pruebas de calidad y selección de patrones de acuerdo a los criterios anteriormente descri-

tos. En el anexo 6 se encuentra el script de la base de conocimiento.

6. Desarrollo

Ilustración 10 Diagrama de procesos fase 6 alto nivelFuente: Autor por medio de la herramienta Bizagi

El desarrollo de esta fase corresponde al anexo del código fuente de la aplicación creada, el

manual de usuario, manual de instalación y el manual de administración junto con una lista

Página 43

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

de los requerimientos funcionales y no funcionales sugeridos por la RMCAB y la directora

del trabajo de grado, además del documento de descripción de la arquitectura con el fin de

obtener un pronóstico de la concentración de O3 y PM10 de acuerdo a las variables tempora-

les y climatológicas de entrada.

6.1 Definir los requerimientos de la aplicación

Para levantar los requerimientos tanto funcionales como no funcionales de la aplicación a

desarrollar fue necesario hacer una reunión con la Ing. Blanca Oviedo y el equipo de la

RMCAB, donde se presentaron los modelos seleccionados junto con sus características fun-

cionales y de acuerdo con esto y la necesidad de la RMCAB se identificaron los requerimien-

tos que debía tener el prototipo para que en algún momento fuera útil para los stakeholders.

También se mostraron las herramientas con las que iba a funcionar la aplicación y sus limita -

ciones. La lista de los requerimientos se encuentra en el anexo 8.

6.2 Crear el prototipo de alertas tempranas

Para crear el prototipo se tuvieron en cuenta los siguientes aspectos:

6.2.1 Descripción de la aplicación

La aplicación fue desarrollada en java con el fin de ser usada en el futuro por entidades gu -

bernamentales en especial por la Secretaria Distrital del Ambiente, el gestor donde se encuen-

tra la base de conocimiento y donde se pueden realizar las consultas de minería de datos es

una versión exprés. En los anexos (8) manual de usuario, (9) manual de instalación y (10)

requerimientos se encuentra la información detallada del su funcionamiento.

La aplicación construida cuenta con 2 características importantes que son:

Pronóstico : Es una de las funcionalidades más importantes de la aplicación, la cual está

basada en los modelos de clasificación CAO3 y CAPM10 donde de acuerdo a unos paráme-

tros climatológicos y temporales dados se permite pronosticar el estado del contaminante de

Ozono y Material Particulado.

Página 44

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Alertas tempranas: Gracias al pronóstico se permitió crear cuadros de diálogos que de

acuerdo al estado del contaminante permite crear alertas a la sociedad para prevenir la exposi-

ción y las consecuencias que pueden causar estos contaminantes.

Visor de Red de Dependencias: Esta funcionalidad permite visualizar el estado de las varia-

bles más influyentes dado un contaminante y estado específico. Esta red de dependencias se

crea con base en los patrones extraídos comúnmente por las técnicas de minería aplicadas.

6.2.2 Arquitectura de la aplicación

La aplicación de alertas tempranas contiene información acerca de los modelos CAO3 y

CAPM10, dadas unos valores como entrada con el fin de que los stakeholders puedan realizar

consultas y análisis del estado de la calidad del aire en tiempo real. Esta arquitectura se deno -

minó MVC distribuida en capas donde se divide la presentación, las consultas y el modelo en

paquetes de desarrollo. En el anexo 9 se encuentra con detalle la descripción de la arquitectu-

ra de la aplicación y de cada uno de sus componentes. A continuación se presenta en la Ilus-

tración 11, la arquitectura de la aplicación:

Página 45

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Ilustración 11 Arquitectura global de la aplicación de alertas tempranasFuente: Autor por medio de la herramienta Enterprise Architect 7.5

6.2.3 Funcionalidad de la aplicación

La aplicación tiene 2 funcionalidades principal. La primera consiste en realizar un pronóstico

de acuerdo a unas variables de entrada ingresados manualmente por el usuario, dichos varia-

bles son las mismas que se definieron como atributos de entrada en los modelos de minería.

Cuando se ingresan los valores de las variables, estas pasan como parámetros a la consulta

que se realizara a la base de conocimiento, donde dicha base busca el caso de prueba especifi -

co y retorna el valor de predicción junto con la probabilidad de confianza.

Página 46

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

La segunda funcionalidad consiste en filtrar los contaminantes por su estado y de esta manera

se muestra un visor de red de dependencias con las variables más influyentes del estado del

contaminante seleccionado. Esta red de dependencias es sugerida por Microsoft para repre-

sentar relaciones entre variables con el atributo objetivo y contiene una probabilidad de con-

fianza en cada enlace. La red de dependencias es construida gracias al análisis de los resulta -

dos de los modelos pertenecientes a las técnicas de reglas de asociación, clustering y clasifi-

cación por arboles de decisión donde se extrajeron los patrones comunes de cada modelo y de

cada estado del contaminante, calculando la probabilidad de confianza de cada modelo para

cada patrón seleccionado. Fue necesario por cada modelo y estado de los contaminantes cal -

cular el promedio de probabilidad de confianza de la ocurrencia de ese patrón para luego

seleccionar los patrones cuya probabilidad era mayor a 0.55. En los anexos 10 y 12 se en-

cuentra en detalle la descripción de la aplicación.

6.3 Pruebas de funcionalidad

Se realizaron casos de prueba que dieran como resultado todos los estados que puede tomar

los contaminantes con el fin de evaluar si el prototipo está realizando de forma correcta las

consultas. Estos casos de prueba se extrajeron de los modelos CAO3 y CAPM10 y fueron

ejecutados una vez que la funcionalidad del prototipo está en un nivel de cumplimiento alto.

Si el primer caso de prueba se ejecuta sin retornar errores se procede a aplicar el caso de

prueba siguiente.

La descripción detallada de los casos de prueba y sus resultados se encuentran en el anexo 7.

IV - RESULTADOS Y REFLEXIÓN SOBRE LOS MISMOS

Para cada fase de la metodología se obtuvieron resultados que cumplieron satisfactoriamente

los objetivos específicos propuestos en capítulo 2.

1. Cumplimiento de los objetivos específicos

En esta sección se muestra un resumen de los resultados obtenidos a lo largo del proyecto,

cumpliendo así a cabalidad los objetivos específicos y por consecuencia el objetivo general.

Página 47

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

1.1 Objetivo Especifico 1: “Determinar la información de calidad del aire pertinente

para este proyecto, de acuerdo con los datos suministrados por la Secretaria Distrital de

Ambiente.”

Estado: Cumplido

Resultados Obtenidos: El desarrollo de este objetivo se enfocó en las fases 1 y 2 del proyec-

to, en donde se pudo identificar información relevante por medio de las correlaciones realiza-

das por el método de Pearson, la reunión con expertos en calidad del aire y meteorología, la

recopilación de bibliografía en especial tesis relacionadas con calidad del aire y con los atri -

butos de los registros históricos entregados por parte de la RMCAB, esto hizo posible que se

entendiera el contexto en el que iba a trabajar y la necesidad de utilizar minería de datos para

dicho contexto. El anexo 1 contiene toda la información detallada del auto-correlaciones y

correlaciones encontradas entre los atributos de la base de datos con los atributos objetivos

con el fin de conocer el comportamiento y las tendencias de los contaminantes a trabajar con

las variables meteorológicas. Se obtuvo los registros históricos con los contaminantes pro-

puestos en el objetivo general.

1.2 Objetivo Especifico 2: “Establecer una vista minable, enfocándose en los rezagos

en el tiempo que este acentuando la relación entre una variable y otra.”

Estado: Cumplido

Resultados Obtenidos: Se crearon 2 vistas minables por cada contaminante, donde cada una

tenía un tipo de datos distintos con el fin de aplicar las técnicas de minería seleccionadas (la

muestra de cada una de estas vistas se encuentra en el anexo 3), el enfoque de cada una de las

vistas minables fueron el crear variables derivadas en función del tiempo con el fin de obtener

resultados que muestren relaciones entre los contaminantes PM10 y O3 (que eran los atributos

objetivo) con variables temporales y meteorológicas. Los atributos pertenecientes a las vistas

minables pasaron por procesos de correlaciones con los contaminantes estudiados en función

de los rezagos horarios con 1 y 2 horas con el fin de que sea fácil para los modelos detectar

patrones y obtener una precisión útil.

Página 48

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Los resultados de las correlaciones realizadas entre los atributos de la vista minable con los

atributos objetivo tomando rezagos de 1 y 2 horas arrojaron que la relación entre las variables

descritas en la Tabla 4 Atributos y los contaminantes de O3 y PM10 es más fuerte con rezagos

de 1 hora que con 2. Pero sucede lo contrario con el atributo radiación solar ya que se puede

observar que entre más pasa el tiempo mayor es la influencia de la radiación solar con dichos

contaminantes. Otro aspecto a observar es que la lluvia no presenta una relación fuerte con

los dos contaminantes en ninguno de los rezagos y para el contaminante PM10 se puede ob-

servar que el NOX y NO2 no presentan una relación significativa. Esto hizo se tuvieran en cuen-

ta para la aplicación de alertas tempranas el uso de rezagos horarios. Este objetivo se desarro-

lló en las fases 2 y 3.

1.3 Objetivo Especifico 3: “Determinar los modelos apropiados de minería de datos

para buscar la relación entre las variables atmosféricas y los contaminantes.”

Estado: Cumplido

Resultados Obtenidos: Se crearon varios modelos pertenecientes a las técnicas de reglas de

asociación, agrupamiento y clasificación por árboles de decisión para cada atributo objetivo

que en este caso son el contaminante Ozono (O3 ¿ y Material Particulado (PM10), estos resul-

tados hicieron que se cumplieran los objetivos propuestos. Este objetivo fue desarrollado en

la Fase 3 y 4.

Es importante recalcar que los algoritmos de árboles de decisión utilizados para generar los

modelos son hechos por Microsoft, sin embargo se pueden implementar sin necesidad de

licenciamiento ya que estos modelos son personalizados y con un origen de datos en particu-

lar.

Para los modelos de PM10 creados con las técnicas anteriormente descritas, se pudo observar

que el modelo CPM10 perteneciente a la técnica de Clustering (Agrupamiento) no presentó

resultados provechosos ya que los grupos creados en el modelo contenían características si -

milares y no presentaban ninguna distinción significativa entre ellos, además el grafico de

precisión no fue acorde con el modelo ideal. Para los otros modelos CAPM10 y RAPM10 los

resultados fueron de utilidad, cumpliendo los objetivos propuestos para este contaminante.

Página 49

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Es importante recalcar que la mayoría de los resultados de los modelos del O3 y PM10 pre-

sentaron patrones comunes, lo cual permitieron afirmar las relaciones encontradas. A conti-

nuación se presenta una descripción de los modelos detallada de los modelos de minería se-

leccionados, sin embargo la mayoría de los patrones encontrados en estos modelos, se encon-

traron de igual forma en los modelos pertenecientes a las otras técnicas de minería de datos.

Patrones encontrados para el Ozono (O3)

A continuación se presenta una descripción general de los resultados encontrados por los

modelos, en especial el que se vinculó a la aplicación el cual recibe el nombre de CAO3. Se

presenta los trozos del árbol que tengan relación con la variable meteorológica y el contami-

nante enunciado.

Cada nodo del árbol contiene el nombre del atributo seguido de su estado categórico y un

histograma en la parte inferior que indica la distribución de los estados del atributo de predic-

ción (para este caso el Ozono), ordenado por popularidad y representado cada estado por un

color que los diferencie de los demás estados. Los colores y su respectiva categoría que repre-

sentan el estado del Ozono para el modelo son los siguientes:

Ilustración 12 Estado del atributo Ozono por colorFuente: Autor por medio de la herramienta Visual Studio Data Tools 2012

Es importante recalcar que para un mejor análisis de los resultados la categoría “bueno” se

clasifica como una concentración de O3 baja mientras que las categorías “Moderado” y ”Des-

favorable” como una concentración alta, según los informes de calidad del aire [11][12].

Patrones de relación entre el O3 y la temperatura

Los estados de la temperatura son la primera división del árbol de decisión (ver O3Ilustración

13 Porción del árbol que representa la relación entre el y la temperatura y esto quiere decir

Página 50

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

que la concentración de O3 tiene una correlación fuerte con la temperatura. La relación detec-

tada muestra que la concentración O3 es directamente proporcional con la temperatura.

Como se puede observar en la siguiente ilustración cuando la temperatura es catalogada como

frio comprendida entre 6 y 12 º C, el nivel de preocupación de O3 según la EPA es bajo con

una probabilidad de precisión del 99.9% y esto es debido a las épocas donde la atmosfera se

enfría ya que carece de radiación solar y como esta variable influye en su formación, hace

que la concentración de O3 disminuya. Esto se presenta con mayor frecuencia en las horas de

la noche y la madrugada

Cuando la temperatura se encuentra entre los 12.1 y 18 º C catalogada como menos tibio, la

concentración de O3 tiene una probabilidad de ser baja en el 92,30% y de ser moderada con

el 7,62%, sin embargo más adelante se puede observar que hay atributos que influyeron para

que la clasificación sea opuesta al estado bueno con una temperatura de menos tibio. Para la

temperatura mayor a los 18º C, la concentración de O3 es alta con una probabilidad de predic-

ción del 65% confirmando así su relación directa.

Ilustración 13 Porción del árbol que representa la relación entre el O3 y la temperaturaFuente: Herramienta Visual Studio Data Tools 2012

Patrones de relación entre la hora del día y la concentración de O3

En la siguiente ilustración que representa el modelo CAO3 y según los patrones comunes

generados por los otros modelos, el atributo clasificación Hora con los estados: madrugada

(entre las 12:00 am hasta las 4:00 am), mañana (entre las 5:00 am y 10:00 am), medio día

(entre las 11:00 am hasta las 2:00 pm), tarde (entre las 3:00 pm y 6:00 pm ) y noche (entre las

Página 51

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

7:00 pm y 11:00 pm) presentan una influencia fuerte con respecto a la concentración de O3

.En especial las horas clasificadas entre la madrugada y la noche, lo cual se puede observar

que la concentración de O3 es baja con una probabilidad promedio de precisión del 99,5% y

se presenta en temperaturas entre los 12 y 17 º C, esto se debe a las inversiones térmicas que

ocurren en las horas donde la atmosfera se enfría y hacen que se reduzca la dispersión vertical

de los contaminantes y por ende su concentración. Para las horas del mediodía, mañana y

tarde se puede observar una influencia importante de la temperatura y los trimestres del año

con la concentración O3.

Para la concentración de O3 alta, la clasificación horaria se presenta con mayor frecuencia en

el medio día, según los resultados del algoritmo PredictiveApriori (hecho por el modelo de

reglas de asociación) su mayor influencia es en las horas de las 12:00 pm, 11:00 am y 1:00

pm.

Ilustración 14 Porción del árbol que representa la relación entre la hora del día y la concentración de O3Fuente: Herramienta Visual Studio Data Tools 2012

Patrones de relación entre los trimestres del año y la concentración de O3

En la siguiente ilustración se puede observar que los trimestres del año son dependientes de la

hora del día y la temperatura por estar clasificados con base en la climatología Colombiana,

donde los meses comprendidos entre diciembre y febrero corresponden al trimestre 1 y los de

Página 52

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

marzo hasta mayo al trimestre 2 y así sucede con los siguientes meses. Sin embargo a nivel

general y basándose en los patrones comunes de los otros modelos generados se puede obser-

var y afirmar que los trimestres 1 y 2 son los que presentan mayoría de valores extremos en la

concentración de O3 en especial cuando la temperatura es mayor a 18 º C y es el medio día.

Ilustración 15 Porción del árbol que representa la relación entre los trimestres y la concentración de O3Fuente: Herramienta Visual Studio Data Tools 2012

Patrones de relación entre la velocidad de los vientos y la concentración de O3

Ilustración 16 Porción del árbol que representa la relación entre la velocidad de los vientos y el O3Fuente: Herramienta Visual Studio Data Tools 2012

La velocidad de los vientos a pesar de ser dependiente de las diferencias horizontales de la

temperatura, la hora, la radiación solar y los trimestres del año, se puede observar en la ilus-

tración (ver imagen 20) que corrobora los patrones concernientes a la relación entre la veloci-

Página 53

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

dad de los vientos con el O3, que dicha relación es inversamente proporcional. Se puede ob-

servar que para una velocidad de los vientos leve (entre 3.4 m/s y 5.2 m/s) se presenta un

nivel bajo de O3 ya que la velocidad de los vientos es uno de los componentes que influye en

la dispersión de los contaminantes y por ende su permanencia en una zona es poca lo cual

hace que la concentración sea baja. Mientras que para una velocidad de los vientos baja cata-

logada como suave (entre 1.8 m/s y 3.3 m/s) y ventolina (entre 0.6 y 1.7 m/s) hace que la

concentración O3 sea alta, ya que el contaminante permanece en capas bajas de la atmosfera

y no se transporta ni se dispersa. Sin embargo se puede observar que la influencia de los atri-

butos dependientes anteriormente nombrados es más fuerte que el de la velocidad de los vien-

tos ya que para una velocidad catalogada como moderada (5.3 m/s y 7.4 m/s) con una tempe-

ratura superior a los 18ºC (tibio), trimestres 1,2 y las horas del mediodía la concentración de

O3 tiende hacer alta. Según los informes de calidad del aire [11] [12] los vientos bajos se

presentan en horas del día y por ende la concentración de O3 suele en muchos casos ser alta.

Patrones de relación entre la radiación solar y la concentración de O3

Ilustración 17 Porción del árbol que representa la relación entre la radiación solar y el O3Fuente: Herramienta Visual Studio Data Tools 2012

Página 54

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

En la ilustración anterior y según los patrones comunes encontrados en los otros modelos de

minería de datos se puede afirmar que la radiación solar tiene una relación directamente pro-

porcional con la concentración de O3, es decir que entre más alta sea la radiación el nivel de

O3 es más alto, sin embargo esto no se ve en todos los casos ya que es dependiente de la hora,

la velocidad de los vientos, los trimestres del año y la temperatura. Esta relación tiene sentido

ya que la temperatura es dependiente de la radiación solar debido a que la tierra refleja el

55% de la radiación incidente y absorbe el 45% restante, convirtiéndose en calor y generando

una dependencia directamente proporcional de la temperatura hacia la radiación solar. Se

puede observar que cuando la temperatura es superior a los 18º C (tibio), los trimestres son

1,2 y las horas están catalogadas en medio día, la velocidad de los vientos no tiene mucha

influencia en la radiación solar y como el promedio del medio día de la radiación es 529,74

wm2 el O3 es alto con una probabilidad del 70%. Para la temperatura tibia en el trimestre 3, la

radiación solar no tiene una influencia significativa con en el O3 y por ende tiende a tener una

concentración baja con una probabilidad del 79%. Para las temperaturas inferiores a los

18ºC , los trimestres del año son los que más influyen en la radiación solar para determinar la

concentración de O3.

Página 55

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Patrones de relación entre NOX y la concentración de O3

Ilustración 18 Porción del árbol que representa la relación entre NOX y la concentración de O3Fuente: Herramienta Visual Studio Data Tools 2012

En la Ilustración 18 se puede observar que el valor de NOX depende de los trimestres del año,

la velocidad de los vientos, la clasificación horaria y la temperatura. Es importante recalcar

que estas categorías fueron creadas por el add-in de Excel en minería de datos, así que dichas

categorías no tienen que ver con categorías de calidad del aire para el N OX. Para una tempera-

tura inferior a los 18ºC (menos tibio) entre las horas de la mañana y en los trimestres 1 y 2 se

puede observar una correlación con la concentración de O3, sin embargo dicha correlación

tiende hacer más fuerte tomando rezagos horarios que directamente ya que se puede observar

que a cualquier valor de NOX con las restricciones descritas anteriormente, la concentración de

O3 es baja. Para una temperatura superior e igual a los 18ºC (tibio), con trimestres del año 1,2

y horas entre la mañana o con vientos suaves (entre 1.8 y 3.3 m/s), el comportamiento del

NOX es inversamente proporcional con la concentración de O3.

Página 56

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Patrones de relación entre NO2 y la concentración de O3

Se puede encontrar una relación directamente proporcional entre el nivel de NO2 con la con-

centración de O3. Para una temperatura inferior a los 18ºC (menos tibio), entre las horas de

las 6 am y 10 am, los meses comprendidos entre marzo y mayo, la concentración de NOX entre

71,71 y 122,78 ppb y el valor de NO2 superior a los 100 ppb, la probabilidad de que el O3 sea

alto es del 69.23%. Para un NO2 (con las mismas especificaciones anteriores) inferior a los 53

ppb la probabilidad de que el O3 sea bueno es del 92.31%.

Ilustración 19 Porción del árbol que representa la relación entre NO2 y O3Fuente: Herramienta Visual Studio Data Tools 2012

Relación entre la lluvia y el contaminante O3

La lluvia no presenta ninguna relación significativa con la concentración de O3, ni tomando

rezagos horarios ni directamente, se pudo corroborar esta afirmación con los modelos perte-

necientes a cada técnica y las correlaciones de Pearson.

Patrones encontrados para el Material Particulado (PM10)

A continuación se presenta una descripción general de los resultados encontrados por los

modelos, en especial el que se vinculó a la aplicación el cual recibe el nombre de CAPM10.

Se presenta los trozos del árbol que tengan relación con la variable meteorológica y el conta-

minante enunciado.

Este modelo implementa la técnica de Clasificación utilizando el Árbol de decisión para el

atributo objetivo (a predecir) PM10. Este modelo representa las variables tanto climatológi-

cas como temporales que influyen en la concentración del contaminante PM10. El orden en

Página 57

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

que se presenta cada relación de este documento representa el nivel del árbol en orden ascen -

dente. A continuación se presenta la estructura del modelo CAPM10:

Los colores que representan el estado del atributo objetivo son los siguientes:

Ilustración 20 Estados del atributo objetivo por coloresFuente: Autor por medio de la herramienta Visual Studio Data Tools 2012

Patrones de relación entre la hora y el contaminante PM10

De acuerdo a los resultados del modelo de clasificación (ver ilustración 25) y después de

comparar los resultados provistos de los modelos de las técnicas de reglas de asociación y

agrupamientos, se percibe una relación significativa entre la clasificación horaria con la con-

centración de PM10, la siguiente ilustración representa el primer nivel del árbol de decisión y

se puede observar que para las horas de la noche, medio día y mañana la concentración de

PM10 es alta con un promedio mayor al 65% de probabilidad de clasificación, para las horas

de la tarde y la madrugada, la concentración de PM10 tiende hacer baja catalogada como

buena según la EPA.

Ilustración 21 Relación entre la hora y el contaminante PM10Fuente: herramienta Visual Studio Data Tools 2012

Página 58

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Patrones de relación entre la velocidad de los vientos y el contaminante PM10

Se puede observar en la siguiente ilustración que representa una parte del árbol que la veloci-

dad de los vientos, tiene una relación inversamente proporcional a la concentración de PM10 ,

sin embargo existe una influencia de la clasificación horaria y la radiación solar en la intensi-

dad de los vientos. Para la velocidad de los vientos catalogados como: calma (entre 0 y 0.05

m/s), ventolina (entre 0.6 y 1.7 m/s) y suave (entre 1.8 y 3.3 m/s), la concentración de PM10

es alta con una probabilidad de clasificación promedio del 75% y sus categorías son modera-

da (entre 55 y 154 µg/m3) y desfavorable (mayor e igual a 155 µg/m3). Para los vientos clasi-

ficados como leve (entre 3.4 y 5.2 m/s), moderado (entre 5.3 y 7.4 m/s) y regular (mayor a

7.4 m/s) la concentración de PM10 es baja y se encuentra catalogada como buena (menor a

54 µg/m3) con una probabilidad media del 60%.

Ilustración 22 Porción del árbol que representa la relación entre la velocidad de los vientos y el PM10Fuente: Herramienta Visual Studio Data Tools 2012

Página 59

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Patrones de relación entre la radiación solar y el contaminante PM10

La relación entre la radiación solar y la concentración de PM10 no es tan significativa y esto

se debe a que la radiación solar tiene menos incidencia con el PM10 que con el O3 [10]. Para

rezagos de 2 horas se puede observar una influencia de la radiación solar en la concentración

de este contaminante más fuerte que en horas directas como se presenta en el modelo. En la

siguiente ilustración se puede observar que la radiación solar es dependiente de la velocidad

de los vientos y la clasificación horaria, se puede observar que para las horas de la mañana

(entre las 6:00 am y 10:00 am) y en especial cuando la velocidad del viento es catalogada

como leve, la radiación solar puede tomar cualquier valor (mayor o menor a los 228 µg/m3)

y sigue manteniendo la concentración de PM10 alta con los estados moderado y desfavorable

teniendo una probabilidad promedio de clasificación del 85%. Para las horas de la madrugada

(entre las 12:00 am y 5:00 am) el promedio de radiación solar no existe y la concentración de

PM10 es de estado moderado con un 62,73% de probabilidad, pasa lo contrario con la radia-

ción solar mayor al promedio a las horas de la madrugada que no supera los 2 µg/m3 y la

concentración de PM10 es baja con una probabilidad del 70%.

Ilustración 23 Porción del árbol que representa la radiación solar y el contaminante PM10Fuente: Herramienta Visual Studio Data Tools 2012

Patrones de relación entre los trimestres del año y el contaminante PM10

Página 60

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Ilustración 24 Porción del árbol que representa la relación entre trimestres del año y el PM10Fuente: Herramienta Visual Studio Data Tools 2012

En la anterior ilustración que representa una parte del árbol se puede observar que los trimes-

tres del año dependen de la velocidad de los vientos y de la radiación solar. Para el trimestre 3

comprendido entre junio y julio se presenta con una probabilidad promedio de clasificación

del 65% que la concentración de este contaminante es alta presentando estados de moderado

y desfavorable. Los resultados de los otros modelos mostraron patrones más específicos acer-

ca de los trimestres del año, afirmando que el trimestre 1 (comprendido en los meses de di -

ciembre a febrero) que la concentración de PM10 es alta y los trimestres 3 y 4 tienen una

dependencia más fuerte con la velocidad de los vientos y la radiación solar.

Patrones de relación entre la temperatura y el contaminante PM10

La temperatura no tiene una fuerte influencia en la concentración de PM10 según los resulta-

dos de los modelos aplicados al PM10, sin embargo se puede observar en la siguiente imagen

que representa un trozo del modelo CAPM10 que la temperatura es depende de la hora, la

velocidad de los vientos y los trimestres del año para estimar la concentración de PM10. Se

puede percibir una relación directamente proporcional entre la temperatura con el contami-

nante ya que cuando la temperatura es menos tibio (entre los 12 y 18 ºC) la contaminación

tiende hacer alta con estados entre moderado y desfavorable con una probabilidad del 75%,

mientras que cuando es diferente del estado menos tibio, en especial el estado frio (menor a

Página 61

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

los 11 ºC, ya que según los patrones generados por los modelos RAPM10 y CPM10, en las

horas de la noche (entre las 7:00 pm y 11:00 pm) la temperatura no asciende a más de los 18

ºC ) la concentración de PM10 es baja con estado bueno.

Ilustración 25 Porción del árbol que representa la relación entre la temperatura y el PM10Fuente: Herramienta Visual Studio Data Tools 2012

Patrones de relación entre la lluvia y el contaminante PM10

La lluvia no presenta ninguna relación significativa con la concentración de PM10 , ni toman-

do rezagos horarios ni con relación horaria directa. Se pudo corroborar esta afirmación con

los modelos pertenecientes a cada técnica, las correlaciones de Pearson, la red de dependen-

cias y el método de Selección de características de Analysis Services de Microsoft. Si desea

ver todos los resultados en detalle consulte el anexo 5.

Patrones de relación entre los fines de semana y el contaminante PM10

No se percibe una relación entre el fin de semana y la concentración de PM10 y se puede

confirmar en la red de dependencia y el método selección de características de los modelos

CPM10 y CAPM10. En el anexo 5 se explica en detalles los resultados.

Patrones de relación entre el NOX y NO2 con el contaminante PM10

Gracias a los resultados arrojados en la red de dependencias, la función de selección de ca-

racterísticas, las correlaciones de Pearson y los modelos en especial los de árboles de clasifi-

cación, no se encuentra una relación entre el NOX y NO2 con el contaminaPM10.Los resultados

arrojados por los métodos se encuentran con detalle en el anexo 5.

Página 62

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Patrones especiales para el O3

En las horas pico (7:00 am, 5:00 pm y 8:00 pm) el O3 presenta un estado catalogado como

bueno y esto puede deberse a que en estas horas la radiación solar es baja.

Patrones especiales para el PM10

En horas pico el PM10 presenta valores altos que comprende las categorías: moderado y des-

favorable.

1.4 Objetivo Especifico 4: “Validar los resultados que provea el entrenamiento de los

modelos de minería de datos con los resultados esperados y seleccionar los modelos de

minería con más precisión.”

Estado: Cumplido

Resultados Obtenidos: Se evaluaron los modelos tanto teórica como experimentalmente,

seleccionando así un modelo por cada contaminante que fuera más apropiado que los demás.

Este objetivo fue desarrollado en la Fase 4 y 5.

En total fueron 6 modelos de minería de datos correspondientes a las técnicas de Agrupa-

miento, Reglas de Asociación y Clasificación que se generaron y se estudiaron con el fin de

cumplir uno de los objetivos principales que era la aplicación de técnicas de minería en la

contaminación, tres modelos tienen como atributo objetivo el O3 y los otros tres el PM10.

En el anexo 7 llamado Plan de Pruebas se encuentra en detalle la evaluación de cada uno de

estos modelos que afirmar su precisión aplicando el conjunto de prueba y la validación de los

resultados hechos por el experto en meteorología. En esta sección se presentan algunos de los

motivos de selección de los modelos CAO3 y CAPM10 que fueron seleccionados para imple-

mentar el prototipo.

Selección de los modelos de minería para el prototipo

A continuación se presenta una tabla con los modelos generados y estudiados en las fases

anteriores junto con la evaluación en cada uno de los filtros definidos por la metodología

CRIPS-DM. La evaluación se realizó en escala de 1 a 10, tomando 1 como el más bajo y 10

Página 63

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

la calificación más alta. Cabe recalcar que otro criterio de selección fue la evaluación de pre-

cisión de cada uno de los modelos frente al conjunto de prueba y métricas de confianza.

Tabla 7 Calificación de los Modelos de minería generadosFuente: Autor

Los criterios de esta clasificación se presentan en la sección de desarrollo y fueron califica-

ciones hechas con base en los resultados y pruebas prácticas realizadas. Como se observó en

la fase anterior los modelos CAO3 y CAPM10 pertenecientes a la técnica de árboles de clasi-

ficación fue la seleccionada de acuerdo a los criterios establecidos anteriormente y por su

característica de ser una técnica que cumple la tarea predictiva en la minería hace que el obje-

tivo general del presente proyecto se cumpla satisfactoriamente.

Evaluación de precisión modelo CAO3

Los gráficos de precisión resultantes de cada modelo se encuentran con detalle en el anexo 7

del plan de pruebas.

Matriz de Clasificación

En las siguientes tablas se muestra los resultados de la matriz de clasificación para el modelo

CAO3. Esta matriz determina si el valor de predicción realizado con el conjunto de pruebas

(los estados del contaminante O3 se representan en las filas) coincide con el valor real clasifi-

cado con el conjunto de entrenamiento (los estados se representan en las columnas).

Se puede observar que las 2 últimas filas de la matriz representan el porcentaje de falsos posi-

tivos y verdaderos positivos de cada columna.

Página 64

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Tabla 8 Matriz de clasificación del modelo CAO3Fuente: Herramienta Visual Studio Data Tools 2012

En la siguiente tabla se puede observar que el porcentaje total de falsos positivos no supera el

20% de los registros pertenecientes al conjunto de prueba, por lo cual el modelo es útil para

aplicar en el prototipo de alertas tempranas.

Tabla 9 porcentaje total de falsos positivos y verdaderos positivos del Modelo CAO3Fuente: Herramienta Visual Studio Data Tools 2012

Evaluación de precisión modelo CAPM10

Los gráficos de precisión resultantes de cada modelo se encuentran con detalle en el anexo 7

del plan de pruebas.

Matriz de Clasificación

En las siguientes tablas se muestra los resultados de la matriz de clasificación para el modelo

de Árboles de Decisión del contaminante PM10.

Tabla 10 Matriz de clasificación del modelo CAPM10Fuente: Herramienta Visual Studio Data Tools 2012

Página 65

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

En la siguiente tabla se puede observar que el porcentaje total de falsos positivos no supera el

20% de los registros pertenecientes al conjunto de prueba, por lo cual el modelo es útil para

aplicar en el prototipo de alertas tempranas.

Tabla 11 Total de falsos positivos del modelo CAPM10Fuente: Herramienta Visual Studio Data Tools 2012

1.5 Objetivo Especifico 5: “Crear un prototipo de Sistema de Información que se

integre con los resultados de los modelos de minería de datos seleccionada.”

Estado: Cumplido

Resultados Obtenidos: Se desarrolló un prototipo de alertas tempranas que consulta la base

de conocimiento creada por los modelos de minería seleccionados. Fase 5 y 6.

Funcionalidad de hacer pronóstico:

Esta funcionalidad permite el ingreso de los datos del clima y el tiempo que se quieran pro-

nosticar de forma manual. El sistema de información se conecta directamente con los patro-

nes de los modelos CAO3 y CAPM10 donde se producen los resultados del pronóstico. A

continuación se presenta la interfaz de pronóstico:

Página 66

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Pronostico por cada contaminante

Página 67

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Las columnas con el nombre Nivel de preocupación para la salud y % Probabilidad de Pre-

dicción son resultados generados por los modelos, los cuales se visualizan en la aplicación sin

ningún tratamiento.

Alertas Tempranas

El sistema de información tiene la funcionalidad de Alertas tempranas la cual se basa de

acuerdo al estado y el tipo de contaminante generado con los parámetros provistos. Las aler-

tas generadas son documentadas y basadas en las recomendaciones que hace la EPA para

casos específicos. A continuación se presenta la interfaz que se usa para las alertas tempranas:

Ilustración 26 Interfaz de alertas

El sistema de información además de las funcionalidades principales descritas contiene un vi-

sualizador de red de dependencias en el que el usuario especifica el contaminante y el esta-

do que quiere consultar para observar las relaciones más influyentes, además contiene las

series temporales que muestran el estado de los contaminantes con rezagos de más de 2 horas

con base en la hora seleccionada. Estas consultas hechas a los modelos de minería selecciona-

dos.

A continuación se presenta los resultados de la encuesta hecha al coordinador de la RMCAB.

Página 68

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Cumplimiento del objetivo general

El objetivo es cumplido en su totalidad ya que se aplicaron técnicas de minería de datos a

registros históricos confiables tomados por los equipos de la estación perteneciente a la

RMCAB, que capturan hora por hora datos del estado climatológico de la localidad y los

contaminantes O3 y PM10 y se detectaron patrones que definen los valores extremos de dichos

contaminantes. Estos patrones se presentan en un prototipo desarrollado que consiste en aler-

tar a la comunidad frente a eventos extremos de contaminación.

V – CONCLUSIONES, RECOMENDACIONES Y TRABAJOS FUTUROS

1. Conclusiones

Se observó que se pueden encontrar relaciones entre variables que responden a series de tiem-

po utilizando técnicas descriptivas y predictivas de minería de datos con el fin de extraer

patrones útiles para las personas interesadas en la calidad del aire.

Página 69

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

El objetivo general y los objetivos específicos se cumplieron a cabalidad y esto se ve refleja-

do en el desarrollo de cada fase metodológica.

Usando técnicas de minería de datos en especial clustering, clasificación y reglas de asocia-

ción, es posible encontrar patrones que representen relaciones entre variables como: la veloci-

dad de los vientos, la radiación solar global, el dióxido de carbono, el óxido de nitrógeno, la

temperatura, los trimestres del año y la hora del día con los contaminantes O3 y PM10.

Los tipos de datos entregados por la RMCAB de la localidad de Puente Aranda permitieron

adecuarse para aplicar técnicas de minería de datos y resolver problemas concernientes con

la calidad del aire.

Respecto a las técnicas de minería de datos, se comprendió la diferencia entre las reglas de

asociación, clasificación y agrupamiento junto con sus fortalezas y debilidades, dejando un

panorama amplio para el desarrollo de aplicaciones basadas en minería de datos.

Mediante técnicas de minería de datos es posible ver el comportamiento de variables climato-

lógicas con los contaminantes tomando rezagos horarios e involucrando la dinámica de la

ciudad como las horas pico o los trimestres del año.

Los modelos CAO3, CAPM10, RAO3, RAPM10 y CO3 son de utilidad para realizar pronós-

ticos de calidad del aire o investigaciones que involucren las actividades de alertas tempranas

para la ciudad de Bogotá, en especial la localidad de puente Aranda ya que sus resultados

arrojan una precisión correcta en más del 80% de los registros.

El modelo CAPM10 perteneciente a la técnica de Clustering para el PM10 no arrojo informa-

ción de utilidad y precisión, esto puede ser porque las distancias calculadas por el algoritmo

k-means entre los atributos no fueron significativos y por ende se crearon grupos con valores

muy cercanos entre ellos.

Se comprende que al aplicar varias técnicas de minería de datos a un mismo problema, hace

que se exploren los datos de formas diferentes, generando así un nuevo conocimiento y a su

vez la validación de cada resultado generado por una técnica con base en las demás.

Página 70

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Se puede realizar un sistema de información que haga pronóstico de los contaminantes PM 10

y O3 utilizando modelos de clasificación cuyo porcentaje promedio de clasificaciones correc-

tas es del 90%.

Se comprende el valor de la minería de datos en problemas de calidad del aire en especial de

la contaminación atmosférica y que hay mucho campo por explorar en especial por las locali-

dades contiguas a puente Aranda.

El sistema de información de alertas tempranas puede ser escalable y aplicable a otras locali -

dades de la ciudad que presenten las mismas condiciones climatológicas, siempre y cuando

no cambie la dinámica de la ciudad.

Calidad del aire

Se pudo observar que el ciclo anual de la concentración de los contaminantes O3 y PM10 tie-

nen una tendencia decreciente, es decir que el nivel de concentración ha disminuido a lo largo

de los años.

Se pudo observar mediante las auto correlaciones realizadas, que la concentración de O3 en la

hora actual tiende hacer dependiente de las horas anteriores y esto ocurre en especial en las

horas de la mañana, el medio día y la tarde y se debe a que la radiación solar a estas horas es

más fuerte que en las horas como la noche y la madrugada donde no se ve una dependencia

de la concentración del O3 significativa.

En cuanto a la concentración de PM10 no hay una dependencia tan significativa con la hora

anterior como lo fue para el O3 y esto puede ser por la característica de formación de este

contaminante ya que es primario.

Los contaminantes tienen una relación más fuerte con las variables climatológicas tomando

rezagos de 1 hora que con rezagos más altos.

A partir de las correlaciones observadas, se puede afirmar que hay una relación significativa

entre la concentración de O3 con los precursores NOX y NO2 principalmente con rezagos hora-

Página 71

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

rios de 1 hora y esto se debe a que el NOX y NO2 contribuyen a la formación del O3. Sucede lo

mismo con la temperatura.

Se encontró una relación significativa entre la radiación solar y la concentración del O3 to-

mando rezagos horarios de 2 horas, donde se observó que mientras más grande sea el rezago

horario, mayor tiene relación con la concentración de O3.

La lluvia no presentó una relación significativa con la concentración del O 3 y PM10 ni con

rezagos de 1 ni 2 horas.

Se pudo observar que la concentración del PM10 tiene una relación significativa con la tempe-

ratura tomando rezagos de 1 hora.

El PM10 no presenta ninguna relación significativa con el NOX y NO2 ni con 1 ni 2 horas de

rezago, por lo que se pudo observar que en los modelos de minería tampoco se encontró una

relación significativa.

1.3 Relaciones encontradas

Se pudo observar que el comportamiento anual de los contaminantes PM10 y O3, es decrecien-

te a medida que avanzan los años y esto se debe a los trabajos preventivos que se han realiza -

do en la SDA.

Se pudo observar que la concentración de O3 es altamente dependiente de la hora del día,

donde las horas comprendidas entre las 11 am y 2 pm, su concentración tiende hacer más alta

y esto se debe a que en estas horas la radiación solar y la temperatura son más intensas.

Los modelos CAO3, RAO3 y CO3 encuentran que el O3 está muy relacionado con la veloci-

dad de los vientos y esta relación tiene una tendencia hacer inversamente proporcional, donde

a menor velocidad de los vientos mayor concentración de O3. Sin embargo la velocidad del

viento muestra una dependencia entre la temperatura, los trimestres del año y la hora del día.

Los modelos CAO3, RAO3 y CO3 encuentran una relación directamente proporcional entre

la radiación solar y la concentración de O3, donde a mayor radiación, mayor es la concentra-

Página 72

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

ción del O3 y esto se debe a que la radiación es influyente en la formación del O3. La radia-

ción solar también tiene una dependencia directa con los trimestres del año, la velocidad del

viento, la hora del día y el NOX.

Existe una relación fuerte entre la temperatura y la concentración del O3, donde su tendencia

es directamente proporcional. En el modelo CAO3 se representa esta relación como la más

fuerte a diferencia de las relaciones encontradas con otras variables y esto se debe a que la

temperatura es dependiente de la radiación solar.

En los trimestres del año 1 y 2 (siguiendo la climatología Colombiana) la concentración del

O3 tiende hacer más alta que en el resto de los trimestres, donde dichos trimestres dependen

altamente de la temperatura.

Los modelos CAO3, CO3 y RAO3 presentan una relación con el NOX en especial en los tri-

mestres 1 y 2 donde se observa mayor probabilidad de que ocurran concentraciones de O3

altas.

El modelo CAO3 muestra una relación particular entre la concentración de O3 y la del NO2,

donde dicha relación es directamente proporcional.

Se presentó en el modelo RAO3 que en las horas pico (7 am, 5 am y 8pm) la concentración

de O3 es baja y esto se debe a que en estas horas la radiación solar no es tan fuerte como en

las horas del mediodía.

Mediante los modelos CAPM10 y RAPM10 se pudo observar que existe una relación fuerte

entre la concentración de PM10 y la hora del día, donde en las horas de la mañana (entre las 6

am y 10 am) y la tarde (entre las 3pm y 6 pm), dicha concentración tiende hacer muy alta.

Los modelos CAPM10 y RAPM10 encuentran que el PM10 tiene una relación significativa

con la velocidad de los vientos y su tendencia es inversamente proporcional, donde a menor

velocidad de los vientos mayor concentración de PM10. La velocidad de los vientos presenta

una relación fuerte con la hora del día.

Página 73

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Los modelos CAPM10 y RAPM10 encuentran una relación menos fuerte entre el PM10 y la

radiación solar y esto es debida a que la radiación solar tiene menos incidencia para este con-

taminante.

Los modelos CAPM10, CAO3, CO3, RAO3 y RAPM10 no encuentran una relación signifi-

cativa entre la lluvia y la concentración de los contaminantes PM10 y O3 y esto se debe a que

en la mayoría de los registros históricos se registraban lluvias escasas.

Los modelos CAPM10 y RAPM10 muestran que el trimestres del año 3 (entre junio y agos-

to), la concentración de PM10 es más alta que en el resto de trimestres del año y es altamente

dependiente de la hora del día y la velocidad de los vientos.

En las hora pico, el modelo RAO3 muestra que la concentración de PM10 es alta y esto se

debe por la emisión de combustible a esas horas.

Se pudo observar que por el comportamiento de los registros históricos en las técnicas de

minería de datos, el contaminante PM10 es más complejo en la extracción de patrones que el

O3.

2. Recomendaciones

La recomendación antes de decidirse a realizar un proyecto de minería de datos es investigar

si los datos a recopilar se entregarán fácilmente por parte de la entidad encargada o hay algún

riesgo de permisos al obtener estos datos. Si no hay riesgo, recopilar los datos con anticipa-

ción ya que estos trámites son demorados y pueden perjudicar el cronograma del proyecto.

Las recomendaciones para aplicar técnicas de minería a un problema de calidad del aire es

llevar un registro de la configuración de los parámetros, antes de generar los modelos de mi-

nería con el fin de que no se repitan la misma configuración más adelante y encontrar una

forma de validar estos resultados.

También es importante definir en la creación de la vista minable las técnicas que se van a

utilizar con el fin de acoplar la vista minable a cada técnica seleccionada, para que en la fase

de modelar no se tenga que devolver al paso anterior a cambiar la vista minable.

Página 74

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Dedicar la mayor parte del desarrollo del proyecto a la exploración y la preparación de los

datos ya que si esto se hace de forma inadecuada de ahí para adelante todo saldrá mal.

3. Trabajos Futuros

Actualmente el prototipo toma como datos de entrada: la velocidad de los vientos, la tempera-

tura, la hora del día, el mes del año, el NOX, el NO2 y la radiación solar. Se propone como tra-

bajo fututo analizar y si es el caso incluir como atributos de entrada tanto al modelo de mine-

ría como al prototipo la humedad relativa y los días de la semana (a petición de la RMCAB).

Actualmente el prototipo no se conecta remotamente a las bases de datos de la RMCAB que

contienen información de los registros históricos de las localidades de Bogotá en tiempo real

para realizar las predicciones de acuerdo a los modelos de minería de datos seleccionados. Se

propone solicitar anticipadamente un permiso a la red de monitoreo para obtener acceso a las

bases de datos de la RMCAB y conectarse directamente a Analysis Services para realizar

consultas a los modelos ya creados con un origen de datos externo.

Página 75

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

VI - REFERENCIAS Y BIBLIOGRAFÍA

[1] E.R.Rommel J.C. Júnior, D.Silva, R.R.Azevedo, and W.C.Veras, “Uma análise comparativa entre

algoritmos estadísticos de mineracao de dados,” Nov. 2008.

[2] D. Conti and F. J. M. de Pisón Ascacíbar, “Reglas de Asociación en Series Temporales: panorama

referencial y tendencias.”

[3] “A Guide to Air Quality and your Health,” pp. 1–16.

[4] J. F. R. Saldaña and R. G. Flores, “El proceso de descubrimiento de conocimiento en bases de

datos,” Ingenierías, vol. 8, no. 26, p. 37, 2005.

[5] S. Barrios Casas, F. Peña-Cortés, and S. Osses Bustingorry, “Efectos de la contaminación atmosfé-

rica por material particulado en las enfermedades respiratorias agudas en menores de 5 años,” Ciencia

y enfermería, vol. 10, no. 2, pp. 21–29, 2004.

[6] S. Ramos-Herrera, R. Bautista-Margulis, and A. Valdez-Manzanilla, “Estudio estadístico de la

correlación entre contaminantes atmosféricos y variables meteorológicas en la zona norte de Chiapas,

México,” Universidad y ciencia, vol. 26, no. 1, pp. 65–80, 2010.

[7] IBM, “Manual de minería Interna de la base de datos de IBM SPSS modeler 15,” 1994.

[8] J.Alargon, “Estadística y Minería de Datos: Similitudes y Diferencias,” p. 24, Feb. 2008.

[9] T. Scheffer, “Finding association rules that trade support optimally against confidence,” in Princi-

ples of Data Mining and Knowledge Discovery, Springer, 2001, pp. 424–435.

[10] J. Green and S. Sánchez, “La Calidad del Aire en América Latina: Una Visión Panorámica,” Was-

hington, DC: Clean Air Institute, 2013.

[11] A. M. de Bogotá,  Informe anual de calidad del aire de Bogotá, año 2012. Bogotá, Secretaría

Distrital de Ambiente, 2008.

Página 76

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

[12] H.Ospino, D.A.Gomez, J.L.Lopez, N.A. Barahona, and A.T.Luengas,  Informe Anual Calidad del

Aire de Bogotá 2008. Bogotá, Secretaría Distrital de Ambiente.

[13] M. A. Paredes-Farrera, K. Ramírez-Amaro, C. Bustillo-Hernández, and E. Castillo-Montiel,

“Comparación de modelos de predicción de Series de Tiempo,” Instituto Politécnico Nacional. Centro

de Investigación en Computación, 2008.

[14] S.C. Cooperación Ambiental, “Ozono Troposférico,” C.E.G Org, May 2009.

[15] María Aldehuela Lucena, “Análisis comparativo entre métodos estadísticos y de Minería de Da-

tos,” UNIVERSIDAD PONTIFICIA COMILLA, Madrid, España, 2005.

[16] N.J.Calderón, “Minería de Datos una Herramienta para la toma de decisiones,” San Carlos, Guate-

mala, México, 2006.

[17] Guillermo Gilberto Molero, “Desarrollo de un modelo basado en técnicas de Minería de Datos

para clasificar zonas climatológicamente similares en el estado de Michogan,” M.S, Universidad Na-

cional Atunóma de México, México, 2008.

[18] J.M.Molina, J.García, “Aplicaciones prácticas utilizando Microsoft Excel y Weka,” Carlos de

Madrid, Madrid, España, 2006.

[19] J.M.Rodríguez, “Clasificación de Series de Tiempo por Minería de Datos,” M.S, Politécnico Na-

cional, México, 2006.

[20] M. Martínez-Ballesteros, A. Troncoso, F. Martínez-Álvarez, and J. C. Riquelme, “Mining quanti-

tative association rules based on evolutionary computation and its application to atmospheric pollu-

tion,” Integrated Computer-Aided Engineering, vol. 17, no. 3, pp. 227–242, 2010.

[21] P. Chausa Fernández, E. J. Gómez Aguilera, C. Cáceres Taladriz, F. García Alcaide, and J. M.

Gatell Artigas, “Extracción de Reglas de Asociación en una Base de Datos Clínicos de Pacientes con

Vih/Sida,” 2006.

[22] R.D.Lezcano, “Minería de Datos,” Universidad Nacional Nordeste.

Página 77

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

[23] M. Gaitán and B. Eduardo, “Evaluación del estado de la calidad del aire en Bogotá,” MSc thesis,

Universidad de Los Andes, 2009.

[24] M. Gorritty Portillo, “Pronóstico de concentraciones máximas diarias de ozono: caso estación

SEMAPA, Red MoniCA,” Revista Acta Nova, vol. 3, no. 2, 2011.

[25] J. H. Seinfeld and S. N. Pandis, Atmospheric chemistry and physics: from air pollution to climate

change. John Wiley & Sons, 2012.

[26] C. A. R. Varela, M. A. M. Rey, A. R. Varela, and L. D. A. Nieto, “Sistema Difuso Evolutivo para

la Predicción del Nivel de Contaminación del Aire por Material Particulado: Caso Puente Aranda (Bo-

gotá),” Ingeniería, vol. 17, no. 2, pp. 55–62, 2012.

[27] F. Herrera and J. R. Cano, “Técnicas de reducción de datos en KDD: El uso de Algoritmos Evolu-

tivos para la Selección de Instancias,” Actas del I Seminario Sobre Sistemas Inteligentes (SSI’06),

Universidad Rey Juan Carlos, Madrid, pp. 165–181, 2006.

[28] M. N. M. García, L. A. M. Quintales, F. J. G. Peñalvo, and M. J. P. Martín, “Aplicación de Técni-

cas de Minería de Datos en la Construcción y Validación de Modelos Predictivos y Asociativos a Partir

de Especificaciones de Requisitos De Software.,” in ADIS, 2001.

[29] J. H. Orallo, M. J. R. Quintana, and C. F. Ramírez,  Introducción a la Minería de Datos. Pearson

Prentice Hall, 2004.

[30] J.H.Orallo, M.J.Ramirez, and C.Ferrari,  Introducción a la Minería de Datos, 4th ed.

[31] “Correlaciones con SPSS.”

[32] D. M. Elsom, “Atmospheric pollution: a global problem.. ed. 2.,” 1992.

[33] S. E. Manahan,  Environmental chemistry. CRC press, 2004.

[34] F. Berzal, “Reglas de asociación.”

[35] F. Berzal, “Clustering Clustering.”

Página 78

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

[36] Secretaria Distrital del Ambiente, “Red de Monitoreo de Calidad del Aire de Bogotá,” Bogotá.

[37] A. Pomares, “Reglas de Asociación y Patrones secuenciales,” Pontificia Universidad Javeriana.

[38] A. Pomares, “Preparación de datos,” Pontificia Universidad Javeriana.

[39] A. Pomares, “Clasificación,” Pontificia Universidad Javeriana.

[40] A. Pomares, “Clasificación Bayesiana,” Pontificia Universidad Javeriana.

[41] A. Pomares, “Clustering - Agrupación Automática,” Pontificia Universidad Javeriana.

[42] A. Pomares, “Minería de Datos,” Pontificia Universidad Javeriana.

[43] A. Pomares, “Ejecución de Proyectos de Minería de Datos,” Bogotá.

[44] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data Clustering: A Review,” ACM Comput. Surv., vol.

31, no. 3, pp. 264–323, Sep. 1999.

[45] J. R. Quinlan, “Induction of Decision Trees,” Mach Learn, vol. 1, no. 1, pp. 81–106, Mar. 1986.

[46] O. of A. US EPA, “Sobre la EPA.” [En línea]. Disponible: http://www.epa.gov/espanol/sobreepa/.

[Accedido: 27-Ene-2014].

[47] “Algoritmos de minería de datos (Analysis Services: Minería de datos).” [En línea]. Disponible:

http://msdn.microsoft.com/es-es/library/ms175595.aspx. [Accedido: 19-Feb-2014].

[48] I. Wilford Rivera, A. Rosete Suárez, and A. Rodríguez Díaz, “Análisis de Información Clínica

mediante técnicas de Minería de Datos,” RevistaeSalud.com, vol. 5, no. 20, Oct. 2009.

[49] W. Bach,  Atmospheric Pollution, McGraw-Will. 1962.

[50] “CONTAMINACIÓN DEL AIRE,” El Colombiano.com. [En línea]. Disponible: http://www.el-

colombiano.com/BancoConocimiento/C/contaminacion_del_aire/contaminacion_del_aire.asp. [Acce-

dido: 11-Feb-2014].

Página 79

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

[51] “CONTAMINACIÓN EN PUENTE ARANDA.” [En línea]. Disponible: http://contaranda.blogs-

pot.com/. [Accedido: 11-Feb-2014].

[52] “En Colombia mueren seis mil personas al año por contaminación del aire, revela Ministerio de

Ambiente.” [En línea]. Disponible: http://www.caracol.com.co/noticias/ecologia/en-colombia-mueren-

seis-mil-personas-al-ano-por-contaminacion-del-aire-revela-ministerio-de-ambiente/20090717/nota/

846956.aspx. [Accedido: 11-Feb-2014].

[53] “Herramientas de gráficos de precisión de modelos (Analysis Services - Minería de datos).” [En

línea]. Disponible: http://technet.microsoft.com/es-es/library/ms174947(v=sql.105).aspx. [Accedido:

27-Mar-2014].

[54] Impacto de los desastres en la salud pública. Pan American Health Org, 2000.

[55] “Sistema de información Ambiental de Colombia - SIAC - Estudios de calidad del aire.” [En

línea]. Disponible: https://www.siac.gov.co/contenido/contenido.aspx?catID=466&conID=606. [Acce-

dido: 27-Mar-2014].

[56] “Algoritmos de minería de datos (Analysis Services: Minería de datos).” [En línea]. Disponible:

http://msdn.microsoft.com/es-es/library/ms175595.aspx. [Accedido: 07-Mar-2014].

[57] “Visualización o modificación de propiedades y reglas de desencadenadores.” [En línea]. Dispo-

nible: http://technet.microsoft.com/es-es/library/cc753161(v=ws.10).aspx. [Accedido: 17-Abr-2014].

[58] F. Martínez, “Análisis de las series temporales de los precios del mercado eléctrico mediante

técnicas de Clustering,” Universidad de Sevilla–España, http://www. lsi. us. es/docs/doctorado/mem

orias/Martinez,% 20Francisco. pdf.

[59] “Clasificación supervisada y no supervisada,” Advanced Tech Computing Group UTPL. .

[60] N. Y. R. Roa, E. E. Vega, and B. E. O. Torres, “Diagnóstico de la Red Meteorológica de Bogotá.”

[61] “Ver un modelo de minería de datos con el Visor de clústeres de Microsoft.” [En línea]. Disponi -

ble: http://technet.microsoft.com/es-es/library/ms174801(v=sql.105).aspx#BKMK_Diagram. [Accedi-

do: 27-May-2014].

Página 80

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

[62] “Matriz de clasificación (Analysis Services - Minería de datos).” [En línea]. Disponible: http://

msdn.microsoft.com/es-es/library/ms174811.aspx. [Accedido: 27-Mar-2014].

[63] “Algoritmo de árboles de decisión de Microsoft.” [En línea]. Disponible: http://msdn.microsoft. -

com/es-es/library/ms175312.aspx. [Accedido: 02-Abr-2014].

[64] “Selección de características (minería de datos).” [En línea]. Disponible: http://msdn.microsoft.-

com/es-es/library/ms175382.aspx. [Accedido: 13-Abr-2014].

[65] “Estructuras de minería de datos (Analysis Services - Minería de datos).” [En línea]. Disponible:

http://msdn.microsoft.com/es-es/library/ms174757.aspx. [Accedido: 09-Abr-2014].

[66] “Examinar un modelo usando el Visor de árboles de Microsoft.” [En línea]. Disponible: http://te-

chnet.microsoft.com/es-es/library/ms174503.aspx#BKMK_DecisionTree. [Accedido: 27-May-2014].

[67] “Prueba y validación (minería de datos).” [En línea]. Disponible: http://msdn.microsoft.com/es-

es/library/ms174493.aspx. [Accedido: 11-May-2014].

[68] “Air Resources Manager.” [En línea]. Disponible: http://201.245.192.252:81/. [Accedido: 22-

Mar-2014].

[69] A. Pomares, “Redes Neuronales y Algoritmos Genéticos,” Pontificia Universidad Javeriana, 2012.

[70] U. Nacional, “Introducción a las redes neuronales.” [En línea]. Disponible: http://www.virtual.u-

nal.edu.co/cursos/ingenieria/2001832/lecciones/cap_4/intro_rna.htm. [Accedido: 22-Mar-2014].

[71] “Clustering - Introduction.” [En línea]. Disponible: http://home.deib.polimi.it/matteucc/Cluste-

ring/tutorial_html/.[Accedido: 11-Mar-2014].

[72] “Ambiente Bogotá - Secretaria Distrital de Ambiente.” [En línea]. Disponible: http://www.am-

bientebogota.gov.co/. [Accedido: 19-Mar-2014].

[73] L. Aguilar. “Contaminación Ambiental”. [En línea].Disponible: http://contaminacion-ambiente.-blogspot.com. [Accedido: 02-Mar-2014].

[74] “¿Cómo se mide la concentración ambiente de ozono? - Ozono troposférico y calidad del aire -

Evaluación, análisis e interpretación de datos - Red Valenciana de Vigilancia y Control de la Contami-

nación Atmosférica - Calidad del aire - Calidad Ambiental - Conselleria de Infraestructuras, Territorio

Página 81

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

y Medio Ambiente.” [En línea]. Disponible: http://www.cma.gva.es/web/indice.aspx?nodo=57276.

[Accedido: 27-Feb-2014].

[75] B. E. Jiménez,  La contaminación ambiental en México. Editorial Limusa, 2001.

[76] A. Hernández, “La participación ciudadana en Bogotá, 1990-2010,” Colombia Internacional, vol.

71, pp. 85–107, 2010.

[77] C. Saldiaz, R .Henao, G. Camacho, C. Orjuela, J.E. León, L.G Duquino. “Recorriendo Puente Aranda”. [En línea]. Disponible: http://impuestos.shd.gov.co/portal/page/portal/portal_internet_sdh/pu-blicaciones/Est_fis_pub/localidades_est_pub/RECORRIENDO_PUENTE_ARANDA.pdf. [Accedido: 27-Feb-2014].

[78] J. J. Castillo,  Estimación de los beneficios en salud asociados a la reducción de la contaminación

atmosférica en Bogotá, Colombia. Bogotá CO, Observatorio Ambiental de Bogotá; 2010 [Internet]. .

[79] G. M. Torres, Y.Pinilla, Secretaría Distrital de Ambiente, “Plan Decenal para la Descontamina-

ción de la Calidad del Aire,” Diciembre de-2010.

[80] H. Camargo and M. Silva, “Dos caminos en la búsqueda de patrones por medio de Minería de

Datos: SEMMA y CRISP,” Rev. Tecnol, vol. 9, no. 1.

[81] “Diagnóstico y predicción de la contaminación atmosférica mediante la aplicación de técnicas de

minería de datos”. [En línea]. Disponible: http://www.upo.es/upotec/catalogo/energia-y-medioambien-

te/diagnostico-prediccion-contaminacion-mineria-datos/. [Accedido: 03-Sep-2013].

[82] M. García., A.S Cofiño, J. Fernández, J.M. Gutiérrez Santander Meteorology Group, “Predicción

Meteorológica Local: Métodos Dinámicos y Estadísticos,” Mayo 10.

[83] B. Oviedo, “ANÁLISIS DEL EFECTO DEL CAMBIO CLIMÁTICO EN LA DISPERSIÓN DE

OZONO Y MATERIAL PARTICULADO EN BOGOTÁ,” FACULTAD DE CIENCIAS, UNIVERSIDAD NACIONAL DE COLOMBIA, BOGOTÁ D.C., 2009

Página 82

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

VII - ANEXOS

En esta sección se presentan los anexos del documento memorias de grado, los cuales hacen

parte del proceso de desarrollo del trabajo de grado:

Anexo P. Post-Mortem

Este documento contiene el post- mortem del trabajo de grado, el archivo recibe el nombre

de: Anexo P.Post-Mortem.docx

Anexo M. Marco Conceptual

Este documento contiene el post- mortem del trabajo de grado, el archivo recibe el nombre

de: Anexo M.Marco Contextual.docx

Anexo 1.Documento Comprensión y Preparación de los datos

Este documento contiene el procedimiento de análisis y preparación de los datos para la cons-

trucción de la vista minable, el archivo recibe el nombre de: Anexo 1.Comprension y Prepa-

ración de los datos.docx

Anexo 2. Técnicas de Modelado y Diseño de Pruebas

Este documento contiene la justificación de la selección de las técnicas de minería y el plan

de diseño de pruebas para evaluar los modelos, el archivo recibe el nombre de: Anexo 2.Tec-

nicas de Modelado y Diseño de Pruebas.docx

Anexo 3. Muestra Vista Minable

Este archivo contiene los scripts de la muestra de la vista minable por cada técnica y atributo

objetivo, el archivo recibe el nombre de: VistasMinables.sql.

Página 83

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008

Ingeniería de Sistemas Grupo de Investigación: ISTAR - CIS1410IS02

Anexo 4. Construcción de los modelos

Este documento contiene el procedimiento y la información con la que se construyeron los

modelos de minería, el archivo recibe el nombre de: Anexo 4.Construccion de los Modelos. -

docx

Anexo 5. Análisis de resultados de los modelos

Este documento contiene una descripción detallada de los resultados de los modelos genera-

dos, el archivo recibe el nombre de: Anexo 5.Analisis de resultados de los modelos.docx

Anexo 6. Base de Conocimiento

Este archivo contiene los patrones resultantes de los modelos de minería, recibe el nombre de:

Base de Conocimiento.sql

Anexo 7. Plan de Pruebas

Este documento contiene una descripción detallada de las pruebas realizadas a los modelos y

el prototipo, el archivo recibe el nombre de: Anexo 7.Plan de Pruebas.docx

Anexo 8. Requerimientos

Este documento tiene la lista de los requerimientos (priorizados) del prototipo de alertas tem-

pranas: Anexo 8.Plan de Pruebas.docx

Anexo 9. Doc. Descripción de arquitectura de software

Este documento contiene la descripción de la arquitectura que usa el prototipo, el nombre que

recibe el documento es: Anexo 9.SAD.docx

Anexo 10. Manual de Usuario

Este documento contiene la descripción completa para utilizar la aplicación: Anexo 10.Ma-

nual de Usuario.docx

Página 84

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Modalidad Práctica

Anexo 11. Manual de administración

Este documento contiene una descripción paso a paso para realizar mantenimiento futuro a

los modelos y el prototipo: Anexo 11.Manual de Administracion.docx

Anexo 12.Manual de Instalación

Este documento contiene una descripción paso a paso para instalar el prototipo, el documento

recibe el nombre de: Anexo 11.Manual de Administracion.docx

Página 85

Preparado por el Grupo Investigación Istar- Versión 1.01 – 12/03/2008