modelo predictivo para la presentación de …...primera instancia y que luego puedan llevar a los...

31
Universidad Técnica Federico Santa María Departamento de Informática Magíster en Tecnologías de la Información 1 Modelo Predictivo para la Presentación de Recursos de Reclamación en la Superintendencia de Educación, a través de Minería de Datos Hipólito Fabián Guerrero Castro Superintendencia de Educación Morandé 115, Santiago, Región Metropolitana [email protected] Resumen: El presente trabajo fue desarrollado en la Superintendencia de Educación, donde existe un gran número de procesos sancionatorios que deben ser resueltos por las direcciones regionales y luego, cuando se presenta un recurso de reclamación, la Dirección Nacional debe nuevamente revisar todos los antecedentes. Esto se traduce en una baja eficiencia del proceso global, por lo que encontrar un modelo predictivo de minería de datos, capaz de identificar los procesos sancionatorios que son tramitados en primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina. Para el desarrollo del proyecto se utilizó la metodología de CRISP-DM, en particular en la etapa de modelado se generaron varios experimentos utilizando los principales algoritmos de árboles de decisión que han sido utilizados en otros problemas similares. Luego del desarrollo, se encontró que SimpleCART, en general, es el algoritmo que tiene los mejores resultados. Además, se pudo observar que entre más información se tiene del proceso administrativo, por ejemplo, información de la sanción aplicada, se obtienen mejores resultados para las distintas métricas de evaluación. Palabras Clave: CRISP-DM, Árbol de Decisión, Recurso Reclamación, Minería de Datos. 1 Introducción 1.1 Contexto La Superintendencia de Educación (en adelante Supereduc) es un organismo creado por la Ley de Aseguramiento de la Calidad (Ley N° 20.529), publicada el 27 de agosto de 2011 y que entra en funciones a partir del 1 de septiembre de 2012. Su objetivo es fiscalizar, de conformidad a la ley, que los sostenedores de establecimientos educacionales reconocidos oficialmente por el Estado se ajusten a las leyes, reglamento e instrucciones que dicte la Supereduc, y fiscalizar la legalidad del uso de los recursos de los establecimientos que reciban aportes del Estado. Además, de proporcionar información, en el ámbito de su competencia, a las comunidades educativas y otros usuarios e interesados, atender denuncias y reclamos de los ciudadanos, y aplicar sanciones y amonestaciones a los sostenedores si corresponde. La Ley N° 20.529 establece que la Supereduc formulará cargos e instruirá el respectivo procedimiento administrativo sancionador en caso de verificar la existencia de una o más contravenciones a la normativa educacional. Para tales efectos la Fiscalía dispone de una plataforma de tramitación de procesos administrativos sancionatorios (SIPA); dicha División a través de sus Direcciones Regionales, debe realizar la tramitación y determinar la aplicación de una sanción y/o sobreseimiento de un proceso administrativo sancionatorio denominado de primera instancia, pero luego de la notificación de la resolución, el Sostenedor podrá presentar un recurso de reclamación administrativa para que se revisen nuevamente los antecedentes en la Dirección Nacional. En la figura 1 se ilustra las etapas del proceso administrativo sancionatorio.

Upload: others

Post on 07-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

1

Modelo Predictivo para la Presentación de Recursos de Reclamación en la Superintendencia de Educación, a través de Minería de Datos

Hipólito Fabián Guerrero Castro

Superintendencia de Educación Morandé 115, Santiago, Región Metropolitana

[email protected]

Resumen: El presente trabajo fue desarrollado en la Superintendencia de Educación, donde existe un gran número de procesos sancionatorios que deben ser resueltos por las direcciones regionales y luego, cuando se presenta un recurso de reclamación, la Dirección Nacional debe nuevamente revisar todos los antecedentes. Esto se traduce en una baja eficiencia del proceso global, por lo que encontrar un modelo predictivo de minería de datos, capaz de identificar los procesos sancionatorios que son tramitados en primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina. Para el desarrollo del proyecto se utilizó la metodología de CRISP-DM, en particular en la etapa de modelado se generaron varios experimentos utilizando los principales algoritmos de árboles de decisión que han sido utilizados en otros problemas similares. Luego del desarrollo, se encontró que SimpleCART, en general, es el algoritmo que tiene los mejores resultados. Además, se pudo observar que entre más información se tiene del proceso administrativo, por ejemplo, información de la sanción aplicada, se obtienen mejores resultados para las distintas métricas de evaluación. Palabras Clave: CRISP-DM, Árbol de Decisión, Recurso Reclamación, Minería de Datos.

1 Introducción

1.1 Contexto

La Superintendencia de Educación (en adelante Supereduc) es un organismo creado por la Ley de Aseguramiento de la Calidad (Ley N° 20.529), publicada el 27 de agosto de 2011 y que entra en funciones a partir del 1 de septiembre de 2012.

Su objetivo es fiscalizar, de conformidad a la ley, que los sostenedores de establecimientos educacionales reconocidos oficialmente por el Estado se ajusten a las leyes, reglamento e instrucciones que dicte la Supereduc, y fiscalizar la legalidad del uso de los recursos de los establecimientos que reciban aportes del Estado. Además, de proporcionar información, en el ámbito de su competencia, a las comunidades educativas y otros usuarios e interesados, atender denuncias y reclamos de los ciudadanos, y aplicar sanciones y amonestaciones a los sostenedores si corresponde.

La Ley N° 20.529 establece que la Supereduc formulará cargos e instruirá el respectivo procedimiento administrativo sancionador en caso de verificar la existencia de una o más contravenciones a la normativa educacional. Para tales efectos la Fiscalía dispone de una plataforma de tramitación de procesos administrativos sancionatorios (SIPA); dicha División a través de sus Direcciones Regionales, debe realizar la tramitación y determinar la aplicación de una sanción y/o sobreseimiento de un proceso administrativo sancionatorio denominado de primera instancia, pero luego de la notificación de la resolución, el Sostenedor podrá presentar un recurso de reclamación administrativa para que se revisen nuevamente los antecedentes en la Dirección Nacional. En la figura 1 se ilustra las etapas del proceso administrativo sancionatorio.

Page 2: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

2

Figura 1. Etapas simplificadas del Proceso Administrativo Sancionatorio1.

1.2 El Problema

En la Supereduc se han presentado gran cantidad de recursos de reclamación estos últimos años y debido a lo anterior, la Dirección Nacional de la Supereduc se ha visto sobredemandada por la cantidad de recursos que se deben tramitar. Además, en el año 2017 entró en vigencia la Intendencia de Educación Parvularia la cual incorpora nuevas obligaciones que debe resguardar la Supereduc, es por esto que se hace necesario poder determinar el comportamiento de los sostenedores de establecimientos educacionales antes de que presenten el recurso de reclamación ante la Supereduc. En la tabla 1 se muestran indicadores sobre la gestión de procesos administrativos y reclamaciones de los últimos 3 años.

Tabla 1. Gestión de Procesos Administrativos de Primera Instancia y Recursos de Reclamación Administrativa2.

Año Procesos resueltos en

primera instancia Regional (A)

Reclamaciones presentadas que debe resolver la Dirección

Nacional (B)

Reclamaciones resueltas por la

Dirección Nacional (C)

% presentaciones

(B/A)

% resoluciones

(C/B)

2015 7.813 3.125 3.010 40,0 96,3

2016 4.990 1.908 2.116 38,2 110,9

2017 6.491 2.159 2.375 33,3 110,0

Dada la problemática anterior, se hace necesario buscar los patrones de comportamiento que permita contar con nuevo conocimiento y que éste permita apoyar la toma de decisiones, además de comprender las causas que provocan la presentación de la gran cantidad de recursos de reclamación. La solución permitirá mejorar los indicadores de desempeño de la Fiscalía, realizar mejoras a los procesos internos y realizar la tramitación de forma más eficiente.

1.3 Propuesta de Solución

Las instituciones necesitan tomar mejores decisiones y dependiendo de su ámbito, ser más competitivas, y para ello es necesario ayudar a los directivos en esta labor. La propuesta debiera ahorrar tiempo y esfuerzo en la tramitación de los procesos administrativos, y es por esto que, se debe apoyar la toma de mejores decisiones con más y mejor información. En la figura 2 se ilustra el diseño de la solución, para enmarcar dónde se enfoca este trabajo.

1 El proceso Administrativo Sancionatorio en Primera Instancia agrupa las etapas de generación de acta de fiscalización con observaciones, instrucción del proceso, formulación y/o no formulación de cargos, presentación de descargos, informe de ponderación al mérito y resolución que aprueba el proceso administrativo. 2 Desde la entrada en vigencia de la Supereduc, en septiembre de 2012, se arrastra un gran número de recursos de reclamación administrativa, por lo tanto, se reforzó el equipo de la Dirección Nacional y a partir del año 2016 se resuelven más reclamaciones que las que son presentadas, sin perjuicio de lo anterior, el número de presentaciones ha ido en aumento.

Page 3: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

3

Figura 2. Diseño de la solución basado en Davenport (2011).

Básicamente, la minería de datos surge para intentar ayudar a comprender el contenido de un repositorio de datos. Dentro del diseño de la solución cabe mencionar que en la Supereduc ya existe el sistema legado denominado SIPA, y se está trabajando en un data mart para la Fiscalía. Actualmente, también existen reportes ad hoc que ayudan a detectar acciones necesarias para el proceso y donde el principal indicador es el formulario H que se asocia al desempeño institucional. La propuesta de este trabajo es desarrollar un modelo predictivo que aporte con recomendaciones al proceso, es por esto que en el enfoque de solución se establece apropiado trabajar en la integración de los datos necesarios para la generación de un modelo predictivo, que permita evaluar la información de los procesos administrativos sancionatorios de los años 2015, 2016 y 2017, y luego contrastar el modelo obtenido con la información que se tiene respecto de la presentación de recursos de reclamación, para los años mencionados.

1.4 Objetivo General

El objetivo principal de este trabajo de tesina es establecer y proponer un modelo predictivo, a través de técnicas de minería de datos, que permita a la Supereduc pronosticar la demanda de los recursos de reclamación que deberá tramitar la Dirección Nacional.

1.5 Objetivos Específicos

Los objetivos específicos considerados para el trabajo son los siguientes:

● Proponer un modelo predictivo que permita predecir si un proceso pasará a segunda instancia a partir de la información de los procesos tramitados en la Dirección Regional, y que éste pueda ser usado por los usuarios finales.

● Apoyar con información el proceso administrativo sancionatorio, para que en la medida de los posible, se pueda reducir la cantidad de recursos de reclamación que son presentados anualmente en la Supereduc.

1.6 Hipótesis

Es relevante mencionar que dada la problemática, y debido a que los datos se encuentran clasificados y categorizados con su respectiva clase de salida, se determina que las técnicas más adecuadas para la búsqueda del modelo son las técnicas predictivas. Específicamente la técnica de árboles de decisión parece ser una de las más adecuadas por su fácil representación, que permite explicar de buena forma los resultados obtenidos; lo anterior se fundamenta ya que el objetivo es que el modelo debe ser de utilidad para la Fiscalía y con ello extraer conocimiento útil y comprensible.

Page 4: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

4

A partir de lo anterior se propone la siguiente hipótesis: “Se puede establecer un modelo predictivo para la presentación de recursos de reclamación ante la Supereduc, mediante árboles de clasificación, con una exactitud mayor al 75%, incorporando sólo factores de procesos administrativos sancionatorios.”

1.7 Beneficios Esperados

Con la propuesta de solución instaurada dentro de la Supereduc, se espera lograr los siguientes beneficios:

● Realizar recomendaciones al proceso administrativo sancionatorio que se falla en las regiones, y permitir apoyar la toma de decisiones.

● Aportar eficiencia a la gestión de los procesos administrativos sancionatorios tanto regional como en la dirección nacional.

● Con la aplicación del modelo predictivo, se espera identificar los procesos que son candidatos a tener un recurso de reclamación y con esto poder realizar un cálculo de la demanda de los próximos meses en la Dirección Nacional.

1.8 Validación

Como estrategia de trabajo para la validación de la hipótesis se debe considerar: primero, probar la existencia del modelo predictivo; y segundo, que los factores que componen el modelo puedan ser gestionados en la tramitación de los procesos administrativos sancionatorios, ya que en la medida de lo posible se espera proyectar la demanda existente en la actualidad.

Además, en la etapa de modelado y, principalmente, de evaluación de CRISP-DM se usarán métricas asociadas a la clasificación, las cuales son [1]:

● Matriz de confusión: se usa como una indicación de las propiedades de una regla de clasificación (discriminante). Contiene la cantidad de elementos que se han clasificado correcta o incorrectamente para cada clase.

● Exactitud: mide las predicciones que el modelo realizó correctamente. ● Precisión: mide cuántos ejemplos clasificados dentro de clase "positiva" son efectivamente "positivos". ● Sensibilidad: evalúa qué tan bien el clasificador puede reconocer muestras positivas. ● Curva ROC: ilustra la compensación entre las tasas de verdadero positivo a falso positivo. ● Índice de Kappa: mide el nivel de acuerdo de la predicción con la clase verdadera.

1.9 Estructura del Trabajo

Este trabajo está compuesto por 6 capítulos, los que son:

● Introducción: contextualiza el trabajo de tesina desde un ámbito global, pasando desde conocer la organización, describir el problema, los objetivos general y específicos del trabajo, los beneficios esperados, hasta la formulación de la hipótesis y su forma de validación.

● Marco Teórico: se profundiza en la base teórica necesaria para el desarrollo del proyecto, presentando conceptos de minería de datos y metodologías.

● Estado del Arte: en este capítulo se analizan trabajos y soluciones similares que en cierta medida han abordado el problema de este trabajo.

● Desarrollo: se selecciona la metodología, para luego dar paso a la aplicación de la metodología propiamente tal.

● Validación de la Hipótesis: se revisa el grado de validez de la hipótesis planteada. ● Conclusiones: se emitirán las conclusiones del trabajo.

Page 5: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

5

2 Marco Teórico

2.1 Minería de Datos

La minería de datos se define como: “el conjunto de técnicas y tecnologías que permitan explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto” [2].

De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces se obtiene el conocimiento.

Existen varios métodos y algoritmos que se pueden aplicar en el proceso de minería de datos, por lo que es importante tener una clasificación de los métodos existentes. La selección del método depende del problema en estudio o el tipo de datos disponibles, el proceso de extracción de datos se rige por las aplicaciones, por esta razón, los métodos utilizados se pueden clasificar de acuerdo con el objetivo de los análisis.

Tipos de tareas a considerar en minería de datos [3]:

● Tarea Descriptiva: los datos de entrada se presentan sin etiquetar y sin orden alguno, y se busca describirlos y no predecir datos nuevos. Ejemplos de técnicas descriptivas son: visualización, correlaciones y dependencias, detección de anomalías, asociación (Patrones Secuenciales), segmentación (Agrupamiento).

● Tarea Predictiva: considera problemas en los que hay que predecir uno o más valores para un conjunto de ejemplos. Éstos van acompañados de una salida (clase, categoría, valor numérico) o un orden entre ellos. Las principales técnicas son: clasificación (árboles de decisión, métodos bayesianos, redes neuronales, etc.), regresión estadística, pronósticos.

2.2 Metodologías

Los proyectos de minería de datos tienen por objetivo extraer información útil a partir de grandes cantidades de datos. La extracción de esta información útil es un proceso complejo, que requiere la aplicación de una metodología estructurada para la utilización ordenada y eficiente de las técnicas y herramientas disponibles [4]. Es por ello que, a continuación se describen las metodologías más comunes para la gestión de proyectos de minería de datos.

2.2.1 KDD [5]

El proceso KDD (Knowledge Discovery in Databases) fue definido por Fayyad en el año 1996 como "el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensible a partir de los datos". Se debe tener en cuenta que el proceso es iterativo en cada paso, lo que significa que puede ser necesario retroceder para ajustar los pasos anteriores. El proceso tiene muchos aspectos "creativos" en el sentido de que uno no puede presentar una fórmula para las elecciones correctas para cada paso. Por lo tanto, es necesario comprender adecuadamente el proceso y las diferentes necesidades y posibilidades en cada paso. En la figura 3 se ilustra el modelo de proceso de KDD.

Page 6: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

6

Figura 3. Modelo de Proceso KDD.

El proceso de KDD consta de las siguientes fases:

1. Desarrollo de una comprensión del dominio de aplicación: consiste en entender y definir los objetivos del usuario final y el entorno en el que se llevará a cabo el proceso de descubrimiento de conocimiento.

2. Creación de un conjunto de datos en el que se realizará el descubrimiento: se debe determinar los datos que se utilizarán para el descubrimiento de conocimiento. Averiguar qué datos están disponibles, obtener datos necesarios adicionales y luego integrar todos los datos para el descubrimiento de conocimiento en un solo conjunto de datos, incluidos los atributos que se considerarán para el proceso.

3. Preprocesamiento y limpieza: en esta etapa, se mejora la confiabilidad de los datos. Incluye la eliminación de datos, como el manejo de valores perdidos y la eliminación de ruido o valores atípicos.

4. Transformación de datos: se prepara y desarrolla la generación de mejores datos para la extracción de datos. Uno de los métodos que se pueden usar aquí es la reducción de dimensiones, como la selección y extracción de características, así como el muestreo de registros. Otro método que se podría usar en esta etapa es la transformación de atributos, que incluye técnicas como la discretización de atributos numéricos y la transformación funcional.

5. Elección de la tarea apropiada de minería de datos: decidir qué tarea de data mining se ajustará mejor a nuestras necesidades, es decir, clasificación, regresión o clustering. Esto depende principalmente de los objetivos y los pasos anteriores.

6. Elección del algoritmo de data mining: esta etapa incluye seleccionar el método específico que se utilizará para buscar patrones. Por ejemplo, al considerar la precisión versus la comprensibilidad, la primera es mejor con las redes neuronales, mientras que la segunda es mejor con los árboles de decisión.

7. Empleo del algoritmo de data mining: en este paso, podríamos necesitar emplear el algoritmo varias veces hasta que se obtenga un resultado satisfactorio. En particular, es posible que tengamos que ajustar los parámetros de control del algoritmo, como el número mínimo de instancias en una sola hoja de un árbol de decisiones.

8. Evaluación: se evalúa e interpretan los patrones extraídos (reglas, confiabilidad, etc.) con respecto a los objetivos definidos en el primer paso. Este paso se centra en la comprensibilidad y la utilidad del modelo inducido. En este punto, se documenta el conocimiento descubierto para un uso posterior.

9. Uso del conocimiento descubierto: incorporar el conocimiento en otro sistema para futuras acciones. El conocimiento se activa en el sentido de que se pueden hacer cambios en el sistema y medir los efectos.

2.2.2 SEMMA [6]

El estándar SEMMA (Sample, Explore, Modify, Model, and Access) fue desarrollado por SAS Institute y propuesto especialmente para trabajar con el software SAS Enterprise Miner. La empresa SAS indica que SEMMA es una propuesta de organización lógica de las tareas más importantes del proceso de minería de datos. En la figura 4 se ilustra la metodología SEMMA.

Page 7: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

7

SEMMA se compone de las siguientes fases:

1. Sample (Muestreo): se realiza una muestra de los datos creando una o más tablas de datos. 2. Explore (Exploración): consiste en la exploración de los datos buscando relaciones anticipadas, tendencias

imprevistas y anomalías para obtener comprensión e ideas. 3. Modify (Modificación): se realiza la modificación de los datos, creando, seleccionando y transformando las

variables para enfocar el proceso de selección del modelo. 4. Model (Modelado): se modela los datos usando las herramientas analíticas para buscar una combinación de

datos que prediga de manera confiable un resultado deseado. 5. Assess (Evaluación): se evalúa la utilidad y la fiabilidad de los resultados (modelos) obtenidos del proceso

de minería de datos.

Figura 4. Modelo de Proceso de SEMMA.

2.2.3 CRISP-DM [7]

CRISP-DM (Cross Industry Standard Process for Data Mining), es la guía de referencia más ampliamente utilizada en el desarrollo de proyectos de minería de datos. Los orígenes de CRISP-DM son del año 1999 cuando un importante consorcio de empresas europeas propone a partir de diferentes versiones de KDD, el desarrollo de una guía de referencia libre distribución. En la figura 5 se ilustra el modelo de procesos de CRISP-DM.

A continuación, se describen cada una de las fases en que se divide CRISP-DM.

1. Comprensión del negocio o problema: es probablemente la más importante, se concentra en comprender los objetivos y requisitos del proyecto, y luego convertir este conocimiento en una definición de problema de minería de datos y un plan para lograr los objetivos.

2. Comprensión de los datos: comprende recopilar datos iniciales y otras actividades para familiarizarse con los datos, identificar problemas de calidad de datos, descubrir las primeras ideas de los datos o detectar subconjunto de datos para definir las primeras hipótesis.

3. Preparación de los datos: abarca todas las actividades para construir el conjunto de datos finales a partir de los datos brutos iniciales. La preparación de datos incluye tareas de selección de datos, limpieza de datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambio de formato.

4. Modelado: se seleccionan y aplican diversas técnicas de modelado más apropiadas para el proyecto específico, con sus respetivos algoritmos y parámetros para obtener la información oculta y patrones. También se debe determinar un modelo de evaluación de los modelos.

5. Evaluación: el modelo (o los modelos) obtenido se evalúa más a fondo y los pasos que se ejecutan para construir el modelo se revisan para asegurarse de que se logre los objetivos.

Page 8: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

8

6. Implementación: la creación del modelo generalmente no es el final del proyecto. Incluso si el objetivo del modelo es aumentar el conocimiento de los datos, éste deberá organizarse y presentarse de forma que pueda ser utilizado.

Figura 5. Modelo de Proceso CRISP-DM.

3 Estado del Arte

Dentro del ámbito de las instituciones públicas, relacionadas a la educación chilena o consideradas en el sistema nacional de aseguramiento de la calidad de la educación escolar, existen algunos trabajos que intentan resolver problemáticas particulares. El primer caso analizado buscaba apoyar la toma de decisiones de los ejecutivos del Ministerio de Educación [8], y el segundo caso, mejorar la calidad de los datos en la Agencia de Calidad de la Educación [9]. Pero el caso del presente trabajo lo que se busca es determinar el comportamiento de los sostenedores de establecimientos educacionales cuando realizan la presentación de recursos de reclamación ante la Supereduc, para así apoyar en la tramitación de los procesos administrativos sancionatorios, es aquí donde no se han encontrado trabajos relacionados.

En torno a la gestión de los sostenedores de establecimientos educacionales, existe casi nula literatura que permita aportar significativamente a este trabajo, y solo es relevante mencionar el documento elaborado por el Ministerio de Educación que presenta los estándares indicativos de desempeño3 para los establecimientos de educación básica y media y sus sostenedores; estos estándares establecen un marco orientador para la evaluación de los procesos de gestión educacional de los establecimientos y sus sostenedores. Por lo tanto, este trabajo toma mayor relevancia ya que constituirá un aporte a la industria de la educación [10].

En lo que respecta a la minería de datos, dentro de la literatura se encuentran trabajos asociados a diversas industrias, y en particular en el área de la medicina existen trabajos donde se generan modelos de predicción para el diagnóstico y pronóstico relacionados con el cáncer [11], este tipo de trabajos son posibles gracias a las técnicas de árboles de decisión. Las herramientas de predicción junto con el reconocimiento de patrones han hecho valiosas contribuciones a la identificación de instancias que afectan el análisis médico y pronóstico de casos diagnosticados. Este trabajo realizo una revisión del rendimiento de los principales algoritmos de árbol de decisión, es decir, el C4.5 y el CART, y los resultados encontraron que el algoritmo CART utilizado por la plataforma Python es más eficaz para clasificar.

3 Los Estándares Indicativos de Desempeño son un conjunto de referentes que constituyen un marco orientador para la evaluación de los procesos de gestión educacional de los establecimientos y sus sostenedores. Los estándares abordan cuatro dimensiones de la gestión escolar: Liderazgo, Gestión pedagógica, Formación y convivencia, y Gestión de recursos.

Page 9: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

9

En Johannesburg (Sudáfrica) se realizó una investigación de diferentes árboles de decisión para modelar y predecir los precios semanales del crudo [12]; en este trabajo se utilizaron validaciones cruzadas y se usaron diferentes métricas de error para el árbol de decisión, y así realizar comparaciones entre varios algoritmos. En dicho trabajo, se implementaron 5 algoritmos de árbol de decisión diferentes (Decision Stump, M5P, Random Forest, Random Tree and REPTree) y los resultados muestran que M5P tuvo el mejor rendimiento en términos de métricas de error, mientras que el árbol de decisión Random Tree devuelve los tiempos de computo más rápidos. Finalmente, se puede decir que el petróleo crudo es el propulsor de muchas actividades económicas en todo el mundo, y este tipo de técnicas de minería de datos permiten modelar y predecir este tipo de problemáticas. Como se menciona en el trabajo, el petróleo crudo ha generado mucho interés por parte de los académicos, profesionales de la industria petrolera y gobiernos, pero esta tarea es bastante difícil ya que los factores que influyen en el precio del crudo son difíciles de predecir y controlar.

La técnica de árboles de decisión también ha sido aplicada en compañías de telecomunicaciones para predecir el abandono de clientes [13]; en esta industria la predicción de abandono es importante ya que el hecho de adquirir nuevos clientes es mucho más costoso que retener el existente, pero al utilizar este tipo de modelos, las compañías de telecomunicaciones pueden predecir con anticipación qué clientes están en riesgo de abandonar. Con una gran base de clientes y la información disponible sobre ellos, las técnicas de minería de datos pueden ayudar a encontrar el patrón de los clientes y proporcionar información útil que luego se puede utilizar estratégicamente para retener clientes. Las técnicas más populares utilizadas para la predicción de abandono incluyen árboles de decisión, redes neuronales y regresión logística. Las redes neuronales tienen limitaciones, pues funcionan bien solo para grandes conjuntos de datos y toman mucho tiempo para el entrenamiento, incluso con pequeños conjuntos de datos. También con las redes neuronales es difícil analizar las características que conducen a la pérdida de clientes. Las redes neuronales son una herramienta interesante, pero tienen un problema operativo para los especialistas en marketing ya que es muy difícil entender los factores que explican la rotación debido a que son como cajas negras; es por esto que, si no se pueden conocer los factores, no es posible construir una estrategia de prevención de los abandonos. Por lo tanto, en este trabajo se utilizaron los métodos de árboles de decisión y regresión logística que ayudan a analizar los factores que causan la pérdida de clientes, de manera efectiva y comprensible.

Evaluar el desempeño de las organizaciones gubernamentales es una tarea muy importante para garantizar que los servicios públicos sean correctos y eficientes. En general, un sistema que mejore el desempeño gubernamental puede ayudar al gobierno a asignar los recursos de manera más razonable. También puede establecer el orden de los planes, avanzar en la eficiencia, mejorar la calidad de la toma de decisiones, promover la relación entre gobierno y el público. En el ámbito legal, los tribunales son la última línea de defensa para proteger al público a fin de resolver los problemas de las personas. Dentro de este contexto, en Taiwán se realizó una evaluación de desempeño del sistema judicial a través de DEA y árboles de decisión [14]; en este trabajo se adoptó DEA para evaluar la eficiencia en el manejo de los casos y luego los arboles de decisión para conocer el resultado de DEA, y descubrir factores importantes que afectan la eficiencia general. Dentro del enfoque de aprendizaje se generaron modelos de clasificación, donde se realizaron comparaciones de tres algoritmos bien conocidos para construir el modelo de árbol de decisión, que son C5.0, CART y CHAID. Para entrenar y evaluar los modelos de árbol de decisión, se usó el método de validación cruzada. Además, la medición del rendimiento se basó en las tasas de precisión de predicción.

4 Desarrollo

4.1 Selección de Metodología

Este trabajo se sustenta en CRISP-DM, que es la principal metodología para proyectos de análisis, minería de datos o ciencia de datos, y además es un estándar en la industria. Por esto que es la metodología utilizada en el desarrollo del proyecto; las siguientes secciones serán en base a las fases de dicha metodología.

Se desarrollaron los siguientes pasos: comprensión del negocio o problema, comprensión de los datos, preparación de los datos, modelado, evaluación e implantación. Para la fase de comprensión del negocio o problema se lleva a cabo una breve descripción de la problemática y los objetivos del proyecto. Para la fase de

Page 10: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

10

comprensión de los datos se efectúa un análisis de la información disponible en el sistema operacional y en el data mart de la Fiscalía. En la fase de preparación de los datos se hace la adaptación, selección y limpieza de los datos, y también la generación de posibles variables adicionales. En la fase de modelado se ejecuta la selección de la técnica de modelado, la construcción del modelo propiamente tal y la evaluación del modelo. En la fase de evaluación se realiza la evaluación de los resultados obtenidos, la revisión del proceso y determinación de los próximos pasos. Finalmente, en la etapa de implantación se concluye con el plan de implantación, plan de monitoreo y mantención, y revisión del proyecto desarrollado.

4.2 Aplicación de la Metodología

Dada la metodología CRISP-DM, a continuación, se presenta el desarrollo del proyecto de minería de datos.

4.2.1 Comprensión del negocio o problema

Esta fase inicial está enfocada en la comprensión de los objetivos del proyecto y requerimientos desde una perspectiva de negocio, para luego poder plasmarlo en objetivos técnicos y un plan para poder alcanzar dichos objetivos.

En la Fiscalía existe una gran cantidad de recursos de reclamación que deben ser tramitados, los cuales sobredemandan la capacidad existente, con el riesgo de que estos recursos no sean tramitados en los plazos que estable la ley. Para poder cumplir los plazos, por lo general, se redestinan los esfuerzos de los abogados en este tipo de recursos con máxima prioridad. Es por esto que se establece los siguientes objetivos:

● Proponer un modelo predictivo que permita predecir si un proceso pasará a segunda instancia a partir de la información de los procesos tramitados en la Dirección Regional, y que este pueda ser usado por los usuarios finales.

● Apoyar con información el proceso administrativo sancionatorio, para que en la medida de lo posible, se pueda reducir la cantidad de recursos de reclamación que son presentados anualmente en la Supereduc.

Como criterio de éxito se establece que la proyección de la demanda tenga una desviación de menos del 25%, y que la proyección de la demanda pueda ser realizada de forma mensual.

En la actualidad no se tiene conocimiento respecto de los sostenedores que más realizan la presentación de recursos de reclamación ni cuáles son los motivos por los que recurren a una segunda instancia. Es por esto que, a partir de los datos de los años 2015, 2016 y 2017, se iniciará el proceso de minería de datos, ya que el beneficio de obtener este tipo de conocimiento para la Supereduc es vital, y con ello mejorar su gestión interna.

Dentro de los recursos disponibles están:

● SIPA: principal sistema operacional del área de negocio. ● SIFE: principal sistema de fiscalización. ● Data mart Fiscalía: almacén de datos específico del área de negocio. ● Reportes: información ad hoc del proceso.

El requisito primordial para el modelo es que debe ser de fácil representación, al igual que los datos obtenidos desde las etapas de la minería de datos, ya que éstos serán utilizados por los principales usuarios que son abogados. Dentro de los supuestos se encuentra que la mayoría de los datos para el modelado están disponibles en el data mart de la Fiscalía. La principal restricción para el desarrollo del proceso de minería de datos es el tiempo ya que debe ser finalizado antes de septiembre de 2018.

4.2.2 Comprensión de los Datos

En esta fase el foco es el entendimiento de los datos, y se comienza con la recolección de datos iniciales y actividades que permita familiarizase con ellos; también, actividades para poder identificar si existen problemas

Page 11: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

11

de calidad de datos, describir el conocimiento de forma preliminar a partir de los datos obtenidos y, en caso de ser posible, formular las primeras hipótesis.

Para esta fase se utilizan los recursos o fuentes de datos identificados en la fase anterior, siendo una de las principales, el data mart que posee la Fiscalía ya que esta fuente de datos posee, principalmente, la cantidad de actas de fiscalización, estado de las actas, porcentaje de procesos administrativos, direcciones regionales y cantidad de denuncias. Este almacén se alimenta primordialmente del sistema de procesos administrativos (ver figura 2), y de forma adicional, se complementa con información del sistema de fiscalización educacional.

Sistema de Procesos Administrativos (SIPA). Es un aplicativo desarrollado inicialmente en el Ministerio de Educación y que fue traspasado al momento de la creación de la Supereduc. Está basado en tecnología .NET y base de datos SQL Server, y es el encargado de soportar los flujos de tramitación administrativa de las diferentes instancias del proceso administrativo sancionatorio, tales como tramitación regional, recursos de reclamación, tramitación judicial y recursos de revisión. Las entidades que se pueden encontrar en este sistema son:

● Instrucción de proceso. ● Formulación de cargos. ● Descargos del sostenedor. ● Resolución de primera instancia. ● Recurso de reclamación.

Sistema de Fiscalización Educacional (SIFE). Al igual que SIPA es un aplicativo desarrollado inicialmente en el Mineduc y fue traspasado a la Supereduc; está basado en tecnología PHP y base de datos MySQL. Es el encargado de soportar la ejecución de las fiscalizaciones que realiza la Supereduc y reflejar la información obtenida en terreno, para a partir de ello, determinar si existe incumplimiento de alguna obligación, y en caso de ser así, dar curso al inicio de un proceso sancionatorio. Las entidades que se pueden encontrar en este sistema son:

● Programa de fiscalización ● Establecimiento ● Sostenedor ● Acta de fiscalización satisfactoria. ● Acta de fiscalización con observaciones. ● Comentarios de director.

Data mart Fiscalía. Corresponde a un almacén de datos departamental construido el año 2017 por la Supereduc. Está implementado en tecnología SQL Server Integration Services (SSIS), que permite mover datos a un nuevo destino sin modificar los datos del origen, y hacer iteraciones y cambios de información dentro de las tablas de ETL (Extract, Transform and Load) antes de llegar al destino. La información relevante que se puede encontrar en este componente son:

● Establecimientos nuevos fiscalizados. ● Motivos de no formulación de cargos. ● Identificación de sustentos no formulados.

Reportes. Es información del proceso que se extrae ad hoc. Estos reportes son disponibilizados principalmente en formato MS Excel para permitir la manipulación de los usuarios finales. Los reportes que se generan usualmente son:

● Indicador formulario H. ● Gestión de la tramitación de los recursos de reclamación.

A partir de las fuentes de información descritas anteriormente, se seleccionaron las variables presentes en la tabla 2.

Page 12: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

12

Tabla 2. Descripción de las Variables de Estudio.

Variable Fuente Descripción

Programa SIFE Una de las materias que fiscaliza la Supereduc, aprobada dentro del plan anual de fiscalización.

Hallazgos SIFE Son los hechos que transgreden a la normativa educacional, encontrados dentro de la visita de fiscalización (ej. establecimiento no presenta rendiciones de cuentas, establecimiento con consejo escolar que no cumple normativa, establecimiento no cuenta con personal docente idóneo necesario).

Formulación SIPA Etapa dentro del proceso sancionatorio, donde el Fiscal Instructor a cargo del proceso determina si con los antecedentes obtenidos da lugar a la formulación de los cargos al Sostenedor.

Dependencia SIFE Tipo de administración que realiza el Sostenedor respecto de los establecimientos educacionales.

Comentarios del Fiscalizador

SIFE Son observaciones que indica el Fiscalizador dentro de la visita realizada, que no han sido recogidas dentro del procedimiento de fiscalización.

Presenta Descargos

SIPA Etapa dentro del proceso sancionatorio donde el Sostenedor puede entregar información respecto de los cargos que le han sido formalizados.

Denuncia SIFE Identifica si el proceso fue iniciado por una denuncia contra un establecimiento educacional.

Comentarios del Director

SIFE Son las observaciones que puede realizar el Director al momento de finalizada la visita de fiscalización, indicando hechos que puedan ser considerados luego en el proceso sancionatorio.

Sanciones SIPA Las sanciones corresponden al resultado del proceso sancionatorio, dentro de las cuales se encuentran: multa, revocación del reconocimiento oficial, privación de alguna subvención, suspensión de alguna subvención, inhabilidad para el sostenedor, sobreseimiento, reintegro de recursos y amonestación.

Tiempo de tramitación

DM Fiscalía Indica el tiempo que ha transcurrido en la tramitación del proceso sancionatorio.

Tabla 3. Distribución de los Datos de Presentación de Recursos de Reclamación.

Estado Reclamación 2015 2016 2017 Total General

No Presenta Reclamación 5.171 4.262 3.150 12.583

Presenta Reclamación 2.636 2.800 1.454 6.890

Total general 7.807 7.062 4.604 19.473

Page 13: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

13

Tabla 4. Distribución de los Datos de Presentación de Recursos de Reclamación.

Variable Rango de valores posibles Cantidad de valores válidos

Cantidad de valores inválidos

Total

nom_comuna [Listado de Comunas] 19.254 23 19.277

dependencia [Municipal, Particular Subvencionado, Particular Pagado,

Administración Delegada]

18.358 919 19.277

gravedad [0-16] 19.188 89 19.277

fecha_resolucion_rex_termino

[Fecha Válida] 14.287 4.990 19.277

sancion_6_sobreseido [0,1] 18.259 1.018 19.277

Respecto de los datos encontrados, en la tabla 3 se describe el número de reclamaciones por año, donde cabe mencionar que ésta es la clase de salida.

Dentro de los datos encontrados se realizó la verificación de la calidad de éstos, y se observó que existían valores que se encontraban fuera de los rangos establecidos, lo cual representan problemas de consistencia. Por lo tanto, se realizó la corrección de los datos antes de continuar con la siguiente fase; en la tabla 4 se describen los datos que debieron ser corregidos. Previo a esto, se identificaron 7 procesos que no contaban con la información de la visita de fiscalización, por lo tanto, fueron excluidos del análisis.

4.2.3 Preparación de los datos

En esta fase se procedió a realizar la preparación de los datos para adaptarlos a las técnicas de minería de datos; dentro de esta preparación se deben desarrollar tareas generales de selección, limpieza, construcción, integración y formateo de los datos.

A través de la matriz de correlación, se determina la relación entre todos los atributos, y para ello, se obtiene un vector con las ponderaciones. En el anexo 1 se puede observar los atributos que están conectados, donde destaca la relación entre sancion_8_amonestacion y sancion_9_multa_ley_20529, principalmente porque aporta información relevante que no se tenía anteriormente: en general, en procesos sancionatorios que son sancionados, en primera instancia, con amonestación al sostenedor no se aplicará la sanción de multa bajo la ley 20.529. En cuanto a otras correlaciones, no es posible encontrar información adicional que sea valiosa para el proceso, ya que solamente viene a ratificar reglas propias del proceso sancionatorio.

Con los datos obtenidos en la fase anterior, se realiza la selección de los datos para la técnica de clasificación, donde principalmente se excluyen los datos que corresponden a: identificadores, folios, rbds y rut, el resto de los datos fueron incluidos para las demás actividades.

Dentro de la limpieza de los datos se debieron aplicar técnicas de discretización para transformar los campos numéricos en atributos nominales; los campos discretizados fueron: gravedad y length_observacion. Luego de aplicar la técnica, para el caso del atributo gravedad a los valores entre 0 y 1 se les asignó la etiqueta “rango 1”, y los valores entre 2 y 16 la etiqueta “rango 2”, los cuales fueron 15.078 y 4.110 casos, respectivamente. Para el atributo length_observacion a los valores entre 0 y 13 se asignó la etiqueta denominada como “rango 1”, y los valores entre 14 y 5.605 pasaron al “rango 2”, los casos fueron 8.832 y 10.445 respectivamente. Asimismo, en la tarea de limpieza de datos se debió realizar la normalización de los atributos: nombre de región y dependencia del sostenedor; el detalle puede ser encontrado en el Anexo 2. Igualmente, existían valores

Page 14: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

14

ausentes que debieron ser tratados; en el caso de nombre de región se identificaron los registros ausentes y se procedió a la actualización de la información, a partir de la comuna del sostenedor respectivo.

Algunos de los datos que debieron ser transformados para la aplicación del modelo, antes de continuar con las siguientes actividades, y con el objetivo de que la comprensión fuese más sencilla al momento de evaluar los resultados y el modelo, son presentados en la tabla 5, la cual describe la parametrización realizada.

Tabla 5. Transformación de Atributos.

Variable Descripción Parametrización

tiene_formulacion Solo se tenían valores entre 0 y 1. - Tiene Formulación - No Tiene Formulación

presenta_descargos_pruebas Valores entre 0 y 1. - Presenta Descargos - No Presenta Descargos

sancion_1_multa Indica si se aplicó la sanción multa. - Sí - No

sancion_2_revocacion_ro Indica si la sanción fue revocación del reconocimiento oficial.

- Sí - No

sancion_3_privacion_subvención

Indica si la sanción fue privación de la subvención para el Sostenedor.

- Sí - No

sancion_4_suspension_subvención

Indica si la sanción fue suspensión de la subvención para el Sostenedor.

- Sí - No

sancion_5_inhabilidad_sostenedor

La inhabilidad del sostenedor es aquella sanción que se aplica a la entidad sostenedora por infracciones cometidas a la normativa.

- Sí - No

sancion_6_sobreseido Indica si el sostenedor fue sobreseído de uno o más cargos por los cuales se inició el proceso administrativo.

- Sí - No

sancion_7_reintegro Corresponde a la sanción de reintegro de la subvención por parte de la entidad sostenedora.

- Sí - No

sancion_8_amonestacion Indica si la sanción al sostenedor fue una amonestación.

- Sí - No

sancion_9_multa_ley_20529 Indica si se aplicó la sanción multa bajo la ley 20.529.

- Sí - No

Los datos para esta etapa fueron extraídos desde las bases de datos operacionales y desde el data mart, y almacenados en una base de datos analítica con una estructura ad hoc a las necesidades (ver figura 6), organizada por área de negocio. Todo esto permitió manipular la información sin riesgos operativos para los sistemas de información y realizar la extracción de datos de forma más fácil.

Page 15: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

15

Figura 6. Modelo de la Base de Datos Analítica.

Con el análisis realizado en la etapa anterior se aprecia que la variable sancion_1_multa y sancion_9_multa_ley_20529 corresponden a la misma variable, solo que la segunda está asociada a la ley 20.529 que entró en vigencia de forma paulatina y que fue preciso diferenciarla de la sanción anterior; pero para el análisis que se está realizando no es necesaria dicha separación, por lo tanto, se creó una tercera variable que unió ambas variables.

Además, durante el análisis se distingue que las variables sancion_1_multa, sancion_2_revocacion_ro, sancion_3_privacion_subvención y sancion_4_suspension_subvención están asociadas a una sanción del tipo monetaria que afecta a la entidad sostenedora, dado que verán mermados sus recursos, así que, al igual que en el caso anterior, se creó una variable que unió a todas las anteriores.

Antes de iniciar la fase de modelado, se realiza la selección de los atributos que aporten más información al modelo que se creó. Para este trabajo se utilizaron los siguientes métodos:

● ChiSquaredAttributeEval, basado en la prueba de Chi-Cuadrado. ● GainRatioAttributeEval, que compara las diferencias de entropía entre clases. ● InfoGainAttributeEval, que evalúa la ganancia de información de un atributo con respecto a la clase.

Luego de la revisión de los resultados obtenidos de la aplicación de los métodos de la figura 7 se determina que el atributo var_s2_revocacion_ro debe ser descartado ya que no entrega información al modelo; el detalle puede ser encontrado en el Anexo 3.

Figura 7. Flujo de Aplicación de los Métodos para la Selección de Atributos.

Page 16: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

16

4.2.4 Modelado

En esta fase de modelado se realiza la selección de la técnica apropiada al problema, la prueba de calidad y validez del modelo, la ejecución de la herramienta de modelado, y finalmente una breve evaluación de los resultados obtenidos.

Dado el tipo de problema, se decidió usar árboles de clasificación, para lo cual se evaluaron los siguientes algoritmos: Decision Tree, SimpleCART (extensión de Weka), Decision Stump, Random Forest, Random Tree, REPTree (extensión de Weka), CHAID.

Dentro de los problemas (similares) que fueron investigados y citados en el estado del arte, se mencionaba que el algoritmo M5P tenía buen rendimiento, pero este algoritmo fue descartado para su utilización, debido a que no maneja clases binarias. Por otra parte, C4.5 y C5.0 son versiones diferentes del mismo algoritmo que en RapidMiner se llama DecisionTree. Los algoritmos REPTree y CART son utilizados desde la extensión de Weka ya que no existe implementación en RapidMiner, donde la extensión tiene una implementación básica de CART llama SimpleCART. Además, cabe mencionar que los algoritmos son utilizados con sus parámetros con valores por defecto, dado que son varios los algoritmos y las configuraciones pueden ser variadas, pero por sobre todo para que los resultados puedan ser comparables a otros trabajos similares.

Para llevar a cabo el modelado se utilizó la herramienta de minería de datos open source llamada RapidMiner, la cual es ampliamente usada y probada a nivel mundial; además tiene una interfaz gráfica que permite realizar el diseño y parametrización de los flujos de trabajo, y su posterior análisis de resultados es más sencillo; a la instalación base se le adicionó una extensión de Weka ya que con esto se agregan esquemas de modelado los cuales incluyen algoritmos adicionales.

A continuación, se describen los experimentos que buscan comprobar la hipótesis planteada y los resultados de la evaluación de los algoritmos. Cabe mencionar que todos los experimentos utilizan la misma base de datos en RapidMiner.

● Experimento N° 1: se utilizaron todas las variables identificadas en el proceso de fiscalización. ● Experimento N° 2: se usaron todas las variables identificadas en la tramitación del proceso administrativo

previo a la sanción del proceso en primera instancia. ● Experimento N° 3: se utilizaron las variables asociadas a la sanción de primera instancia. ● Experimento N° 4: se usaron todas las variables disponibles que aportan valor al modelo.

Figura 8. Identificación de los Experimentos en el Proceso Administrativo Sancionatorio

Experimento N° 1

La aplicación de este experimento es graficada en las figuras 9 y 10. En la primera figura se puede apreciar que se tiene un operador que extrae los datos, que luego se conecta con el operador que selecciona las variables para posteriormente pasar al proceso de validación; en este último se aplica el operador para reemplazar los valores perdidos y entrenar el modelo con el algoritmo Decision Tree, para finalmente aplicar el modelo y realizar la evaluación. Solo cabe señalar que el algoritmo será modificado según los definidos anteriormente.

Page 17: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

17

Figura 9. Árbol de Decisión Aplicado al Experimento 1 a través de RapidMiner.

Figura 10. Componente de Validación de la figura 9.

Luego de la ejecución del experimento para los diferentes algoritmos seleccionados, en la tabla 6 se presentan los resultados obtenidos.

Tabla 6. Resultados de la Ejecución del Experimento 1.

Algoritmo Exactitud Precisión Sensibilidad AUC Kappa

Decision Tree 64,68% desconocida 0% 0,500 0

SimpleCART 65,78% 52,41% 33,87% 0,631 0,182

Decision Stump

64,80% 77,65% 0,56% 0,502 0,006

Random Forest 64,68% desconocida 0% 0,500 0

Random Tree 64,68% desconocida 0% 0,500 0

REPTree 66,08% 54,03% 26,64% 0,637 0,161

CHAID 65,04% 51,51% 16,07% 0,642 0,093

Para la ejecución de este experimento se observa que los algoritmos entregaron una exactitud entre 64,68% y 66,08%, donde REPTree obtiene el mejor resultado y SimpleCART el segundo lugar, pero con tiempos de cómputos muy distintos dado que SimpleCart demoró alrededor de 10 horas más que el algoritmo REPTree. Los algoritmos Decision Tree, Random Forest y Random Tree no obtienen resultados para precisión, sensibilidad, área bajo la curva e índice de Kappa, por lo tanto, son excluidos del resto del análisis. Se aprecia que en términos de precisión los algoritmos variaron entre 51,51% y 77,65%, el mejor resultado fue para Decision Stump. Los valores para la sensibilidad variaron entre 0,56% y 33,87%; dentro de estos bajos

Page 18: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

18

resultados, el mejor algoritmo fue SimpleCART. Para el área bajo la curva se obtuvieron valores entre 0,502 y 0,642 y la métrica índice de Kappa obtuvo resultados entre 0,006 y 0,182; lo cual representa una pobre fuerza de concordancia entre la predicción y la clase real.

Con las variables identificadas en el proceso de fiscalización, no se obtuvieron resultados para tres algoritmos, y en términos generales se obtuvieron bajos resultados para las 5 métricas de evaluación. Cabe mencionar que el algoritmo CHAID demoró 54 minutos aproximadamente en su ejecución.

Experimento N° 2

Al igual que el experimento anterior, se realiza el modelado con los mismos operadores para cada algoritmo, pero las variables son solo las identificadas en la tramitación del proceso administrativo previo a la sanción del proceso en primera instancia.

Luego de la ejecución del experimento para los diferentes algoritmos seleccionados. En el anexo 4 se presentan los resultados obtenidos.

Con las variables mencionadas anteriormente, los algoritmos no fueron capaz de diferenciar en qué situaciones se presenta o no un recurso de reclamación, y ante esto solamente indica por defecto que en todas las instancias no se presenta reclamación, lo anterior debido a que la muestra tiene mayor cantidad de instancias donde la clase tiene el valor no presenta reclamación, si bien la precisión es de 64,68% este valor y el resultado de las otras métricas se explica por lo anteriormente mencionado, así que en términos generales, en este experimento los algoritmos no obtuvieron resultados. Por lo tanto, las variables consideradas, por si solas, no son determinantes para el modelo y no aportan información.

Experimento N° 3

En el experimento 3 se utilizan solo las variables asociadas a la aplicación de la sanción de la tramitación del proceso administrativo en primera instancia.

Cabe mencionar que, dado que el algoritmo CHAID no tiene la capacidad de utilizar datos de tipo numéricos como es el valor de las multas, previo a su ejecución se debió discretizar los atributos. En el anexo 4 se presentan los resultados obtenidos.

Al realizar el experimento con las variables asociadas a la sanción de la tramitación del proceso administrativo, se observa que en términos generales los resultados mejoran, y los algoritmos SimpleCART y REPTree obtienen los mejores resultados en términos de exactitud con un 73,21% y 73,14%, respectivamente. Al revisar la precisión estos dos algoritmos vuelven a liderar, pero esta vez REPTree obtiene un 58,44% y SimpleCART se queda con el segundo lugar con un 58,14%. Al observar la sensibilidad se encontró que ahora los algoritmos que lideran los resultados son Decision Tree y Decision Stump ambos con un 93,57%. En el área bajo la curva e índice de Kappa nuevamente SimpleCART es el que obtiene los mejores resultados. Por lo tanto, el algoritmo SimpleCART en términos generales obtiene los mejores resultados liderando en 3 de 5 métricas evaluadas, y el algoritmo CHAID fue el peor en todas las métricas.

Experimento N° 4

Este experimento consideró la utilización de todas las variables disponibles, para identificar si en su conjunto éstas toman fuerza y mejoran los resultados. En el anexo 4 se presentan los resultados obtenidos.

En términos generales, los resultados se parecen a los obtenidos en el experimento anterior, pero los tiempos de cómputo son parecidos al primer experimento donde el algoritmo CHAID en su ejecución demoró 54 minutos y en este experimento SimpleCART demoró 11 horas y 58 minutos aproximadamente. Sin perjuicio de lo anterior, SimpleCART lideró los resultados para exactitud, precisión, área bajo la curva e índice de Kappa con un 74,99%, 62,23%, 0,800 y 0,478 respectivamente. Para la métrica de sensibilidad los algoritmos Decision Tree y Decision Stump empataron en los resultados con un 93,57%.

Page 19: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

19

4.2.5 Evaluación

En esta fase lo primero es evaluar los resultados obtenidos, para luego revisar el proceso que permitió llegar a éstos, y finalmente determinar si se debe realizar otra iteración desde alguna fase anterior.

Para la evaluación de los modelos y la verificación de la hipótesis, se realizaron los experimentos antes descritos, y a éstos se le aplicaron diferentes algoritmos asociados al problema. Lo anterior, permitió obtener diferentes métricas de los modelos, tales como: exactitud, precisión, sensibilidad, área bajo la curva e índice de kappa, los cuales serán evaluados a continuación.

Dentro del análisis de las diferentes métricas se excluye el experimento 2 debido a que no se encontraron resultados, y se presenta el análisis solo de los experimentos 1, 3 y 4.

En la figura 11 se observa que los resultados demostraron que los algoritmos SimpleCART y REPTree obtuvieron, en general, mejor exactitud en los diferentes experimentos. Con el experimento 1 se puede apreciar que a priori no es posible predecir si se presentará un recurso de reclamación. Los datos del experimento 3 muestran qué, en términos generales, la incorporación de las variables de la sanción de primera instancia mejora los resultados. Finalmente, el experimento 4, donde se incluyen todas las variables, no se presenta un incremento significativo respecto de los resultados obtenidos con el experimento que incluye las variables asociadas a la sanción de primera instancia, ósea el experimento 3.

Figura 11. Análisis de Métrica de Exactitud de los Algoritmos Utilizados en los Diferentes Experimentos

En la figura 12 se observa que los resultados son muy similares entre los experimentos 3 y 4, por lo tanto, los resultados obtenidos no son concluyente respecto de las variables utilizadas. Solo se destaca la precisión obtenida en el experimento 1 para el algoritmo Decision Tree, donde se podría concluir que las variables extraídas del proceso de fiscalización, permiten identificar a priori si se presentará un recurso de reclamación sin tener la sanción de primera instancia.

Figura 12. Análisis de Métrica de Precisión de los Algoritmos Utilizados en los Diferentes Experimentos

Page 20: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

20

En la figura 13 se observa que los algoritmos obtienen resultados muy diferentes entre experimentos. El experimento 1 logra los peores resultados, mientras que en promedio el experimento 3 es el que tiene mejores resultados; es por esto, que se puede indicar que con la información de la sanción de primera instancia se alcanzan los mejores resultados de sensibilidad. Además, el algoritmo CHAID es el que tiene en general los peores resultados en los diferentes experimentos, mientras que Decision Tree y Decision Stump consiguen los mejores resultados en los experimentos 3 y 4.

Figura 13. Análisis de Métrica de Sensibilidad de los Algoritmos Utilizados en los Diferentes Experimentos.

En la figura 14 se aprecia que el experimento 1 consigue los peores resultados, mientras que por otro lado se observa que los experimentos 3 y 4 alcanzan los mejores resultados; estos resultados están muy cercanos al valor 1, por lo tanto, los modelos obtenidos tienen mejor capacidad de discriminar los procesos que presenta un recurso de reclamación. En términos generales, el algoritmo SimpleCART fue el que logro los mejores resultados en los 3 experimentos, mientras que Random Tree fue el que tuvo los peores resultados.

Figura 14. Análisis de Métrica del Área Bajo la Curva (ROC) de los Algoritmos Utilizados en los

Diferentes Experimentos.

En la figura 15 se observa que las variables extraídas del proceso de fiscalización lograron los peores resultados, y las variables de la sanción de primera instancia alcanzaron los mejores resultados. Por otro lado, al unir todas las variables en el experimento 4, los algoritmos Decision Tree, SimpleCART y Decision Stump mantuvieron los resultados obtenidos respecto del experimento 3, pero los demás algoritmos consiguieron peores resultados. Por lo tanto, los modelos logrados de los experimentos 3 y 4, en general, tienen una moderada concordancia para predecir, mientras que los resultados del experimento 1 tienen valores pobres de concordancia entre la variable a predecir y la predicha.

Page 21: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

21

Figura 15. Análisis de Métrica de Índice de Kappa de los Algoritmos Utilizados en los Diferentes Experimentos.

Dentro de los principales resultados de la evaluación, se observa que en términos generales el experimento 3 tiene mejores resultados para las distintas métricas evaluadas, de esto se puede inferir que las variables de la sanción de primera instancia que se aplica al sostenedor aportan mayor información al modelo. Por lo tanto, son mejores los resultados que se obtienen al momento de predecir si se presenta un recurso de reclamación administrativa.

Para el experimento 3, el algoritmo SimpleCART obtiene los mejores resultados, sin embargo, este algoritmo tiene resultados similares en el experimento 4. Cabe mencionar que la exactitud de SimpleCART solo llega a un 74,99% en el experimento 4, con esto no se alcanza a cumplir con la hipótesis planteada para este trabajo. Sin perjuicio de lo anterior, se decide utilizar este algoritmo para la siguiente fase de implementación ya que los resultados son muy cercanos a los esperados.

4.2.6 Implementación

En esta fase se debe desarrollar el plan de implementación de los resultados obtenidos para ser incorporados en la organización, también hacer una estrategia de monitoreo y mantenimiento de los modelos obtenidos, y generar un informe final con las conclusiones del proyecto de minería de datos realizado, para finalmente realizar la revisión del proyecto desde la perspectiva de lo bueno y lo malo con el fin de determinar qué se hizo bien y qué se debe mejorar.

Desde ahora el modelo obtenido se transforma en conocimiento para la Superintendencia, y aporta con recomendaciones al proceso administrativo sancionatorio; es por esto, que como estrategia de implementación se establece necesaria la creación de un plan de seguimiento de los procesos administrativos que han sido sancionados en primera instancia, y donde según el modelo se identifiquen los procesos que son susceptibles a la presentación de un recurso de reclamación. Para esto, se requiere que los encargados jurídicos de cada Dirección Regional accedan de forma semanal a un reporte que estará disponible en la plataforma de reportería Tableau. Finalmente, cabe mencionar que el éxito del plan propuesto dependerá del uso que le de cada encargado jurídico; y surge así la necesidad de implementar mecanismos de control desde la Dirección Nacional. En la figura 16 y 17 se presentan los reportes propuestos.

Figura 16. Reporte de Procesos Identificados que Presentación de Recurso de Reclamación.

Page 22: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

22

Figura 17. Reporte de Proyección de la Demanda.

Mediante este reporte los encargados jurídicos y la coordinación nacional de procesos administrativos contarán con información para proyectar la demanda de fiscales y su respectiva carga de trabajo, además de poder gatillar acciones pertinentes a la reasignación de funciones o contratación de nuevos funcionarios, con el fin de poder realizar de mejor forma la gestión interna del proceso administrativo sancionatorio, sin correr el riesgo de la prescripción de los procesos sancionatorios.

La medición de los beneficios obtenidos y el monitoreo de los resultados se realizarán una vez implementado el modelo; y de forma mensual se medirá la cantidad de presentaciones de recursos de reclamación identificadas en el reporte versus la cantidad de recursos efectivamente presentados, siendo la meta tener una tasa sobre el 75% de exactitud.

5 Validación de la Hipótesis

A partir de los experimentos realizados y los resultados obtenidos no se pudo validar la hipótesis planteada: “Se puede establecer un modelo predictivo para la presentación de recursos de reclamación ante la Supereduc, mediante árboles de clasificación, con una exactitud mayor al 75%, incorporando sólo factores de procesos administrativos sancionatorios”. Solo en el experimento 4 con el algoritmo SimpleCART se alcanzó una exactitud del 74,99%, resultado levemente inferior al planteado en este trabajo. Sin perjuicio de lo anterior, se pudo encontrar que la variable que más influye en la presentación del recurso de reclamación es cuando la sanción es del tipo monetaria, sobre todo cuando corresponde a una multa con un monto superior a las 43 UTM y, por el contrario, lo que influye en la no presentación es cuando la sanción corresponde a una amonestación. Además, los hallazgos que más influyen en la presentación de recursos de reclamación son los siguientes:

● Hallazgo 52: establecimiento presenta deficiencias en infraestructura, seguridad e higiene subsanables. ● Hallazgo 51: establecimiento carece o presenta deficiencias en infraestructura, seguridad e higiene. ● Hallazgo 91: establecimiento no cuenta con personal docente idóneo necesario. ● Hallazgo 92: establecimiento no cuenta con personal asistente de la educación idóneo necesario. ● Hallazgo 10: establecimiento de financiamiento compartido realiza cobros indebidos.

En la figura 18 se observa tan solo una parte del árbol obtenido en el experimento 4 para el algoritmo SimpleCART, ya que el modelo no es sencillo de graficar y visualizar, esto debido a que las variables sustentos, nom_comuna y nombre_fiscalizador tienen múltiples valores para las distintas reglas.

Page 23: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

23

Figura 18. Resultado Obtenido del Algoritmo SimpleCART en el Experimento 4.

De todos los algoritmos analizados, el algoritmo SimpleCART es uno de los que demostró tener mejor desempeño para este problema, si bien en casos puntuales existieron otros algoritmos que también destacaron, al momento de evaluar las métricas utilizadas este algoritmo obtuvo los mejores resultados.

Para el volumen de datos con el cual se trabajó en este proyecto de minería de datos, los algoritmos entregaron tiempos de ejecución bastante razonables, del orden de minutos e incluso segundos, y solamente en algunos casos tardaron varias horas en entregar sus resultados. También es importante mencionar que la herramienta fue sencilla, tanto en la utilización para el diseño como en la ejecución de los flujos.

6 Conclusiones

El proceso de desarrollo realizado en este trabajo, es perfectamente replicable en otra área de conocimiento, ya que se utilizó una metodología estándar, y para intentar resolver un problema similar se deberá realizar cada una de las fases, sin embargo, es importante destacar que la fase de preparación de los datos es una de las fases que más tiempo consume.

También cabe resaltar que la utilización de la metodología CRISP-DM en el desarrollo de proyectos de minería de datos es un aporte significativo, ya que entrega una guía fundamental para este tipo de proyectos. Importante es destacar su enfoque iterativo que fue posible evidenciarlo en este trabajo, ya que en algunos momentos fue necesario volver a la fase anterior antes de continuar con la fase siguiente, y así asegurar la calidad del trabajo que se estaba realizando.

Con los resultados obtenidos, es grato ver como el área de la ingeniería en informática es capaz de abordar problemáticas en áreas tan diversas, y más aún, como fue en este caso, el abordar una problemática en ámbito de las leyes, donde principalmente los usuarios a simple vista no ven el tremendo potencial que tienen los datos que se almacenan y a través de la minería de datos es posible aportar y dar soluciones a los problemas más diversos que se puedan suscitar.

El conocimiento obtenido de este trabajo de investigación, es de gran ayuda para la Superintendencia de Educación, ya que aporta con recomendaciones a uno de las principales áreas de negocio y que a su vez se enfocó en el proceso sancionatorio que es el principal proceso de negocio de la Fiscalía, además, luego de la implementación y primeras evaluaciones se podrán generar nuevas recomendaciones, y así, analizar si es necesario realizar ajustes a la tramitación de este proceso, pero esta vez con información concreta para la toma de decisiones.

Una de las recomendaciones que se podría realizar a partir de este trabajo, es la necesidad de desarrollar otros trabajos similares para la División de Fiscalización y la División de Comunicaciones y Denuncias, ya que apriori, en la primera división se podrían realizar proyectos de minería de datos enfocados en una fiscalización preventiva a partir de los volúmenes de datos existentes y, a su vez, en la segunda división poder analizar la

Page 24: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

24

factibilidad de adelantarse como institución a las situaciones conflictivas que puedan estar sucediendo en determinados establecimientos educacionales, a través de una visión integrada de los casos históricos resueltos por la Supereduc y casos nuevos que aparezcan.

Para desarrollar este tipo de proyectos es necesario tener una serie de habilidades técnicas, destrezas y actitudes, las cuales sin lugar a duda son entregadas y potenciadas en cada una de las asignaturas del Magíster en Tecnologías de la Información, y, principalmente a través de la asignatura de Almacenes y Minería de Datos, se obtienen los conocimientos necesarios para llevar a buen puerto un proyecto de minería de datos. También es importante resaltar que el programa fortalece la capacidad investigativa y autonomía de los alumnos, con el fin de poder desarrollar y resolver problemas complejos, lo anterior, fue de gran aporte para el desarrollo de este trabajo.

Agradecimientos. En estas pocas líneas quiero agradecer a todas las personas que han sido importante y de gran ayuda para que este día tan especial llegara. Primero comenzar por mi familia, y en especial agradecer a Daniela quien fue el pilar más importante y siempre ha estado a mi lado para ayudarme a afrontar cada nuevo desafío; a mis hijas Josefa y Damaris, quienes han comprendido la época de estudios de su padre quien en ocasiones debió sacrificar fines de semanas para que llegara este momento. También agradecer a las autoridades de la Supereduc por la confianza entregada a lo largo de estos años. A los profesores del MTI que aportaron con su granito de conocimiento, y en especial a mi profesor guía, José Luis Martí Lara. Y finalmente a mis amigos Cristián, Daniel, Khristhoppers, María Jesús, Rodrigo, Tatiana, Romina, Daniela, Carolina, Aníbal y Maria Elena, que de una u otra forma estuvieron colaborando en la realización de este trabajo.

Page 25: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

25

Referencias

[1] L. Rokach and O. Maimon, “Evaluation of Classification Trees,” Data mining with decision trees: Theory and Applications, 2nd Edition , 2014, pp. 31-60.

[2] Sinnexus Business Intelligence Informatica estrategica, “Dataminning (Minería de datos),” [online] Mayo 2017. Disponible en: http://www.sinnexus.com/business_intelligence/datamining.aspx

[3] J. Martí, “MTI-452 Almacenes y Minería de Datos, MTI 2016,” [online] Mayo 2017. Disponible en: http://www.mti.cl/moodle/pluginfile.php/11385/mod_resource/content/0/JLML-DW-DM-Parte-3.pdf

[4] METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING Rodríguez Montequín, Mª Teresa; Álvarez Cabal, J. Valeriano; Mesa Fernández, José Manuel; González Valdés, Adolfo.

[5] Data Mining with Decision Trees Theory and Aplications (2nd ed.) pp. 4 - 8. [6] SAS Institute, “Introduction to SEMMA,” [online] Mayo 2018. Disponible en:

http://documentation.sas.com/?docsetId=emref&docsetTarget=n061bzurmej4j3n1jnj8bbjjm1a2.htm&docsetVersion=14.3&locale=en

[7] Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM. [8] L. Pinto, “Modelo de Data Warehouse de Apoyo a las Decisiones Ministeriales Relacionadas a la Calidad de la

Educación Básica y Media,” UTFSM, MTI, Tesina, 2016. [9] T. Roldan, “Mejoramiento de la Calidad de los Datos para la aplicación de Business Intelligence de la Agencia de

Calidad de la Educación,” UTFSM, MTI, Tesina, 2016. [10] Agencia de la Calidad de la Educación, “Estándares Indicativos de Desempeño,” [online] Agosto 2017. Disponible en:

http://www.agenciaeducacion.cl/orientacion/visitas-de-evaluacion-y-orientacion/estandares-indicativos-desempeno/ [11] S. Jhajharia, S. Verma and R. Kumar, "A cross-platform evaluation of various decision tree algorithms for prognostic

analysis of breast cancer data," 2016 International Conference on Inventive Computation Technologies (ICICT), Coimbatore, 2016, pp. 1-7.

[12] N. I. Nwulu, "A decision trees approach to oil price prediction," 2017 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, 2017, pp. 1-5.

[13] P. K. Dalvi, S. K. Khandge, A. Deomore, A. Bankar and V. A. Kanade, "Analysis of customer churn prediction in telecom industry using decision trees and logistic regression," 2016 Symposium on Colossal Data Analysis and Networking (CDAN), Indore, 2016, pp. 1-4.

[14] C. F. Tsai and J. H. Tsai, "Performance Evaluation of the Judicial System in Taiwan Using Data Envelopment Analysis and Decision Trees," 2010 Second International Conference on Computer Engineering and Applications, Bali Island, 2010, pp. 290-294.

Page 26: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

26

Anexos

Anexo 1: Correlación entre los atributos.

Anexo 2: Tarea de limpieza de los datos mediante la técnica de normalización de los datos.

Las variables nombre de región y dependencia del sostenedor tenían múltiples valores, que representaban lo mismo; por lo tanto, se debió identificar los valores posibles y parametrizarlos en un solo valor representativo. Se presenta el resultado de la técnica de normalización de los datos para los atributos mencionados, en las tablas siguientes.

Normalización de los datos de nombre de región

Valores iniciales Descripción Parametrización

- DE ARICA Y PARINACOTA - Arica y Parinacota

Región de Arica y Parinacota DE ARICA Y PARINACOTA

- DE TARAPACÁ - Tarapacá

Región de Tarapacá DE TARAPACÁ

- DE ANTOFAGASTA - Antofagasta

Región de Antofagasta DE ANTOFAGASTA

- DE ATACAMA - Atacama

Región de Atacama DE ATACAMA

- DE COQUIMBO - Coquimbo

Región de Coquimbo DE COQUIMBO

- DE VALPARAÍSO - Valparaíso

Región de Valparaíso DE VALPARAÍSO

- METROPOLITANA DE SANTIAGO - Metropolitana

Región Metropolitana de Santiago METROPOLITANA

Page 27: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

27

- DEL LIBERTADOR BERNARDO OHIGGINS - OHiggins

Región del Libertador Bernardo O’Higgins

DEL LIBERTADOR BERNARDO OHIGGINS

- DEL MAULE - Maule

Región del Maule DEL MAULE

- DEL BIOBÍO - Biobío - DEL BIOBÃ O

Región del Biobío DEL BIOBÍO

- DE LA ARAUCANÍA - Araucanía

Región de La Araucanía DE LA ARAUCANÍA

- DE LOS RÍOS - Los Ríos

Región de Los Ríos DE LOS RÍOS

- DE LOS LAGOS - Los Lagos

Región de Los Lagos DE LOS LAGOS

- DE AYSÉN DEL GENERAL CARLOS IBAÑEZ DEL CAMPO - Aysén

Región de Aysén del General Carlos Ibáñez del Campo

DE AYSÉN DEL GENERAL CARLOS IBAÑEZ DEL CAMPO

- DE MAGALLANES Y DE LA ANTÁRTICA CHILENA - Magallanes

Región de Magallanes y de La Antártica Chilena

DE MAGALLANES Y DE LA ANTÁRTICA CHILENA

Normalización de los datos dependencia del sostenedor

Valor iniciales Descripción Parametrización

- MUNICIPAL -DAEM - MUNICIPAL - MUNICIPAL DAEM - MUNICIPAL CORPORACION - DAEM - DAEM MUNICIPAL - CORPORACIÓN MUNICIPAL

Dependencia Municipal M

- PARTICULAR SUBVENCIONADO - Particular Subvencionado

Dependencia Particular Subvencionado PS

- PARTICULAR PAGADO Dependencia Particular Pagado PP

- ADM. DELEGADA - 3166 - ADMINISTRACIÓN DELEGADA

Dependencia Administración Delegada - 3166

3166

Page 28: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

28

Anexo 3: Resultado de la aplicación de los métodos para la selección de atributos.

Por cada una de las técnicas se muestran los pesos de las variables que resultan significativas dentro de la muestra.

Resultado de método Chi Squared

Page 29: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

29

Resultado de método Gain Ratio

Page 30: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Programa de Magíster en Tecnologías de la Información

30

Resultado de método InfoGain

Anexo 4: Resultado de la ejecución de los experimentos 2, 3 y4.

Resultados de la Ejecución del Experimento 2

Algoritmo Exactitud Precisión Sensibilidad AUC Kappa

Decision Tree 64,68% desconocida 0 0,500 0

SimpleCART 64,68% desconocida 0 0,500 0

Decision Stump 64,68% desconocida 0 0,503 0

Page 31: Modelo Predictivo para la Presentación de …...primera instancia y que luego puedan llevar a los sostenedores a presentar un recurso de reclamación, es el objetivo de esta tesina

Universidad Técnica Federico Santa María

Departamento de Informática

Magíster en Tecnologías de la Información –––

31

Random Forest 64,68% desconocida 0 0,500 0

Random Tree 64,68% desconocida 0 0,500 0

REPTree 64,68% desconocida 0 0,500 0

CHAID 64,68% desconocida 0 0,515 0

Resultados de la Ejecución del Experimento 3

Algoritmo Exactitud Precisión Sensibilidad AUC Kappa

Decision Tree 70,13% 54,50% 93,57% 0,754 0,438

SimpleCART 73,21% 58,14% 86,25% 0,798 0,472

Decision Stump 70,13% 54,50% 93,57% 0,754 0,438

Random Forest 69,66% 56,97% 57,71% 0,773 0,315

Random Tree 70,14% 55,45% 78,53% 0,740 0,390

REPTree 73,14% 58,44% 84,03% 0,797 0,465

CHAID 64,89% 50,85% 16,96% 0,642 0,095

Resultados de la Ejecución del Experimento 4

Algoritmo Exactitud Precisión Sensibilidad AUC Kappa

Decision Tree 70,13% 54,50% 93,57% 0,754 0,438

SimpleCART 74,99% 62,23% 74,58% 0,800 0,478

Decision Stump 70,13% 54,50% 93,57% 0,754 0,438

Random Forest 68,10% 58,29% 34,09% 0,772 0,202

Random Tree 66,85% 55,04% 33,55% 0,635 0,166

REPTree 71,53% 59,15% 59,92% 0,743 0,371

CHAID 64,67% 37,50% 0,04% 0,592 0