el rendimiento académico de los alumnos de la cátedra sistemas

233
UNIVERSIDAD NACIONAL DE PILAR FACULTAD DE CIENCIAS APLICADAS MAESTRÍA EN INFORMÁTICA Y COMPUTACIÓN EL RENDIMIENTO ACADÉMICO DE LOS ALUMNOS DE LA CÁTEDRA SISTEMAS OPERATIVOS EN LA TECNICATURA SUPERIOR ANALISTA PROGRAMADOR DEL INSTITUTO SUPERIOR DE CURUZÚ CUATIÁ Carlos Podestá Gómez Pilar, Paraguay 2013

Upload: vuongdang

Post on 29-Jan-2017

220 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

UNIVERSIDAD NACIONAL DE PILAR

FACULTAD DE CIENCIAS APLICADAS

MAESTRÍA EN INFORMÁTICA Y COMPUTACIÓN

EL RENDIMIENTO ACADÉMICO DE LOS ALUMNOS DE LA

CÁTEDRA SISTEMAS OPERATIVOS EN LA TECNICATURA

SUPERIOR ANALISTA PROGRAMADOR DEL INSTITUTO SUPERIOR

DE CURUZÚ CUATIÁ

Carlos Podestá Gómez

Pilar, Paraguay

2013

Page 2: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…ii

Carlos Podestá Gómez

EL RENDIMIENTO ACADÉMICO DE LOS ALUMNOS DE LA

CÁTEDRA SISTEMAS OPERATIVOS EN LA TECNICATURA

SUPERIOR ANALISTA PROGRAMADOR DEL INSTITUTO SUPERIOR

DE CURUZÚ CUATIÁ

Tesis presentada a la Universidad Nacional de Pilar como requisito parcial para la

obtención del título de Master en Informática y Computación

Tutor: Dr. David La Red Martínez

Pilar, Paraguay

2013

Page 3: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…iii

Podestá Gómez, C. (2013). El rendimiento académico de los alumnos de la cátedra

Sistemas Operativos en la Tecnicatura Superior Analista Programador del Instituto

Superior de Curuzú Cuatiá.

Carlos Podestá Gómez. 233 páginas.

Tutor: Dr. David La Red Martínez

Tesis académica de maestría en Ciencias Aplicadas –

Universidad Nacional de Pilar, 2013.

Page 4: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…iv

Carlos Podestá Gómez

EL RENDIMIENTO ACADÉMICO DE LOS ALUMNOS DE LA

CÁTEDRA SISTEMAS OPERATIVOS EN LA TECNICATURA

SUPERIOR ANALISTA PROGRAMADOR DEL INSTITUTO SUPERIOR

DE CURUZÚ CUATIÁ

Esta tesis fue evaluada y aprobada para la obtención del título de Master en Informática y

Computación por la Universidad Nacional de Pilar.

Mesa Examinadora:

---------------------------------------------------

---------------------------------------------------

---------------------------------------------------

Page 5: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…v

Dedicatoria

Dedico esta tesis:

A mí querida madre por ser mi mejor ejemplo de esfuerzo y perseverancia.

A mí amada esposa Cristina, por regalarme su ternura, comprensión y alentar

permanentemente mis sueños.

A mis hijos Carlos Martín y María de los Ángeles.

Page 6: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…vi

Agradecimiento

Agradezco a:

A mi tutor David por su enorme generosidad y comprensión, por brindarme

no sólo su tiempo y excelencia profesional, sino también honrarme con su amistad.

Page 7: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…vii

La verdadera educación consiste en sacar a la luz lo mejor de

una persona.

Mahatma Gandhi

Page 8: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…viii

ÍNDICE

Dedicatoria..................................................................................................................................... v

Agradecimiento ............................................................................................................................ vi

Lista de Tablas .............................................................................................................................. xii

Lista de Figuras ............................................................................................................................xiv

Resumen .................................................................................................................................... xviii

Abstract .........................................................................................................................................xx

CAPÍTULO I: INTRODUCCIÓN ...................................................................22

Resumen ...................................................................................................................................... 22

Abstract ........................................................................................................................................ 22

1. Introducción ............................................................................................................................. 23

2. Hipótesis y Objetivos ............................................................................................................... 27

2.1. Hipótesis ............................................................................................................................ 27

2.2. Objetivo General ............................................................................................................... 28

2.3. Objetivos Específicos ......................................................................................................... 28

3. Antecedentes ........................................................................................................................... 28

4. Marco teórico .......................................................................................................................... 31

5. Metodología ............................................................................................................................. 36

6. Estructura de la tesis ................................................................................................................ 38

7. Discusiones y Comentarios ...................................................................................................... 38

CAPÍTULO II: ESTRUCTURA DEL ALMACÉN DE DATOS ..................41

Resumen ...................................................................................................................................... 41

Abstract ........................................................................................................................................ 42

1. Introducción ............................................................................................................................. 43

1.1. Etapas de Diseño del Almacén de Datos ........................................................................... 48

1.2. Niveles por Etapa del Diseño del Almacén de Datos ......................................................... 48

2. Estructura del DW utilizado ..................................................................................................... 53

2.1. Introducción ...................................................................................................................... 53

2.2. Modelo Entidad – Relación vs. Multidimensional ............................................................. 53

3. Descripción de la estructura del DW utilizado ........................................................................ 62

3.1. Descripción del Software utilizado .................................................................................... 76

3.2. Definición del Data Warehouse Edition ............................................................................ 76

3.3. Construcción de un Almacén de Datos con DWE .............................................................. 79

Page 9: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…ix

3.4. Minería de Datos en DWE Design Studio .......................................................................... 81

3.4. OLAP en DWE Design Studio ............................................................................................. 82

4. Metodología de Definición del DW Utilizado .......................................................................... 83

5. Discusiones y Comentarios ...................................................................................................... 87

5.1. Ventajas del Uso de Data Warehouse .............................................................................. 88

5.2. Desventajas del Uso de Data Warehouse ......................................................................... 89

CAPÍTULO III: PREPARACIÓN DE LOS DATOS .................................90

Resumen ...................................................................................................................................... 90

Abstract ........................................................................................................................................ 90

1. Introducción ............................................................................................................................. 90

2. Depuración y Preparación de los Datos ................................................................................... 91

2.1. Recolección de los Datos .................................................................................................. 91

3. Tratamiento y Depuración de los Datos ................................................................................ 103

3.1. Limpieza .......................................................................................................................... 103

3.2. Carga ............................................................................................................................... 105

4. Armado del Datawarehouse .................................................................................................. 105

4.1. Creación del Proyecto de Depósito de Datos .................................................................. 106

4.2. Creación del Proyecto de Almacén de Datos .................................................................. 106

4.3. Diseño de los Flujos de Datos .......................................................................................... 107

4.4 Tabla de Hechos ............................................................................................................... 108

4.5. Dimensiones .................................................................................................................... 109

5. Discusiones y Comentarios .................................................................................................... 121

CAPÍTULO IV: MINERÍA DE DATOS .......................................................122

Resumen .................................................................................................................................... 122

Abstract ...................................................................................................................................... 122

1. Introducción ........................................................................................................................... 123

1.1. Historia ............................................................................................................................ 124

1.2. Tipos de Conocimientos .................................................................................................. 125

1.3. Definición ........................................................................................................................ 127

1.4. Características y Objetivos .............................................................................................. 128

2. Arquitectura ........................................................................................................................... 130

2.1. Tipos de Modelos ............................................................................................................ 131

3. Etapas en la Minería de Datos ............................................................................................... 131

Page 10: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…x

3.1. Selección de Datos .......................................................................................................... 132

3.2. Preprocesamiento de Datos ............................................................................................ 133

3.3. Extracción de Conocimiento ............................................................................................ 133

3.4. Evaluación e Interpretación de Patrones ........................................................................ 133

4. Algoritmos para la Extracción de Conocimiento ................................................................... 133

5. Metodologías ......................................................................................................................... 135

5.1. Metodología SEMMA ...................................................................................................... 135

5.2. Metodología CRISP-DM .................................................................................................. 137

5.3. Elección de la Metodología ............................................................................................. 137

6. Modelado del Flujo de Minería.............................................................................................. 139

6.1. Habilitación de la Base de Datos para la Minería ........................................................... 139

6.2. Selección de la Técnica de Modelado ............................................................................. 139

7. Construcción del Modelo ....................................................................................................... 142

7.1. Modelo de Generación de Clusters ................................................................................. 142

7.2. Modelo de Asociación ..................................................................................................... 145

7.3. Clasificación con Árboles de Decisión ............................................................................. 147

8. Discusiones y Comentarios .................................................................................................... 150

CAPÍTULO V: ANÁLISIS DE LOS RESULTADOS .................................152

Resumen .................................................................................................................................... 152

Abstract ...................................................................................................................................... 152

1. Evaluación de Resultados ...................................................................................................... 152

2. Resultados Obtenidos con Clusterización .............................................................................. 153

3. Resultados Obtenido con Generadores de Asociación ......................................................... 180

3.1. Modelo 1 ......................................................................................................................... 180

3.2. Modelo 2 ......................................................................................................................... 183

3.3. Modelo 3 ......................................................................................................................... 186

4. Resultados Obtenido con Árboles de Decisión ...................................................................... 191

5. Discusiones y Comentarios .................................................................................................... 218

CAPÍTULO VI: CONCLUSIONES Y FUTURAS LÍNEAS DE

INVESTIGACIÓN ...........................................................................................220

1. Conclusiones .......................................................................................................................... 220

1.1. Capítulo I ......................................................................................................................... 221

1.2. Capítulo II ........................................................................................................................ 221

Page 11: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xi

1.3. Capítulo III ....................................................................................................................... 223

1.4. Capítulo IV ....................................................................................................................... 223

1.5. Capítulo V ........................................................................................................................ 223

2. Futuras Líneas de Investigación ............................................................................................. 225

LISTA DE REFERENCIAS ...........................................................................226

Page 12: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xii

Lista de Tablas

Tabla 1: Diferencia entre OLTP y OLAP. .................................................................................. 62

Tabla 2: Variables y significados de la tabla de hechos. ........................................................ 65

Tabla 3: Variables y significados de la tabla de hechos (continuación). .............................. 66

Tabla 4: Variables y significados de la dimensión importancia otorgada al estudio. ......... 67

Tabla 5: Variables y significados de la dimensión procedencia del alumno. ...................... 68

Tabla 6: Dimensión utilización de las TICs. .............................................................................. 69

Tabla 7: Variables y significados de la dimensión estudios secundarios. ........................... 70

Tabla 8: Variables y significados de la dimensión residencia actual. ................................... 71

Tabla 9: Variables y significados de la dimensión horas dedicadas al estudio. ................. 72

Tabla 10: Variables y significados de la dimensión situación laboral de la madre. ............ 73

Tabla 11: Variables y significados de la dimensión situación laboral del alumno. ............. 74

Tabla 12: Variables y significados de la dimensión situación laboral del alumno

(continuación). ............................................................................................................................... 75

Tabla 13: Variables y significados de la dimensión situación laboral del padre. ................ 76

Tabla 14: Datos de ingreso formulario on line (primera parte). ............................................. 95

Tabla 15: Datos de ingreso formulario on line (segunda parte). ........................................... 96

Tabla 16: Datos ingreso formulario on line (tercera parte). .................................................... 97

Tabla 17: Datos de ingreso formulario on line (cuarta parte). ................................................ 98

Tabla 18: Datos de ingreso formulario on line (quinta parte). ................................................ 99

Tabla 19: Datos de ingreso formulario on line (sexta parte). ............................................... 100

Tabla 20: Datos de ingreso formulario on line (séptima parte). ........................................... 101

Tabla 21: Categoría ocupacional. ............................................................................................ 102

Tabla 22: Unificación de criterios. ............................................................................................ 104

Tabla 23: Clase 7 alumnos de alto rendimiento académico .............................................. 193

Tabla 24: Clase 7 alumnos de alto rendimiento académico ............................................... 194

Tabla 25: Clase 7 alumnos de alto rendimiento académico ............................................... 195

Tabla 26: Clase 8 alumnos de alto rendimiento académico ............................................... 196

Tabla 27: Clase 8 alumnos de alto rendimiento académico ............................................... 197

Tabla 28: Clase 9 alumnos de alto rendimiento académico ............................................... 198

Tabla 29: Clase 9 alumnos de alto rendimiento académico ............................................... 199

Tabla 30: Clase 10 alumnos de alto rendimiento académico ............................................. 200

Tabla 31: Clase 10 alumnos de alto rendimiento académico ............................................. 201

Tabla 32: Clase 6 alumnos con un rendimiento académico medio. ................................... 201

Tabla 33: Clase 6 alumnos con un rendimiento académico medio. ................................... 202

Tabla 34: Clase 3 alumnos con un bajo rendimiento académico. ....................................... 203

Tabla 35: Clase 3 alumnos con un bajo rendimiento académico. ....................................... 204

Tabla 36: Clase 4 alumnos con un bajo rendimiento académico. ....................................... 205

Tabla 37: Clase 4 alumnos con un bajo rendimiento académico. ....................................... 206

Tabla 38: Clase 5 alumnos con un bajo rendimiento académico. ....................................... 207

Tabla 39: Clase 5 alumnos con un bajo rendimiento académico. ....................................... 208

Tabla 40: Características de los alumnos con la nota mínima de aprobación. ................. 212

Page 13: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xiii

Tabla 41: Características distintivas de los alumnos considerados de alto rendimiento

académico. ................................................................................................................................... 213

Tabla 42: Características distintivas de los alumnos considerados de bajo rendimiento

académico. ................................................................................................................................... 214

Tabla 43: Correlación e importancia de campo. .................................................................... 218

Page 14: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xiv

Lista de Figuras

Figura 1: El almacén de datos y su contexto (García Martínez et al., 2005). ..................... 49

Figura 2: Proceso ETL del DW (García Martínez et al., 2005). ............................................. 50

Figura 3: Visión global de la operatoria con DW (García Martínez et al., 2005). .............. 50

Figura 4: Proceso de ETL (La Red Martínez, 2009). .............................................................. 51

Figura 5: Ejemplo de proceso de transformación (DataPrix, 2009). ..................................... 52

Figura 6: Esquema estrella (Gill & Rao, 1996). ........................................................................ 57

Figura 7: Esquema copo de nieve (La Red Martínez, 2009). ................................................ 58

Figura 8: Estructura multidimensional (La Red Martínez, 2009). .......................................... 60

Figura 9: Modelo ROLAP y MOLAP (La Red Martínez, 2009). ............................................. 61

Figura 10: Esquema básico del almacén de datos (fuente propia). .................................... 63

Figura 11: Fuente y almacén de datos (fuente propia). .......................................................... 64

Figura 12: Tabla de hechos (fuente propia). ............................................................................. 65

Figura 13: Dimensión importancia otorgada al estudio (fuente propia). .............................. 67

Figura 14: Dimensión procedencia del alumno (fuente propia). ............................................ 68

Figura 15: Dimensión utilización de las TICs (fuente propia). ............................................... 69

Figura 16: Dimensión estudios secundarios (fuente propia). ................................................. 70

Figura 17: Dimensión residencia actual (fuente propia). ........................................................ 71

Figura 18: Dimensión horas dedicadas al estudio (fuente propia). ....................................... 72

Figura 19: Dimensión situación laboral de la madre (fuente propia). ................................... 73

Figura 20: Dimensión situación laboral (fuente propia). ......................................................... 74

Figura 21: Dimensión situación laboral del padre (fuente propia). ........................................ 75

Figura 22: Arquitectura DWE DB2 (IBM Corp., 2005)............................................................. 77

Figura 23: Componentes del DWE (IBM Corp., 2005) ............................................................ 78

Figura 24: Componentes del DWE (IBM Corp., 2005). ........................................................... 78

Figura 25: Rational Data Architect (IBM Corp., 2005)............................................................. 79

Figura 26: IBM Arquitectura de la Capa de Datos (IBM Corp., 2005). ................................. 80

Figura 27: SQL Herramienta para Almacenamiento (IBM Corp., 2005). ............................. 81

Figura 28: Minería de datos en DWE Design Studio (IBM Corp., 2004). ............................. 82

Figura 29: OLAP en DWE Design Studio (IBM Corp., 2004). ................................................ 83

Figura 30: Metodología Big Bang (Harinarayan, Rajaraman y Ullman, 1996). ................... 85

Figura 31: Metodología Rapid Warehousing (Widom, 1995). ................................................ 86

Figura 32: Estructura de la base de datos ENCUESTA en el DB2 (fuente propia)............ 92

Figura 33: Primera parte formulario on line (fuente propia). .................................................. 93

Figura 34: Segunda parte formulario on line (fuente propia). ................................................ 93

Figura 35: Tercera parte formulario On Line (fuente propia). ................................................ 94

Figura 36: Formulario on Line para ingreso de notas (fuente propia). ................................. 94

Figura 37: Mayor nivel de estudio alcanzado por los padres (fuente propia).................... 102

Figura 38: Rama Actividad Económica (fuente propia). ....................................................... 103

Figura 39: Datos contenidos en la BD Encuesta (fuente propia). ....................................... 105

Figura 40: Proyecto de Depósito de Datos (fuente propia). ................................................. 106

Figura 41: Proyecto Almacén de Datos (fuente propia). ....................................................... 107

Figura 42: Flujos de Datos desde la tabla fuente (fuente propia). ...................................... 107

Page 15: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xv

Figura 43: Ejecución y registro de los flujos de datos (fuente propia). ............................... 108

Figura 44: Estructura de la Tabla de Hechos: ALUMNOS (fuente propia). ....................... 109

Figura 45: Contenido de la Tabla ALUMNO (fuente propia). ............................................... 109

Figura 46: Estructura de la Tabla Estudios_Secundarios (fuente propia). ........................ 110

Figura 47: Contenido de la tabla Estudios_Secundarios (fuente propia). .......................... 110

Figura 48: Estructura de la tabla Horas_Est (fuente propia). ............................................... 111

Figura 49: Contenido de la tabla Horas_Est (fuente propia). ............................................... 112

Figura 50: Estructura de la tabla IMPORT_EST (fuente propia). ........................................ 113

Figura 51: Contenido de la tabla IMPORT_EST (fuente propia). ........................................ 113

Figura 52: Estructura de la tabla PROCEDENCIA (fuente propia). .................................... 114

Figura 53: Contenido de la tabla PROCEDENCIA (fuente propia). .................................... 114

Figura 54: Estructura de la tabla RESIDENCIA_ACTUAL (fuente propia). ....................... 115

Figura 55: Contenido de la tabla RESIDENCIA_ACTUAL (fuente propia). ....................... 115

Figura 56: Estructura de la tabla SITUACION_LABORAL (fuente propia) . ...................... 116

Figura 57: Contenido de la tabla SITUACION_LABORAL (fuente propia). ....................... 117

Figura 58: Estructura SITUACION_LABORAL_MADRE (fuente propia). .......................... 118

Figura 59: Contenido SITUACION_LABORAL_MADRE (fuente propia). .......................... 118

Figura 60: Estructura SITUACION_LABORAL_PADRE (fuente propia). .......................... 119

Figura 61: Contenido SITUACION_LABORAL_PADRE (fuente propia). .......................... 120

Figura 62: Estructura de la tabla UTIL_TICS (fuente propia). ............................................. 120

Figura 63: Contenido de la tabla UTIL_TICS (fuente propia). ............................................. 121

Figura 64: Información no evidente. (Pautsch, La Red Martínez, Cutro, 2010). ............. 126

Figura 65: Análisis versus complejidad (Pautsch, La Red Martínez, Cutro, 2010). ........ 127

Figura 66: Etapas en el KDD (Fayyad, Piatesky-Shapiro y Smyth, 1996). ........................ 130

Figura 67: Etapas en un proyecto de MD (García Martínez et al., 2005). ......................... 132

Figura 68: Fases de la metodología SEMMA (SAS Institute, 2013). .................................. 136

Figura 69: Ciclo de desarrollar en la metodología SEMMA (SAS Institute, 2013). .......... 136

Figura 70: Fases de la metodología CRISP-DM (Chapman et al., 1999). ......................... 137

Figura 71: Habilitación de la BD (fuente propia). ................................................................... 139

Figura 72: Selección de la fuente de datos (fuente propia). ................................................ 142

Figura 73: Elemento generador de clusters (fuente propia)................................................. 143

Figura 74: Extractor de calidad (fuente propia). ..................................................................... 143

Figura 75: Parámetros de minería para la generación de clusters (fuente propia). ......... 144

Figura 76: Atributos para la generación de clusters (fuente propia). .................................. 145

Figura 77: Elemento generador de asociaciones (fuente propia). ...................................... 146

Figura 78: Parámetros para la generación de asociaciones (fuente propia). .................... 146

Figura 79: Modelo de clasificación (fuente propia). ............................................................... 148

Figura 80: Parámetros de minería para la clasificación (fuente propia). ............................ 148

Figura 81: Propiedades de los atributos para la clasificación (fuente propia). .................. 150

Figura 82: Flujo de minería de cluster en Design Studio (fuente propia). .......................... 153

Figura 83: Vista gráfica de los clusters (fuente propia)......................................................... 154

Figura 84: Vista textual de cluster (fuente propia). ................................................................ 155

Figura 85: Calidad global del modelo (fuente propia). .......................................................... 155

Figura 86: Vista de detalle para cada cluster (fuente propia). ............................................. 156

Page 16: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xvi

Figura 87: Vista gráfica cluster 3, género del alumno (fuente propia). ............................... 156

Figura 88: Vista gráfica cluster 3, situación final del alumno (fuente propia). ................... 157

Figura 89: Vista gráfica cluster 3, estado civil alumno (fuente propia). .............................. 157

Figura 90: Vista gráfica cluster 3, ciudad de nacimiento del alumno (fuente propia). ..... 158

Figura 91 Vista gráfica cluster 3, provincia de nacimiento del alumno (fuente propia). .. 158

Figura 92: Vista gráfica cluster 3, utilización de las TIC (fuente propia). ........................... 159

Figura 93: Vista gráfica cluster 7, género del alumno (fuente propia). ............................... 159

Figura 94: Vista gráfica cluster 7, situación final del alumno (fuente propia). ................... 160

Figura 95: Vista gráfica cluster 7, estado civil del alumno (fuente propia). ....................... 160

Figura 96: Vista gráfica cluster 7, ciudad de nacimiento del alumno (fuente propia). ..... 161

Figura 97: Vista gráfica cluster 7, provincia de nacimiento del alumno (fuente propia). . 161

Figura 98: Vista gráfica cluster 7, utilización de las TIC (fuente propia). ........................... 162

Figura 99: Flujo de minería de cluster en Design Studio (fuente propia). .......................... 163

Figura 100: Vista gráfica de los cluster hallados (fuente propia). ....................................... 163

Figura 101: Detalles para clusters (fuente propia)................................................................. 164

Figura 102: Vista gráfica de escolarización de los padres (fuente propia). ....................... 164

Figura 103: Vista gráfica de la utilización de las TICs (fuente propia). .............................. 165

Figura 104: Vista gráfica cluster 3, escolarización de los padres (fuente propia). ........... 165

Figura 105: Vista gráfica cluster 3, utilización de las TICs (fuente propia). ....................... 166

Figura 106: Vista gráfica cluster 2, escolarización de los padres (fuente propia). ........... 166

Figura 107: Vista gráfica utilización de las TICs (fuente propia). ........................................ 167

Figura 108: Flujo de minería de cluster en Design Studio (fuente propia). ....................... 167

Figura 109: Modelo de clusters generado con el visualizador (fuente propia).................. 168

Figura 110: Vista gráfica cluster 6, titulación del alumno (fuente propia). ......................... 168

Figura 111: Vista grafica cluster 6, utilización de las TIC (fuente propia). ......................... 169

Figura 112: Vista gráfica de los cluster hallados (fuente propia). ....................................... 170

Figura 113: Vista gráfica cluster 2, situación laboral del alumno (fuente propia). ............ 170

Figura 114: Vista gráfica de la utilización de las TICs (fuente propia). .............................. 171

Figura 115: Vista gráfica relación horas trabajada por el alumno (fuente propia). ........... 171

Figura 116: Vista gráfica cluster 9, de la utilización de las TICs (fuente propia). ............. 172

Figura 117: Flujo de minería de cluster en Design Studio (fuente propia). ....................... 173

Figura 118: Vista gráfica de los cluster hallados (fuente propia). ....................................... 173

Figura 119: Vista textual de cluster (fuente propia). .............................................................. 174

Figura 120: Calidad global del modelo (fuente propia). ........................................................ 174

Figura 121: Vista de detalle para cluster (fuente propia). ..................................................... 174

Figura 122: Vista gráfica cluster 9, horas dedicadas al estudio (fuente propia). .............. 175

Figura 123: Vista gráfica cluster 9, importancia asignada al estudio (fuente propia). ..... 176

Figura 124: Vista gráfica cluster 9, utilización de las TICs (fuente propia). ....................... 176

Figura 125: Vista gráfica cluster 4, horas dedicadas al estudio (fuente propia). .............. 177

Figura 126: Vista gráfica cluster 4, importancia asignada al estudio (fuente propia). ..... 177

Figura 127: Vista gráfica cluster 4, utilización de las TICs (fuente propia). ....................... 178

Figura 128: Vista gráfica cluster 1, horas dedicadas al estudio (fuente propia). .............. 178

Figura 129: Vista gráfica cluster 1, importancia asignada al estudio (fuente propia). ..... 179

Figura 130: Vista gráfica cluster 1, utilización de las TICs (fuente propia). ....................... 179

Page 17: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xvii

Figura 131: Flujo de minería de asociaciones en Design Studio (fuente propia). ............ 181

Figura 132: Visualización de las reglas del modelo (fuente propia). .................................. 182

Figura 133: Visualización de las reglas del modelo (fuente propia). .................................. 183

Figura 134: Flujo de minería de asociaciones en Design Studio (fuente propia). ............ 184

Figura 135: Visualización de las reglas del modelo (fuente propia). .................................. 184

Figura 136: Visualización de las reglas del modelo (fuente propia). .................................. 185

Figura 137: Flujo de minería de asociaciones en Design Studio (fuente propia). ............ 187

Figura 138: Visualización de las reglas del modelo (fuente propia). .................................. 187

Figura 139: Visualización de las reglas del modelo (fuente propia). .................................. 189

Figura 140: Visualización de las reglas del modelo (fuente propia). .................................. 190

Figura 141: Visualización de las reglas del modelo (fuente propia). .................................. 191

Figura 142: Flujo de minería de clasificación en Design Studio (fuente propia). .............. 191

Figura 143: Clases predichas por el algoritmo árbol (fuente propia). ................................. 192

Figura 144: Visualizador de calidad del modelo (fuente propia). ........................................ 215

Figura 145: Matriz de confusión obtenida con el algoritmo de Árbol (fuente propia). ...... 215

Figura 146: Árbol de decisión (fuente propia). ....................................................................... 216

Figura 147: Gráfico de importancia de campo del modelo (fuente propia). ...................... 217

Figura 148: Tabla de correlación e importancia de campo (fuente propia). ...................... 217

Page 18: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xviii

Resumen

La presencia de las tecnologías en la educación ya no es una novedad sino una

realidad; los contextos de enseñanza-aprendizaje han cambiado con su sola aparición en el

aula, al menos materialmente.

Esta realidad también se ha puesto de manifiesto en el Instituto Superior de Curuzú

Cuatiá, especialmente en la Tecnicatura Superior Analista Programador y particularmente

en la cátedra de Sistemas Operativos.

Al efecto se ha realizado un trabajo de investigación mediante el cual se ha puesto

de manifiesto las variables que explican la relevancia de la utilización de estas

herramientas basadas en las TICs (Tecnologías de la Información y las comunicaciones).

De esta manera se determina cómo influyen en los alumnos, variables vinculadas

específicamente a características académicas, factores sociales y demográficos, al efecto

de clasificar y agrupar a los mismos.

Se ha considerado de gran importancia identificar los perfiles de alumnos exitosos

(los que promocionan o regularizan la asignatura), como así también los perfiles de

alumnos que no lo logran (los que quedan en la condición de libres). Una vez

determinados los perfiles de alumnos con bajo rendimiento académico, se podrán encarar

acciones tendientes a evitar potenciales fracasos académicos. Para la determinación de los

perfiles de alumnos se consideró apropiado utilizar técnicas de Almacenes de Datos (Data

Warehouse: DW).

Se aborda específicamente todas las acciones vinculadas con la recolección de los

datos, explicando los criterios que se siguieron para lograr la depuración y preparación de

los mismos, el armado del DW y posteriormente los flujos destinados a cargar los datos en

el mismo.

Page 19: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xix

A los efectos de obtener el conocimiento buscado a partir de la información

cargada en el DW, se ha utilizado el proceso de KDD (Knowledge Discovery from

Databases), en el cual uno de los pasos más relevantes es el de utilización de técnicas de

minería de datos, que han permitido construir modelos predictivos basados en datos

históricos.

Se han determinado los patrones de éxito y de fracaso académico de los alumnos,

de esta manera, utilizando las técnicas que ofrece la minería, se puede predecir, con un

porcentaje muy alto de credibilidad, la probabilidad de desertar de cualquier alumno con la

ventaja de que se puede pronosticar en los primeros cuatrimestres.

Palabras claves: rendimiento académico, almacenes de datos, minería de datos, perfiles de

alumnos.

Page 20: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xx

Abstract

The presence of technology in education is no longer a novelty but a reality; the

teaching-learning contexts have changed with his single appearance in the classroom, at

least materially.

This reality has also been shown at the Institute of Curuzú Cuatiá, especially in the

Superior Technical Analyst and particularly in the Chair of Operating Systems.

To this effect has been made by research that has shown the variables that explain

the relevance of the use of these tools based on ICT (Information and Communications

Technologies).

This will determine how they affect students, specifically related variables

academic characteristics, social and demographic factors, the effect of classifying and

grouping them.

It was considered of great importance to identify the profiles of successful students

(those who promote or regularize the subject), as well as profiles of students who do not

succeed (the remaining free status). Having identified the profiles of students with poor

academic performance, may face action to avoid potential academic failure. To determine

the profiles of students were considered appropriate techniques of Data Warehouses (Data

Warehouse: DW).

It specifically addresses all actions related to data collection, explaining the criteria

followed to achieve purification and preparation thereof, the assembly of the DW and then

flows to load the data into it.

For the purpose of obtaining the knowledge sought from the information loaded in

the DW was used KDD process (Knowledge Discovery from Databases), in which one of

Page 21: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…xxi

the most important steps is the use of mining techniques data, which have allowed to build

predictive models based on historical data.

They have determined the patterns of success and academic failure of students, in

this way, using mining techniques offered, you can predict, with a high percentage of

credibility, the probability of dropping any student with the advantage of that can be

predicted in the first semesters.

Keywords: academic performance, data warehouses, data mining, student profiles.

Page 22: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…22

CAPÍTULO I: INTRODUCCIÓN

Resumen

El propósito de este trabajo de investigación es el de determinar, mediante una

investigación científica, las variables que explican la relevancia de la utilización de las

herramientas de enseñanza – aprendizaje basadas en las NTICs (Nuevas Tecnologías de la

Información y las Comunicaciones), por parte de los alumnos de Sistemas Operativos de

la TSAP (Tecnicatura Superior Analista Programador) del Instituto Superior de Curuzú

Cuatiá (ISCC).

Se espera poder determinar cómo influyen en los alumnos, variables tales como el

nivel educacional de los padres, el tipo de formación obtenido en la escuela secundaria, el

nivel socio-económico, la edad, el sexo, la posesión de una PC (Personal Computer:

Computadora Personal), el acceso que se tenga a una PC, el ámbito en el cual los alumnos

acceden a las NTICs (Instituto, domicilio familiar, domicilio propio, domicilio de un

amigo, cyber, etc.), el trabajo en grupo, el tipo de conexión para acceso a la Internet (dial-

up, ADSL, cable-módem, etc.), el hecho de que los alumnos trabajen además de estudiar,

el rendimiento logrado en asignaturas previas (anteriores) del Plan de Estudios, la actitud

general hacia el estudio.

Abstract

The purpose of this research is to determine, through scientific research, the

variables that explain the relevance in using the tools of teaching - learning based on ICTs

(Information Technology and Communication), by students TSAP Operating Systems

(Superior Technical Analyst) Higher Institute of Curuzú Cuatiá.

He hopes to determine how they affect students, variables such as the educational

level of the parents, the type of training received in high school, socioeconomic level, age,

Page 23: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…23

sex, possession of a PC (Personal Computer : PC), which has access to a PC, the area in

which students have access to ICT (Institute family home, own home, a friend's home,

internet, etc..), group work, connection type to access the Internet (dial-up, DSL, cable

modem, etc.), the fact that students work besides studying, the performance achieved in

previous courses (above) Curriculum, the general attitude towards the study.

1. Introducción

A lo largo de los diferentes módulos desarrollados en la Maestría en Informática y

Computación, especialmente en los módulos correspondientes a Gestión del

Conocimiento, Gobierno Electrónico, Educación a Distancia y Epistemología y

Metodología de la Investigación Científica, ha aparecido recurrentemente el problema de

la masividad ante la falta de recursos materiales y humanos, donde además se ha planteado

la utilización de las nuevas tecnologías de la información y de las comunicaciones

(NTICs) aplicadas al proceso de enseñanza – aprendizaje, como un posible paliativo al

mencionado problema de la masividad y del rendimiento académico.

La carrera de Técnico Superior Analista Programador (TSAP) del Instituto

Superior de Curuzú Cuatiá (ISCC) ha sido reiteradamente la primera en número de

alumnos, considerando la totalidad del ISCC: 36.71%, y la que más egresados produce:

51,57% de dicha institución, porcentajes correspondientes a los respectivos informes

elaborados para los años: 2006, 2007, 2008, 2009, 2010 por el Departamento de Alumnos

del ISCC; se destaca que dichos porcentajes a la fecha año 2012, siguen mostrando una

mayor tendencia con relación a la inscripción de alumnos en la TSAP de acuerdo a los

datos aportados por el mencionado departamento.

Tomando como referencia la información oficial del Departamento de Alumnos del

ISCC, la carrera de Técnico Superior Analista Programador ha registrado una matrícula

Page 24: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…24

considerable de alumnos del ISCC (2006: 20,5%; 2007: 22,42%; 2008: 23,53%; 2009:

24,34% ; 2010: 25,79%); ha sido la carrera de mayor número de alumnos en el ISCC

(2006: 35,77%; 2007: 35,23%; 2008: 38,32%; 2009: 36,47%; 2010: 37,80%), la de mayor

cantidad de nuevos inscriptos en el ISCC (2006: 29,89%; 2007: 29,71%; 2008: 38,74%;

2009: 23,70%; 2010: 23,30%) y la que más egresados ha producido en el ISCC (2006:

45%; 2007: 49.55%; 2008: 52.89%; 2009: 54.78%; 2010: 55.67%). Estos datos

demuestran de manera elocuente la importancia de la carrera de Técnico Superior Analista

Programador del ISCC.

Un análisis más detallado permite observar los relativamente bajos porcentajes de

egresados respecto de nuevos inscriptos en la TSAP; estos porcentajes varían si se

considera solamente el título terminal de (Técnico Superior Analista Programador) o si

además se considera el título intermedio (Operador en Sistemas de Computación).

Sin considerar el título intermedio los datos son: 2006: 10.25%, 2007: 11.55%,

2008: 10.75%, 2009: 11.45%, 2010: 10.45%

Considerando el título intermedio: 2006: 21,81%, 2007: 23,22%, 2008: 21%, 2009:

23%, 2010: 22%.

Lo señalado en los párrafos precedentes permite afirmar que la relación entre

egresados y nuevos inscriptos es en general relativamente baja, y especialmente baja si se

considera a la TSAP sin los egresados con título intermedio.

Las relativamente bajas tasas de egresados respecto de nuevos inscriptos

mencionadas en el apartado anterior, que podríamos considerar el “rendimiento académico

global” de una carrera, se observan también en numerosas asignaturas de la TSAP,

considerando “rendimiento académico particular” o simplemente “rendimiento

académico”, a los resultados de las evaluaciones de los alumnos durante el cursado de una

asignatura, y la condición final lograda por los mismos en el marco de la Res. N° 1551/01

Page 25: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…25

Reglamento Orgánico Marco (RAM) para los Institutos Superiores (régimen de evaluación

y promoción: Art. 85 y 86): promocionado, regular o libre.

Para la asignatura Sistemas Operativos los valores de los últimos años son los

siguientes:

Alumnos promocionados y regularizados respecto de los que rindieron algún

examen parcial: 2006: 16.25%, 2007: 27.45%, 2008: 30.55%, 2009: 28.50%, 2010:

30,39%.

Además se ha observado que un considerable porcentaje de alumnos se inscriben

para cursar la asignatura, pero luego no completan el cursado (55,39% en el 2010).

Ante la situación mencionada se consideró de gran importancia efectuar una

investigación que permita determinar las variables que inciden en el relativamente bajo

rendimiento académico de los alumnos de Sistemas Operativos de la TSAP del ISCC

perteneciente a la Dirección General de Educación Superior (DGES), identificar los

perfiles de alumnos exitosos (los que promocionan o regularizan la asignatura), como así

también los perfiles de alumnos que no lo logran (los que quedan en la condición de

libres). Una vez determinados los perfiles de alumnos con bajo rendimiento académico, se

podrán encarar acciones tendientes a evitar potenciales fracasos académicos. Para la

determinación de los perfiles de alumnos se consideró apropiado utilizar técnicas de

Almacenes de Datos (Data Warehouse: DW) y Minería de Datos (Data Mining: DM).

Dado también que las experiencias a nivel nacional (Acosta & La Red Martínez,

2012; La Red Martínez & Acosta, 2012; La Red Martínez, Agostini, Uribe y Rambo,

2011) e internacional (Bolaños Calvo, 2001; Peiró, 2001; Wallace & Young, 2010; IEEE,

2012) dan cuenta de beneficios que los sistemas educativos virtuales brindan, acortando y

mejorando los ciclos de aprendizajes, favoreciendo con nuevas formas de comunicación

docente-alumno, minimizando los problemas de espacio físico, enfatizando la

Page 26: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…26

responsabilidad del alumno, en cuanto a independizarlo con relación al tiempo y lugar de

estudio, se entendió que nuestra solución pasaba por la incorporación de las nuevas

NTICs.

Ante esta situación, caracterizada por la masividad, falta de recursos en las

proporciones adecuadas, bajo rendimiento académico, la aplicación de las NTICs sería un

importante complemento del proceso tradicional de enseñanza – aprendizaje,

constituyéndose en una herramienta efectiva para intentar solucionar la situación antes

mencionada.

De acuerdo a la problemática planteada, surge la siguiente pregunta principal:

¿Cuáles son las variables que explican la incidencia en la utilización de las herramientas

de enseñanza – aprendizaje basadas en las NTICs por parte de los alumnos de Sistemas

Operativos de la TSAP del ISCC de la Dirección General de Educación Superior DGES?

Además surgen varias preguntas específicas tales como:

¿Influye el nivel educacional de los padres en el uso de las NTICs por parte de los

alumnos?

¿Influye el tipo de formación obtenido en la escuela secundaria en el uso de las NTICs por

parte de los alumnos?

¿Influye el nivel socio-económico en el uso de las NTICs por parte de los alumnos?

¿Influye la edad en el uso de las NTICs por parte de los alumnos?

¿Influye el sexo en el uso de las NTICs por parte de los alumnos?

¿Influye la posesión de una PC en el uso de las NTICs por parte de los alumnos?

¿Influye el acceso que se tenga a una PC en el uso de las TICs por parte de los alumnos?

¿Influye el ámbito en el cual los alumnos acceden a las NTICs (Instituto, domicilio

familiar, domicilio propio, domicilio de un amigo, cyber, etc.) en el uso de las NTICs por

parte de los alumnos?

Page 27: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…27

¿Influye el trabajo en grupo en el uso de las NTICs por parte de los alumnos?

¿Influye el tipo de conexión para acceso a la Internet (dial-up, ADSL, cable-módem, etc.)

en el uso de las NTICs por parte de los alumnos?

¿Influye el hecho de que los alumnos trabajen además de estudiar en el uso de las NTICs

por parte de los alumnos?

¿Influye el buen rendimiento logrado en Asignaturas previas (anteriores) del Plan de

Estudios en el uso de las NTICs por parte de los alumnos?

¿Influye el buen rendimiento logrado en Asignaturas correlativas previas del Plan de

Estudios en el uso de las NTICs por parte de los alumnos?

¿Influye la actitud general hacia el estudio en el uso de las NTICs por parte de los

alumnos?

Como consecuencia de lo antes indicado, este capítulo se ha estructurado de la

siguiente manera: en la Sección 2 se indicarán la hipótesis y los objetivos, en la Sección 3

se mencionarán los antecedentes considerados más relevantes, en la Sección 4 se

describirá el marco teórico que sustenta esta tesis, en la Sección 5 se expondrá la

metodología utilizada, en la Sección 6 se presentará la estructura de la tesis, que se

desarrollará en los siguientes capítulos, finalizándose este capítulo con la Sección 7

destinada a presentar algunas discusiones y comentarios, en tanto que la bibliografía se

indicará al final, luego del último capítulo.

2. Hipótesis y Objetivos

2.1. Hipótesis

La utilización de las herramientas de enseñanza-aprendizaje basadas en las NTICs,

inciden en el rendimiento académico de los alumnos de Sistemas Operativos en la

Tecnicatura Superior Analista Programador del ISCC, pero esta utilización de las NTICs

está influenciada por diversas variables socio-económicas y actitudinales.

Page 28: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…28

2.2. Objetivo General

Conocer las variables que inciden en el rendimiento académico de los alumnos de

Sistemas Operativos con respecto al uso de las NTICs en la Tecnicatura Superior Analista

Programador del Instituto Superior de Curuzú Cuatiá.

2.3. Objetivos Específicos

Determinar cómo influyen las siguientes variables en el uso académico de las

NTICs y en el rendimiento académico de los alumnos:

a) El nivel educacional de los padres.

b) El nivel socio-económico.

c) La posesión de una PC.

d) El ámbito en el cual los alumnos acceden a las TICs (Facultad,

domicilio familiar, domicilio propio, domicilio de un amigo, cyber,

etc.).

e) La actitud general hacia el estudio.

3. Antecedentes

El estado actual del conocimiento sobre el tema de investigación es muy diverso,

ya que se ha abordado sobre esta problemática, pero en otros contextos, pero no desde la

perspectiva de describir y determinar las variables que inciden en el rendimiento

académico de los alumnos de Sistemas Operativos con respecto al uso de las NTICs en el

ISCC.

Entre los antecedentes, se encuentran los siguientes trabajos:

En el contexto internacional:

En (Sáez López, 2010) se muestra que el uso efectivo de las Tecnologías de la

Información y la Comunicación (TIC) en las prácticas educativas, requiere que los

docentes mantengan una actitud positiva hacia estas actividades, al mismo tiempo que

sean capaces de desarrollarlas en dichos contextos.

Page 29: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…29

En (Montero Rojas, Villalobos Palma y Valverde Bermúdez, 2007) se puede

observar que las instituciones públicas de educación superior enfrentan actualmente el reto

de mejorar su calidad académica con recursos cada vez más escasos, y a la vez, hacer

frente a las demandas de los nuevos contextos sociales y económicos de una sociedad

globalizada.

En (Bolaños Calvo, 2001) se contextualiza el desarrollo de las tecnologías de

información y comunicación y la repercusión que tienen en los sistemas de educación a

distancia, las implicaciones, los retos, así como aquellos aspectos en los cuales ha tenido

éxito y ha fracasado, con el fin de enfrentar con nuevas estrategias didácticas, curriculares

y metodológicas el uso de la tecnología para que se convierta en el soporte válido y en una

forma nueva de llevar a cabo la mediación pedagógica.

En (Peiró, 2001) se estudian las competencias en la sociedad de la información y se

presentan nuevos modelos formativos, estudiándose el diseño de una propuesta didáctica

caracterizada por el desarrollo de las competencias del estudiante, la asunción de una

metodología de trabajo que sitúa al estudiante en el centro del proceso de enseñanza con el

fin de propiciar el desarrollo de su autonomía y de su capacidad de aprender a aprender, y

por último, reflexionar sobre los mecanismos que permitan al profesorado diseñar de

forma colaborativa pautas y estrategias pertinentes.

En (Sancho Gil, 2004) se trata de responder acerca de si los observatorios de la

Sociedad de la Información tienen como principal finalidad llevar a cabo una evaluación

acerca del impacto de las TIC, o si constituyen una promoción de su uso en la educación.

Se ha realizado, una aproximación al concepto de observatorio y a su función en el ámbito

de las Ciencias Sociales, así como al concepto de Sociedad de la Información. Se

menciona que la educación es una necesidad fundamental en el desarrollo de la Sociedad

Page 30: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…30

de la Información que algunos comienzan a convertir en Sociedad del Conocimiento;

también se estudia la evolución del uso de las TIC en la mejora de la calidad educativa.

En (Carrasco Pradas, Gracia Esposito y De La Iglesia Villasol, 2005) se estudia la

incorporación de las nuevas tecnologías de información y comunicación (TIC) a la

metodología docente universitaria. Se afirma que la generalización en el uso de las TIC no

garantiza por sí sola la consecución de los objetivos perseguidos y es, por tanto, una

condición necesaria pero no suficiente.

En el contexto nacional:

En (Acosta, Macías y La Red Martínez, 2005) se estudia la utilización multimedia

destinado a la enseñanza del álgebra a distancia.

En (Acosta & La Red Martínez, 2012) se relata la experiencia realizada por los

autores en la utilización de un Aula Virtual no convencional de Álgebra en la FaCENA –

UNNE, donde se concluye que el enfoque utilizando b-learning y multimedia, ha sido

exitoso.

En (La Red Martínez et al., 2011) se ha podido comprobar las grandes ventajas de

la utilización de las tecnologías y software de última generación que soportan sistemas

multiplataforma, se estudia el rendimiento académico con técnicas de DW y DM,

considerándose la importancia concedida al estudio y su influencia en el rendimiento

académico.

En (Ferrante, 2000) se señala que la educación a distancia, como propuesta

alternativa, significa pensar en un nuevo modelo de comunicación que fundamente e

instrumente la estrategia didáctica.

En (La Red Martínez, 2003) se estudió el problema de la masividad ante la falta de

recursos suficientes y las posibilidades de las TICs para enfrentar este problema.

Page 31: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…31

En (Taquini (h.), 2001) se estudia la educación virtual o e-learning y la generación de

contenidos específicos para la educación digital, considerando que ello significa un gran

esfuerzo de los educadores a la hora de preparar los mismos.

Teniendo en cuenta la diversidad de antecedentes relacionados a la temática de la

educación a distancia con la utilización de las TICs y la inexistencia de estudios locales, se

considera a este trabajo de tesis una contribución original, entendiéndose que sus

resultados serán un riquísimo aporte para la toma de decisiones y el mejoramiento del

rendimiento académico de los alumnos de la asignatura objeto de estudio y de otras de la

institución.

4. Marco teórico

Algunos fundamentos teóricos que sustentan la investigación se describen a

continuación:

Según (Joyanes Aguilar, 1997) a medida que la sociedad va siendo dominada por

la tecnología, y más en particular por las tecnologías de la información y de la

comunicación (TIC), una constante sociológica a tener siempre presente es el cambio. Las

personas sienten el poder de la nueva tecnología. Saben que las computadoras tendrán un

efecto profundo en sus modos de vida y en su trabajo, pero todavía no existe una idea clara

de cómo les afectará directamente. ¿Cómo cambiará su trabajo, su empresa y su hogar,

debido al uso cada vez mayor de la nueva tecnología?. Pero de lo que no hay dudas es que

la información es hoy el recurso clave de la economía, de las organizaciones, del mundo

cultural y de la política.

En la década de los sesenta, en (McLuhan & Powers, 1964), se predice el

advenimiento de la aldea global, que el fenómeno Intranet/Internet, junto con las otras

Tecnologías de la Información y de las Comunicaciones (TICs), están haciendo posible.

Page 32: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…32

El nacimiento y difusión masiva de la computadora personal (PC) en los años

ochenta aceleró la creciente implantación de las redes de computadoras así como la

proliferación de programas de software muy populares y de gran aplicación personal o

empresarial.

Las publicaciones (Broad, 1992; Gore, 1993) se pueden considerar como el

comienzo de un intenso debate cultural, tecnológico e intelectual, sobre la actual sociedad

de la información. En este informe se acuñó el término de autopistas de la información

(information superhighway).

En (European Communities, 1993), se indican las medidas que se deben tornar

para aprovechar el cambio social que se está produciendo con la introducción de las TICs

en todos los ámbitos de actividad.

En (Negroponte, 1995), se describe la aparición del nuevo mundo digital, mediante

la operación de digitalización, con la cual la partícula elemental del nuevo mundo es el bit

en lugar del átomo, es decir, la presencia o ausencia de una señal, y su representación

denominada numérica o digital mediante un código llamado binario, ha constituido el

primer punto de arranque o despegue de la nueva sociedad de la información apoyada en

las TICs.

Según (Joyanes Aguilar, 1997) esta revolución de la información se irá plasmando

en la configuración de una nueva sociedad de la información o cibersociedad, que plantea

un gran número de interrogantes de orden técnico, económico, sociológico, cultural y

político.

En este contexto, se destaca que las TICs permiten el desarrollo de entornos

virtuales de enseñanza – aprendizaje a los que se puede acceder globalmente; sin embargo

se coincide con (Bolaños Calvo, 2001) en que la educación a distancia debe

Page 33: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…33

fundamentarse en una concepción constructivista del conocimiento, no en la reproducción

memorística de éste.

Se considera que el nuevo paradigma educativo para el desarrollo del proceso de

enseñanza - aprendizaje tanto presencial, no-presencial o bimodal, se basa en un cambio

del perfil del profesor y del alumno, en la eliminación de las barreras espacio-temporales y

en la integración de los contenidos tratados con métodos pedagógicos asociados a cada

área temática.

Asimismo es evidente que la sociedad de la información y del conocimiento (SIC),

con todo su potencial, pone a prueba a los sistemas educativos y a sus protagonistas, en

especial a los docentes, que tienen la responsabilidad de sacar el mayor provecho posible

de las nuevas oportunidades que se brindan a la educación y a la sociedad toda.

En (Telefónica de Argentina S.A., 2004) se indica que el eje del debate es el

individuo y su desarrollo, y en ese sentido la educación que se le brinde adquiere un

protagonismo esencial entre las acciones que se proyecten.

En (Silvio, 1998) la educación virtual se identifica plenamente con la educación a

distancia, la educación a distancia puede no ser entregada de manera virtual, pero la

educación virtual es entregada a distancia por definición.

Además, los modelos comunicacionales de uso de la enseñanza telepresencial

comprenden: comunicación síncrona (aula virtual y tutorías) y comunicación asíncrona

(tutorías, centro de recursos, cursos en la red), los servicios adicionales incluyen: portales

wap, ciberlibrerías, ciberbibliotecas, acceso a clases grabadas, etc., siendo las principales

tendencias las siguientes: superar el modelo de aula virtual logrando mayor interacción, el

empleo de la web como instrumento, la utilización de servidores multimedia, la

realización de videoconferencias sobre Internet, etc.

Page 34: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…34

Se señala que hay que tener presente que informar no es lo mismo que formar.

Internet no enseña lo más importante, que es aprender a aprender, a evaluar y a discutir

racionalmente, es decir que el papel tradicional del educador y formador sigue vigente.

En el contexto de este trabajo la enseñanza a distancia significará aprendizaje

electrónico, pero el aprendizaje electrónico podrá darse localmente (con un apoyo cercano

del docente), sin el componente de distancia.

En (Taquini (h.), 2001) se señala que la educación virtual o e-learning consiste en

los programas que los docentes y las instituciones organizan como plataforma educativa

digital y que suministra conocimientos generales o carreras. Esta definición conlleva el

concepto de la generación de contenidos específicos para la educación digital, lo que

significa un gran esfuerzo de los educadores a la hora de preparar los mismos.

Con el vocablo e-learning se define la enseñanza y aprendizaje, individual o

colectiva, haciendo uso de las nuevas TICs (video conferencia, satelital, Internet; etc.) y

abarcando las diversas modalidades y opciones de aprendizaje conocidas y usadas hasta

ahora. Es decir que esta modalidad de enseñanza integra los programas que los docentes y

las instituciones organizan como plataforma educativa digital y que suministra

conocimientos generales o carreras. Este nuevo modelo educativo extiende la educación a

distancia convencional mediante el uso de la Internet.

En (Tiffin y Rajasingham, 1997) se señala lo que pueden llegar a ser la educación y

el aprendizaje a medida que avanza la tecnología informática. Se analiza además cómo

debe ser la preparación de las personas para poder vivir en una sociedad altamente

informatizada. Se examina la naturaleza de la educación como sistema de comunicación

de notable poder, señalando además, que con Internet la enseñanza a distancia, puede

beneficiarse por lo menos de dos grandes ventajas con respecto a los medios tradicionales,

como medio de comunicación y como contenedor de recursos para el aprendizaje. A esta

Page 35: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…35

modalidad educativa en la que la utilización de Internet es el eje tecnológico utilizado por

el proceso de enseñanza-aprendizaje, se la denomina paradigma educativo mediante

Internet.

Asimismo (Ferrante, 2000) señala que la educación a distancia, como propuesta

alternativa, significa pensar en un nuevo modelo de comunicación que fundamente e

instrumente la estrategia didáctica. Este concepto, expresado de distintas formas, muestra

que los cursos a distancia pueden ser generados y entregados en diferentes formatos y por

otra parte, dicho material puede ser accedido en forma sincrónica (en tiempo real) o

asincrónica (en diferentes momentos entre quien emite y quien recibe).

La educación virtual, también denominada e-learning, se relaciona principalmente

con la estrategia, metodología, soporte, y/o plataforma que sustenta al Campus, es decir,

en donde sea posible hablar de un proceso de enseñanza-aprendizaje.

Un Campus Virtual abarca un aspecto muy amplio de las TICs, centrándose

especialmente en las consideraciones referentes al espacio físico, tecnológico,

administrativo, educativo, virtual, en donde se lleva a cabo la experiencia de enseñanza-

aprendizaje. En (Ferrante, 2000) se expresa que un Campus Virtual constituye una réplica

de todas las actividades académicas de una institución educativa determinada. En este

contexto se establecen relaciones diferidas, es decir que quien se comunica puede acceder

a información previamente preparada e incluida en el mencionado Campus y además

puede establecer relaciones en tiempo real, por medio de charlas (chats) con docentes,

colegas, autoridades de la institución, etcétera. Se indica que un Campus Virtual contiene

diversas aulas virtuales en las cuales se desarrolla la vida del estudiante, el cual sin la

necesidad de que existan espacios físicos, sin desplazarse o asistir a clase a determinada

hora, puede realizar sus actividades.

Page 36: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…36

En (La Red Martínez & Acosta, 2012) se muestran la problemática de integrar la

perspectiva tecnológica con la pedagógica, brindando una arquitectura para sistemas de b-

learning. Didácticamente, se adoptan principios educativos comprobados del enfoque

centrado en la persona (person-centered approach) para impulsar procesos educativos, con

utilización de las TICs de manera segura. Técnicamente, se propone un entorno de trabajo

(framework) en capas capaz de brindar soporte basado en Web para estos principios

educativos.

En (Hernández Requena, 2008) se sostiene que el constructivismo ofrece un nuevo

paradigma para sustentar el uso de las TICs en los procesos de formación, donde se

cambia el papel y el lápiz y se pone como protagonista las aplicaciones de las nuevas

tecnologías, como aporte a una nueva manera de aprender; esto permitiría al estudiante

crear experiencias para su propio aprendizaje. El constructivismo en su paradigma,

consiste en que el estudiante construye y reconoce el conocimiento a partir de sus

experiencias anteriores. El principal objetivo es poder brindarle al estudiante los elementos

para nombrar, hablar, manejar e interpretar el mundo; dotar de saberes preparando para la

vida y propiciando el desarrollo integral especialmente su capacidad de pensar.

En (Tournon, 1984) se sostiene que el concepto de rendimiento académico es un

resultado del aprendizaje, suscitado por la intervención pedagógica del profesor o la

profesora, y producido en el alumno. No es el producto analítico de una única aptitud, sino

más bien el resultado sintético de una suma (nunca bien conocida) de elementos que

actúan en, y desde la persona que aprende, tales como factores institucionales,

pedagógicos y socio demográficos.

5. Metodología

El enfoque de este trabajo de investigación será desde la lógica cuantitativa,

trabajando con medición de variables, verificación de hipótesis mediante análisis

Page 37: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…37

multivariado, producción de hipótesis y utilización de técnicas de minería de datos

inteligente, a los efectos de la extracción de conocimiento oculto en los datos.

Se intentará determinar en qué medida la desigual utilización de las herramientas de

enseñanza – aprendizaje basadas en las TICs por parte de los alumnos de Sistemas

Operativos de la TSAP del ISCC (variable dependiente), es influenciada por las siguientes

variables independientes:

a) El nivel educacional de los padres.

b) El nivel socio-económico.

c) La posesión de una PC.

d) El ámbito en el cual los alumnos acceden a las TICs (Facultad, domicilio

familiar, domicilio propio, domicilio de un amigo, cyber, etc.).

e) La actitud general hacia el estudio.

El universo estará constituido por los alumnos en condiciones de cursar la Asignatura

Sistemas Operativos de la Carrera Tecnicatura Superior Analista Programador del Instituto

Superior de Curuzú Cuatiá.

La unidad de análisis estará integrada por cada alumno en condiciones de cursar la

Asignatura Sistemas Operativos de la Carrera Tecnicatura Superior Analista Programador

del Instituto Superior de Curuzú Cuatiá, durante un cuatrimestre. Los casos seleccionados

serán los alumnos en condiciones de cursar la Asignatura Sistemas Operativos de la

Carrera Tecnicatura Superior Analista Programador (unos 200 alumnos).

Se analizarán los datos cuantitativos que se obtengan (integrados en un almacén de

datos) con las herramientas de la minería de datos, que incluyen elementos de la

inteligencia artificial (redes neuronales, sistemas expertos), con el propósito de investigar

relaciones entre las variables con métodos no estadísticos.

Page 38: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…38

6. Estructura de la tesis

Habiéndose indicado precedentemente la situación problemática motivadora de

este trabajo de investigación, así como los principales antecedentes y los más destacados

conceptos teóricos que constituyen su marco conceptual, y habiéndose mencionado los

principales aspectos de la metodología a utilizar, se indicará a continuación los restantes

capítulos en que se ha estructurado esta tesis.

Capítulo II – Estructura del almacén de datos utilizado: se describirán los

principales conceptos referidos a almacenes de datos y de detallarán las estructuras

de datos que se utilizarán en el mismo.

Capítulo III – Preparación de los datos: se indicarán las acciones desarrolladas para

la obtención y depuración de los datos que se incorporarán al almacén de datos,

indicándose detalladamente los flujos de datos que se utilizarán.

Capítulo IV - Minería de datos: se detallarán los principales conceptos referidos a

la minería de datos y su correspondiente sustento matemático, presentándose los

flujos de minería que se utilizarán para la extracción de conocimiento del almacén

de datos.

Capítulo V – Análisis de resultados: se realizará la evaluación de los resultados

analizándose el cumplimiento de los objetivos planteados y la verificación de la

hipótesis indicada.

Capítulo VI - Conclusiones y futuras líneas de investigación: se comentarán las

principales conclusiones y se indicarán las posibles líneas futuras de investigación.

7. Discusiones y Comentarios

Como se ha señalado anteriormente y a modo de reseñar la situación problemática

que ha dado origen al desarrollo de esta investigación, se puede destacar puntualmente que

Page 39: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…39

se ha encontrado recurrentemente el problema de la masividad y el del rendimiento

académico.

También se ha encontrado numerosos antecedentes acerca de la utilización de las

NTICs aplicadas al proceso de enseñanza – aprendizaje, lo que ha llevado a estudiar las

variables que inciden en el relativamente bajo rendimiento académico de los alumnos de

Sistemas Operativos de la TSAP del ISCC perteneciente a la Dirección General de

Educación Superior (DGES).

Para la realización del estudio antes mencionado se ha considerado que la

utilización de técnicas de DW y de DM serían las herramientas adecuadas, esperándose

que los resultados obtenidos permitan determinar perfiles de alumnos con alto riesgo de

fracaso académico, a los efectos de encarar acciones tendientes a evitar el mismo,

contribuyendo así a la solución de los problemas de la masividad ante la falta de recursos

suficientes y del relativamente bajo rendimiento académico.

Se debe considerar además que los retos que enfrentan los sistemas educativos

convencionales se ven exacerbados por la rápida evolución de las competencias asociadas

con la globalización del mercado laboral.

Al mismo tiempo, surgen nuevos modelos de prestación de servicios educativos

caracterizados por ocuparse menos de la enseñanza y más del aprendizaje (por ej., a través

de iniciativas autodidactas y el uso de habilidades individuales de búsqueda de

información).

La educación se ve cada vez menos limitada por la ubicación geográfica del

alumno (un país) o menos dependiente del espacio físico (un aula que debe congregar una

masa crítica de alumnos). Se requiere mayor flexibilidad a objeto de poder adaptarse al

tiempo disponible del alumno y un currículo modular no sujeto a una trayectoria escolar

rígida o a metas predeterminadas de certificación.

Page 40: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…40

Bajo condiciones favorables, se estima que las NTICs pueden contribuir

importantemente a: extender las oportunidades de aprendizaje hacia poblaciones más

amplias y diversas; trascender barreras culturales; y derribar las restricciones físicas

impuestas por los establecimientos educativos y las fronteras geográficas.

Las tecnologías pueden perfeccionar el proceso de enseñanza y aprendizaje

reformando los sistemas convencionales de atención educativa, reforzando la calidad de

los logros de aprendizaje, facilitando la adquisición de competencias de última generación,

promoviendo el aprendizaje a lo largo de la vida y mejorando la gestión institucional.

Page 41: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…41

CAPÍTULO II: ESTRUCTURA DEL ALMACÉN DE DATOS

Resumen

En la actualidad, las tecnologías de los sistemas de información, se han utilizado

principalmente para automatizar los procesos de tipo repetitivo, generándose con esto, los

sistemas operacionales. Entendemos por sistemas operacionales, aquellos programas que

resuelven las necesidades respecto al procesamiento de datos de alguna organización. En

los sistemas operacionales, los conceptos más importantes son la actualización, el

procesamiento y el tiempo de respuesta. Sin embargo, además de las necesidades

operacionales, las corporaciones también tienen necesidades informacionales.

Estas tienen por objetivo obtener la información necesaria, que sirva de base para

la toma de decisiones dentro de una organización. Las necesidades informacionales, se

basan en gran medida en el análisis de una enorme cantidad de datos. El dar solución a las

necesidades de tipo informacional, utilizando las bases de datos de los sistemas

operacionales, presenta ciertos problemas, debido a que para realizar consultas con alto

grado de dificultad, existen diversas desventajas como la falta de visión global en la

información, ya que las bases de datos no contienen datos históricos, es decir que no

especifican periodos de tiempo. Esta es una de las razones por las que surge la necesidad

de una nueva tecnología, tal es el caso de los Data Warehouse (DW), considerada la

tecnología que puede solucionar la deficiencia mencionada.

Como se ha señalado en el capítulo precedente, se ha considerado de gran

importancia efectuar una investigación que permita determinar las variables que inciden en

el relativamente bajo rendimiento académico de los alumnos de Sistemas Operativos de la

TSAP del ISCC perteneciente a la Dirección General de Educación Superior (DGES),

identificar los perfiles de alumnos exitosos (los que promocionan o regularizan la

asignatura), como así también los perfiles de alumnos que no lo logran (los que quedan en

Page 42: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…42

la condición de libres). Una vez determinados los perfiles de alumnos con bajo

rendimiento académico, se podrán encarar acciones tendientes a evitar potenciales fracasos

académicos. Para la determinación de los perfiles de alumnos se consideró apropiado

utilizar técnicas de Almacenes de Datos (Data Warehouse: DW). En tal sentido se describe

la estructura del DW utilizado.

Abstract

Nowadays, technologies of information systems have been used primarily to

automate repetitive type processes, generating with this, the operational systems. We

understand operating systems, programs that meet the needs regarding any data processing

organization. In operating systems, the most important concepts are updating, processing

and response time. However, in addition to the operational requirements, corporations also

have informational needs. These are designed to obtain the necessary information to

provide a basis for decision-making within an organization. Informational needs, rely

heavily on the analysis of a huge amount of data. The solution to such informational

needs, using the databases operational systems, presents certain problems, because for

queries with a high degree of difficulty, there are several disadvantages such as lack of

overview in information, and databases that contain no historical data is not specified

periods. This is one of the reasons why there is a need of a new technology, as in the case

of the Data Warehouse (DW), considered the technology that can solve the deficiency

described.

As noted in the previous chapter, it was considered of great importance to make an

investigation to determine the variables that affect the relatively poor academic

performance of students in the TSAP Operating Systems ISCC from Directorate General

of Higher Education (DGES), identify the profiles of successful students (those who

promote or regularize the subject), as well as profiles of students who do not succeed (the

Page 43: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…43

remaining free status). Having identified the profiles of students with poor academic

performance, may face action to avoid potential academic failure. To determine the profile

of students was considered appropriate techniques of Data Warehouses (Data Warehouse:

DW). In this sense describes the used DW structure.

1. Introducción

En la Sociedad de la Información y el Conocimiento (SIC) es imprescindible la

aplicación de técnicas de Almacenes de Datos (Data Warehouses: DW) y de Minería de

Datos (Data Mining: DM) basadas en clustering, entre otras, para la búsqueda de perfiles

de los alumnos de la Asignatura Sistemas Operativos (SO) de la Tecnicatura Superior

Analista Programador (TSAP) del Instituto Superior de Curuzú Cuatiá (ISCC) según su

rendimiento académico, situación demográfica y socio económica, con el propósito de

determinar a priori situaciones potenciales de éxito o de fracaso académico, lo cual

permitiría encarar las medidas tendientes a minimizar los fracasos.

En el contexto de la SIC (Joyanes Aguilar, 1997), (Bolaños Calvo, 2001), (Taquini

(h.), 2001), (Peiró, 2001) y a los efectos de la determinación de los perfiles característicos

de los alumnos de SO de la TSAP del ISCC, se ha construido un DW con información

personal, académica, demográfica y socio económica de los alumnos y de su núcleo

familiar, el cual se ha explorado con técnicas de DM.

En (Inmon, 1992) se puede ver en una breve reseña cómo se ha ido gestando la

evolución de los sistemas para dar soporte a la toma de decisiones, por ejemplo los

jeroglíficos en Egipto muestran principalmente el trabajo de un contador, al declarar

cuánto granos se debían al Faraón. Algunas de las calles en Roma fueron diseñadas por

ingenieros civiles hace más de 2.000 años. El examen de los huesos encontrados en las

excavaciones arqueológicas demuestra que la medicina, ya en una forma rudimentaria, se

Page 44: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…44

practicaba todo el tiempo hace más de 10.000 años. Otras profesiones tienen raíces que se

remontan a la antigüedad.

Desde esta perspectiva, la profesión y la práctica de los sistemas para el

procesamiento de información, es ciertamente inmadura, porque sólo existe desde

principios de 1960. El tratamiento de la información muestra esta inmadurez en muchos

aspectos, como su tendencia a detenerse en los detalles. Existe la idea de que si

conseguimos los detalles, el resultado final de alguna manera se hará cargo de sí mismo y

se logrará el éxito. Es como decir que si se sabe cómo poner el concreto, la forma de

perforar, y cómo instalar los tornillos y tuercas, no hay porqué preocuparse acerca de la

forma o el uso del puente que se está construyendo. Obtener todos los detalles no trae

necesariamente más éxito. El almacén de datos requiere una arquitectura que comienza a

ver el todo y luego trabaja hasta los detalles. Ciertamente, los detalles son importantes en

todo el almacén de datos, pero los detalles son importantes sólo cuando se los considera en

un contexto más amplio.

La historia del almacén de datos se inicia con la evolución de la información y de

los sistemas de soporte de decisiones. Esta visión amplia debe ayudar a poner el

almacenamiento de datos en una perspectiva más clara (Inmon, 1992).

En (Inmon, 1992) se puede comprender que la arquitectura de un almacén de datos

es el corazón del entorno y la base fundamental de todo procesamiento del Sistema de

Soporte a las Decisiones (Decision Support System: DSS), como así también que el

trabajo del analista dentro del ambiente del almacén de datos es inmensamente más fácil

que en al ambiente o entorno clásico, porque hay una sola fuente integrada de datos y

porque estos resultan fácilmente accesibles.

Page 45: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…45

El almacén de datos se construye a partir de los datos de las aplicaciones que se

encuentran en el entorno operativo. Los datos de aplicaciones se integran cuando pasan al

almacén de datos. El acto de integración de datos es siempre una tarea compleja y tediosa.

Data Warehouse es una tecnología para el manejo de la información, que soporta el

procesamiento informático y provee una plataforma sólida que permite realizar análisis a

partir de datos históricos actuales. Su función esencial es ser la base de un sistema de

información. Facilita la integración de sistemas de aplicación no integrados proveniente,

de fuentes de datos heterogéneas (bases corporativas, bases propias, de sistemas externos,

ficheros, etc.), brinda una visión integrada de dicha información, especialmente enfocada

hacia la toma de decisiones por parte del personal de la organización. Organiza y almacena

los datos que se necesitan para el procesamiento analítico sobre una amplia perspectiva de

tiempo.

Es un sitio donde se almacena fundamentalmente la información que se extrae de

los sistemas de gestión que registran la operatoria diaria de la organización. Además, se

almacenan datos estratégicos y tácticos que pueden ser de gran ayuda al aplicar sobre los

mismos técnicas de análisis de datos encaminadas a obtener información oculta (minería

de datos) (Méndez & Mártire, 2004).

Un DW es una colección de datos orientado a temas, integrado, no volátil, de

tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales

(Kubski, 2005), (Cutro, 2008). Es también un conjunto de datos integrados orientados a

una materia, que varían con el tiempo, y que no son transitorios, los cuales soportan el

proceso de toma de decisiones de una administración (Inmon, 1992), (Inmon, 1996),

(Simon, 1997), (Trujillo, Palomar y Gómez, 2000).

En (Chaudhuri & Dayal, 1997) se menciona que DW es una combinación de

hardware de alta performance y capacidad de almacenamiento que combinado con varios

Page 46: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…46

software especializados, consolida, integra y analiza datos provenientes de distintas

fuentes, con el objetivo de apoyar y mejorar la toma de decisiones de los administradores

en los niveles estratégicos de las empresas u organizaciones.

Así también en (Chaudhuri & Dayal, 1997) se estudia que un DW es un proceso de

construcción, y no un producto, que utiliza técnicas para consolidar y administrar datos de

variadas fuentes, eliminando gran cantidad de datos inútiles o no deseados, con el objetivo

de responder consultas a los administradores de las organizaciones, y tomar decisiones de

una forma que antes no era posible.

En (Inmon, 1992) se expresa que un DW es un conjunto de datos integrado

orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales

soportan el proceso de toma de decisiones de una administración.

En (Vassiliadis, 2000) se señala que los almacenes de datos se definen como

sujetos orientados, integrados, variantes en el tiempo, colección de datos no volátiles, que

su uso primario en las organizaciones es para la toma de decisiones, razón por la cual, se

espera que presenten información correcta en el lugar correcto en un tiempo exacto y un

costo adecuado para una fácil, rápida y correcta decisión (Matthias Jarke, 1997),

(Vassiliadis, Yannis y Matthias Jarke, 2001).

Los almacenes de datos han llegado a ser una estrategia importante de negocios

donde se integra información heterogénea de las diferentes fuentes de la organización, lo

cual permite realizar Proceso Analítico en Línea (OLAP), sobre la información que

realmente necesitan los tomadores de decisiones.

En (Trujillo, Mazón y Pardillo, 2011) se reseña de manera general todos los

componentes fundamentales de una arquitectura básica de almacenes de datos y cómo

interactúan entre ellos.

Page 47: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…47

En (Inmon, 1992) se describen con mayor profundidad las siguientes características de

un DW:

Integrado: en un DW, los datos son tomados de los diferentes sistemas de la

organización y/o fuentes externas, son recopilados y almacenados de forma

coherente. En una aplicación el género de una persona podría codificarse como

“M” (masculino) y “F” (femenino) y en otra simplemente como “0” y “1”.

Cuando los datos fluyen de un entorno OLTP a un DW, asumen una

codificación consistente. Por ejemplo, sexo siempre será almacenado como

“M” y “F”.

Orientado: los datos contenidos por un DW están orientados para consultar, de

modo eficiente, la información relevante relacionada a la operatoria de la

organización. Los sistemas OLTP sólo poseen información de las áreas para la

cual fueron creados (contaduría, stock, facturación, etc.).

Variables en el tiempo (no volátil): en un DW, los datos siempre son agregados

y nunca removidos. Tampoco son actualizados. Esto permite analizar los temas

y ver a la organización a través del tiempo.

Se puede decir que el objetivo de un DW es convertir datos en información. En ese

proceso de conversión, se toman datos provenientes de distintas fuentes, se los consolida y

almacena en un DW. A partir de aquí se crean subconjuntos del DW para permitir su

utilización a los usuarios finales y así satisfacer sus necesidades.

Un DW debe tener un entorno amigable para el usuario, debe ser fácil de utilizar y

permitir exportar e imprimir datos del sistema.

Una habilidad muy interesante es la generación de cubos de modo desconectado. Esto

permite realizar copias de los cubos y trabajar sin consumir recursos del servidor del DW.

Page 48: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…48

La utilización de una DW exige a los usuarios la necesidad de disponer de la información

al momento de la toma de decisión.

Esta base de información debe generar una demanda atractiva y los usuarios deben

percibir su utilidad.

1.1. Etapas de Diseño del Almacén de Datos

Las etapas de diseño son las siguientes:

Origen (Source): Define los orígenes de datos del Almacén de Datos, como

los sistemas de Procesamiento de Transacciones en Línea (On-Line

Transaction Processing, OLTP), las fuentes de datos externas (datos

sindicados, datos censales), etc.

Integración (Integration): Define el mapeo entre los orígenes de datos y el

propio Almacén de Datos.

Almacén de Datos (Data Warehouse): Define la estructura del Almacén de

Datos.

Adaptación (Customization): Define el mapeo entre el Almacén de Datos y

las estructuras empleadas por el cliente.

Cliente (Client): Define las estructuras concretas que son empleadas por los

clientes para acceder al Almacén de Datos, como Data Marts o aplicaciones

OLAP.

1.2. Niveles por Etapa del Diseño del Almacén de Datos

Cada etapa se analiza desde tres niveles o perspectivas que se crean en el siguiente

orden:

Conceptual: Define el Almacén de Datos desde un punto de vista

conceptual, es decir, desde el mayor nivel de abstracción y contiene

únicamente los objetos y relaciones más importantes.

Page 49: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…49

Lógico: Abarca aspectos lógicos del diseño del Almacén de Datos, como la

definición de las tablas y claves, la definición de los procesos ETL

(Extracción, Transformación y Carga), etc.

Físico: Define los aspectos físicos del Almacén de Datos, como el

almacenamiento de las estructuras lógicas en diferentes discos o la

configuración de los servidores de bases de datos que mantienen al almacén

de datos.

Como se muestra en (García Martínez, Britos, Hossian y Sierra, 2005) la

arquitectura de un DW está integrada por varios componentes (Figura 1), (Figura 2),

(Figura 3).

Figura 1: El almacén de datos y su contexto (García Martínez et al., 2005).

Page 50: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…50

Figura 2: Proceso ETL del DW (García Martínez et al., 2005).

Figura 3: Visión global de la operatoria con DW (García Martínez et al., 2005).

Page 51: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…51

Fuentes internas (OLTP): Está compuesta por las BD de los distintos sistemas de

gestión que operan en la organización, en las cuales se reflejan las transacciones día a día.

Fuentes externas: Son los datos que deben ser obtenidos fuera de la organización.

Las fuentes externas podrían estar conformadas, por ejemplo, por los datos sobre los

diferentes competidores o encuestas realizadas a los clientes.

Consolidación (ETL): Es el proceso que se encarga de producir la transformación

de los sistemas OLTP al DW. Consolida, sumariza, disgrega y transforma los datos de las

aplicaciones que no están integradas. Este procedimiento se compone de tres etapas:

Extracción, Transformación y Carga o Transporte (Load) (Figura 2), (Figura 4) (La Red

Martínez, 2009).

Figura 4: Proceso de ETL (La Red Martínez, 2009).

Extracción: De los datos de las distintas BD operacionales.

Transformación: De los datos a un formato consistente de forma que se puedan

insertar en el DW (Figura 5) (DataPrix, 2009).

Carga o Transporte: Toma la masa de datos transformados y los transfiere a la DW

(proceso Batch). Esto se repite frecuentemente a medida que los sistemas OLPT y las

Page 52: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…52

fuentes externas van incrementando su volumen (refresca la DW con la nueva

información).

Figura 5: Ejemplo de proceso de transformación (DataPrix, 2009).

Middleware: Es un software que se encuentra entre el cliente y en el servidor de

comunicaciones. Su función es la de actuar como traductor entre las distintas tecnologías,

permitiendo que los sistemas trabajen juntos aunque no estén preparados para hacerlo

(García Martínez et al., 2005).

Algunas características son: Soportar diferentes entornos de desarrollo, gestionar la

comunicación con la DW, controlar los procesos por lotes (batch) y la concurrencia,

contener una biblioteca de controladores de BD para acceder a las distintas fuentes, como

por ejemplo: Oracle, Sybase, Informix, etc.

Data Mart: Son subconjuntos de datos que se crean una vez que el DW se

encuentra totalmente integrado. El objetivo de un Data Mart es satisfacer la necesidad de

información a un grupo, sección o área específica dentro de la organización. Se

caracterizan por poseer menos datos detallados y más información agregada.

Entre algunas de las aplicaciones más conocidas podemos nombrar (La Red

Martínez, 2009):

EIS (Executive Information System): Son herramientas que proveen

información estratégica para la toma de decisión a los directivos de las

Page 53: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…53

organizaciones. Generan reportes gráficos y tableros de control

multidimensionales.

DDS (Decisión Support System): Añade a las posibilidades del EIS reglas de

decisión y análisis.

Es posible encontrar también aplicaciones como sistemas expertos o sistemas de

simulación.

Como consecuencia de lo antes indicado, y luego de esta Introducción, este capítulo se

ha estructurado de la siguiente manera: en la Sección 2 se presentará la estructura del DW

utilizado, en la Sección 3 se hará una breve descripción del software usado, en la Sección

4 se expondrá la metodología de definición y carga del DW utilizado, en la Sección 5 se

presentarán algunas discusiones y comentarios, en tanto que la bibliografía se indicará al

final.

2. Estructura del DW utilizado

2.1. Introducción

Antes de describir la estructura del DW utilizado se hará una breve revisión de las

principales características del MER y del Modelo Multidimensional.

2.2. Modelo Entidad – Relación vs. Multidimensional

El modelo entidad-relación (MER) es una técnica poderosa para el diseño de

sistemas transaccionales en el entorno de las bases de datos relacionales. Permite la

normalización de la estructura de datos física, obteniéndose un diseño sin redundancias en

los datos y ocupándose el menor espacio de almacenamiento. Sin embargo, no contribuye

en la habilidad del usuario en el momento de consultar la base de datos. Una técnica

mucho más poderosa para la interrogación de los datos es el modelo dimensional o

multidimensional (Kimball, 2005).

Page 54: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…54

El modelo multidimensional, es mucho menos riguroso en cuanto a organización,

le permite a analistas y diseñadores más flexibilidad en el diseño, para lograr un mayor

desempeño y optimizar la recuperación de la información, desde un punto de vista más

cercano al usuario final. No es una tarea fácil transformar un modelo entidad –relación en

un modelo multidimensional aun cuando los datos que se modelan sean los mismos;

ambos enfoques tienen diferentes puntos de partida, se emplean técnicas distintas y

producen resultados de diseño de bases de datos desiguales. El modelo multidimensional

produce una base de datos que es simple de navegar y encuestar. Existen menor cantidad

de tablas y relaciones en éste, que en el modelo entidad-relación, el cual tiene cientos de

tablas relacionadas entre sí y hay diferentes caminos para obtener una misma información;

desde la perspectiva del usuario final resulta prácticamente inusable (Kimball, 2005).

El modelo multidimensional dentro del entorno de las bases de datos, es una

disciplina de diseño que se sustenta en el modelo entidad-relación y en las realidades de la

ingeniería de texto y datos numéricos (Kimball, 2005).

Modela las particularidades de los procesos que ocurren en una organización,

dividiéndolos en mediciones y entorno. Las medidas son en su mayoría, medidas

numéricas, y se les denomina hechos. Alrededor de estos hechos existe un contexto que

describe en qué condiciones y en qué momento se registró este hecho. Aunque el entorno

se ve como un todo, existen registros lógicos de diferentes características que describen un

hecho, por ejemplo, si el hecho referido, es la venta de un producto en una cadena de

tiendas, se podría dividir el entorno que rodea al hecho de la cantidad vendida, en el

producto vendido, el cliente que lo compró, la tienda y la fecha en que se realizó la venta.

A estas divisiones se las denomina dimensiones y a diferencia de los hechos que son

numéricos, éstas son fundamentalmente textos descriptivos.

Page 55: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…55

Las medidas, como se expresó anteriormente, se registran en las tablas de hechos,

siendo la llave de esta tabla, la combinación de las múltiples llaves foráneas que hacen

referencia a las dimensiones que describen la ocurrencia de este hecho, en otras palabras,

cada una de las llaves extranjeras en las tablas de hecho se corresponden con la llave

primaria de una dimensión.

2.2.1. Tablas de Hechos

Las tablas de hechos, representan los procesos que ocurren en la organización, son

independientes entre sí (no se relacionan unas con otras). En éstas, se almacenan las

medidas numéricas de la organización. Cada medida, se corresponde con una intersección

de valores de las dimensiones y generalmente se trata de cantidades numéricas,

continuamente evaluadas y aditivas. La razón de estas características, es que facilita que

los miles de registros que involucran una consulta, sean comprimidos más fácilmente y se

pueda dar respuesta con rapidez, a una solicitud que abarque gran cantidad de

información. La llave de la tabla de hechos, es una llave compuesta, debido a que se forma

de la composición de las llaves primarias de las tablas dimensionales a las que está unida;

se pueden distinguir dos tipos de columnas en una tabla de hechos, columnas de hechos y

columnas llaves. Las columnas de hechos almacenan las medidas del negocio que se

quieren controlar y las columnas llaves, forman parte de la llave de la tabla.

La semántica de la relación entre las dimensiones que definen la llave de esta tabla

de hechos, implica por sí sola la ocurrencia de un evento, por ejemplo, si se quiere

representar el hecho de que un estudiante se matriculó en una universidad, la combinación

Page 56: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…56

de las siguientes dimensiones definiría este suceso: el estudiante matriculado, la carrera en

que se matriculó, la fecha de matrícula, el tipo de curso que realizara, etc.

2.2.2. Tablas de Dimensiones

Una tabla de dimensión contiene, por lo general, una llave simple y un conjunto de

atributos que describen la dimensión. En dependencia del esquema multidimensional que

se siga, pueden existir atributos que representen llaves foráneas de otras tablas de

dimensión, es decir, que establecen una relación de esta tabla con otra dimensión. Las

tablas de dimensión, son las que alimentan a las tablas de hechos, como se expresó

anteriormente, la llave de un hecho es la composición de las llaves de las dimensiones que

están conectados a ésta, por tanto, los atributos que conforman las tablas de dimensiones

también describen el hecho.

Los atributos dimensionales son fundamentalmente textos descriptivos, estos

desempeñan un papel determinante, son la fuente de gran parte de todas las necesidades

que deben cubrirse, además, sirven de restricciones en la mayoría de las consultas que

realizan los usuarios. Esto significa, que la calidad del modelo multidimensional,

dependerá en gran parte de cuán descriptivos y manejables sean los atributos

dimensionales escogidos (Wolf, 2002).

Las tablas de dimensión en general, son mucho más pequeñas que las tablas de

hechos en cuanto a cantidad de registros. En cuanto a cantidad de atributos, una tabla de

hechos bien descriptiva puede tener un gran número de éstos. Un DW debe aceptar la

responsabilidad de describir el pasado con precisión. En un sistema operacional

normalmente si se produce un cambio, se sobrescribe el nuevo valor en el registro y se

pierde el anterior. Cuando se quieren mantener las trazas de lo que ha ocurrido en el

entorno multidimensional, por lo general ocurren cambios en la dimensiones, esto implica

Page 57: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…57

que se debe mantener almacenado el valor anterior y registrar el nuevo valor; a este

fenómeno se le conoce como pequeños cambios en la dimensiones (Kimball, 1996). En

estos casos se debe prestar especial atención pues las tablas de dimensiones pueden crecer

en el número de registros y afectar el rendimiento.

2.2.3. Dimensión Tiempo

La dimensión más importante de un DW es la dimensión tiempo. Cada hecho que

se registra en una tabla de hechos, tiene asociada una marca de tiempo, es decir, en qué

momento ocurrió este hecho. Esto permite el almacenamiento y análisis histórico de la

información. La inserción de datos, en la base de datos multidimensional, se hace por

intervalos de tiempo, lo cual asegura un orden implícito (Wolff, 2002).

2.2.4. Esquemas más Comunes para el Modelo Multidimensional

Existen varios esquemas para el modelado de los datos en un DW; los esquemas

más usados son:

Esquema estrella: Es un paradigma de modelado que tiene un solo objeto en el

medio conectado con varios objetos de manera radial (Figura 6). El objeto en el centro de

la estrella es la tabla de hechos y los objetos conectados a ella son las tablas de

dimensiones. Las tablas de dimensiones sólo se relacionan con la tabla de hechos, es decir,

no existen relaciones entre éstas (Gill & Rao, 1996).

Figura 6: Esquema estrella (Gill & Rao, 1996).

Page 58: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…58

Esquema copo de nieve: El esquema copo de nieve es una extensión del esquema

estrella en donde cada una de las puntas de la estrella puede dividirse en más puntas; en

esta forma de esquema, las tablas de dimensión pueden tener relación con otras tablas de

dimensión. La ventaja fundamental que proporciona este esquema, es que se ocupa menor

espacio de almacenamiento, sin embargo, aumenta el número de tablas con las que el

usuario debe interactuar e incrementa la complejidad de las consultas a realizar.

Figura 7: Esquema copo de nieve (La Red Martínez, 2009).

El esquema estrella proporciona mayor compresión, navegabilidad, cercano a cómo

el usuario final refleja la visión de una consulta empresarial. Se recomienda, de ser

posible, que se emplee un esquema estrella antes que un copo de nieve (Figura 7),

justificándose la utilización de mayor espacio de almacenamiento, en la disminución del

tiempo de obtención de la información que se necesita.

2.2.5. Jerarquías y Niveles

Un nivel se corresponde con un atributo dentro de una dimensión, este representa

un nivel particular de agregación. Una jerarquía, es una estructura arbórea lógica, que está

compuesta por uno o varios niveles e implica una organización de estos dentro de una

dimensión (Microsoft Corp., 2000).

Cada nivel consta de un nivel superior y cero o varios niveles inferiores. Se tiene

una relación de uno a mucho entre objetos de nivel superior e inferior (un objeto de un

Page 59: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…59

nivel superior agrupa uno o muchos objetos del nivel inferior). Las jerarquías definen

cómo los datos son agregados desde los niveles más bajos hacia los más altos. A partir de

una dimensión se puede definir varias jerarquías.

Cada nivel sobre el nivel base, representa el total de los datos desde el nivel

inferior, por ejemplo: si se considera una dimensión tiempo donde se ha definido una

jerarquía de tres niveles: mes, semestre y año, el nivel mes representa el nivel base de la

jerarquía, el nivel semestre representa la suma de los totales por mes y el nivel año

representa la suma de los totales para los semestres. Los niveles de agregación otorgan

flexibilidad adicional a usuarios finales de aplicaciones para el análisis de los datos y se

logra mayor velocidad de respuesta en las consultas (Wolff, 2002).

2.2.6. Sistema OLAP

Son aplicaciones que generan información táctica y estratégica que sirven a la

organización como soporte para la toma de decisiones. A diferencia de los sistemas OLTP,

que utilizan BD relacionales u otros archivos, OLAP (On Line Analytical Process:

Procesamiento Analítico en Línea) logra su máximo rendimiento y flexibilidad trabajando

sobre un DW. Presentan al usuario un esquema multidimensional en el cual se pueden

realizar consultas seleccionando atributos sobre el tema en particular que se trate,

desconociendo totalmente la estructura interna del DW. La aplicación OLAP se encarga de

generar la consulta y enviarla al gestor, por ejemplo, a través de una sentencia Select. La

estructura multidimensional consta de una tabla de sucesos o hechos, cuyos atributos

describen la actividad que es el objeto del análisis (por ejemplo ventas), y varias tablas

llamadas dimensiones. Los atributos de cada dimensión tienen el objetivo de aportar

información particular sobre cada tupla de la tabla de hechos, por ejemplo, lugar donde se

realizan las ventas, fecha o período en que fueron realizadas, sucursal, etc. (Figura 8) (La

Red Martínez, 2009).

Page 60: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…60

Figura 8: Estructura multidimensional (La Red Martínez, 2009).

Estas vistas multidimensionales son llamadas “Cubos” y pueden ser construidos de

distintas formas, que se comentarán a continuación.

2.2.7. Sistema ROLAP

Se implementa sobre tecnología relacional. Utiliza un esquema en estrella cuyo

nodo central representa a la tabla de hechos y los extremos a las dimensiones (Kimball,

1996). Con esta metodología, cuando la consulta es realizada se genera el cubo

correspondiente. Esta alternativa de generación de cubos se utiliza cuando no se posee

gran capacidad de almacenamiento. Al generarse los cubos en tiempo de ejecución su

rendimiento no es óptimo.

2.2.8. Sistema MOLAP

Tiene la estructura de arreglos multidimensionales. Los cubos son generados y

almacenados antes de ser consultados. Los datos son tomados de la tabla de hechos y las

Page 61: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…61

dimensiones son calculadas y almacenadas. Si se dispone de suficiente espacio en disco,

esta alternativa aumenta el rendimiento y mejora los tiempos de respuesta (Figura 9) (La

Red Martínez, 2009).

2.2.9. Sistema HOLAP

Es una combinación de las técnicas ROLAP y MOLAP. Los cubos frecuentemente

consultados son generados y almacenados. Cualquier otra consulta debe generarse en

tiempo de ejecución.

Figura 9: Modelo ROLAP y MOLAP (La Red Martínez, 2009).

2.2.10. Diferencias entre OLTP y OLAP

Las principales diferencias entre un sistema OLTP y OLAP se expresan en la Tabla

1.

Page 62: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…62

Tabla 1: Diferencia entre OLTP y OLAP.

Habiéndose realizado en las páginas precedentes una breve reseña acerca de los

principales conceptos relacionados con los DW y su implementación, se describirá a

continuación el DW utilizado en este trabajo de investigación.

3. Descripción de la estructura del DW utilizado

A continuación se describirá el esquema básico resumido del DW con su tabla de

hechos y sus tablas de dimensiones (Figura 10), (Figura 11), para luego continuar con la

descripción detallada de cada una de las tablas mencionadas.

Page 63: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…63

Figura 10: Esquema básico del almacén de datos (fuente propia).

Page 64: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…64

Figura 11: Fuente y almacén de datos (fuente propia).

Page 65: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…65

Figura 12: Tabla de hechos (fuente propia).

En la Figura 12 se puede observar las variables más significativas de la tabla de

hechos, las que serán detalladas y explicadas en las Tabla 2 y Tabla 3.

Nombre de Variable Significado

LU_ALUM Número de libreta del alumno.

DNI_ALUM Documento Nacional de Identidad.

CARRERA_ALUM Carrera.

SEXO_ALUM Sexo (Género).

Tabla 2: Variables y significados de la tabla de hechos.

Page 66: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…66

Nombre de Variable Significado

EDAD Edad.

ESTCIVIL_ALUM Estado civil.

FECHA_NACIM Fecha de nacimiento.

PAIS_NACIM País.

PROV_NACIM Provincia.

CIUDAD_NACIM Ciudad.

FECHA_ENCUESTA Fecha de la encuesta.

GRUPO_SANGUINEO Grupo sanguíneo.

NOTA_PP_ALUM Primer Parcial.

NOTA_PR_ALUM Primer Recuperatorio.

NOTA_SP_ALUM Segundo Parcial.

NOTA_SR_ALUM Segundo Recuperatorio.

NOTA_EXT_ALUM Extraordinario.

SF Situación Final del alumno luego del cursado.

ANIO Año lectivo.

Tabla 3: Variables y significados de la tabla de hechos (continuación).

En la Figura 13 se observan las variables que conforman la Dimensión Importancia

Otorgada al Estudio, las que se detallan y explican en la Tabla 4.

Page 67: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…67

Figura 13: Dimensión importancia otorgada al estudio (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_IES Libreta del Estudiante.

DNI_IES Documento del Estudiante.

IMPORTANCIA_IES Importancia que le da al estudio.

Tabla 4: Variables y significados de la dimensión importancia otorgada al estudio.

En la Figura 14 se puede observar las variables que conforman la dimensión de la

Procedencia del Alumno, las que serán detalladas y explicadas en la Tabla 5.

Page 68: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…68

Figura 14: Dimensión procedencia del alumno (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_P Libreta del Estudiante.

DNI_P Documento del Estudiante.

PROVINCIA_P Provincia de residencia.

CIUDAD_P Ciudad de residencia.

Tabla 5: Variables y significados de la dimensión procedencia del alumno.

En la Figura 15 se puede observar las variables que conforman la dimensión de la

Utilización de las TICs en la consideración del alumno, las que se detallan y explican en la

Tabla 6.

Page 69: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…69

Figura 15: Dimensión utilización de las TICs (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_TIC Libreta del Estudiante.

DNI_TIC Documento del Estudiante.

UTIL_TIC Provincia de residencia.

Tabla 6: Dimensión utilización de las TICs.

En la Figura 16 se puede observar las variables que conforman la Dimensión

Estudios Secundarios del Alumno, las que se muestran en la Tabla 7.

Page 70: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…70

Figura 16: Dimensión estudios secundarios (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_ES Libreta del Estudiante.

DNI_ES Documento del Estudiante.

COLEGIO_ES Nombre del Colegio.

DEPENDENCIA_ES Dependencia del Colegio.

PROVINCIA_ES Provincia a la que pertenece el Colegio.

CIUDAD_ES Ciudad a la que pertenece el Colegio.

TITULO_ES Titulo otorgado por el Colegio.

FEGRESO_ES Fecha de egreso del alumno.

Tabla 7: Variables y significados de la dimensión estudios secundarios.

En la Figura 17 se observa las variables que conforman la Dimensión Residencia

Actual del Alumno, las que se detallan y explican en la Tabla 8.

Page 71: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…71

Figura 17: Dimensión residencia actual (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_RA Libreta del Estudiante.

DNI_RA Documento del Estudiante.

TIPO_RA Tipo de residencia del Estudiante.

CALLE_RA Dirección de la residencia actual.

PROVINCIA_ES Provincia de residencia.

CIUDAD_ES Ciudad de residencia.

Tabla 8: Variables y significados de la dimensión residencia actual.

En la Figura 18 se observa las variables que conforman la Dimensión Horas

Dedicadas al Estudio en la apreciación del alumno, las que se muestran en la Tabla 9.

Page 72: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…72

Figura 18: Dimensión horas dedicadas al estudio (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_ES Libreta del Estudiante.

DNI_ES Documento del Estudiante.

HORAS_ES Horas dedicadas al estudio.

Tabla 9: Variables y significados de la dimensión horas dedicadas al estudio.

En la Figura 19 se describen las variables que conforman la Dimensión Situación

Laboral de la Madre del Alumno, las que se detallan y explican en la Tabla 10.

Page 73: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…73

Figura 19: Dimensión situación laboral de la madre (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_SLM Libreta del Estudiante.

DNI_SLM Documento del Estudiante.

ULT_EST_SLM Grado de escolaridad de la madre.

SIT_LAB_SLM Situación Laboral de la madre.

HS_TRAB_SLM Horas Semanales Trabajadas.

REL_EST_SLM Rama de la Actividad Laboral de la madre.

CATOCUP_SLM Categoría Ocupacional de la madre.

Tabla 10: Variables y significados de la dimensión situación laboral de la madre.

En la Figura 20 se puede observar las variables que conforman la Dimensión

Situación Laboral del Alumno, las que se muestra en las Tabla 11 y Tabla 12.

Page 74: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…74

Figura 20: Dimensión situación laboral (fuente propia).

NOMBRE DE VARIABLE SIGNIFICADO

LU_SL Libreta del Estudiante.

DNI_SL Documento del Estudiante.

TIPO_SL Categoría Ocupacional.

Tabla 11: Variables y significados de la dimensión situación laboral del alumno.

Page 75: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…75

NOMBRE DE VARIABLE SIGNIFICADO

ACTIV_ECONOM_SL Rama Actividad Económica.

HS_TRAB_SL Horas Semanales Trabajadas.

REL_EST_SL Relación del Trabajo con la carrera elegida.

OBRA_SOCIAL_SL Tiene Obra Social.

CATOCUP_SL Categoría ocupacional.

SIT_LAB_SL Situación Laboral

Tabla 12: Variables y significados de la dimensión situación laboral del alumno (continuación).

En la Figura 21 podemos observar las variables que conforman la dimensión

Situación Laboral del Padre del alumno, las que se detallan y explican en la Tabla 13.

Figura 21: Dimensión situación laboral del padre (fuente propia).

Page 76: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…76

NOMBRE DE VARIABLE SIGNIFICADO

LU_SLP Libreta del Estudiante.

DNI_SLP Documento del Estudiante.

ULT_EST_SLP Grado de escolaridad del padre.

SIT_LAB_SLP Situación Laboral del padre.

HS_TRAB_SLP Horas Semanales Trabajadas.

REL_EST_SLP Rama de la Actividad Laboral de Padre.

CATOCUP_SLP Categoría Ocupacional del Padre.

Tabla 13: Variables y significados de la dimensión situación laboral del padre.

3.1. Descripción del Software utilizado

Habiéndose concluido la descripción del DW utilizado, se procederá a describir

brevemente el software utilizado para dar soporte a dicho DW. Se ha utilizado el IBM

Data Warehouse Edition (DWE) V.9.5, cuya arquitectura y componentes se pueden ver en

las Figura 22 , Figura 23 y Figura 24, que incluyen al DB2 Enterprise Server Edition

(DB2 ESE), al Design Studio (DS) y al Intelligent Miner (IM), que se han obtenido de la

empresa IBM Argentina S.A. en el marco de la Iniciativa Académica de dicha empresa y

de los Acuerdos realizados entre la misma y la FaCENA de la UNNE (Acuerdo del

18/06/04 D, Res. N° 1417/04 D, Res. N° 858/06 CD).

3.2. Definición del Data Warehouse Edition

IBM DB2 Universal (Data Warehouse Edition: DWE) es un paquete de productos

que combina la potencia de DB2 Universal Database (DB2 UDB) con la robusta

infraestructura de inteligencia empresarial de IBM. DWE proporciona una plataforma de

inteligencia empresarial completa con las herramientas que la empresa y sus asociados

Page 77: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…77

necesitan para desplegar y crear soluciones de análisis de última generación. Utilizando

DWE, se puede crear una completa solución de depósito de datos que incluya una base de

datos relacional altamente escalable, funciones de acceso a datos, analítica de inteligencia

empresarial y herramientas de análisis financiero de usuario. (IBM Corp., 2005).

Figura 22: Arquitectura DWE DB2 (IBM Corp., 2005).

Page 78: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…78

Figura 23: Componentes del DWE (IBM Corp., 2005)

Figura 24: Componentes del DWE (IBM Corp., 2005).

Page 79: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…79

3.3. Construcción de un Almacén de Datos con DWE

Los administradores del almacén de datos pueden realizar diferentes tareas que se

describen a continuación.

Utilizar la herramienta de modelado visual para optimizar el diseño del esquema de

depósito de múltiples capas como se puede observar en la Figura 25.

Figura 25: Rational Data Architect (IBM Corp., 2005).

Utilizar el ETL preferido para cargas masivas de la capa de datos del almacén con

la escala, la velocidad y las muchas transformaciones de innumerables fuentes de datos

empresariales como se puede ver en la Figura 26.

Page 80: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…80

Figura 26: IBM Arquitectura de la Capa de Datos (IBM Corp., 2005).

Utilizar SQW para mantener el rendimiento de las estructuras analíticas y el acceso

a las capas de negocio o para sustituir la operación manual de generación de código SQL

dentro del almacén de datos, como se puede ver en la Figura 27.

Page 81: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…81

Figura 27: SQL Herramienta para Almacenamiento (IBM Corp., 2005).

3.4. Minería de Datos en DWE Design Studio

Como se puede observar en la Figura 28, el editor de minería de datos amplía el

marco del flujo de datos común para los caudales de diseño interactivo y visual de minería

de prueba. Operadores específicos de minería se utilizan para construir, probar y usar

modelos de minería altamente interactivos con el almacén de datos; además se puede

generar SQL, Java Beans y flujos de datos; también un subconjunto de los operadores de

minería pueden ser embebidos en el editor de SQW. Las herramientas de exploración de

datos basadas en las herramientas de minería, permiten mostrar las estadísticas y la

distribución de los datos (IBM Corp., 2004).

Page 82: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…82

Figura 28: Minería de datos en DWE Design Studio (IBM Corp., 2004).

3.4. OLAP en DWE Design Studio

La ampliación del modelo físico de datos mediante los cubos OLAP se muestran

en la Figura 29. Permite el modelado y visualización de cubos y la utilización del MQTs

(Materialized Query Tables) (IBM Corp., 2004).

Incluye un explorador de servidores para mostrar objetos multidimensionales

existentes en las tablas de catálogo CV (Cube View).

También incluye un explorador de proyectos donde se definen objetos CV e

ingeniería no inversa (crear un script DDL que carga metadatos XML de CV en tablas de

catálogo de CV) (IBM Corp., 2004).

Page 83: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…83

Figura 29: OLAP en DWE Design Studio (IBM Corp., 2004).

Habiéndose realizado una breve reseña de las herramientas utilizadas se procederá

a describir la metodología seguida para el armado del DW utilizado.

4. Metodología de Definición del DW Utilizado

Una metodología es un proceso detallado, a menudo especificado en secuencia de

pasos que se deben seguir para lograr una meta (en nuestro caso, la creación de un Data

Warehouse). Es importante recordar que un Data Warehouse no se puede adquirir, se tiene

que construir siguiendo determinada metodología. En la actualidad, las metodologías de

desarrollo de un DW están aún en proceso de maduración, en contraste con las

metodologías existentes para el desarrollo de sistemas tradicionales.

Page 84: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…84

Antes de describir las metodologías existentes, se mencionan los modelos de

desarrollo que algunos autores consideran son importantes para la aplicación de cierta

metodología en el proceso de creación del DW.

Los desarrolladores que proponen estos modelos, consideran que la técnica a

utilizar en la creación del DW depende de hacia quién se enfoca como punto principal el

desarrollo del mismo, puede ser hacia el manejo de datos, de metas o de usuarios (Gutting,

1994). Los modelos propuestos son: “Data-Driven”, “Goal-Driven” y “User-Driven”. A

continuación se describe en forma general en qué consiste cada uno.

Data-Driven: Este modelo considera que en un DW lo que se manejan son datos, a

diferencia de los sistemas clásicos, en los que se manejan requerimientos, los cuales son el

último aspecto a ser considerado en la toma de decisiones, considerando las necesidades

de los usuarios en segundo término (Poe, 1996). El modelo de datos consiste de pocas

dimensiones y de grupos de hechos. La dimensión representa la estructura básica del

diseño. Los hechos son basados en el tiempo y tienen poco nivel de granularidad.

Goal Driven: Este modelo considera que el proceso de desarrollo gira en tomo a los

objetivos y metas establecidas en un principio. Al contrario del modelo anterior, este

contiene más dimensiones y pocos hechos, los cuales son basados en el tiempo y tienen un

bajo nivel de granularidad.

User Driven: Considera que el factor principal a tener en cuenta son las

necesidades de los usuarios, pues son quienes utilizarán finalmente el sistema. El modelo

consta de pocos hechos, los cuales tienen un nivel moderado de granularidad.

Independientemente de los modelos de desarrollo mencionados, las metodologías a

seguir para el desarrollo del DW dependen en gran parte del tamaño del DW a crear y de

la prontitud con que se requiera el DW.

Page 85: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…85

A continuación se hace una descripción general de las dos principales

metodologías para el desarrollo de un DW, a saber la “Big Bang” y la “Rapid

Warehousing”.

Big Bang: Esta metodología trata de resolver todos los problemas conocidos para

crear un Data Warehouse de gran tamaño, antes de liberarlo para su evaluación y prueba

(Harinarayan, Rajaraman y Ullman, 1996). El proceso de desarrollo consiste en crear en

forma paralela los diversos data marts que componen el DW, como se muestra en la

Figura 30. Esto tiene como consecuencia que los desarrolladores requieren de toda la

información que involucra los diversos departamentos desde el inicio de la construcción

del DW y que el periodo para obtener resultados sea mayor.

Figura 30: Metodología Big Bang (Harinarayan, Rajaraman y Ullman, 1996).

Las características principales de la metodología Big Bang son las siguientes:

Se requiere de más personal de desarrollo, debido a que se deben

satisfacer los objetivos en cada departamento.

Los resultados requeridos por lo regular tardan, este tiempo depende

del número de data marts a desarrollar.

Page 86: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…86

Se tienen que homologar en un principio las estructuras de datos de

los distintos departamentos.

Rapid Warehousing: Esta es también conocida como metodología evolutiva o

incremental y considera que la construcción e implantación de un DW es un proceso

evolutivo, el cual consiste en crear rápidamente una parte de un DW con la integración

de data marts Figura 31. Ésta metodología implica que cada vez que un data mart sea

integrado, se debe operar simultáneamente en el DW (Widom, 1995). Así, con la

integración en forma periódica de cada componente data mart, se integra la estructura

final del DW.

Figura 31: Metodología Rapid Warehousing (Widom, 1995).

Las características principales de ésta metodología son las siguientes:

La solución de la parte del DW necesaria, requiere de poco tiempo.

Page 87: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…87

Permite adquirir experiencia en el proceso de creación. Con la

implementación de los primeros data marts, se va adquiriendo experiencia

para creaciones posteriores (Peterson & Pinkelman, 1999). Permite

estandarizar las estructuras de los datos, respecto a los primeros data marts

creados.

Reduce la cantidad de errores en el proceso de desarrollo, debido a que

involucra menos personal.

Este tipo de metodología es la más usual pues requiere que las corporaciones

inviertan menos recursos que con la metodología Big Bang.

En este trabajo de investigación se ha seguido el modelo User driven y la

metodología Big Bang, conforme se detallará en el capítulo siguiente.

Habiendo concluido con la descripción del DW utilizado y de las herramientas

empleadas para su construcción, se procederá a realizar algunas discusiones y comentarios

considerados relevantes.

5. Discusiones y Comentarios

En general, el buen desempeño de cualquier institución educativa depende, en gran

parte, de las constantes decisiones, que se tomen a nivel directivo para corregir o mejorar

los aspectos que están afectando su buen funcionamiento, principalmente en sus áreas más

importantes como por ejemplo el área académica.

Actualmente los DW se aplican en mayor porcentaje en los negocios, sin embargo,

toda organización que controla grandes volúmenes de información o requiere de un

soporte para la toma de decisiones, puede hacer uso de la tecnología DW.

En la actualidad, la mayoría de las instituciones educativas que requieren de un DW,

no lo han implementado debido a las siguientes razones:

Page 88: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…88

Por tener una arquitectura que les exige la tecnología de hardware más

actualizada, debido a los grandes volúmenes de información que manipula

o el tiempo de respuesta requerido.

Debido a que los beneficios de la inversión realizada al implementar el DW

no se obtienen a corto plazo, únicamente las instituciones con posibilidades

económicas, consideran la necesidad de su implantación.

Para algunas instituciones la tecnología DW es un nuevo concepto de

manipulación de datos.

5.1. Ventajas del Uso de Data Warehouse

La inversión que realiza una organización para una correcta

implantación de un sistema de Almacén de Datos conlleva un coste

muy elevado, sin embargo el retorno de la inversión es garantizado

en gran medida.

Como consecuencia de la ventaja anterior se pueden conseguir una

ventaja competitiva debido a una buena toma de decisiones gracias

al Almacén de Datos implantado.

Mejoran la productividad de los responsables en la toma de

decisiones de la organización debido a que:

Los Almacenes de Datos hacen más fácil el acceso a una gran

variedad de datos.

Se obtiene una base de datos clasificada por temas e histórica.

Se integra información procedente de múltiples sistemas externos.

Page 89: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…89

5.2. Desventajas del Uso de Data Warehouse

La subestimación del tiempo requerido para extraer, limpiar

y cargar los datos en el Almacén.

Problemas con los sistemas de origen de los datos.

Los datos obtenidos no son suficientes.

Pueden suponer altos gastos, además de los gastos de

mantenimiento que son muy elevados.

Pueden quedarse obsoletos relativamente pronto si los

usuarios incrementan sus necesidades.

En Almacenes de Datos de considerable tamaño puede que

la homogeneización de los datos disminuya su valor.

La construcción de un Almacén de Datos puede requerir de

mucho tiempo.

Page 90: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…90

CAPÍTULO III: PREPARACIÓN DE LOS DATOS

Resumen

En el presente capítulo, se abordan específicamente todas las acciones vinculadas

con la recolección de los datos, explicando los criterios que se siguieron para lograr la

depuración y preparación de los mismos, el armado del DW y posteriormente los flujos

destinados a cargar los datos desde la base de datos ENCUESTA a las tablas

correspondiente del almacén de datos.

Abstract

In this chapter, specifically address all actions related to data collection, explaining

the criteria followed to achieve purification and preparation thereof, the assembly of the

DW and then flows to load the data from the SURVEY database tables to store data

corresponding.

1. Introducción

En este capítulo, referido a la preparación de los datos, se indicarán las acciones

desarrolladas para la obtención y depuración de los datos que se incorporaron al almacén

de datos, indicándose detalladamente los flujos de datos que se utilizaron. En tal sentido se

describirá la metodología seguida para el logro de estos objetivos.

El capítulo se ha organizado de la siguiente manera: en la sección 2 se describirá la

depuración y preparación de los datos, en la sección 3 se describirá el armado del DW, en

la sección 4 se indicarán comentarios y discusiones, en tanto que la bibliografía se indicará

al final del último capítulo.

Page 91: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…91

2. Depuración y Preparación de los Datos

El estudio se realizó sobre datos obtenidos mediante encuestas realizadas al

alumnado de la cátedra Sistemas Operativos (SO), considerando además los resultados de

las distintas instancias de evaluación previstas durante el cursado de dicha asignatura. Se

utilizó un entorno integrado de gestión de bases de datos y DW (DB2 versión 9.5),

obtenido de la empresa IBM mediante los acuerdos firmados entre dicha empresa y la

UNNE. Los pasos realizados han sido los siguientes: a) recolección de los datos; b)

tratamiento y depuración de los datos. Muchas de las cuestiones que rodean a los sistemas

de apoyo para la toma de decisiones, se refieren en primer lugar a las tareas de obtener y

preparar los datos. Los datos deben ser extraídos de diversas fuentes, limpiados,

transformados y consolidados en la base de datos de apoyo para la toma de decisiones.

Posteriormente, debe ser actualizados periódicamente Cada una de estas operaciones

involucra sus propias consideraciones especiales.

2.1. Recolección de los Datos

Los datos utilizados fueron obtenidos mediante la realización de una encuesta on

line que permitió lograr las respuestas de los alumnos de las cohortes 2008, 2009 y 2010

inclusive. La estructura de la base de datos ENCUESTA, situada en el servidor DB2

Warehouse V9.5, se visualiza en la Figura 32.

Page 92: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…92

Figura 32: Estructura de la base de datos ENCUESTA en el DB2 (fuente propia).

En la Figura 33, Figura 34 y Figura 35 se puede observar la página desarrollada al

efecto del ingreso de los datos por parte de los alumnos de la TSAP del ISCC, a través de

la página web se continuó posteriormente con la carga de la base de datos ENCUESTA.

También en la Figura 36 se presenta la página para el ingreso de las notas de los alumnos,

correspondientes a los parciales recuperatorios y la nota final.

Page 93: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…93

Figura 33: Primera parte formulario on line (fuente propia).

Figura 34: Segunda parte formulario on line (fuente propia).

Page 94: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…94

Figura 35: Tercera parte formulario On Line (fuente propia).

Figura 36: Formulario on Line para ingreso de notas (fuente propia).

Page 95: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…95

En el presente trabajo se analizaron los datos referentes a la historia académica de

los alumnos, así como también, los factores sociales (nivel de estudio de los padres) y la

procedencia de los mismos. En la Tabla 14, Tabla 15, Tabla 16, Tabla 17, Tabla 18, Tabla

19 y Tabla 20 se describe el conjunto de datos correspondientes al formulario de ingreso.

Campo Descripción Opciones

Facultad - institución Facultad o institución a la cual

accede el aspirante.

Cs. Exactas y Naturales y de

Agrimensura.

Instituto Superior de Curuzú

Cuatiá.

Carrera – Año Académico Carrera seleccionada por el

ingresante y año de ingreso,

en que se evalúa la actividad

del alumno.

Lic. en Sistemas de

información.

Técnico Superior Analista

Programador.

Apellidos Apellidos del ingresante. Ingresar.

Nombres Nombres del ingresante. Ingresar.

Nacionalidad Nacionalidad del ingresante. Argentina.

Extranjera.

Naturalizado.

Por opción.

Sexo Género de la persona. Masculino.

Femenino.

Tipo de documento Descripción del tipo de

documento del ingresante.

D.N.I.

L.C.

L.E.

Pasaporte.

Número Número de documento del

ingresante.

Ingresar.

Tabla 14: Datos de ingreso formulario on line (primera parte).

Page 96: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…96

Campo Descripción Opciones

Estado Civil Situación civil del ingresante. Soltero.

Casado.

Viudo.

Divorciado legalmente.

Unión de hecho.

Datos sanguíneos Del ingresante. Seleccionar.

Email Del ingresante. Ingresar.

Orientación Vocacional Del ingresante. Ninguna.

Entidad Oficial.

Entidad Privada.

Profesional Especializado.

DATOS DE NACIMIENTO

Fecha de Nacimiento Del ingresante. Ingresar.

País Del ingresante. Seleccionar.

Provincia Del ingresante. Seleccionar.

Departamento Del ingresante. Ingresar.

Localidad Del ingresante. Ingresar.

Código Postal Del ingresante. Ingresar.

DATOS DEL SECUNDARIO

Nombre del Establecimiento Colegio secundario del que

egreso el estudiante.

Ingresar.

Titulo Obtenido Del ingresante. Ingresar.

Dependencia Del Establecimiento. Seleccionar dependencia.

Tabla 15: Datos de ingreso formulario on line (segunda parte).

Page 97: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…97

Campo Descripción Opciones

Calle Del Establecimiento. Ingresar.

País Del Establecimiento. Seleccionar.

Provincia Del Establecimiento. Seleccionar.

Departamento Del Establecimiento. Ingresar.

Localidad Del Establecimiento. Ingresar.

Código Postal Del Establecimiento. Ingresar.

Año de Egreso Del Ingresante. Seleccionar.

DATOS FAMILIARES

Apellido/s del Padre Del Ingresante. Ingresar.

Nombre/s del Padre Del Ingresante. Ingresar.

Apellido/s de la Madre Del Ingresante. Ingresar.

Nombre/s de la Madre Del Ingresante. Ingresar.

DOMICILIO PERIODO LECTIVO (ACTUAL)

Tipo de Residencia Del Ingresante. Con Familiares.

En Forma Independiente.

Residencia Universitaria.

Otra Situación.

Calle Domicilio periodo Lectivo del

ingresante.

Ingresar.

País Domicilio periodo Lectivo del

ingresante.

Seleccionar.

Provincia Domicilio periodo Lectivo del

ingresante.

Seleccionar.

Código Postal Domicilio periodo Lectivo del

ingresante.

Ingresar.

Tabla 16: Datos ingreso formulario on line (tercera parte).

Page 98: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…98

DOMICILIO DE PROCEDENCIA FAMILIAR

Campo Descripción Opciones

Calle Residencia Familiar del

ingresante.

Ingresar.

País Residencia Familiar del

ingresante.

Seleccionar.

Provincia Residencia Familiar del

ingresante.

Seleccionar.

Departamento Residencia Familiar del

ingresante.

Ingresar.

Localidad Residencia Familiar del

ingresante.

Ingresar.

Código Postal Residencia Familiar del

ingresante.

Ingresar.

Teléfono Residencia Familiar del

ingresante.

Ingresar.

SITUACIÓN DEL ALUMNO

Vive alguno de los padres Sí.

No.

Cantidad de Familiares a

cargo.

Ingresar.

Situación Laboral. No trabaja.

Ocupado.

Sub-Ocupado.

Desocupado.

Jubilado.

Categoría Ocupacional Ver Figura 38.

Rama Actividad Económica Ver Tabla 21.

Tabla 17: Datos de ingreso formulario on line (cuarta parte).

Page 99: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…99

SITUACIÓN DEL ALUMNO

Campo Descripción Opciones

Horas Semanales Trabajadas No trabaja.

Hasta 20.

De 21 a 35.

De 36 o más.

Relación del trabajo con la

carrera elegida:

Total.

Parcial.

No Relacionada.

¿Tiene Obra Social? Ninguna.

De los Padres.

Del cónyuge.

Propia.

De Otros.

SITUACIÓN DEL PADRE

Último Nivel de Estudios

Cursados:

Último nivel de estudios cursados, con las siguientes opciones:

Ver Figura 37.

Situación Laboral Indica la situación actual

laboral de los padres del

ingresante.

No trabaja.

Ocupado.

Sub-Ocupado.

Desocupado.

Jubilado.

Categoría Ocupacional Indica la categoría

ocupacional de los padres del

ingresante.

Ver Figura 38.

Rama Actividad Económica Ver Tabla 21

Tabla 18: Datos de ingreso formulario on line (quinta parte).

Page 100: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…100

SITUACIÓN DEL PADRE

Campo Descripción Opciones

Horas Semanales Trabajadas Horas semanales dedicadas

según la categoría ocupacional

y la rama de actividad

económica de los padres del

ingresante.

No trabaja.

Hasta 20.

De 21 a 35.

De 36 o más.

SITUACIÓN DE LA MADRE

Último Nivel de Estudios

Cursados:

Indica el mayor nivel de

estudio alcanzado por sus

padres.

Ver Figura 37.

Situación Laboral Indica la situación actual

laboral de los padres del

ingresante.

No trabaja.

Ocupado.

Sub-Ocupado.

Desocupado.

Jubilado.

Categoría Ocupacional Indica la categoría

ocupacional de los padres del

ingresante.

Ver Figura 38.

Rama Actividad Económica Ver Tabla 21

Horas Semanales Trabajadas No trabaja.

Hasta 20.

De 21 a 35.

De 36 o más.

Tabla 19: Datos de ingreso formulario on line (sexta parte).

Page 101: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…101

Actitud General Hacia el Estudio

Campo Descripción Opciones

Prioridad Otorgada al Estudio: La actitud general hacia el

estudio del ingresante se

evaluara según lo siguiente:

Más que al trabajo.

Más que a la Familia.

Más que a la Diversión.

Número de Horas Semanales

Dedicadas al Estudio:

Número de horas semanales dedicadas al estudio (sin considerar las horas de clase):

Hasta 10 inclusive.

Más de 10 y hasta 20

inclusive.

Más de 20.

Estudia para: Indica el grado de compromiso

del estudiante con relación a la

asignatura.

Aprobar las asignaturas.

Aprender Integralmente y

Aprobar.

Aprender a Aprender acerca

de los contenidos.

Otras motivaciones.

Utiliza las TICS en el Estudio

porque:

Indica el grado de utilización

del estudiante con relación a

las TICS.

Facilitan el proceso de

Enseñanza.

Están de Moda.

Son una realidad en la

actualidad.

Sera imprescindible su

dominio para el ejercicio de la

actividad profesional.

Tabla 20: Datos de ingreso formulario on line (séptima parte).

Page 102: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…102

Figura 37: Mayor nivel de estudio alcanzado por los padres (fuente propia).

CODIGO DESCRIPCION

101 a 109 Miembros de nivel directivo los poderes ejecutivo, legislativos y Judiciales y personal directivo de la Administración Pública y de empresas, pequeños y medianos propietarios.

201 a 213 Profesionales Científicos e Intelectuales.

301 a 316 Técnicos de Nivel Medio

401 a 412 Empleados de Oficina

501 a 510 Trabajadores de los servicios y Vendedores de Comercio y de Mercado

601 a 605 Agricultores y Trabajadores Calificados, Agropecuarios y Pesqueros

701 a 709 Oficiales, Operarios y Artesanos de Arte Mecánica y de Otros Oficios

801 a 805 Operadores de Máquinas, Montadores y Conductores

901 a 908 Trabajadores no Calificados

950 a 953 Fuerzas Armadas (Ejército, Marina, Aviación, Gendarmería) y de Seguridad

(Policía, Prefectura, Bomberos, Guardabosques)

999 Otra ocupación no especificada.

Tabla 21: Categoría ocupacional.

Page 103: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…103

Figura 38: Rama Actividad Económica (fuente propia).

3. Tratamiento y Depuración de los Datos

3.1. Limpieza

Pocas fuentes de datos controlan adecuadamente la calidad de los datos. Los datos

requieren frecuentemente de una limpieza antes de que puedan ser introducidos en el DW.

Las operaciones de limpieza típicas incluyen, el llenado de valores ausentes, la corrección

de errores tipográficos y otros de captura de datos, el establecimiento de abreviaturas y

formatos estándares, el reemplazo de sinónimos por identificadores estándares, etcétera.

Los datos erróneos y que no pudieron ser limpiados, fueron reemplazados. La unificación

de criterios se muestra en la Tabla 22.

Page 104: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…104

Av.

Av.

Av. Av

Avenida

Bo.

Bo.

Bo. Bo

Barrio

Viv.

Viv.

Viv. Viv

Vivienda

C. Ctia.

Curuzú Cuatiá

Curuzú Cuatiá Curuzu Cuatia

Curuzú Cuatiá

Esc.

Escuela

Escuela Esc.

Escuela

Col.

Colegio

Colegio Col

Colegio

MMO

Maestro Mayor de Obra

Maestro Mayor de Obra M.M.O.

Maestro Mayor de Obra

EGO

Economía y Gestión de las

Organizaciones.

Economía y Gestión de las

Organizaciones.

E.G.O.

Economía y Gestión de las

Organizaciones.

BOD

Bachiller con Orientación

Docente.

Bachiller con Orientación

Docente.

B.O.D.

Bachiller con Orientación

Docente.

Tabla 22: Unificación de criterios.

Page 105: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…105

3.2. Carga

Las operaciones de carga incluyen el movimiento de los datos hacia el DW para la

toma de decisiones, la verificación de su consistencia (es decir, verificación de integridad)

y la construcción de cualquier índice necesario.

4. Armado del Datawarehouse

Luego de haber cargado los datos a la BD ENCUESTA se puede observar la

existencia de 160 registros, visualizados parcialmente en la Figura 39.

Figura 39: Datos contenidos en la BD Encuesta (fuente propia).

Los pasos realizados han sido los siguientes: a) creación del proyecto de depósito

de datos; b) creación del proyecto de almacén de datos; c) diseño de los flujos de datos

.

Page 106: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…106

4.1. Creación del Proyecto de Depósito de Datos

Para realizar el proyecto del almacén de datos son requisitos previos la creación de

un proyecto de depósito de datos, que contiene un modelo físico de datos, en nuestro caso

el archivo modelo de base de datos1.dbm (Figura 40), para lo cual se ha utilizado el

software de IBM DB2 WareHouse Desing Studio, como puede verse en la Figura 41.

Figura 40: Proyecto de Depósito de Datos (fuente propia).

4.2. Creación del Proyecto de Almacén de Datos

Este proyecto se utilizará como contenedor para el modelo de datos físico y los

flujos de DW que se creen en este proyecto de investigación. Cuando se abra el proyecto

DW_ENCUESTA, se podrá ver subcarpetas en el árbol, como carpetas de flujos de datos,

carpetas de flujos de control y carpetas de modelos de datos, conteniendo los flujos de

datos y los flujos de control. Este proyecto contiene todos los objetos necesarios para

compilar una aplicación de almacén de datos, incluidos los flujos, modelos de datos

físicos, variables y perfiles de aplicación.

Page 107: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…107

Figura 41: Proyecto Almacén de Datos (fuente propia).

4.3. Diseño de los Flujos de Datos

Una vez creado el DW se procedió a la realización de los flujos de datos desde la

tabla fuente (ENCUESTA) a las tablas de destino (Figura 42). También se puede observar

en Figura 43 la ejecución y registro de los flujos de datos con su correspondiente script.

Figura 42: Flujos de Datos desde la tabla fuente (fuente propia).

Page 108: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…108

Figura 43: Ejecución y registro de los flujos de datos (fuente propia).

El DW finalmente presenta la siguiente estructura de datos:

4.4 Tabla de Hechos

ALUMNOS: contiene los datos principales de los alumnos y las claves foráneas de

las dimensiones.

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla de hechos ALUMNOS de manera detallada y explicada, en la Figura 44 se

puede visualizar la estructura de la tabla y en la Figura 45 el contenido de la misma.

Page 109: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…109

Figura 44: Estructura de la Tabla de Hechos: ALUMNOS (fuente propia).

Figura 45: Contenido de la Tabla ALUMNO (fuente propia).

4.5. Dimensiones

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla Estudios_Secundarios de manera detallada y explicada, en la Figura 46 se

Page 110: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…110

puede observar la Estructura de la Tabla Estudios_Secundarios y en la Figura 47 el

contenido de la misma.

Figura 46: Estructura de la Tabla Estudios_Secundarios (fuente propia).

Figura 47: Contenido de la tabla Estudios_Secundarios (fuente propia).

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla HORAS_EST de manera detallada y explicada, en la Figura 48 se puede

Page 111: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…111

observar la Estructura de la Tabla Estudios_Secundarios y en la Figura 49 el contenido de

la misma.

Figura 48: Estructura de la tabla Horas_Est (fuente propia).

Page 112: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…112

Figura 49: Contenido de la tabla Horas_Est (fuente propia).

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla IMPORT_EST de manera detallada y explicada, en la Figura 50 se puede

observar la Estructura de la Tabla IMPORT_EST y en la Figura 51 el contenido de la

misma.

Page 113: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…113

Figura 50: Estructura de la tabla IMPORT_EST (fuente propia).

Figura 51: Contenido de la tabla IMPORT_EST (fuente propia).

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla PROCEDENCIA de manera detallada y explicada, en la Figura 52 se puede

Page 114: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…114

observar la Estructura de la Tabla PROCEDENCIA y en la Figura 53 el contenido de la

misma.

Figura 52: Estructura de la tabla PROCEDENCIA (fuente propia).

Figura 53: Contenido de la tabla PROCEDENCIA (fuente propia).

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla RESIDENCIA_ACTUAL de manera detallada y explicada, en la Figura 54 se

Page 115: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…115

puede observar la Estructura de la Tabla RESIDENCIA_ACTUAL y en la Figura 55 el

contenido de la misma.

Figura 54: Estructura de la tabla RESIDENCIA_ACTUAL (fuente propia).

Figura 55: Contenido de la tabla RESIDENCIA_ACTUAL (fuente propia).

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla SITUACION_LABORAL de manera detallada y explicada, en la Figura 56 se

Page 116: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…116

puede observar la Estructura de la Tabla SITUACION_LABORAL y en la Figura 57 el

contenido de la misma.

Figura 56: Estructura de la tabla SITUACION_LABORAL (fuente propia) .

Page 117: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…117

Figura 57: Contenido de la tabla SITUACION_LABORAL (fuente propia).

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla SITUACION_LABORAL_MADRE de manera detallada y explicada, en la

Figura 58 se puede observar la Estructura de la Tabla SITUACION_LABORAL_MADRE

y en la Figura 59 el contenido de la misma.

Page 118: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…118

Figura 58: Estructura SITUACION_LABORAL_MADRE (fuente propia).

Figura 59: Contenido SITUACION_LABORAL_MADRE (fuente propia).

Page 119: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…119

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla SITUACION_LABORAL_PADRE de manera detallada y explicada, en la

Figura 60 se puede observar la Estructura de la Tabla SITUACION_LABORAL_PADRE

y en la Figura 61 el contenido de la misma.

Figura 60: Estructura SITUACION_LABORAL_PADRE (fuente propia).

Page 120: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…120

Figura 61: Contenido SITUACION_LABORAL_PADRE (fuente propia).

Así como en el capítulo anterior se pudo observar las variables más significativas

de la tabla UTIL_TICS de manera detallada y explicada, en la Figura 62 se puede observar

la Estructura de la Tabla UTIL_TICS y en la Figura 63 el contenido de la misma.

Figura 62: Estructura de la tabla UTIL_TICS (fuente propia).

Page 121: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…121

Figura 63: Contenido de la tabla UTIL_TICS (fuente propia).

5. Discusiones y Comentarios

También se pudo detectar, que el proceso más laborioso es el de la transformación

de los datos. La dificultad de este proceso varía de una organización a otra, dependiendo

de la cantidad de información que maneje y que tan heterogéneas sean las diversas bases

de datos fuente. Sin embargo, en el caso de estudio disminuyó la dificultad de este

proceso, debido a que existía un estándar en plataformas y manejadores de bases de datos.

Page 122: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…122

CAPÍTULO IV: MINERÍA DE DATOS

Resumen

La existencia de voluminosas bases de datos conteniendo grandes cantidades de

datos, que exceden en mucho las capacidades humanas de reducción y análisis a fin de

obtener información útil, actualmente son una realidad en muchas organizaciones. Debido

a esto, frecuentemente las decisiones importantes se toman en base a la intuición y

experiencia en lugar de tomar como referencia la riqueza de estos datos almacenados,

provocando que seamos vistos como ricos en datos, pero pobres en información (Han &

Kamber, 2006), debido a la problemática planteada anteriormente. Esta situación se

intenta solucionar a través del proceso de KDD (Knowledge Discovery from Databases).

En síntesis, las técnicas de minería de datos van a permitir construir modelos predictivos,

basados en datos históricos almacenados en distintas fuentes: bases de datos, archivos de

texto plano, documentos impresos, reportes, entre otros. Usando todos estos datos es

posible predecir un fenómeno dado, a partir de las herramientas que la minería ofrece,

obteniendo conocimiento que ayuda en la toma de decisiones.

Abstract

The existences of voluminous databases containing large amounts of data, far

exceeding human capacity reduction and analysis in order to obtain useful information, are

now a reality in many organizations. Because of this, important decisions are often made

based on intuition and experience rather than to refer the richness of the data stored,

causing us to be seen as data rich but information poor (Han and Kamber, 2006) due to the

problems mentioned above. This situation is trying to solve through the process of KDD

(Knowledge Discovery from Databases). In summary, the data mining techniques, will

allow us to build predictive models based on historical data stored in different sources,

databases, flat files, printouts, reports, among others. Using all these data, it is possible to

Page 123: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…123

predict a given phenomenon, from mining tools it offers, gaining knowledge that helps us

in making decisions.

1. Introducción

La deserción, el rezago estudiantil y los bajos índices de eficiencia terminal se

encuentran entre los problemas más complejos y frecuentes que enfrentan las Instituciones

de Educación Superior del país. La deserción escolar es un problema que caracteriza a la

mayoría de las instituciones argentinas de educación superior. La mayoría de las mismas

han hecho algún tipo de esfuerzos por disminuir estos índices realizando y estableciendo

programas de tutorías, asesorías, congresos, talleres, eventos para que los alumnos se

involucren directamente y aumente su compromiso y una serie de actividades más. Sin

embargo, muchos de estos esfuerzos no han sido suficientes y el fenómeno se sigue

repitiendo constantemente. En ese sentido, el estudio de los factores e índices que afectan

a la deserción ha cobrado mayor importancia en los últimos años.

La necesidad de identificar y predecir la deserción de los estudiantes en los

primeros cuatrimestres es indispensable para tomar las acciones pertinentes y poder

disminuir este índice, y no menos importante, predecir su deserción en cualquier momento

para su correcto seguimiento tutorial. La minería de datos orientada a la educación permite

predecir cualquier tipo de factor o característica de un caso, fenómeno o situación. De esta

forma, utilizando las técnicas que nos ofrece la minería, se puede predecir, con un

porcentaje muy alto de credibilidad, la probabilidad de desertar de cualquier alumno con la

ventaja de que se puede pronosticar en los primeros cuatrimestres.

Se han realizado estudios sobre minería de datos en sistemas educativos basados en

tecnologías web, como educación a distancia o asistida por computadora. Agathe

Merceron y Kalina Yacef, de la Universidad Leonardo Da Vinci en Francia y la

Page 124: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…124

Universidad de Sydney en Australia (Merceron & Yacef, 2004) respectivamente,

mostraron cómo utilizar los algoritmos de minería de datos para descubrir conocimiento

pedagógico relevante que se almacenaba en bases de datos.

En Chile, Eduardo Quiroga realizó un modelo de alerta académica (Quiroga,

2008), aplicado a la educación superior utilizando técnicas de minería de datos para

identificar problemas dentro del ámbito educativo. En los Estados Unidos, Jing Luan

desarrolló un modelo predictivo de minería de datos para predecir la posibilidad de regreso

a clases de cada alumno que se encontraba matriculado en Silicon Valley (Luan, 2002).

En el mismo país, William Veitch (Veitch, 2004) utilizó técnicas de minería de datos para

identificar patrones que permitan relacionar los factores y variables que afectan a la

deserción de los alumnos, entre ellas las económicas, sociales y psicológicas.

Los ejemplos anteriores solo son una pequeña muestra de lo que se puede hacer

con la minería de datos enfocados a la docencia y educación: desde el descubrimiento

pedagógico, los sistemas de enseñanza basada en Web hasta análisis predictivo para

determinar el porcentaje de probabilidad de desertar que tiene un alumno, este último es

una tema de gran interés abordado en esta tesis.

En este capítulo, se detallarán los principales conceptos referidos a la minería de

datos y su correspondiente sustento matemático.

1.1. Historia

El concepto de Minería de Datos (MD) (Data Mining: DM) no es nuevo. Desde

los años 60, los estadísticos, manejaban términos como Data Fishing, Data Mining o

Data Archaeology. La idea principal era encontrar correlaciones sin una hipótesis previa

en BD con ruido. Tampoco ninguno de los modelos estadísticos presentes en la MD es

nuevo. Los árboles de decisión y de regresión (classification and regression trees: CART)

Page 125: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…125

son utilizados desde los años 60. Las bases de reglas fueron popularizadas durante el auge

de los sistemas expertos en los 80 y las redes neuronales se conocen desde los años 40,

pero han sido necesarios varios años de desarrollo para que fueran utilizables de manera

sencilla.

Fue a principios de la década del 80 que Rakesh Agrawal, Gio Wiederhold, Robert

Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de

DM y KDD.

Actualmente existen más de 100 empresas en el mundo que ofrecen alrededor de

300 soluciones. Los foros de discusión están integrados por investigadores de más de 80

países, y han sido un punto de encuentro entre personas pertenecientes al ámbito

académico y al de los negocios.

1.2. Tipos de Conocimientos

Antes de comenzar a describir el tema de MD o dar alguna definición al respecto,

debemos comprender e identificar los tipos de conocimientos que podemos extraer de una

BD.

Podríamos clasificar a este conocimiento según las siguientes categorías:

Evidente: esta información se puede obtener de las BD a través de consultas

SQL.

Multidimensional: modela una tabla con n atributos como un espacio de n

dimensiones, lo que nos permite detectar varias situaciones difíciles de

observar. Este tipo de análisis se logra utilizando herramientas OLAP.

Oculto: es la información no evidente, desconocida hasta el momento, pero

potencialmente útil, que puede obtenerse a través de técnicas de MD. Esta

información tiene un gran valor, ya que hasta el momento no se conocía, y

Page 126: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…126

descubrirla permite tener una nueva visión del problema y de su solución

(Figura 64).

Figura 64: Información no evidente. (Pautsch, La Red Martínez, Cutro, 2010).

Se estima que un 80% de la información contenida en una BD corresponde al

conocimiento evidente (fácilmente recuperable). El otro 20% requiere de técnicas más

complejas para su obtención (Figura 65).

Puede que esta cifra parezca despreciable, pero la información oculta en ese

pequeño porcentaje puede ser de vital importancia para el éxito de la empresa u

organización.

Page 127: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…127

Figura 65: Análisis versus complejidad (Pautsch, La Red Martínez, Cutro, 2010).

1.3. Definición

La MD se define formalmente como un conjunto de técnicas y herramientas

aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente

desconocido, potencialmente útil y humanamente comprensible, a partir de grandes

conjuntos de datos, con objeto de predecir, de forma automatizada, tendencias o

comportamientos y descubrir modelos previamente desconocidos (Frawley, Piatetsky-

Shapiro y Matheus, 1992).

Desde el punto de vista empresarial los términos DM y Extracción del

Conocimiento son tratados como sinónimos, y se lo define como: La integración de un

conjunto de áreas que tienen como propósito la identificación de conocimiento obtenido a

partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina Félix,

2001).

La DM es la etapa de descubrimiento en el proceso de KDD (Knowledge

Discovery from Databases), es el paso consistente en el uso de algoritmos concretos que

generan una enumeración de patrones a partir de los datos preprocesados (Fayyad,

Page 128: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…128

Grinstein y Wierse, 2001), (Fayyad, Piatetskiy-Shapiro, Smith, y Uthurusamy, 1996),

(Han & Kamber, 2001), (Hand, Mannila y Smyth, 2000).

Es también un mecanismo de explotación, consistente en la búsqueda de

información valiosa en grandes volúmenes de datos. Está muy ligada a los DW ya que los

mismos proporcionan la información histórica con la cual los algoritmos de minería

obtienen la información necesaria para la toma de decisiones (Gutiérrez, 2001), (IBM

Software Group., 2003).

La DM es un conjunto de técnicas de análisis de datos que permiten extraer

patrones, tendencias y regularidades para describir y comprender mejor los datos, para

intentar predecir comportamientos futuros (Simon, 1997), (Berson & Smith, 1997),

(Frawley, Piatetsky-Shapiro y Matheus, 1992), (White, 2001).

1.4. Características y Objetivos

En la actualidad, para realizar una investigación con el método científico

tradicional, generalmente, primero se formula la hipótesis y luego el experimento, para

posteriormente coleccionar los datos necesarios que confirmen o refuten la hipótesis. De

esta manera se obtiene el nuevo conocimiento. Una de las características principales de la

MD es que invierte la dinámica del método científico. Es decir, primero se coleccionan los

datos y luego se los “escucha” para que de ellos emerjan las hipótesis. Luego se validan

esas hipótesis en los datos mismos. Por lo antes expuesto es que la MD debe presentar un

enfoque exploratorio, y no confirmador. Usar la MD para confirmar las hipótesis no sería

correcto, ya que se está haciendo una inferencia poco válida y acotando el análisis sólo a la

hipótesis elaborada. No se debe confundir a la MD con un gran software ya que durante el

desarrollo de un proyecto de este tipo, deben utilizarse diferentes aplicaciones para cada

etapa. Las mismas pueden ser aplicaciones estadísticas, de visualización de datos o de

Page 129: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…129

inteligencia artificial. Actualmente existen aplicaciones comerciales muy poderosas que

facilitan el desarrollo de un proyecto, pero es muy probable que deban complementarse

con otras herramientas. El objetivo de la MD es extraer la información oculta en las

profundidades de las BD para luego intentar predecir futuras tendencias y

comportamientos. De esta forma permiten a las organizaciones tomar decisiones

proactivas y así adaptarse a un entorno permanentemente cambiante y sumamente

competitivo. Las técnicas utilizadas en la MD son el resultado de un largo proceso de

investigación y desarrollo de productos que comenzó cuando los datos de negocio fueron

almacenados por primera vez en computadoras y luego, con tecnologías generadas para

permitir que los usuarios naveguen entre los datos en tiempo real. La MD engloba todas

estas técnicas para brindar información prospectiva y proactiva. La MD está lista para su

aplicación ya que está sostenida por cuatro tecnologías que ya se encuentran

suficientemente maduras:

Recolección masiva de datos.

Potentes computadoras con multiprocesadores.

Data warehouse.

Algoritmos de Data Mining.

En términos estrictamente académicos, los términos MD y KDD no deben

utilizarse de manera indistinta. La MD es un paso esencial en el KDD que utiliza

algoritmos para generar patrones a partir de los datos pre procesado (Fayyad, Piatesky-

Shapiro y Smyth, 1996) (Figura 66).

Page 130: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…130

Figura 66: Etapas en el KDD (Fayyad, Piatesky-Shapiro y Smyth, 1996).

Como se describirá más adelante en este trabajo, la MD produce cinco tipos de

información:

Asociaciones.

Secuencias.

Clasificaciones.

Agrupamientos.

Pronósticos.

2. Arquitectura

Para que el proceso de MD sea óptimo, se recomienda que la fuente de información

de los algoritmos provenga de un DW. El contar con un DW simplifica considerablemente

la etapa de pre proceso. Existen herramientas de DM que operan fuera del ámbito de un

DW, pero esto requiere varios pasos extras para unificar fuentes, extraer, importar y

analizar los datos. Por otra parte, cuando se introducen nuevos conceptos en los sistemas

OLTP, la integración con el DW simplifica la aplicación de los resultados de la MD. Otra

Page 131: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…131

ventaja de incluir en la arquitectura un DW, es que éste permite que a medida que las BD

operacionales de los distintos sistemas crece, los datos sean integrados al DW. Luego de

este proceso la organización puede realizar la MD, obtener patrones y conocimiento de los

mismos y aplicarlos en el futuro.

Podríamos decir que un DW constituye la fuente de información o la “memoria”

de la organización, y que la MD dota a esta de inteligencia (García Martínez et al., 2005).

2.1. Tipos de Modelos

La MD genera modelos que pueden ser descriptivos o predictivos (Agrawal & Shafer,

1996).

Descriptivos o No Supervisados: este modelo aspira a descubrir patrones y

tendencias sobre el conjunto de datos sin tener ningún tipo de conocimiento

previo de la situación a la cual se quiere llegar. Descubre patrones en los

datos analizados. Proporciona información sobre las relaciones entre los

mismos.

Predictivos o Supervisados: crean un modelo de una situación donde las

respuestas son conocidas y luego, lo aplica en otra situación de la cual se

desconoce la respuesta. Conociendo y analizando un conjunto de datos,

intentan predecir el valor de un atributo (Etiqueta), estableciendo relaciones

entre ellos.

3. Etapas en la Minería de Datos

En un proyecto de MD se deben tener en cuenta las siguientes etapas (Figura 67).

Page 132: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…132

Figura 67: Etapas en un proyecto de MD (García Martínez et al., 2005).

3.1. Selección de Datos

Los datos pueden tener un gran volumen y contener una cantidad ingente de

información. En esta etapa se reduce considerablemente el volumen de los datos

seleccionando sólo los atributos y tuplas que aporten la información y sean más

influyentes sobre el tema a tratar. Existen varios métodos para la selección de este

subconjunto de atributos (García Martínez et al., 2005). Entre algunos de ellos se pueden

citar:

Selección por pasos hacia adelante: se comienza con un conjunto vacío de

atributos, en cada paso se agrega al conjunto el mejor atributo del conjunto

original.

Eliminación por pasos hacia atrás: se comienza con un conjunto que posee

todos los atributos originales, en cada paso se elimina del conjunto el peor

atributo.

Combinación de selección por pasos hacia adelante y eliminación por pasos

hacia atrás: es una combinación de los dos anteriores. Se puede utilizar un

umbral de medición para establecer cuándo detener la eliminación y

agregación de los atributos.

Inducción con árboles de decisión: se utilizan algoritmos como ID3 y C4.5.

Los atributos que no son representados en el árbol se consideran

irrelevantes y se los descarta. Por el contrario, los atributos que aparecen en

el árbol son los elegidos para conformar el subconjunto de atributos.

Page 133: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…133

3.2. Preprocesamiento de Datos

El formato de los datos de las distintas fuentes (OLPT, fuentes externas, etc.) por

lo general no suele ser apropiado. Esto dificulta que los algoritmos de minería obtengan

buenos modelos trabajando sobre estos datos en bruto.

El objetivo del preprocesado es adecuar los datos para que la aplicación a los

algoritmos de minería sea óptima. Para esto hay que filtrar, eliminar datos incorrectos, no

válidos, crear nuevos valores y categorías para los atributos e intentar completar o

descartar los valores desconocidos e incompletos.

3.3. Extracción de Conocimiento

Es la aplicación de diferentes algoritmos sobre los datos ya preprocesados, para

extraer patrones.

3.4. Evaluación e Interpretación de Patrones

Una vez obtenidos los patrones se debe comprobar su validez. Si los modelos son

varios, se debe elegir el que se ajuste mejor al problema. Si ninguno de los modelos

alcanza los resultados esperados, se debe volver a las etapas anteriores y modificar alguna

entrada para, de esta manera, generar nuevos modelos.

4. Algoritmos para la Extracción de Conocimiento

En la MD, según el tipo de algoritmo que se utilice, se realizan algunas de las

siguientes tareas:

Asociación: descubre relaciones entre dos sucesos aparentemente

independientes. Éstas se expresan en el conjunto de datos como condiciones

atributo-valor y deben estar presentes varias veces en ellos. La expresión

tiene dos componentes, el antecedente y el consecuente (por ejemplo,

Page 134: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…134

cuando los alumnos cursan una materia optativa “Análisis Orientado al

Objeto” en un 50% de las veces, también cursan la materia “Programación

Orientada al Objeto”).

Secuenciación o análisis a través del tiempo: si además de lo anterior la tarea

incluye comparaciones de tiempo, búsqueda de patrones secuenciales,

periódicos, desviaciones. Entonces se está frente a un algoritmo del tipo

secuencial. Éste incluye en el análisis el tiempo transcurrido entre el suceso

“inductor” y el suceso “inducido”.

Clasificación: se analiza un conjunto de datos cuya clasificación se conoce y

se le asigna a cada uno una clase o grupo de pertenencia. Este modelo puede

utilizarse para un mayor entendimiento de los datos actuales o para realizar

la clasificación de futuros sucesos. Son utilizados en la detección de fraudes,

análisis de riesgo en la entrega de créditos, identificación de procedimientos

médicos, etc.

Agrupamiento: realiza una clasificación resumida sobre el conjunto de datos.

A la clasificación se la nombra como caracterización, y a la distinción entre

los datos como discriminación o comparación. Se diferencia de la

clasificación en que no se parte de un conjunto de entrenamiento. Se utiliza

en marketing (población con las mismas afinidades), medicina (pacientes

con los mismos malestares), etc.

Predicción: cuando existen datos faltantes intenta predecir los posibles

valores de los atributos.

Regresión: es similar a los algoritmos de clasificación. El modelo generado

intenta predecir el valor más probable para una situación observada.

Page 135: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…135

Clústering: un clúster es un conjunto de datos con características similares.

Esta similitud puede medirse con funciones de distancia. La MD intenta

encontrar clústeres de buena calidad para que luego puedan ser utilizados en

grandes BD o DW.

También suelen utilizarse combinaciones entre los diferentes tipos de algoritmos.

Los algoritmos de clasificación y regresión pertenecen a la parte predictiva de MD,

mientras que los demás están dentro de la MD descriptiva.

5. Metodologías

Para la ejecución sistemática de los proyectos de MD, se han realizado

especificaciones sobre los proceso de modelado, con el objetivo de orientar a los

investigadores a través de una serie de pasos y así permitirles obtener mejores resultados.

Actualmente existen varias metodologías. Describiremos dos, SEMMA y CRISP-DM, que

son las más utilizadas en los proyectos de MD.

5.1. Metodología SEMMA

SAS Institute es una empresa que desde 1976 ha entregado soluciones

informáticas para tener acceso a la información relevante, confiable, otorgando a las

empresas la capacidad de tomar decisiones correctas y así alcanzar el mejor

funcionamiento sostenible (Matignon, 2009), (SAS Institute, 2013).

La metodología SEMMA fue desarrollada por SAS Institute para descubrir

patrones de negocio desconocidos. El nombre refiere a las cinco fases básicas del proceso

(Figura 68).

Page 136: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…136

Figura 68: Fases de la metodología SEMMA (SAS Institute, 2013).

Figura 69: Ciclo de desarrollar en la metodología SEMMA (SAS Institute, 2013).

El ciclo de desarrollo de la metodología SEMMA se puede apreciar en la Figura

69.

Page 137: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…137

5.2. Metodología CRISP-DM

En el año 1999, empresas europeas como NCR (Dinamarca), AG (Alemania),

SPSS (Inglaterra) y OHRA (Holanda), desarrollaron la metodología de libre distribución

CRISP-DM (Cross-Industry Standard Process for Data Mining: CRISP-DM) (Chapman et

al., 1999).

La metodología CRISP-DM se organiza en seis etapas. Cada una de ellas a su vez

se divide en varias tareas.

En la Figura 70 se pueden apreciar las fases del proceso de modelado de la

metodología CRISP-DM. Las flechas muestran las relaciones más habituales entre las

etapas, aunque se debe aclarar que se pueden establecer relaciones entre cualquiera de las

fases. El círculo exterior ilustra la naturaleza cíclica del proceso de modelado.

Figura 70: Fases de la metodología CRISP-DM (Chapman et al., 1999).

5.3. Elección de la Metodología

Ambas metodologías, SEMMA y CRISP-DM, estructuran el proyecto de MD en

etapas que se relacionan. La metodología SEMMA se enfoca más en características

Page 138: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…138

técnicas del desarrollo, mientras que la metodología CRISP-DM, abarca una perspectiva

más amplia contemplando también los objetivos empresariales del proyecto. Como reflejo

de lo antes mencionado, podemos citar las primeras etapas de ambas metodologías.

Mientras que en la metodología SEMMA se comienza realizando un muestreo de datos, la

metodología CRISP-DM se inicia realizando un análisis del problema de la empresa u

organización, para su posterior transformación en un problema técnico (Gondar, 2009).

La metodología CRISP-DM se acerca más al concepto real del proyecto, esto

permite que pueda ser integrada con las metodologías de gestión de proyectos y así,

completar las tareas administrativas y técnicas (DataPrix, 2009).

Otra diferencia significativa entre las metodologías radica en su relación con

herramientas comerciales. La metodología SEMMA está ligada a los productos SAS

donde se encuentra implementada. La metodología CRISP-DM es una metodología libre y

gratuita que no depende de la herramienta que se utilice para el desarrollo del proyecto de

DM.

Como conclusión de lo antes mencionado, en la presente investigación se utilizará la

metodología CRISP-DM. Esto tendrá una incidencia directa en la elección de la

herramienta a utilizar. Durante el desarrollo de la metodología se irá explicando en detalle

cada etapa de la misma.

El capítulo se ha organizado de la siguiente manera: en la sección 2 se describirá el

modelado de los flujos de minería, en la sección 3 se detallará la construcción del modelo,

en la sección 4 se indicarán comentarios y discusiones, la bibliografía se indicará al final,

luego del último capítulo.

Page 139: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…139

6. Modelado del Flujo de Minería

En este trabajo, para el modelado del flujo de minería, se han considerado las

siguientes etapas:

Habilitación de la base de datos para la minería.

Selección de la técnica de modelado.

Generación de clústeres.

6.1. Habilitación de la Base de Datos para la Minería

Antes de comenzar con el desarrollo de esta fase, cabe aclarar que para ejecutar

cualquier flujo de minería en IBM Business Intelligence, DB2 WareHouse Desing Studio,

se debe habilitar la base de datos para tal fin (IBM Academic Initiative, 2009) como se

puede ver en la (Figura 71).

Figura 71: Habilitación de la BD (fuente propia).

6.2. Selección de la Técnica de Modelado

En esta etapa se deben seleccionar las técnicas a utilizar en la MD. También se

describen los pasos de la construcción del modelo para cada técnica aplicada. Para

modelar cualquier técnica de MD se debe crear un Flujo de Minería (IBM Academic

Page 140: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…140

Initiative, 2009). Para esto se utilizó el software de IBM Business Intelligence,

particularmente, DB2 WareHouse Desing Studio.

En este caso se definió el Flujo de Minería sobre el proyecto creado en el capítulo

anterior. Esta herramienta, generalmente, requiere de los siguientes pasos para modelar un

Flujo de Minería, aunque existen técnicas más complejas que requieren otras etapas

intermedias.

Los pasos más comunes son:

Selección de la fuente de datos.

Incorporación del algoritmo de MD.

Extractor de calidad o visualizador del modelo.

Para el presente proyecto se han seleccionado tres técnicas, una supervisada y dos

no supervisadas, con el fin de establecer cuál es la más adecuada para este tipo de datos.

En la siguiente sección se describe en detalle la creación de estos dos modelos:

Generación de clústeres – no supervisado.

Reglas de asociación – no supervisado.

Árboles de decisión – supervisado.

6.2.1. Generación de Clusteres

El objetivo de esta técnica es descubrir conjuntos de tuplas que tengan

características similares (IBM Academic Initiative, 2009).

A continuación se describen los dos algoritmos para la generación de clústeres con los que

cuenta la herramienta:

Page 141: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…141

6.2.1.1. Algoritmo Demográfico

Permite realizar agrupamientos en BD de gran volumen, comparando la semejanza

entre los atributos de cada tupla. Los valores de los atributos pueden estar definidos en un

dominio numérico o categórico. Las agrupaciones se definen utilizando el criterio de

Condorcet. Este criterio es la suma de las semejanzas de las diferentes tuplas dentro de un

mismo clúster, menos la suma de todas las semejanzas de las tuplas existentes en los

diferentes clústeres. Si el valor clúster es uno, indica que los registros en los clusters son

idénticos y no hay tuplas con esas características fuera de cada cluster. El valor de

Condorcet mínimo usual es de 0.65 (Kubski, 2005).

6.2.1.2. Algoritmo Kohonen

Para agrupar las tuplas se utiliza una red neuronal de organización automática.

Primeramente se define un centro para cada cluster, y para cada tupla, la red neuronal

calcula el cluster más cercano utilizando la distancia euclídea. Para que este algoritmo

funcione, hay que normalizar los datos de entrada, de valores categóricos a valores

numéricos para que puedan ser presentados en la red neuronal. Debido a que en la fuente

de datos son predominantes los valores categóricos, que el algoritmo Kohonen presenta

inconvenientes en el tratamiento de este tipo de valores y realizar una normalización

comprometería la estandarización que se pretende logran sobre los procesos de MD, para

construir el modelo de generación de clústeres, se decide utilizar el algoritmo demográfico

(Kubski, 2005).

Habiéndose descripto las principales características del modelado del flujo de minería, se

detallara en la sección siguiente la construcción del modelo utilizado.

Page 142: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…142

7. Construcción del Modelo

En esta sección se describirá la construcción de los modelos utilizados:

Modelo de generación de clusters

Modelo de asociación

Clasificación con árboles de decisión

7.1. Modelo de Generación de Clusters

Para seleccionar la fuente de datos se debe incorporar al área de diseño de la

herramienta utilizada el elemento tabla fuente y seleccionar la tabla que se va a utilizar

para el proceso de MD. En la Figura 72 se puede observar cómo modelar la fuente de

datos utilizando la tabla ALUMNO descripta en el capítulo II.

Figura 72: Selección de la fuente de datos (fuente propia).

Luego se introduce al diseño un operador generador de clusters y se une su entrada

con la salida de la tabla fuente (Figura 73).

Page 143: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…143

Figura 73: Elemento generador de clusters (fuente propia).

Para finalizar la confección del modelo, sólo resta agregar al diseño el extractor de

calidad y conectar su entrada a la salida del modelo de minería del generador de clusters.

La salida del extractor de calidad debe conectarse a una tabla destino con la estructura

adecuada, en la cual se almacenarán los datos referentes a la calidad del modelo (Figura

74).

Figura 74: Extractor de calidad (fuente propia).

7.1.1. Parámetros del Modelo

En el elemento generador de clusters se pueden configurar varios parámetros

(IBM Academic Initiative, 2013). La modificación de cada uno de ellos provocará que el

resultado del modelo varíe (Figura 75 y Figura 76).

Page 144: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…144

Figura 75: Parámetros de minería para la generación de clusters (fuente propia).

Número máximo de clusters: especifica la cantidad máxima de clusters creados

durante el proceso de minería.

Parámetros opcionales: son opciones avanzadas para el operador de minería. La

componen llamadas a métodos de modeling separados por comas.

Algoritmo: especifica el algoritmo a utilizar. Se pueden configurar dos opciones:

Demográfico, principalmente para el tratamiento de datos categóricos y Kohonen (Redes

Neuronales), disponible solo para datos del tipo numérico.

Umbral de similitud: es un límite inferior para la similitud entre dos tuplas que

pertenecen al mismo cluster. Los valores que puede tomar se encuentran entre 0 y 1,

siendo:

0: completamente distintos.

1: iguales.

Page 145: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…145

Figura 76: Atributos para la generación de clusters (fuente propia).

7.2. Modelo de Asociación

El objetivo principal es descubrir relaciones entre dos sucesos aparentemente

independientes, estas se expresan en el conjunto de datos como condiciones atributo-valor

y deben estar presentes varias veces en ellos. La expresión tiene dos componentes, el

antecedente y el consecuente.

7.2.1. Construcción del Modelo

La construcción de un modelo de asociación es muy similar a la del modelo

generador de clusters. Luego de seleccionar la fuente de datos (el paso es el mismo que

para generación de clusters), se introduce al modelo un elemento asociación y este genera

un conjunto de reglas, de acuerdo a los parámetros establecidos (Figura 78) para la

generación de las mismas, lográndose su visualización mediante una representación

gráfica tabular. En la Figura 77 se puede observar el modelo de asociación terminado.

Page 146: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…146

Figura 77: Elemento generador de asociaciones (fuente propia).

Figura 78: Parámetros para la generación de asociaciones (fuente propia).

7.2.2. Parámetros del Modelo

Confianza de la regla: Fracción de las transacciones en las que aparece X que

también incluyen a Y; esto es, la confianza mide con qué frecuencia aparece Y en las

transacciones que incluyen X, siendo tanto X como Y itemsets.

Minimun confidence (%): reglas de asociación cuya confianza sea mayor o igual

que un umbral mínimo de confianza.

Soporte de la regla: Fracción de las transacciones que contiene tanto a X como a Y;

esto es, supp (XUY).

Minimun support (%): reglas de asociación cuyo soporte sea mayor o igual que un

umbral mínimo de soporte.

Page 147: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…147

7.3. Clasificación con Árboles de Decisión

La idea principal es realizar clasificaciones sobre los datos conocidos y así crear

modelos que luego puedan ser utilizados para predecir o clasificar valores nuevos o

desconocidos. Estos algoritmos de inducción permiten tener una muy buena comprensión

de cómo se clasifican los datos, representándolos a través de un árbol de decisión. Esta

técnica es una de las más utilizadas, ya que ofrece una fácil percepción de cómo está

estructurada la BD, y a su vez, el modelo generado, puede utilizarse para estructurar BD

aún no clasificadas.

7.3.1. Construcción del Modelo

La construcción de un modelo de clasificación es muy similar a la del modelo

generador de clusters. Luego de seleccionar la fuente de datos (el paso es el mismo que

para generación de clusters), se introduce al modelo un elemento pronosticador. Este

pronostica un valor de un atributo destino y crea un modelo de clasificación, el cual puede

representarse a través de un árbol de decisión. De la misma forma que se realizó con la

técnica anterior, la calidad del modelo puede medirse agregando al área de diseño el

elemento extractor de calidad. En la Figura 79 puede observarse el modelo de

clasificación terminado.

Page 148: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…148

Figura 79: Modelo de clasificación (fuente propia).

7.3.1.1. Parámetros del Modelo

En el elemento pronosticador, además de seleccionar el atributo a clasificar

(atributo destino) y el algoritmo de clasificación, podemos configurar varios parámetros

(IBM Academic Initiative, 2009), como se aprecian en las Figura 80 y Figura 81. La

modificación de cada uno de ellos provocará que el resultado del modelo varíe.

Figura 80: Parámetros de minería para la clasificación (fuente propia).

Columna de destino: aquí se debe especificar el atributo cuyos valores se desean

predecir.

Page 149: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…149

Parámetros opcionales: son opciones avanzadas para el operador de minería. La

componen llamadas a métodos de modeling separados por comas.

Algoritmo: especifica el algoritmo a utilizar para realizar la clasificación.

Se pueden elegir tres algoritmos, los cuales a su vez, poseen distintos parámetros:

Árbol: Pureza máxima: permite personalizar el árbol de decisión binario, es un

límite para detener la división de un nodo que ha alcanzado el valor de pureza

especificado. Se debe especificar un valor porcentual entre 0 y 100, cero (0) significa que

el algoritmo utilizará el valor por omisión, 100%.

Profundidad máxima: es un valor entero que representa el límite para detener la

división de los nodos cuando se alcanza la profundidad del árbol especificada. Cero (0)

representa que no existe límite para la profundidad del árbol.

Número mínimo de registros por nodo hoja: es un valor entero que representa el

límite para continuar con la división de nodos que hayan alcanzado el tamaño mínimo

especificado. Cero (0) indica que se utiliza el valor por omisión, 5 tuplas.

Naive Bayes: Umbral de probabilidad: especifica un valor, por lo general muy

pequeño, que es utilizado siempre que se encuentre una probabilidad de cero (0) en las

ecuaciones del modelo. El valor por omisión es de 0,001.

Regresión Logística: No posee parámetros.

Page 150: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…150

Figura 81: Propiedades de los atributos para la clasificación (fuente propia).

Note que el algoritmo de clasificación, regresión logística no pudo utilizarse ya

que, el campo de destino especificado no es un campo categórico de valor binario. El

algoritmo de regresión logística no puede manejar campos de destino que no sean

categóricos o que contengan más de dos valores válidos.

8. Discusiones y Comentarios

Los ejemplos anteriores sólo son una pequeña muestra de lo que se puede hacer

con la minería de datos enfocados a la docencia y educación: desde el descubrimiento

pedagógico, los sistemas de enseñanza basada en Web hasta análisis predictivo para

determinar el porcentaje de probabilidad de desertar que tiene un alumno, este último es

un tema de gran interés el cual trabajaremos durante el desarrollo de este trabajo de

investigación. Así, usando minería de datos podemos identificar y calcular el porcentaje de

probabilidad de que un alumno pueda desertar, desde que inicia su vida estudiantil en la

Page 151: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…151

institución. De esta manera se podrá proponer las estrategias necesarias con mucha

anticipación para disminuir el índice de deserción.

Page 152: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…152

CAPÍTULO V: ANÁLISIS DE LOS RESULTADOS

Resumen

La minería de datos orientada a la educación permite predecir determinado tipo de

factor o característica de un caso, fenómeno o situación. En este capítulo se describen los

modelos de minería utilizados y se comentan los principales resultados obtenidos. Se

consideran especialmente modelos de minería de agrupamiento, clasificación y asociación.

En todos los casos se busca determinar los patrones de éxito y de fracaso académico de los

alumnos, de esta manera, utilizando las técnicas que ofrece la minería, se puede predecir,

con un porcentaje muy alto de credibilidad, la probabilidad de desertar de cualquier

alumno con la ventaja de que se puede pronosticar en los primeros cuatrimestres. La

minería de datos en la educación no es un tópico nuevo y ha venido utilizándose

considerablemente en los últimos años.

Abstract

Data mining education oriented to predict certain type of factor or characteristic of

a case, phenomenon or situation. This chapter describes the used mining models and

discusses the main results. It is considered especially clustering mining models,

classification and association. In all cases is to determine the patterns of success and

academic failure of students, in this way, using mining techniques offered, you can

predict, with a high percentage of credibility, the probability of dropping any student with

the advantage that can be predicted in the first quarters. Data mining in education is not a

new topic and has been used considerably in recent years.

1. Evaluación de Resultados

En esta fase de la metodología, se evalúa en qué grado las distintas técnicas de

minería que se desarrollaron en el capítulo anterior responden a los objetivos de análisis

Page 153: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…153

planteados en este proyecto de investigación. Para lo cual el capítulo se ha organizado de

la siguiente manera: en la sección 2 se describirán los resultados obtenidos con

Clusterización (Segmentación), mientras que en la sección 3 los resultados obtenido con

generadores de asociación (Reglas de Asociación), en tanto en la sección 4 se analizarán

los resultados alcanzados con árboles de decisión (Predicción Clasificación), finalizando

en la sección 5 con algunos comentarios y discusiones.

2. Resultados Obtenidos con Clusterización

Para poder visualizar, interpretar y evaluar los resultados, basta con reemplazar en

el modelo obtenido en el capítulo anterior, al elemento Extractor de Calidad por un

elemento Visualizer (ver Figura 82).

Figura 82: Flujo de minería de cluster en Design Studio (fuente propia).

Se ejecutó el Flujo de Minería con la mejor configuración que se obtuvo en la etapa

de Evaluación del Modelo, esto es:

Nro. Clústeres: 10.

Umbral Similitud: 85%.

Atributos Activos y Suplementarios: Determinados por el Sistema.

Los resultados obtenidos se pueden observar en la Figura 83.

Hipótesis: ¿Influye el sexo en el uso de las NTICs por parte de los alumnos?

Page 154: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…154

La Figura 83 muestra el modelo de clusters generados con el visualizador. La vista

gráfica de la agrupación del visualizador muestra diez grupos. El grupo más grande

contiene 16% de la población total. El grupo más pequeño contiene 4.17% de la población

total. Los gráficos circulares muestran la distribución de los valores de las columnas de los

grupos en comparación con la distribución de la población total. En los gráficos circulares,

el círculo interior representa la población de un cluster. El círculo exterior representa la

población total.

Figura 83: Vista gráfica de los clusters (fuente propia).

En la Figura 84 se muestra la vista textual del clusters obtenido con el Design

Studio.

Page 155: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…155

Figura 84: Vista textual de cluster (fuente propia).

La Figura 85 muestra la calidad global del modelo. Esta es una medida de

homogeneidad de los clusters. Su escala va de cero (0) a uno (1).

Figura 85: Calidad global del modelo (fuente propia).

Una calidad global de 0,749 indica que, en promedio, las tuplas en un mismo

cluster tienen en un 74,9% el mismo valor en los atributos activos.

Page 156: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…156

Figura 86: Vista de detalle para cada cluster (fuente propia).

La Figura 86 muestra la vista de detalle para clusters donde se puede observar los

distintos valores reflejados en la frecuencia modal en forma porcentual.

Figura 87: Vista gráfica cluster 3, género del alumno (fuente propia).

En la Figura 87 se muestra el cluster 3 que representa el 16% de la población total,

tiene predominantemente alumnos masculinos, dicho cluster está representado

gráficamente por el círculo interior, el círculo exterior representa la población total.

Page 157: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…157

Figura 88: Vista gráfica cluster 3, situación final del alumno (fuente propia).

En la Figura 88 se muestra el cluster 3 que tiene predominantemente alumnos con

una situación final de 6, nota con la cual aprueban la asignatura. El círculo interior

representa la población de un cluster en este caso particular el 16% de la población, el

círculo exterior representa la población total.

Figura 89: Vista gráfica cluster 3, estado civil alumno (fuente propia).

En la Figura 89 se muestra el cluster 3 que tiene predominantemente alumnos con

un estado civil soltero.

Page 158: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…158

Figura 90: Vista gráfica cluster 3, ciudad de nacimiento del alumno (fuente propia).

El la Figura 90 se muestra el cluster 3 que tiene predominantemente alumnos cuya

ciudad de origen es 84% Curuzú Cuatiá, del 16% del cluster.

Figura 91 Vista gráfica cluster 3, provincia de nacimiento del alumno (fuente propia).

En la Figura 91 se muestra el cluster 3 que tiene predominantemente alumnos cuya

provincia de origen es 96% Corrientes, del total del cluster.

Page 159: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…159

Figura 92: Vista gráfica cluster 3, utilización de las TIC (fuente propia).

En la Figura 92 el cluster 3 muestra que para la población masculina (predominante

en dicho cluster) las TICs facilitan el proceso de enseñanza de la asignatura en un 58%,

mientras que un 27% visualiza la importancia de la misma en su aplicación al campo

profesional.

Figura 93: Vista gráfica cluster 7, género del alumno (fuente propia).

En la Figura 93 se muestra el cluster 7 que tiene totalmente alumnos femeninos. El

círculo interior representa la población de un cluster, el círculo exterior representa la

población total.

Page 160: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…160

Figura 94: Vista gráfica cluster 7, situación final del alumno (fuente propia).

El la Figura 94 el cluster 7 correspondiente al 12% de la población total, muestra

alumnos femeninos con una situación final de 7, 8 y 9, notas que superan las del mínimo

de aprobación de la asignatura en un 21%; en esta población femenina se puede observar

que si bien no tienen la regularidad del 6, nota común en la población masculina, las

mujeres en su dedicación al estudio obtienen mejores calificaciones.

Figura 95: Vista gráfica cluster 7, estado civil del alumno (fuente propia).

El la Figura 95 se muestra el cluster 7 que tiene totalmente alumnos con un estado

civil soltero.

Page 161: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…161

Figura 96: Vista gráfica cluster 7, ciudad de nacimiento del alumno (fuente propia).

El la Figura 96 se muestra el cluster 7 que tiene predominantemente alumnos cuya

ciudad de origen es 86% Curuzú Cuatiá.

Figura 97: Vista gráfica cluster 7, provincia de nacimiento del alumno (fuente propia).

En la Figura 97 se muestra cluster 7 que tiene predominantemente alumnos

femeninos cuya provincia de origen es 100% Corrientes.

Page 162: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…162

Figura 98: Vista gráfica cluster 7, utilización de las TIC (fuente propia).

En la Figura 98 el cluster 7 muestra que para la población femenina (predominante

en dicho cluster) las TICs es una realidad en un 27%, mientras que un 64% opina que la

importancia de las mismas radica en su aplicación al campo profesional.

Hipótesis: ¿Influye el género en el uso de las TICs por parte de los alumnos?

El género se presenta como influyente desde la perspectiva en que el grupo

femenino lo define como importante en su futuro desempeño profesional, por lo que se

puede decir además que hay un actitud más definida en el grupo, en cuanto a la

expectativa de finalización de sus estudios; por otra parte el grupo masculino si bien más

regular en cuanto a notas (con relación a su situación final) muestra una actitud más

relacionada o vinculada con la utilización en lo inmediato de estas herramientas.

Hipótesis: ¿Influye el nivel educacional de los padres en el uso de las TICs por parte de los

alumnos?

Page 163: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…163

Figura 99: Flujo de minería de cluster en Design Studio (fuente propia).

La Figura 99 muestra el modelo de clusters generado con el Design Studio. La

vista gráfica de la agrupación del visualizador (Figura 100) muestra diez grupos. El grupo

más grande contiene 31% de la población total. El grupo más pequeño contiene 3.84% de

la población total. Los gráficos circulares muestran la distribución de los valores de las

columnas de los grupos en comparación con la distribución de la población total. En los

gráficos circulares, el círculo interior representa la población de un cluster. El círculo

exterior representa la población total.

Figura 100: Vista gráfica de los cluster hallados (fuente propia).

Page 164: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…164

Figura 101: Detalles para clusters (fuente propia).

La Figura 101 muestra la vista de detalle para clusters donde se puede observar los

distintos valores reflejados en la frecuencia modal en forma porcentual.

Figura 102: Vista gráfica de escolarización de los padres (fuente propia).

Como se puede observar en la Figura 102 el cluster 5, correspondiente al 31% de la

población total, indica que el 23% de los padres de los alumnos tienen escuela primaria

completa, en tanto que el 14% tiene escuela secundaria completa.

Page 165: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…165

Figura 103: Vista gráfica de la utilización de las TICs (fuente propia).

En la Figura 103 el cluster 5 correspondiente al 31% de la población total,

vinculado al grado de utilización de las TICs por parte de los alumnos, se puede observar

que la respuesta mayoritaria define el uso de las mismas como facilitadoras del proceso de

enseñanza (56%), otro grupo considera que serán imprescindibles en el ejercicio

profesional (28%), lo que permite aseverar a priori un alto grado de aceptación en relación

al uso de estas tecnologías (84%).

Figura 104: Vista gráfica cluster 3, escolarización de los padres (fuente propia).

En la Figura 104 el cluster 3, correspondiente al 13% de la población total, muestra

que el grado de escolarización de los padres es del 100% de escolaridad secundaria

completa.

Page 166: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…166

Figura 105: Vista gráfica cluster 3, utilización de las TICs (fuente propia).

En la Figura 105 el cluster 3, correspondiente al 13% de la población total,

vinculado al grado de utilización de las TICs por parte de los alumnos, se puede observar

una respuesta contundente en relación a la importancia que el alumno asigna a la

utilización de estas herramientas (98%), vinculándolas fundamentalmente a su proceso de

formación académica.

Figura 106: Vista gráfica cluster 2, escolarización de los padres (fuente propia).

En la Figura 106 el cluster 2, correspondiente al 11.39% de la población total, se

observa que el 95% de los padres de los alumnos tienen escuela primaria completa, en

tanto que el 3% tienen estudios universitarios completos y un 2% estudios superiores no

universitarios completos.

Page 167: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…167

Figura 107: Vista gráfica utilización de las TICs (fuente propia).

En la Figura 107 el cluster 2, correspondiente al 11.39% de la población total,

indica que el 59% de los alumnos opinan que las TICs facilitan el proceso de enseñanza,

en tanto que el 26% expresa que serán imprescindibles para el ejercicio profesional.

Del análisis de los gráficos anteriores se puede extraer a modo de comentario que a

medida que mejora el grado de escolaridad de los padres, esto influye sin ninguna duda en

la opinión que tiene el alumno con respecto a la utilización de estas tecnologías.

Hipótesis: ¿Influye el tipo de formación obtenido en la escuela secundaria en el uso de las

TICs por parte de los alumnos?

Figura 108: Flujo de minería de cluster en Design Studio (fuente propia).

La Figura 108 muestra el modelo de clusters generados con el Design Studio. La

vista gráfica de la agrupación del visualizador (Figura 109) muestra diez grupos. El grupo

Page 168: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…168

más grande contiene 38% de la población total. El grupo más pequeño contiene 3.36% de

la población total. Los gráficos circulares muestran la distribución de los valores de las

columnas de los grupos en comparación con la distribución de la población total. En los

gráficos circulares, el círculo interior representa la población de un cluster. El círculo

exterior representa la población total.

Figura 109: Modelo de clusters generado con el visualizador (fuente propia).

Figura 110: Vista gráfica cluster 6, titulación del alumno (fuente propia).

Page 169: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…169

En la Figura 110 el cluster 6, correspondiente al 38% de la población total, se

observa que el perfil de titulación predominante es el relacionado con la gestión

administrativa de las organizaciones (35%).

Figura 111: Vista grafica cluster 6, utilización de las TIC (fuente propia).

En la Figura 111 el cluster 6, correspondiente al 38% de la población total,

respecto a de la opinión que tiene el alumno con relación a la utilización de las TICs, se

puede observar que el 100% definen a estas herramientas como facilitadoras del proceso

de enseñanza.

A priori se puede afirmar que sí influye el tipo de titulación obtenida por el alumno al

finalizar sus estudios secundarios, dado que el alumno cuyo perfil de titulación está

orientado a la gestión administrativa de las empresas, tiene una mejor opinión con relación

a la utilización de estas herramientas.

Hipótesis: ¿Influye el hecho de que los alumnos trabajen además de estudiar en el uso de

las TICs?

La Figura 112 muestra el modelo de clusters generados con el visualizador. La

vista gráfica de la agrupación del visualizador muestra diez grupos. El grupo más grande

contiene 18.61% de la población total. El grupo más pequeño contiene 5.12% de la

Page 170: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…170

población total. Los gráficos circulares muestran la distribución de los valores de las

columnas de los grupos en comparación con la distribución de la población total. En los

gráficos circulares, el círculo interior representa la población de un cluster. El círculo

exterior representa la población total.

Figura 112: Vista gráfica de los cluster hallados (fuente propia).

Figura 113: Vista gráfica cluster 2, situación laboral del alumno (fuente propia).

Page 171: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…171

Como se puede observar en la Figura 113, el cluster 2, correspondiente al 18.61%

de la población total, respecto de la situación laboral del alumno, muestra que el 100% de

esa población no trabaja.

Figura 114: Vista gráfica de la utilización de las TICs (fuente propia).

Como se puede observar en la Figura 114, el cluster 2, correspondiente al 18.61%

de la población total, respecto de la utilización de las TICs, muestra que el 100% de esa

población coinciden en que facilitan el proceso de enseñanza.

Figura 115: Vista gráfica relación horas trabajada por el alumno (fuente propia).

Como se puede observar en la Figura 115, el cluster 9, correspondiente al 8.54% de

la población total, respecto de la cantidad de horas trabajadas por el alumno en la semana,

Page 172: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…172

se puede observar que el 100% de dicha población se desempeña en tareas que insumen un

promedio de más de 5 horas reloj por día.

Figura 116: Vista gráfica cluster 9, de la utilización de las TICs (fuente propia).

Como se puede observar en la Figura 116, el cluster 9, correspondiente al 8.54% de

la población total, referido a la situación de la utilización de las TICs por parte de los

alumnos, se puede decir que si bien la importancia asignada al uso de estas herramientas

en cuanto a su utilización no indica claramente que existe una influencia en cuanto al

alumno que trabaja y el que no lo hace, sin embargo se puede señalar que hay una opinión

más concreta en aquel alumno que trabaja y estudia, en base al hecho de que el alumno

que trabaja y estudia, manifiesta además su interés por la utilización de estas herramientas

en el campo profesional.

Hipótesis: ¿Influye la actitud general hacia el estudio en el uso de las TICs por parte de los

alumnos?

Page 173: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…173

Figura 117: Flujo de minería de cluster en Design Studio (fuente propia).

La Figura 117 muestra el modelo de clusters generados con el Design Studio La

vista gráfica de la agrupación del visualizador (Figura 118) muestra diez grupos. El grupo

más grande contiene 19.72% de la población total. El grupo más pequeño contiene 5.45%

de la población total. Los gráficos circulares muestran la distribución de los valores de las

columnas de los grupos en comparación con la distribución de la población total. En los

gráficos circulares, el círculo interior representa la población de un cluster. El círculo

exterior representa la población total.

Figura 118: Vista gráfica de los cluster hallados (fuente propia).

Page 174: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…174

En la Figura 119 se puede observar la vista textual del cluster, que indica que el

cluster 9 tiene predominantemente alumnos que dedican más de 10 y hasta 20 horas

inclusive al estudio, que además con relación a la utilización de las TICs opinan que

facilitan el proceso de enseñanza y aprendizaje y que la importancia que asignan al estudio

es más que a la diversión.

Figura 119: Vista textual de cluster (fuente propia).

Figura 120: Calidad global del modelo (fuente propia).

En la Figura 120, una calidad global de 0,857 indica que, en promedio, las tuplas

en un mismo cluster tienen el mismo valor en los atributos activos en un 85,7%.

Figura 121: Vista de detalle para cluster (fuente propia).

Page 175: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…175

En la Figura 121 se puede observar la vista de detalle para el cluster 9, que indica

que el 48.43% de los alumnos dedican más de 10 y hasta 20 horas semanales inclusive al

estudio; por otra parte se observa que para el 72.96% la importancia que asignan al estudio

es más que a la diversión, en tanto que un 55.83% opinan que las TICs facilitan el proceso

de enseñanza y aprendizaje.

Figura 122: Vista gráfica cluster 9, horas dedicadas al estudio (fuente propia).

Como se puede observar en la Figura 122, el cluster 9, correspondiente al 19.72%

de la población total, respecto de la cantidad de horas dedicadas al estudio por el alumno,

se puede observar que el 100% de dicha población manifiesta una dedicación entre 10 y 20

horas.

Page 176: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…176

Figura 123: Vista gráfica cluster 9, importancia asignada al estudio (fuente propia).

Como se puede observar en la Figura 123, el cluster 9, correspondiente al 19.72%

de la población total, respecto de la importancia que el alumno asigna al estudio, se puede

observar que el 100% de dicha población manifiesta darle una importancia mayor que a la

diversión.

Figura 124: Vista gráfica cluster 9, utilización de las TICs (fuente propia).

Como se puede observar en la Figura 124, el cluster 9, correspondiente al 19.72%

de la población total, respecto de la utilización de las TICs por parte del alumno, se puede

observar que el 100% de dicha población manifiesta que facilitan el proceso de enseñanza.

Page 177: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…177

Figura 125: Vista gráfica cluster 4, horas dedicadas al estudio (fuente propia).

Como se puede observar en la Figura 125, el cluster 4, correspondiente al 10.14%

de la población total, respecto de la cantidad de horas semanales dedicadas al estudio por

el alumno, se puede observar que el 100% de dicha población manifiesta una dedicación

entre 10 y 20 horas.

Figura 126: Vista gráfica cluster 4, importancia asignada al estudio (fuente propia).

Como se puede observar en la Figura 126, el cluster 4, correspondiente al 10.14%

de la población total, respecto de la importancia que el alumno asigna al estudio, se puede

observar que el 98% de dicha población manifiesta darle una importancia mayor que a la

diversión, en tanto que el 1% más que a la familia.

Page 178: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…178

Figura 127: Vista gráfica cluster 4, utilización de las TICs (fuente propia).

Como se puede observar en la Figura 127, el cluster 4, correspondiente al 10.14%

de la población total, respecto de la utilización de las TICs por parte del alumno, se puede

observar que el 100% de dicha población manifiesta que serán imprescindibles para el

ejercicio profesional.

Figura 128: Vista gráfica cluster 1, horas dedicadas al estudio (fuente propia).

Como se puede observar en la Figura 128, el cluster 1, correspondiente al 5.45% de

la población total, respecto de la cantidad de horas semanales dedicadas al estudio por el

alumno, se puede observar que el 88% de dicha población manifiesta una dedicación

mayor a 20 horas, en tanto que un 2% hasta 10 horas inclusive.

Page 179: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…179

Figura 129: Vista gráfica cluster 1, importancia asignada al estudio (fuente propia).

Como se puede observar en la Figura 129, el cluster 1, correspondiente al 5.45% de

la población total, respecto de la importancia que el alumno asigna al estudio, el 77% de

dicha población opina que es más importante que la diversión, por otra parte un 1% más

que la familia y el 22% más que el trabajo.

Figura 130: Vista gráfica cluster 1, utilización de las TICs (fuente propia).

En la Figura 130, el cluster 1, correspondiente al 5.45% de la población total,

respecto de la utilización de las TICs por parte del alumno, se observa que el 70% de dicha

población opina que facilitan el proceso de enseñanza, por otra parte el 15% opina que

Page 180: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…180

serán imprescindible para el ejercicio profesional y un 11% opina que son una realidad en

la actualidad.

Teniendo en cuenta lo precedentemente señalado, se puede observar que el grado

de dedicación e importancia asignada por el alumno a sus estudios tiene una relación

directa con la actitud del mismo en cuanto a la utilización de las TICs.

3. Resultados Obtenido con Generadores de Asociación

3.1. Modelo 1

Se creó el flujo de minería DW_Encuesta.IM_Assoc_014. Las tablas ALUMNO y

UTIL_TICS a analizar contienen todos los datos relacionados con los alumnos de la

institución y la opinión que los mismos tienen con relación a la utilización de las TICs

(Figura 131). Las asociaciones se buscaron para cada alumno, por lo que se selecciona el

campo Situación Final. La vista que se obtiene al ejecutar el flujo muestra la pestaña

“Reglas”, esta es una vista de tabla que muestra una regla en cada fila con medidas sobre

pertinencia y calidad en la regla. En la vista gráfica del escenario considerado, los

diferentes atributos se representan como nodos y las asociaciones entre atributos como

flechas. El color y el ancho de las reglas muestran la pertinencia y calidad de las normas,

como se indica en la leyenda debajo del gráfico.

Page 181: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…181

Figura 131: Flujo de minería de asociaciones en Design Studio (fuente propia).

El objetivo de la función de la minería de asociaciones es encontrar los elementos

que se asocian consistentemente con los demás de una manera significativa, para

responder a la pregunta: si hay ciertos elementos presentes en una transacción, ¿qué otros

elemento o elementos son susceptibles de estar presentes en la misma transacción?. Las

relaciones descubiertas por la función de la minería de asociaciones se expresan como

reglas de asociación. En una aplicación típica la función de la minería encuentra

asociaciones y también asigna probabilidades. La primera parte de una regla de asociación

se llama el cuerpo de la regla y la segunda parte se llama la cabeza de la regla.

Las reglas de asociación tienen los siguientes atributos:

Confianza: El valor de confianza representa la validez de la norma. Una regla tiene

el 70% de confianza si en el 70% de los casos en que el cuerpo de la regla está presente en

un grupo, la cabeza de la regla también está presente en el grupo.

Soporte: El valor para el soporte se expresa como un porcentaje del número total

de registros o transacciones.

Elevación: El valor de elevación indica hasta qué punto el valor de confianza es

más alto de lo esperado. Se define como el cociente del valor de confianza y el valor de

Page 182: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…182

soporte de la cabeza de la regla. El valor de soporte de la cabeza de regla puede ser

considerado como el valor esperado para la confianza. Indica la frecuencia relativa de la

cabeza de la regla en todo el conjunto de transacciones.

Figura 132: Visualización de las reglas del modelo (fuente propia).

Se generaron 112 reglas. En la Figura 132, el ID 104 nos dice que si el estado civil

del alumno es soltero, entonces opinará que la utilización de las TIC facilitarán el proceso

de enseñanza y tiene un 55.82% de probabilidad que suceda.

El ID 85 muestra que si la situación final del alumno es 6, entonces su estado civil

es soltero y tiene un 86% de probabilidad que suceda.

Page 183: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…183

Figura 133: Visualización de las reglas del modelo (fuente propia).

En la Figura 133, el ID 81 nos dice que si el género del alumno es masculino

entonces opinará que la utilización de las TICs facilitarán el proceso de enseñanza y tiene

una probabilidad del 55.82% que suceda.

3.2. Modelo 2

Se creó el flujo de minería DW_Encuesta.IM_Assoc_02. La tabla ENCUESTA a

analizar contiene todos los datos relacionados con los alumnos de la institución (Figura

134). Las asociaciones se buscaron para cada alumno, por lo que se selecciona el campo

Situación Final. La vista que se obtiene al ejecutar el flujo muestra la pestaña “Reglas”,

esta es una vista de tabla que muestra una regla en cada fila con medidas sobre pertinencia

y calidad en la regla. En la vista gráfica del escenario considerado, los diferentes atributos

se representan como nodos y las asociaciones entre atributos como flechas. El color y el

ancho de las reglas muestran la pertinencia y calidad de las normas, como se indica en la

leyenda debajo del gráfico.

Page 184: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…184

Figura 134: Flujo de minería de asociaciones en Design Studio (fuente propia).

Figura 135: Visualización de las reglas del modelo (fuente propia).

En la Figura 135 se visualizan las siguientes reglas:

El ID 99 expresa que si el género del alumno es masculino, lo cual ocurre

en un 46%, implica un estado civil soltero en un 91% de los casos.

El ID 93 muestra que si el género del alumno es femenino, lo cual ocurre en

un 42%, implica un estado civil soltero en un 85% de los casos.

Page 185: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…185

El ID 85 indica que si la situación final del alumno es 6, lo cual ocurre en

un 31%, implica un estado civil soltero en un 86% de los casos.

Figura 136: Visualización de las reglas del modelo (fuente propia).

En la Figura 136 se muestran las siguientes reglas:

El ID 80 expresa que si el género del alumno es femenino, lo cual ocurre en

un 28%, implica que opinará que las TICs facilitan el proceso de enseñanza en un

56% de los casos.

El ID 75 indica que si el alumno opina que la utilización de las TICs será

imprescindible para el ejercicio profesional, lo cual ocurre en un 25%, implica que

su estado civil es soltero en un 88% de los casos.

El ID 70 expresa que si el sexo del alumno es masculino, lo cual ocurre en

un 19%, implica que su situación final será de 6 en un 37.5% de los casos.

El ID 68 muestra que si el sexo del alumno es femenino, lo cual ocurre en

un 17%, implica que su situación final será de 6 en un 35.44% de los casos.

Page 186: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…186

El ID 69 expresa que si la situación final del alumno es 6, lo cual ocurre en

un 19%, implica que el género del alumno será masculino en un 52% de los casos.

El ID 62 indica que si el alumno opina que la utilización de las TICs será

imprescindible para el ejercicio profesional, lo cual ocurre en un 14%, implica que

el género del alumno es femenino en un 49% de los casos.

3.3. Modelo 3

Se creó el flujo de minería DW_Encuesta.IM_Assoc_08. Las tablas ALUMNO,

UTIL_TICS y HORAS_EST a analizar contienen todos los datos relacionados con los

alumnos de la institución y la opinión que los mismos tienen con relación a la utilización

de las TICs y las horas dedicadas al estudio (Figura 137). Las asociaciones se buscaran

para cada alumno, por lo que se selecciona el campo Situación Final. La vista que se

obtiene al ejecutar el flujo muestra la pestaña “Reglas”, esta es una vista de tabla que

muestra una regla en cada fila con medidas sobre pertinencia y calidad en la regla. En la

vista gráfica de nuestro escenario, los diferentes atributos se representan como nodos y las

asociaciones entre atributos están representadas como flechas. El color y el ancho de las

reglas muestran la pertinencia y calidad de las normas, como se indica en la leyenda

debajo del gráfico.

Page 187: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…187

Figura 137: Flujo de minería de asociaciones en Design Studio (fuente propia).

Figura 138: Visualización de las reglas del modelo (fuente propia).

En la Figura 138 se observan las siguientes reglas:

El ID 1 si la opinión del alumno es que la utilización de las TICs facilitan el

proceso de enseñanza y las horas dedicadas al estudio son hasta 10 horas inclusive,

lo que ocurre en un 12.54%, implica que el género del alumno será masculino en el

50.31% de los casos.

Page 188: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…188

El ID 7 si el estado civil es soltero y el alumno opina que la utilización de

las TICs será imprescindible para el desempeño profesional, lo que ocurre en un

13%, implica que el género del alumno será masculino en el 52% de los casos.

El ID 9 si la opinión del alumno es que la utilización de las TICs facilitan el

proceso de enseñanza y las horas dedicadas al estudio son más de 10 y hasta 20

inclusive, lo que ocurre en un 13.43%, implica que el género del alumno será

femenino en el 49.68% de los casos.

El ID 13 si la opinión del alumno es que la utilización de las TICs facilitan

el proceso de enseñanza y las horas dedicadas al estudio son más de 10 y hasta 20

inclusive, lo que ocurre en un 13.60%, implica que el género del alumno será

masculino en el 50.31% de los casos.

El ID 24 si el género del alumno es femenino y la situación final es 6, lo

que ocurre en un 14.46%, implica que el estado civil del alumno será soltero en el

82% de los casos.

El ID 27 si la situación final del alumno es 6 y las horas dedicadas al

estudio son más de 10 y hasta 20 inclusive, lo que ocurre en un 15%, implica que

el estado civil del alumno es soltero en el 86% de los casos.

Page 189: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…189

Figura 139: Visualización de las reglas del modelo (fuente propia).

En la Figura 139 se muestran las siguientes reglas:

El ID 35 si la situación final es 6 y es masculino, lo que ocurre en un 17%,

implica que el estado civil del alumno será soltero en el 90% de los casos.

El ID 43 si es femenino y dedica hasta 10 horas al estudio inclusive, lo que

ocurre en un 19%, implica que el estado civil del alumno será soltero en el 85% de

los casos.

Page 190: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…190

Figura 140: Visualización de las reglas del modelo (fuente propia).

En la Figura 140 se pueden observar las siguientes reglas:

El ID 57 si es soltero y las horas dedicadas al estudio son hasta 10

inclusive, lo que ocurre en un 22% de los casos, implica que la opinión sobre la

utilización de las TICs será que facilitan el proceso de enseñanza en el 56% de los

casos.

El ID 69 si la utilización de las TICs facilita el proceso de enseñanza y las

horas dedicadas al estudio son más de 10 y hasta 20 inclusive, lo que ocurre en un

24%, implica que el estado civil del alumno será soltero en el 88% de los casos.

Page 191: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…191

Figura 141: Visualización de las reglas del modelo (fuente propia).

Finalmente en la Figura 141 se muestra la siguiente regla:

El ID 80 si la utilización de las TICs facilita el proceso de enseñanza y el

género del alumno es masculino, lo que ocurre en un 25.63%, implica que el estado

civil del alumno será soltero en el 91.25% de los casos.

4. Resultados Obtenido con Árboles de Decisión

Del mismo modo que se realizó en la sección anterior, para poder visualizar,

interpretar y evaluar los resultados, hay que reemplazar en el modelo obtenido en el

capítulo anterior Figura 142, al elemento Extractor de Calidad por un elemento Visualizer.

DW_Encuesta.IM_PREDICTION_020.

Figura 142: Flujo de minería de clasificación en Design Studio (fuente propia).

Page 192: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…192

El Flujo de Minería para este algoritmo se ejecutó con la mejor configuración que se

obtuvo en la etapa de Evaluación del Modelo, que es la que ofrece la herramienta por

defecto, esto es:

Pureza máxima: 0.

Profundidad máxima: 0.

Número mínimo de registros por nodo hoja: 0.

Atributos Activos y Suplementarios: Determinados por el Sistema.

Las clases que el algoritmo ha podido predecir se pueden observar en la Figura

143.

Figura 143: Clases predichas por el algoritmo árbol (fuente propia).

Las Tablas 23, Tabla 24, Tabla 25, Tabla 26, Tabla 27, Tabla 28, Tabla 29, Tabla

30 y Tabla 31 describen, en general, cómo se caracterizan las clases correspondientes a los

alumnos con alto rendimiento académico.

Page 193: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…193

Clase Atributo Valor predominante

“7”

15.09% de la población

Situación final. 7

Primer parcial. 6 – 8 (75%)

Segundo parcial. 6 - 8 (75%)

Provincia. Corrientes (75%)

Tipo de residencia. Con familiares (88%)

Situación laboral alumno. No trabaja (92%)

Tabla 23: Clase 7 alumnos de alto rendimiento académico

Page 194: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…194

Clase Atributo Valor predominante

“7”

15.09% de la población

Horas semanales trabajadas. Hasta 20 inclusive (8%)

Relación con la carrera

elegida.

Parcial (54%)

Estudios cursados padre. Esc. Primaria Completa (33%)

Esc. Secundaria Completa

(25%)

Situación laboral padre. Ocupado (75%)

Estudios cursados madre. Esc. Primaria Completa (21%)

Esc. Secundaria Completa

(42%)

Situación laboral madre. No trabaja (58%)

Ocupado (33%)

Género. Masculino (58%)

Prioridad otorgada al estudio. Más que a la diversión (71%)

Nro. Horas semanales

dedicadas al estudio.

Hasta 10 horas (50%)

Tabla 24: Clase 7 alumnos de alto rendimiento académico

Page 195: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…195

Clase Atributo Valor predominante

“7”

15.09% de la población

Estudia para. Aprobar la asignatura (38%)

Aprender a aprender (28%)

Utilización de las TICs. Facilitan el proceso de

enseñanza (50%)

Indispensables en el ejercicio

profesional (21%)

Tabla 25: Clase 7 alumnos de alto rendimiento académico

Page 196: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…196

Clase Atributo Valor predominante

“8”

3.77% de la población

Situación final. 8

Primer parcial. 7.6 – 8.4 (100%)

Segundo parcial. 7.6 – 8.4 (100%)

Provincia. Corrientes (100%)

Tipo de residencia. Con familiares (100%)

Situación laboral alumno. No trabaja (83%)

Horas semanales trabajadas. Hasta 20 inclusive (17%)

Relación con la carrera

elegida.

Parcial (67%)

Estudios cursados padre. Esc. Primaria Completa (17%)

Esc. Secundaria Completa

(33%)

Universitario Completo (17%)

Situación laboral padre. Ocupado (50%)

Estudios cursados madre. Esc. Primaria Completa (50%)

Esc. Secundaria Completa

(17%)

Universitario Completo (17%)

Situación laboral madre. Ocupado (83%)

Género. Masculino (83%)

Prioridad otorgada al estudio. Más que a la diversión (83%)

Nro. Horas semanales

dedicadas al estudio.

Más de 10 y hasta 20 inclusive

(50%)

Tabla 26: Clase 8 alumnos de alto rendimiento académico

Page 197: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…197

Clase Atributo Valor predominante

“8”

3.77% de la población

Estudia para. Aprender íntegramente y

aprobar (50%)

Aprender a aprender (33%)

Utilización de las TICs. Facilitan el proceso de

enseñanza (100%)

Estado civil. Soltero (100%)

Tabla 27: Clase 8 alumnos de alto rendimiento académico

Page 198: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…198

Clase Atributo Valor predominante

“9”

4.4% de la población.

Situación final. 9

Primer parcial. 8.4 – 9.2 (71%)

7.6 – 8.4 (29%)

Segundo parcial. 8.4 – 9.2 (71%)

9.2 –10 (29%)

Provincia. Corrientes (100%)

Tipo de residencia. Con familiares (86%)

En forma independiente (14%)

Situación laboral alumno. No trabaja (57%)

Ocupado (43%)

Horas semanales trabajadas. De 21 a 35 inclusive (14%)

De 36 o más (14%)

Relación con la carrera

elegida.

Parcial (67%)

Total (43%)

Estudios cursados padre. Esc. Primaria Completa (29%)

Esc. Secundaria Completa

(43%)

Universitario Completo (14%)

Situación laboral padre. Ocupado (86%)

Tabla 28: Clase 9 alumnos de alto rendimiento académico

Page 199: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…199

Clase Atributo Valor predominante

“9”

4.4% de la población.

Estudios cursados madre. Esc. Primaria Completa (14%)

Esc. Secundaria Completa

(29%)

Universitario Completo (43%)

Situación laboral madre. Ocupado (57%)

Género. Masculino (57%)

Prioridad otorgada al estudio. Más que a la diversión (57%)

Más que al trabajo (43%)

Nro. Horas semanales

dedicadas al estudio.

Más de 10 y hasta 20 inclusive

(71%)

Estudia para. Aprender íntegramente y

aprobar (43%)

Aprender a aprender (29%)

Utilización de las TICs. Facilitan el proceso de

enseñanza (43%)

Son indispensables

desempeño profesional (43%)

Estado civil. Soltero (86%)

Casado (14%)

Tabla 29: Clase 9 alumnos de alto rendimiento académico

Page 200: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…200

Clase Atributo Valor predominante

“10”

2.52% de la población

Situación final. 10

Primer parcial. 9.2 – 10 (100%)

Segundo parcial. 9.2 – 10 (100%)

Provincia. Corrientes (100%)

Tipo de residencia. Con familiares (75%)

En forma independiente (25%)

Situación laboral alumno. No trabaja (100%)

Horas semanales trabajadas.

Relación con la carrera

elegida.

Estudios cursados padre. Esc. Primaria Completa (36%)

Esc. Secundaria Completa

(50%)

Situación laboral padre. Ocupado (75%)

Estudios cursados madre. Esc. Primaria Completa (45%)

Esc. Secundaria Completa

(50%)

Situación laboral madre. Ocupado (50%)

Tabla 30: Clase 10 alumnos de alto rendimiento académico

Page 201: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…201

Clase Atributo Valor predominante

“10”

2.52% de la población

Género. Masculino (100%)

Prioridad otorgada al estudio. Más que a la diversión (75%)

Nro. Horas semanales

dedicadas al estudio.

Más de 10 y Hasta 20 inclusive

(75%)

Estudia para. Aprender a aprender (75%)

Utilización de las TICs. Imprescindibles en el ejercicio

profesional (75%)

Estado civil. Soltero (75%)

Casado (25%)

Tabla 31: Clase 10 alumnos de alto rendimiento académico

Las Tabla 32 y Tabla 33 describen, en general, cómo está caracterizada la clase

correspondiente a los alumnos con un rendimiento académico medio.

Clase Atributo Valor predominante

“6”

36.48% de la población

Situación final. 6

Primer parcial. 6 – 7 (95%)

Segundo parcial. 6 - 7 (86%)

Provincia. Corrientes (95%)

Tipo de residencia. Con familiares (83%)

En forma independiente (16%)

Tabla 32: Clase 6 alumnos con un rendimiento académico medio.

Page 202: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…202

Clase Atributo Valor predominante

“6”

36.48% de la

población

Situación laboral alumno. No trabaja (72%)

Horas semanales trabajadas. Hasta 20 inclusive (21%)

Relación con la carrera elegida. Parcial (45%)

Total (31%)

Estudios cursados del padre. Esc. Primaria Completa (36%)

Esc. Secundaria Completa (29%)

Situación laboral del padre. Ocupado (59%)

Estudios cursados de la madre. Esc. Primaria Completa (45%)

Esc. Secundaria Completa (24%)

Situación laboral de la madre. No trabaja (60%)

Género. Masculino (52%)

Prioridad otorgada al estudio. Más que a la diversión (72%)

Nro. Horas semanales dedicadas al

estudio.

Más de 10 y Hasta 20 inclusive

(55%)

Estudia para. Aprobar la asignatura (47%)

Aprender a aprender (28%)

Utilización de las TICs. Facilitan el proceso de enseñanza

(64%)

Imprescindibles en el ejercicio

profesional (20%)

Estado civil. Soltero (86%)

Casado (12%)

Tabla 33: Clase 6 alumnos con un rendimiento académico medio.

Las Tabla 34, Tabla 35, Tabla 36, Tabla 37, Tabla 38 y Tabla 39 describen, en

general, cómo se caracterizan las clases correspondientes a los alumnos con un bajo

rendimiento académico.

Page 203: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…203

Clase Atributo Valor predominante

“3”

7.55% de la población

Situación final. 3

Nota primer parcial. 2.8 – 3.6 (83%)

Nota segundo parcial. 2.8 – 3.6 (83%)

Provincia. Corrientes (75%)

Tipo de residencia. Con familiares (83%)

En forma independiente (17%)

Situación laboral alumno. No trabaja (75%)

Ocupado (17%)

Sub-Ocupado (8%)

Horas semanales trabajadas. Hasta 20 inclusive (17%)

De 36 o más (8%)

Relación con la carrera

elegida.

Parcial (25%)

Total (25%)

No relacionada (50%)

Estudios cursados del padre. Esc. Primaria Completa (25%)

Esc. Secundaria Completa

(50%)

Situación laboral del padre. Ocupado (92%)

Tabla 34: Clase 3 alumnos con un bajo rendimiento académico.

Page 204: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…204

Clase Atributo Valor predominante

“3”

7.55% de la población

Estudios cursados de la

madre.

Esc. Primaria Completa (25%)

Esc. Secundaria Completa

(25%)

Estudios Superiores (17%)

Situación laboral de la madre. No trabaja (67%)

Género. Femenino (67%)

Prioridad otorgada al estudio. Más que a la diversión (75%)

Nro. horas semanales

dedicadas al estudio.

Más de 10 y Hasta 20 inclusive

(67%)

Estudia para. Aprender integralmente y

aprobar (50%)

Utilización de las TICs. Facilitan el proceso de

enseñanza (50%)

Estado civil. Soltero (92%)

Tabla 35: Clase 3 alumnos con un bajo rendimiento académico.

Page 205: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…205

Clase Atributo Valor predominante

“4”

18.24 % de la

Situación final 4

Nota primer parcial. 3.6 – 4.4 (93%)

Segundo parcial. 3.6 – 4.4 (97%)

Provincia. Corrientes (90%)

Tipo de Residencia. Con familiares (62%)

En forma independiente (34%)

Situación laboral del alumno. No trabaja (62%)

Ocupado (28%)

Sub Ocupado (10%)

Horas semanales trabajadas. Hasta 20 inclusive (17%)

De 36 o más (14%)

Relación con la carrera

elegida.

Parcial (48%)

Total (31%)

Estudios cursados del padre. Esc. Primaria Completa (31%)

Esc. Secundaria Completa

(31%)

Universitario Completo (6%)

Situación laboral del padre. Ocupado (52%)

Estudio cursado de la madre. Esc. Primaria Completa (59%)

Esc. Secundaria Completa

(24%)

Universitario Completo (7%)

Situación laboral de la madre. No trabaja (55%)

Ocupado (28%)

Tabla 36: Clase 4 alumnos con un bajo rendimiento académico.

Page 206: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…206

Clase Atributo Valor predominante

“4”

18.24 % de la

Género. Femenino (52%)

Prioridad otorgada al estudio. Más que a la diversión (79%)

Nro. Horas semanales

dedicadas al estudio.

Hasta 10 horas (55%)

Estudia para. Aprobar la asignatura (38%)

Aprender a aprender (24%)

Utilización de las TICs. Facilitan el proceso de

enseñanza (52%)

Indispensables en el ejercicio

profesional (41%)

Estado civil. Soltero (93%)

Casado (7%)

Tabla 37: Clase 4 alumnos con un bajo rendimiento académico.

Page 207: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…207

Clase Atributo Valor predominante

“5”

6.29% de la población

Situación final del alumno. 5

Nota primer parcial. 4.4 – 5.2 (80%)

Segundo parcial. 4.4 – 5.2 (80%)

Provincia. Corrientes (100%)

Tipo de Residencia. Con familiares (80%)

En forma independiente (20%)

Situación laboral del alumno. No trabaja (50%)

Ocupado (10%)

Sub ocupado (40%)

Horas semanales trabajadas. Hasta 20 inclusive (30%)

De 36 o más (10%)

Relación con la carrera

elegida.

Parcial (60%)

Estudios cursados del padre. Esc. Primaria Completa (40%)

Esc. Secundaria Completa

(30%)

Situación laboral del padre. Ocupado (70%)

Estudio cursado de la madre. Esc. Primaria Completa (50%)

Esc. Secundaria Completa

(40%)

Situación laboral de la madre. No trabaja (40%)

Ocupado (30%)

Género. Femenino (80%)

Tabla 38: Clase 5 alumnos con un bajo rendimiento académico.

Page 208: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…208

Clase Atributo Valor predominante

“5”

6.29% de la población

Prioridad otorgada al estudio. Más que a la diversión (70%)

Nro. Horas semanales

dedicadas al estudio.

Hasta 10 inclusive (70%)

Estudia para. Aprobar la asignatura (30%)

Aprender a aprender (40%)

Utilización de las TICs. Facilitan el proceso de

enseñanza (40%)

Indispensables en el ejercicio

profesional (50%)

Estado civil. Soltero (90%)

Unión Consensual (10%)

Tabla 39: Clase 5 alumnos con un bajo rendimiento académico.

En las Tabla 23, Tabla 24, Tabla 25, Tabla 26, Tabla 27, Tabla 28, Tabla 29, Tabla

30 y Tabla 31 se muestran los resultados resumidos del algoritmo de clasificación con

relación al perfil de los alumnos considerados de alto rendimiento académico (notas de

7, 8, 9 y 10), correspondiente al 25.78% de la población. Se muestra cómo inciden las

variables sociodemográficas en la construcción de dicho perfil, que se resume de la

siguiente manera:

La mayoría vive con el grupo familiar.

Generalmente no trabajan.

Un grupo minoritario trabaja hasta 20 horas semanales.

En la mayoría de los casos la relación del trabajo con la carrera elegida es

parcial.

Page 209: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…209

El grado de escolaridad primaria y secundaria de los padres es

relativamente bajo, registrándose casos de escolaridad terciaria o

universitaria.

Mayoritariamente el porcentaje de ocupación de los padres es relativamente

alto.

En la mayoría de los casos el objetivo de los alumnos es estudiar para

aprender a aprender o para aprender integralmente la materia.

La mayoría considera la utilización de las TICs asociadas al proceso de

enseñanza-aprendizaje y como imprescindibles para el ejercicio

profesional.

La mayoría son solteros, registrándose un buen porcentaje de casados.

La mayoría corresponden al género masculino.

Un grupo minoritario otorga al estudio más prioridad que al trabajo.

En las Tabla 32 y Tabla 33 se muestran los resultados resumidos del algoritmo de

clasificación con relación al perfil de los alumnos con la nota mínima de aprobación de la

asignatura (6 seis), correspondiente al 36.44% de la población. Se muestra cómo inciden

las variables sociodemográficas en la construcción de dicho perfil, que se resume de la

siguiente manera:

La mayoría vive con el grupo familiar.

Generalmente no trabajan.

Un grupo minoritario trabaja hasta 20 horas semanales.

En la mayoría de los casos la relación del trabajo con la

carrera elegida es parcial.

Page 210: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…210

El grado de escolaridad primaria y secundaria de los padres

es relativamente bajo, no registrándose casos de escolaridad

terciaria o universitaria.

Mayoritariamente el porcentaje de ocupación de los padres

es relativamente bajo.

En la mayoría de los casos el objetivo de los alumnos es

estudiar para aprobar la materia.

La mayoría considera la utilización de las TICs asociadas al

proceso de enseñanza-aprendizaje.

La mayoría son solteros, registrándose un buen porcentaje

de casados.

La mayoría corresponden al género masculino.

En las Tabla 34, Tabla 35, Tabla 36, Tabla 37, Tabla 38 y Tabla 39 se muestran los

resultados resumidos del algoritmo de clasificación con relación al perfil de los

alumnos considerados de bajo rendimiento académico (notas de 2, 3, 4 y 5),

correspondiente al 37.73% de la población. Se muestra cómo inciden las variables

sociodemográficas en la construcción de dicho perfil, que se resume de la siguiente

manera:

La mayoría vive con el grupo familiar, registrándose un grupo minoritario

importante que vive en forma independiente concentrándose especialmente

en la clase correspondiente a la calificación de 2.

Page 211: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…211

Generalmente no trabajan, pero un grupo significativo sí lo hace. En esta

categoría esta la mayor cantidad de alumnos que trabajan.

Un grupo minoritario trabaja hasta 20 horas semanales y otro grupo menor

más de 36 horas semanales.

En la mayoría de los casos la relación del trabajo con la carrera elegida es

parcial o no existe relación.

El grado de escolaridad primaria y secundaria de los padres es

relativamente bajo, registrándose casos de escolaridad terciaria o

universitaria.

Mayoritariamente el porcentaje de ocupación de los padres es relativamente

alto, registrándose un grupo minoritario importante con un bajo porcentaje

de ocupación.

En la mayoría de los casos el objetivo de los alumnos es estudiar para

aprobar la materia y un grupo minoritario lo hace para aprender a aprender

o para aprender integralmente la materia.

La mayoría considera la utilización de las TICs asociadas al proceso de

enseñanza-aprendizaje y un grupo minoritario como imprescindibles para el

ejercicio profesional.

La mayoría son solteros.

La mayoría corresponden al género femenino.

Page 212: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…212

En las Tabla 40, Tabla 41 y Tabla 42 se comparan las características distintivas únicas de

cada grupo, es decir, aquellas características que no aparecen en los tres grupos.

Grupos Características distintivas únicas de cada grupo

Alumnos con la nota mínima de

aprobación

No se registran casos de escolaridad

terciaria o universitaria de los padres.

Mayoritariamente el porcentaje de ocupación

de los padres es relativamente bajo.

En la mayoría de los casos el objetivo de los

alumnos es estudiar para aprobar la materia.

La mayoría corresponden al género

masculino.

Tabla 40: Características de los alumnos con la nota mínima de aprobación.

Page 213: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…213

Grupos Características distintivas únicas de cada grupo

Alumnos considerados de alto

rendimiento académico

Se registran casos de escolaridad terciaria o

universitaria de los padres.

Registrándose un grupo minoritario

importante con un bajo porcentaje de

ocupación.

En la mayoría de los casos el objetivo de los

alumnos es estudiar para aprender a

aprender o para aprender integralmente la

materia.

Consideran a las TICs como imprescindibles

para el ejercicio profesional.

La mayoría corresponden al género

masculino.

Un grupo minoritario otorga al estudio más

prioridad que al trabajo.

Tabla 41: Características distintivas de los alumnos considerados de alto rendimiento académico.

Page 214: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…214

Grupos Características distintivas únicas de cada grupo

Alumnos considerados de bajo

rendimiento académico

Un grupo minoritario importante que vive

en forma independiente concentrándose

especialmente en la clase

correspondiente a la calificación de 2.

Un grupo significativo trabaja. En esta

categoría esta la mayor cantidad de

alumnos que trabajan.

Otro grupo minoritario trabaja más de 36

horas semanales.

Un grupo minoritario informa que no

existe relación entre la carrera y el trabajo

que desempeña.

Se registran casos de escolaridad

terciaria o universitaria de los padres.

Mayoritariamente el porcentaje de

ocupación de los padres es relativamente

alto.

En la mayoría de los casos el objetivo de

los alumnos es estudiar para aprobar la

materia y un grupo minoritario lo hace

para aprender a aprender o para

aprender integralmente la materia.

Un grupo minoritario considera a las TICs

como imprescindibles para el ejercicio

profesional.

La mayoría corresponden al género

femenino.

Tabla 42: Características distintivas de los alumnos considerados de bajo rendimiento académico.

La calidad global del modelo para clasificar la situación final de los alumnos se

puede observar en la Figura 144.

Page 215: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…215

Figura 144: Visualizador de calidad del modelo (fuente propia).

A continuación, en la Figura 145, se puede observar la Matriz de confusión.

Figura 145: Matriz de confusión obtenida con el algoritmo de Árbol (fuente propia).

En la inteligencia artificial, las Matrices de Confusión se emplean en aprendizaje

supervisado y sirve para representar la cantidad de predicciones que el algoritmo de

Page 216: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…216

minería ha realizado para cada clase. De esta forma se puede apreciar a simple vista si el

algoritmo se está confundiendo en la clasificación.

Las reglas establecidas por el árbol de decisión resultante se pueden apreciar en la

Figura 146.

Figura 146: Árbol de decisión (fuente propia).

Otro gráfico interesante que nos ofrece la herramienta es el Diagrama de Importancia de

Campo (Figura 147). En él se puede observar la importancia que el algoritmo asignó a

cada atributo para realizar la clasificación.

Page 217: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…217

Figura 147: Gráfico de importancia de campo del modelo (fuente propia).

Figura 148: Tabla de correlación e importancia de campo (fuente propia).

En la Figura 148, se puede observar la tabla de correlación e importancia de campo

establecidas por el modelo, mientras que en la Tabla 43 podemos observar algunas de las

correlaciones e importancia de campo que han sido seleccionadas, considerándolas

relevantes para el análisis de los objetivos establecidos en este proyecto de investigación.

Page 218: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…218

Campo Campo Correlación

C33 Tipo de Residencia C56 Escolaridad del Padre 0,553

C33 Tipo de Residencia SF Situación final alumno 0,509

C56 Escolaridad del padre C74 Importancia asignada al

estudio

0,458

C56 Escolaridad del padre C76 Estudia para 0,446

C56 Escolaridad del padre SF Situación final alumno 0,541

C57 Situación laboral Padre C76 Estudia para 0,406

C61 Escolaridad de la madre C75 Horas dedicadas al estudio 0,499

C61 Escolaridad de la madre C77 Utilización de las TICs 0,478

C62 Situación laboral madre SF Situación final alumno 0,484

C76 Estudia para C77 Utilización de las TICs 0,524

C77 Utilización de las TICs SF Situación final alumno 0,505

PP Nota primer parcial SF Situación final alumno 0,985

SF Situación final alumno SP Nota segundo parcial 0,981

Tabla 43: Correlación e importancia de campo.

Hay correlaciones determinadas por el algoritmo extremadamente interesante como

por ejemplo, la que muestra la incidencia de la nota del primer parcial en la situación final

del alumno, así también la incidencia del tipo de residencia con relación a la situación

final del alumno, el grado de escolaridad de los padres en relación a las horas dedicadas al

estudio y situación final del alumno. La incidencia de la utilización de las TICs en relación

a la situación final del alumno.

5. Discusiones y Comentarios

Es de fundamental importancia conocer desde los primeros cuatrimestres cuáles

alumnos son candidatos a desertar, cuál es su probabilidad de hacerlo y qué factores

inciden en que lo hagan (factores académicos, personales, económicos, entre otros). Al no

realizar este tipo de investigaciones se tiene como consecuencia que los tutores, sigan sin

Page 219: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…219

identificar a los alumnos que sean candidatos a desertar y solamente los identifiquen

hasta cuatrimestres avanzados, cuando posiblemente ya no se pueda ayudarlos.

La existencia de voluminosas bases de datos conteniendo grandes cantidades de

datos, que exceden en mucho las capacidades humanas de reducción y análisis a fin de

obtener información útil, actualmente son una realidad en muchas organizaciones. Debido

a esto, frecuentemente las decisiones importantes se toman en base a la intuición y

experiencia en lugar de tomar como referencia la riqueza de estos datos almacenados,

provocando que se las vea (a las organizaciones) como ricas en datos, pero pobres en

información.

En síntesis, las técnicas de minería de datos, permiten construir modelos

predictivos, de asociación, de segmentación, basados en datos históricos almacenados en

distintas fuentes: bases de datos, archivos de texto plano, documentos impresos, reportes,

entre otros. Usando todos estos datos, es posible predecir un fenómeno dado, a partir de

las herramientas que la minería ofrece, obteniendo conocimiento que ayude en la toma de

decisiones.

Page 220: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…220

CAPÍTULO VI: CONCLUSIONES Y FUTURAS LÍNEAS DE

INVESTIGACIÓN

1. Conclusiones

Se podrá señalar en primera instancia que en esta investigación sólo se han

abarcado algunos métodos de extracción del conocimiento a través de la MD. No obstante,

existen muchas más posibilidades que ofrecen ésta y otras herramientas. Se ha demostrado

que para realizar una minería de datos de buena calidad, ésta debe estar acompañada de

una serie de mecanismos (Flujos de Datos, Flujo de Minería, Matrices de Confusión, etc.)

que faciliten y permitan realizar una validación de los modelos y un análisis de resultados

más completo y fiable. Con las tres técnicas seleccionadas se han obtenido muy buenos

resultados, superando lo planteado como objetivo específico de la MD en el capítulo IV y

confirmando hipótesis del capítulo I. La aplicación de cada algoritmo facilitó advertir, no

sólo las diferentes características pertenecientes al grupo de alumnos, sino que también

han quedado manifestadas las características de las clases contrastes (alumnos de bajo,

medio y alto rendimiento académico). El modelo de Clasificación a través de Árboles de

Decisión superó en calidad a los patrones obtenidos con el método de Generación de

Clústeres. A su vez permitió advertir cuáles eran los atributos más importantes por el cual

el algoritmo realizaba la clasificación de los alumnos (situación final del alumno). Esta

información luego fue utilizada para mejorar la calidad del modelo obtenido con el método

no supervisado. Como contrapartida, la interpretación del Árbol de Decisión obtenido, no

resulta fácil de leer, debido a su amplitud, por personas no especializadas. Inclusive

configurando distintos niveles de poda el árbol sigue siendo muy extenso. Esta dificultad

es compensada, tanto en la clasificación como en el agrupamiento de características, por la

excelente representación gráfica que realiza la herramienta. Si bien la calidad de los

modelos superó las expectativas planteadas, se considera muy importante contar con la

Page 221: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…221

opinión de los expertos, no sólo a la hora de crear los modelos sino también en lo que

refiere a la evaluación e interpretación de los resultados. Un aporte muy significativo es el

haber logrado automatizar los procesos ETL a través de la implementación de Flujo de

Datos y Control. Con esta herramienta a su disposición, el organismo educativo, podrá

extraer el conocimiento de sus BD con más facilidad evitando largas etapas de Pre

Proceso. Dada la flexibilidad que otorga la herramienta, y a la automatización de los flujos

de datos, no representaría mayor inconveniente, el introducir más variables socio

económicas.

1.1. Capítulo I

En este trabajo se han estudiado las variables que inciden en el relativamente bajo

rendimiento académico de los alumnos de Sistemas Operativos de la TSAP del ISCC

perteneciente a la Dirección General de Educación Superior (DGES).

Para la realización del estudio antes mencionado se ha considerado que la

utilización de técnicas de DW y de DM serían las herramientas adecuadas, esperándose

que los resultados obtenidos permitan determinar perfiles de alumnos con alto riesgo de

fracaso académico, a los efectos de encarar acciones tendientes a evitar el mismo,

contribuyendo así a la solución de los problemas de la masividad ante la falta de recursos

suficientes y del relativamente bajo rendimiento académico.

1.2. Capítulo II

Actualmente los DW se aplican en mayor porcentaje en los negocios, sin embargo,

toda organización que controla grandes volúmenes de información o requiere de un

soporte para la toma de decisiones, puede hacer uso de la tecnología DW.

Page 222: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…222

1.2.1. Ventajas del Uso de Data Warehouse

La inversión que realiza una organización para una correcta

implantación de un sistema de Almacén de Datos conlleva un coste

muy elevado, sin embargo el retorno de la inversión es garantizado

en gran medida.

Como consecuencia de la ventaja anterior se pueden conseguir una

ventaja competitiva debido a una buena toma de decisiones gracias

al Almacén de Datos implantado.

Mejoran la productividad de los responsables en la toma de

decisiones de la organización debido a que:

Los Almacenes de Datos hacen más fácil el acceso a una

gran variedad de datos.

Se obtiene una base de datos clasificada por temas e

histórica.

Se integra información procedente de múltiples sistemas

externos.

Puedo hacer referencia a las ventajas y desventajas relacionadas con el armado del

DW en mi institución.

1.2.2. Desventajas del Uso de Data Warehouse

La subestimación del tiempo requerido para extraer, limpiar y

cargar los datos en el Almacén.

Problemas con los sistemas de origen de los datos.

Los datos obtenidos no son suficientes.

Page 223: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…223

Pueden suponer altos gastos, además de los gastos de

mantenimiento que son muy elevados.

Pueden quedarse obsoletos relativamente pronto si los usuarios

incrementan sus necesidades.

En Almacenes de Datos de considerable tamaño puede que la

homogeneización de los datos disminuya su valor.

La construcción de un Almacén de Datos puede requerir de mucho

tiempo.

1.3. Capítulo III

La principal ventaja en la implantación de un DW, es que sirve de soporte para la

toma de decisiones.

La integración de los datos en forma estructurada en un almacén centralizado, da

como ventaja el poder obtener información en menor tiempo, ayudando a realizar la toma

de decisiones sin retrasos.

También se pudo detectar, que el proceso más laborioso es el de la transformación

de los datos. En el caso del presente estudio, disminuyó la dificultad de este proceso,

debido a que existía un estándar en plataformas y manejadores de bases de datos.

1.4. Capítulo IV

Se ha podido elaborar diferentes modelos de minería de datos tendientes identificar

los perfiles de riesgo de fracaso académico y de éxito académico, desde que inicia su vida

estudiantil en la institución. Esto permitirá proponer las estrategias necesarias con mucha

anticipación para disminuir el índice de deserción.

1.5. Capítulo V

Es de fundamental importancia conocer desde los primeros cuatrimestres cuáles

alumnos son candidatos a desertar, cuál es su probabilidad de hacerlo y qué factores

Page 224: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…224

inciden en que lo hagan (factores académicos, personales, económicos, entre otros). Al no

realizar este tipo de investigaciones se tiene como consecuencia que los tutores, sigan sin

identificar a los alumnos que sean candidatos a desertar y solamente los identifiquen

hasta cuatrimestres avanzados, cuando posiblemente ya no se pueda ayudarlos.

En esta investigación sólo se han abarcado algunos métodos de extracción del

conocimiento a través de la MD. No obstante, existen muchas más posibilidades que

ofrecen ésta y otras herramientas.

Se ha demostrado que para realizar una minería de datos de buena calidad, ésta

debe estar acompañada de una serie de mecanismos (Flujos de Datos, Flujo de Minería,

Matrices de Confusión, etc.) que faciliten y permitan realizar una validación de los

modelos y un análisis de resultados más completo y fiable.

Con las tres técnicas seleccionadas se han obtenido muy buenos resultados,

superando lo planteado como objetivo específico de la MD en el capítulo IV y

confirmando hipótesis del capítulo I.

Han quedado evidenciadas las características de las clases representativas de

alumnos de bajo, medio y alto rendimiento académico.

El modelo de Clasificación a través de Árboles de Decisión superó en calidad a los

patrones obtenidos con el método de Generación de Clústeres.

Los Árboles de Decisión obtenidos no resultan fáciles de leer, debido a su

amplitud, por personas no especializadas. Inclusive configurando distintos niveles de poda

los árboles siguen siendo muy extensos. Esta dificultad es compensada, tanto en la

clasificación como en el agrupamiento de características, por la excelente representación

gráfica que realiza la herramienta.

Page 225: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…225

Las técnicas de minería de datos, han permitido construir modelos predictivos, de

asociación, de segmentación, basados en datos históricos almacenados en distintas fuentes;

se considera adecuada la calidad de los modelos obtenidos.

Ha sido posible determinar los perfiles de éxito y fracaso académico de los

alumnos de S.O. de la TSAP del ISCC, lo que ha permitido definir líneas de acción

tendientes a dar un mayor soporte a los alumnos detectados con perfil de riesgo de fracaso

académico.

2. Futuras Líneas de Investigación

A lo largo del desarrollo del presente proyecto han surgido varias líneas para ser

abordadas en futuras investigaciones.

Entre algunas de ellas se pueden mencionar las siguientes:

Integrar los diferentes flujos de minería en flujo de control que permitan

automatizar los procesos descriptos en este trabajo.

Diseñar los hipercubos de datos incorporando nuevas variables

socioeconómicas.

Implementar mecanismos académicos de seguimiento de las acciones que

se realicen en base a la información suministrada por los procesos de

minería, a los efectos de realizar ajustes que se consideren pertinentes en

cuanto a la ejecución de las acciones antes mencionada.

Aplicar el modelo desarrollado en este trabajo a otras asignaturas de la

carrera TSAP del ISCC especialmente las del primer año en las que se

registran los mayores porcentaje de fracaso académico.

Page 226: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…226

LISTA DE REFERENCIAS

Acosta, J., Macías, D., La Red Martínez, D. (2005). Ma.Di.M.A.C.- Material

Didáctico Para el e-Learning del Álgebra – Un Aporte Para la Enseñanza

a Distancia. Simposio Internacional de Sistemas de Información e

Ingeniería de Software en la Sociedad del Conocimiento (SISOFT 2005).

Libro de Actas Vol. I.

Acosta, J.C., La Red Martínez, D.L. (2012). Un Aula Virtual no convencional de

Algebra en la FaCENA – UNNE: un enfoque utilizando b-learning y

multimedia. Editorial Académica Española – LAP LAMBERT Academic

Publishing Gmbh & Co. KG Heinrich – Bocking- Str. 6-8,66121

Saarbrucken, Alemania. ISBN 978-3-659-02034-6. Alemania.

Agrawal, R. & Shafer, J.C. (1996). Parallel Mining of Association Rules. IEEE

Transactions on Knowledge and Data Engineering, 8, 6, 1 – 27.

Berson, A. & Smith, S. J. (1997). Data Warehouse, Data Mining & OLAP. U.S.A.:

Mc Graw Hill.

Bolaños Calvo, B. (2001). Las Nuevas Tecnologías y los Desafíos Teórico –

Prácticos en los Sistemas de Educación a Distancia: Caso UNED de Costa

Rica. Temática: Universidades Virtuales y Centros de Educación a

Distancia. UNED. Costa Rica.

Broad, W. J. (1992, 10 de noviembre). Clinton to promote high technology with

Gore in charge. The New York Times.

Carrasco Pradas, A., Gracia Expósito, E., de la Iglesia Villasol, C. (2005). Las TIC

en la construcción del espacio europeo de educación superior. Dos

experiencias docentes en teoría económica. Revista Iberoamericana de

Educación, 36, 1-16.

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Renartz, T., Shearer, C., Wirth,

R. (1999). CRISP-DM 1.0. Step-by-step data mining guide.

Page 227: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…227

Chaudhuri S., & Dayal, U. (1997). An Overview of Data Warehousing and OLAP

Technology. SIGMOD '97 Proceedings of the 1997 ACM SIGMOD

international conference on Management of data, 26, 65-74.

Chaudhuri, S., & Dayal, U. (1997). Data warehousing and OLAP for decision

support. SIGMOD '97 Proceedings of the 1997 ACM SIGMOD

international conference on Management of data, 26, 507 – 508.

Cutro, A. (2008). Minería de Datos Aplicada a la Encuesta Permanente de

Hogares. Trabajo Final de Aplicación de la Licenciatura en Sistemas de

Información dirigido por el Prof. David Luis la Red Martínez. Corrientes.

Argentina.

DataPrix. (2009). Disponible en: http://www.dataprix.com/el-modelo-crisp-dm-

mineria-de-datos. Fecha de Consulta: Febrero, 2013.

European Communities. (1993). Growth, Competitiveness, Employment: The

Challenges and Ways Forward into the 21st Century. White Paper. Parts

A and B. COM (93) 700 final/ A and B, 5 December 1993. Bulletin of

the European Communities, Supplement 6/93. [EU Commission-

COMDocument].

Fayyad, U. M., Grinstein, G., Wierse, A. (2001). Information Visualization in Data

Mining and Knowledge Discovery. USA: Morgan Kaufmann Publishers.

Fayyad, U. M., Piatesky-Shapiro, G., Smyth. (1996). From Data Mining to

Knowledge Discovery in Databases, AI Magazine, 17, (3), 37 – 54.

Fayyad, U. M., Piatetskiy-Shapiro, G., Smith, P., Uthurusamy, U. (1996).

Advances in Knowledge Discovery and Data Mining. USA: AAAI Press /

MIT Press.

Ferrante, A. (2000). Educación a distancia, virtualidad y cambios en la concepción

del espacio. Argentina: El habitar urbano: pensamiento, imaginación y

límite.

Page 228: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…228

Frawley, W.J., Piatesky-Shapiro, G., Matheus, C.J. (1992). Knowledge Discovery

in Databases: an Overview. AI Magazine, 13 (3), 57 -70.

García Martínez, R., Britos, P.V., Hossian, E., Sierra, E. (2005). Minería de datos

Basada en Sistemas Inteligentes. Argentina: Nueva Librería.

Gill, H. S. & Rao, P. C. (1996). Data Warehousing: la integración de información

para mejor toma de decisiones. Prentice Hall Hispanoamérica S. A.

Gondar, J. E. (2005). Metodología de Data Mining. Data Mining Institute, S.L.

Gore, A. (1993). Remarks on the National Information Infrastructure. U.S.A.:

National Press Club.

Gutiérrez, J. M. (2001). Data Mining, Extracción de Conocimiento en Grandes

Bases de Datos, sitio web: http://personales.unican.es/gutierjm/docs/trans_

DataMining.pdf. Universidad de Cantabria. España. Fecha de consulta:

25/04/2013.

Gutting, R. (1994). An Introduction to spatial database systems. VLDB Journal, 3,

357- 399.

Han, J., & Kamber M. (2006). Data mining: concepts and techniques. U.S.A.:

Morgan Kaufmann.

Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques. U.S.A.:

Morgan Kaufmann.

Hand, D.J., Mannila, H., Smyth, P. (2000). Principles of Data Mining. U.S.A.: The

MIT Press.

Harinarayan V., Rajaraman, A., Ullman, J. (1996). Implementation data cubes

efficiently. ACM SIGMOD Record, 25 (2), 205 - 216.

Hernández Requena, S. (2008). El modelo constructivista con las nuevas

tecnologías: aplicado en el proceso de aprendizaje. Comunicación y

construcción del conocimiento en el nuevo espacio tecnológico. Revista de

Universidad y Sociedad del Conocimiento (RUSC). Vol. 5, N° 2. UOC.

Fecha de consulta: 28/01/2013. http://www.uoc.edu/rusc/5/2/dt/esp/

hernandez.pdf.

Page 229: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…229

IBM Academic Initiative, Iniciativa Académica de IBM para las Universidades del

Mundo, sitioweb: http://www.ibm.com/jct01005c/university/scholars/

academicinitiative/. Fecha de consulta 12/10/09.

IBM Corp. (2004, January 05). Data Warehouse Edition the Business Intelligence

Platform. Retrieved June 12 2008, from http://www.evaltech.com

/admin/upload/DW_with_DB2.pdf

IBM Corp. (2005). IBM DB2 Universal Database Data Warehouse Edition Getting

Started Version 8.2.1, GC18-7459-02.

IBM Software Group. (2003). Enterprise Data Warehousing whit DB2: The 10

Terabyte TPC-H Benchmark. IBM Press. U.S.A.

IEEE. (2012). Learning Technology Standards Committe. Retrived Jan 6, 2012,

from http://www.ieeeltsc.org:8080/Plone.

Inmon, W. H. (1992). Data Warehouse Performance. U.S.A.: John Wiley & Sons.

Inmon, W. H. (1996). Building the Data Warehouse. U.S.A.: John Wiley & Sons.

Joyanes Aguilar, L. (1997). Cibersociedad. España: Mc Graw Hill.

Kimball, R. (1996). The Data Warehouse Toolkit. U.S.A.: John Wiley & Sons.

Kimball, R. (2005). Is ER Modeling Hazardous to DSS, sitio web:

http://www.kimballgroup.com/1995/10/01/is-er-modeling-hazardous-to-

dss/ Fecha de Consulta: 28/02/2013.

Kubski, M. (2005). Aplicación Orientada al Descubrimiento de Conocimiento en

Bases de Datos. Trabajo Final de Aplicación de la Licenciatura en Sistemas

de Información dirigido por el Prof. David Luis la Red Martínez.

Corrientes. Argentina.

Kubski, M. (2005). Minería de Datos con Intelligent Miner. Universidad Nacional

del Nordeste, Facultad de Ciencias Exactas, Naturales y Agrimensura,

2005.

Page 230: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…230

La Red Martínez, D. (2009). Sistemas Operativos. sitio web: http:// exa.unne.

edu.ar/depar/areas/informatica/SistemasOperativos/SOF.htm. Fecha de

consulta: 16/02/13.

La Red Martínez, D. L. (2003). Memoria Final de la Especialización en Docencia

Universitaria. Corrientes. Argentina.

La Red Martínez, D.L., Acosta, J., Agostini, F., Uribe, V., Rambo, A. (2011). La

importancia otorgada al estudio y su relación con el rendimiento

académico. Revista Documentación. Año IV, 24, 54-62.

La Red Martínez, D.L., Acosta, J.C. (2012). B-Learning: Una propuesta de

Arquitectura Segura Basada en Patrones. Revista Internacional PEI: Por la

Psicología y Educación Integral, Año 2, 3, 58-95.

Luan, J. (2002). Aplicaciones de minería de datos en educación superior. U.S.A.:

IBM Software Business Analitycs.

Matignon, R. (2009). Data Mining Using SAS Enterprise Miner. U.S.A.: Wiley.

Matthias Jarke, Y.V. (1997). Data Warehouse Quality: A review of the DWQ

Project, in Conference of Information Quality. U.S.A.: Massachusetts

Institute of Technology, Cambridge.

McLuhan, M. & Powers, B. R. (1964). The Global Village. (4th

ed.). Canadá:

Reprint by Gingko (2001).

Méndez, A., & Mártire, A. (2004). Fundamentos de Data Warehouse. Centro de

Actualización Permanente en Ingeniería del Software, Escuela de

Postgrado, Instituto Tecnológico, Buenos Aires, Argentina.

Merceron, A., & Yacef, K. (2004). Mining Student Data Captured from a Web-

Based Tutoring Tool: Initial Exploration and Results. Journal of Interactive

Learning Research (JILR), 15(4), 319-346.

Microsoft Corp. (2000). SQL- Server Books on Line. U.S.A.: Microsoft

Corporation.

Page 231: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…231

Molina Félix, L. C. (2001). Torturando a los Datos Hasta que Confiesen.

Recuperado el 22 de febrero 2013, de http://www.uoc.edu/web/esp/art/uoc

/molina1102/molina1102.pdf.

Montero Rojas, E., Villalobos Palma, J., Valverde Bermúdez, A. (2007). Factores

Institucionales, Pedagógicos, Psicosociales y Socio demográficos

Asociados al Rendimiento Académico en la Universidad de Costa Rica: Un

Análisis Multinivel. Revista Electrónica de Investigación y Evaluación

Educativa (RELIEVE). Universidad de Costa Rica, 13 (2), 215-234.

Negroponte, N. (1995). El Mundo Digital. España: Ediciones B S.A.

Peiró, J. M. (2001). Las competencias en la sociedad de la información: nuevos

modelos formativos. España: Centro Virtual Cervantes.

Peterson T., & Pinkelman, J. (1999). Microsoft OLAP unleashed. U.S.A.: SAMS.

Poe, V. (1996). Building a Data Warehouse for Decision Support. New Jersey:

Prentice Hall.

Quiroga, E. (2008). Minería de datos en educación superior aplicada a un modelo

de alerta académica, sitio web: http://www.buenastareas.com/ensayos/

Minería-De-Datos-En-Educación-Superior/1422261.html. Fecha de

consulta: 17/01/ 2011.

Sáez López, J. M. (2010). Utilización de las TIC en el proceso de enseñanza

aprendizaje, valorando la incidencia real de las tecnologías en la práctica

docente. Revista Docencia e Investigación. Universidad de Castilla - La

Mancha, 20, 183-204.

Sancho Gil, J. M. (2004). Las Observaciones de la Sociedad de la Información:

Evaluación o Política de promoción de las TIC en Educación. Revista

Iberoamericana de Educación, 36, 37-68.

SAS Institute, Disponible en: http://www.sas.com/technologies/analytics/

datamining/miner/semma.html: Fecha de Consulta: 20/06/2009.

Silvio, J. F. (1998). La virtualización de la Educación Superior: alcances,

posibilidades y limitaciones. Educación Superior y Sociedad, 9 (1), 27-50.

Page 232: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…232

Simon, A. (1997). Data Warehouse, Data Mining and OLAP. U.S.A.: John Wiley

& Sons.

Taquini, A. C. (h.). (2001). Educación Superior y Ciberespacio. Jornada sobre

nuevos paradigmas de la transformación cultural, científica y tecnológica

de la Universidad Argentina. Academia Nacional de Educación. Argentina.

Telefónica de Argentina S.A. (2004). La Sociedad de la Información en la

Argentina. Presente y Perspectivas 2004-2006. Argentina.

Tiffin, J. & Rajasingham, L. (1997). En busca de la clase virtual. España: Ed.

Paidós.

Tournon, J. (1984). Factores del rendimiento académico en la universidad.

España: Ediciones Universidad de Navarra, S.A.

Trujillo, J. C., Palomar M., Gómez, J. (2000). Applying Object-Oriented

Conceptual Modeling Techniques to the Design of Multidimensional

Databases and OLAP Applications. First International Conference On

Web-Age Information Management (WAIM’00). Lecture Notes in Computer

Science 1846:83-94.

Trujillo, J.C., Mazón, N. J., Pardillo, J. (2011). Diseño y explotación de almacenes

de datos: Conceptos básicos de modelado multidimensional. España:

Editorial Club Universitario.

Vassiliadis, P. (2000). Data Warehouse Modeling and Quality Issues. PhD Thesis.

Knowledge and Database Systems Laboratory, Dept. of Electrical and

Computer Engineering, National Technical University of Athens. Greece.

Vassiliadis, P., Yannis, C., Matthias Jarke, V. (2001). Data Warehouse Process

Management. Information Systems, 26 (3), 205-236.

Veitch, W. (2004). Identifying Characteristics of High School Dropouts: Data

Mining with a Decision Tree Model. Annual Meeting of American

Educational Research Association (62nd

), April 10 - 14 San Diego

California, U.S.A.

Wallace, L. & Young, J. (2010). Implementing Blended Learning: Policy

Implications for Universities, Online Journal of Distance Learning

Page 233: El Rendimiento Académico de los Alumnos de la Cátedra Sistemas

EL RENDIMIENTO ACADÉMICO…233

Administration, Volume XIII, Number IV, winter 2010 University of west

Georgia, Distance Education Center.

White, C. J. (2001). IBM Enterprise Analytics for the Intelligente-Business.

U.S.A.: IBM Press.

Widom J. (1995). Research Problems in data warehousing. Conf. Information and

Knowledge Management, Baltimore. U.S.A.

Wolff, G. C. (2002). Modelamiento multidimensional. Disponible en: http:// www.

inf. udec.cl/revista/edicion4/cwolff.htm. Fecha de consulta: Febrero 2013.