análisis de las pruebas saber 11, años 2017 y 2018

124
Universidad de La Salle Universidad de La Salle Ciencia Unisalle Ciencia Unisalle Ingeniería Industrial Facultad de Ingeniería 4-15-2021 Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando las variables determinantes en los bajos resultados y en la brecha las variables determinantes en los bajos resultados y en la brecha existente entre los estudiantes de colegios categoría A y A+ existente entre los estudiantes de colegios categoría A y A+ versus los D en el sector público versus los D en el sector público Angie Katherin Rodríguez Rodríguez Universidad de La Salle, Bogotá, [email protected] Cesar Yesid Hernandez Cano Universidad de La Salle, Bogotá, [email protected] Follow this and additional works at: https://ciencia.lasalle.edu.co/ing_industrial Part of the Engineering Commons Citación recomendada Citación recomendada Rodríguez Rodríguez, A. K., & Hernandez Cano, C. Y. (2021). Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando las variables determinantes en los bajos resultados y en la brecha existente entre los estudiantes de colegios categoría A y A+ versus los D en el sector público. Retrieved from https://ciencia.lasalle.edu.co/ing_industrial/170 This Trabajo de grado - Pregrado is brought to you for free and open access by the Facultad de Ingeniería at Ciencia Unisalle. It has been accepted for inclusion in Ingeniería Industrial by an authorized administrator of Ciencia Unisalle. For more information, please contact [email protected].

Upload: others

Post on 09-Jul-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis de las Pruebas Saber 11, años 2017 y 2018

Universidad de La Salle Universidad de La Salle

Ciencia Unisalle Ciencia Unisalle

Ingeniería Industrial Facultad de Ingeniería

4-15-2021

Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando

las variables determinantes en los bajos resultados y en la brecha las variables determinantes en los bajos resultados y en la brecha

existente entre los estudiantes de colegios categoría A y A+ existente entre los estudiantes de colegios categoría A y A+

versus los D en el sector público versus los D en el sector público

Angie Katherin Rodríguez Rodríguez Universidad de La Salle, Bogotá, [email protected]

Cesar Yesid Hernandez Cano Universidad de La Salle, Bogotá, [email protected]

Follow this and additional works at: https://ciencia.lasalle.edu.co/ing_industrial

Part of the Engineering Commons

Citación recomendada Citación recomendada Rodríguez Rodríguez, A. K., & Hernandez Cano, C. Y. (2021). Análisis de las Pruebas Saber 11, años 2017 y 2018, identificando las variables determinantes en los bajos resultados y en la brecha existente entre los estudiantes de colegios categoría A y A+ versus los D en el sector público. Retrieved from https://ciencia.lasalle.edu.co/ing_industrial/170

This Trabajo de grado - Pregrado is brought to you for free and open access by the Facultad de Ingeniería at Ciencia Unisalle. It has been accepted for inclusion in Ingeniería Industrial by an authorized administrator of Ciencia Unisalle. For more information, please contact [email protected].

Page 2: Análisis de las Pruebas Saber 11, años 2017 y 2018

i

ANÁLISIS DE LAS PRUEBAS SABER 11, AÑOS 2017 Y 2018, IDENTIFICANDO LAS

VARIABLES DETERMINANTES EN LOS BAJOS RESULTADOS Y EN LA BRECHA

EXISTENTE ENTRE LOS ESTUDIANTES DE COLEGIOS CATEGORÍA A Y A+ VERSUS

LOS D EN EL SECTOR PÚBLICO.

ANGIE KATHERIN RODRIGUEZ RODRIGUEZ

CESAR YESID HERNANDEZ CANO

Directora

Ing. YAMILE ADRIANA JAIME ARIAS

UNIVERSIDAD DE LA SALLE

FACULTAD DE INGENIERÍA

INGENIERÍA INDUSTRIAL

BOGOTÁ D.C

2021

Page 3: Análisis de las Pruebas Saber 11, años 2017 y 2018

ii

ANÁLISIS DE LAS PRUEBAS SABER 11, AÑOS 2017 Y 2018, IDENTIFICANDO LAS

VARIABLES DETERMINANTES EN LOS BAJOS RESULTADOS Y EN LA BRECHA

EXISTENTE ENTRE LOS ESTUDIANTES DE COLEGIOS CATEGORÍA A Y A+ VERSUS

LOS D EN EL SECTOR PÚBLICO.

ANGIE KATHERIN RODRÍGUEZ RODRÍGUEZ

CESAR YESID HERNÁNDEZ CANO

Trabajo de grado presentado para optar por el título de:

Ingeniero Industrial

Directora

Ing. YAMILE ADRIANA JAIME ARIAS

UNIVERSIDAD DE LA SALLE

FACULTAD DE INGENIERÍA

INGENIERÍA INDUSTRIAL

BOGOTÁ D.C

2021

Page 4: Análisis de las Pruebas Saber 11, años 2017 y 2018

iii

Nota de Aceptación

Directora: Yamile Adriana Jaime Arias

Firma Jurado

Page 5: Análisis de las Pruebas Saber 11, años 2017 y 2018

iv

Agradecimientos

“Le damos gracias en primer lugar a Dios, por guiarnos y acompañarnos a lo largo de nuestras

vidas; a nuestras familias por estar siempre ahí, por el amor, los consejos y el apoyo cada

instante; a nuestra tutora Yamile Jaime por el apoyo, paciencia y la dedicación desde el primer

instante; por último, pero no menos importante, a la Universidad de La Salle por ser nuestra alma

mater y a todos los docentes por los conocimientos y acompañamiento a lo largo de nuestra

formación.”

Angie y Cesar

Page 6: Análisis de las Pruebas Saber 11, años 2017 y 2018

v

Resumen

Este trabajo se realizó entorno la información recopilada por el Instituto Colombiano para

la Evaluación de la Educación (ICFES) de las Pruebas Saber 11 para los años 2017 y 2018;

donde se encuentran variables relacionadas con información de contacto de los estudiantes,

información socioeconómica, información del colegio, datos de citación del examen y resultados.

Con el fin de determinar si alguna de estas variables tenía incidencia en los resultados de las

Pruebas Saber 11 y en la brecha existente entre colegios públicos, se analizaron las variables

haciendo uso del software R Studio y a través de un modelo de Random Forest, se determinó la

importancia de algunas de estas variables sobre el puntaje promedio obtenido por los estudiantes

en estas pruebas. El resultado del trabajo arrojó las variables que más influyen en el puntaje,

donde las tres más importantes son el acceso a internet, a un computador y el número de libros

en el hogar. Así mismo se comprobó que las diferencias respecto a dichas variables generan la

brecha existente entre las instituciones educativas públicas. Por último, se plantean tres

propuestas a partir de los resultados obtenidos las cuales tienen el propósito de mejorar la calidad

de la educación y los resultados de los estudiantes en las Pruebas Saber 11.

Palabras clave: Pruebas Saber 11, Educación, Brecha, Variable, Random Forest.

Page 7: Análisis de las Pruebas Saber 11, años 2017 y 2018

vi

Abstract

This work was carried out around the information collected by the Colombian Institute

for the Evaluation of Education (ICFES) from the Saber 11 tests for the years 2017 and 2018;

where variables related to student contact information, socioeconomic information, school

information, exam citation data and results are found. In order to determine whether any of these

variables had an impact on the results of the Saber 11 tests and on the existing gap between

public schools, the variables were analyzed using R Studio software and through a Random

Forest model, the importance of these variables on the average score obtained by students in

these tests was determined. The result of the work showed the variables that most influence the

score, where the three most important are access to internet, a computer, and the number of

books at home; it was also found that the differences with respect to these variables generate the

existing gap between public educational institutions. Finally, three proposals are raised from the

results obtained which are intended to improve the quality of education and the results of

students in the Saber 11 tests.

Key Words: Saber 11 tests, Education, Gap, Variable, Random Forest.

Page 8: Análisis de las Pruebas Saber 11, años 2017 y 2018

vii

CONTENIDO

Resumen ....................................................................................................................................................... v

Abstract ....................................................................................................................................................... vi

TABLA DE CONTENIDO ....................................................................................................................... vii

Lista de tablas .............................................................................................................................................. x

Lista de ilustraciones ................................................................................................................................. xi

INTRODUCCION .................................................................................................................................... xv

1. CAPITULO 1: GENERALIDADES DEL PROYECTO ................................................................. 1

1.1. Descripción de la problemática. ................................................................................................. 1

1.2. Formulación del problema. ........................................................................................................ 2

1.3. Objetivos del proyecto ................................................................................................................ 2

1.3.1. Objetivo general ................................................................................................................... 2

1.3.2. Objetivos específicos ............................................................................................................ 3

1.4. Justificación. ................................................................................................................................. 3

1.5. Alcance. ........................................................................................................................................ 4

1.6. Marco teórico. ............................................................................................................................. 6

1.7. Marco de Referencia. ................................................................................................................ 10

1.7.1. Antecedentes .......................................................................................................................... 10

1.7.2. Marco Conceptual ................................................................................................................. 14

1.7.3. Marco legal. ....................................................................................................................... 16

Page 9: Análisis de las Pruebas Saber 11, años 2017 y 2018

viii

1.8. Metodología ............................................................................................................................... 17

2. CAPITULO 2: CONSTRUCCIÓN DE LA BASE DE DATOS. ...................................................................... 20

2.1. Recolección de la información ........................................................................................................ 20

2.2. Construcción de la base de datos. ................................................................................................. 21

2.3. Procesamiento y limpieza. ............................................................................................................ 26

2.3.1. Eliminación de datos faltantes. ........................................................................................ 26

2.3.2. Aplicación de filtros. ......................................................................................................... 26

2.3.3. Eliminación de caracteres especiales. .............................................................................. 27

2.3.4. Eliminación de variables. ................................................................................................. 27

3. CAPITULO 3: IDENTIFICACIÓN DE VARIABLES CON MAYOR INFLUENCIA EN LOS

RESULTADOS DE LAS PRUEBAS SABER 11 Y LA INFLUENCIA DE ESTAS EN LA BRECHA

ENTRE COLEGIOS CATEGORÍA A+ Y A VS LOS D ...................................................................... 33

3.1. Identificación de variables y grado de influencia ................................................................... 33

3.1.1. Análisis exploratorio de los datos .................................................................................... 33

3.1.2. Análisis de los datos de variables del colegio y variables socio económicas de los

estudiantes ......................................................................................................................................... 58

3.2. Métodos Machine Learning ..................................................................................................... 60

3.2.1. Algoritmo Random Forest ................................................................................................. 61

3.2.2. Ventajas Random Forest .................................................................................................... 61

3.3. Grado de influencia de variables utilizando un modelo de Random Forest ........................ 62

3.3.1. Librerías utilizadas: .......................................................................................................... 64

Page 10: Análisis de las Pruebas Saber 11, años 2017 y 2018

ix

3.3.2. División del conjunto de datos en train/test .................................................................... 64

3.3.3. Preprocesamiento de datos ............................................................................................... 65

3.3.4. Configurar el modelo de Machine Learning .................................................................. 65

3.3.5. Definir el flujo de trabajo ................................................................................................. 66

3.3.6. Calibración de parámetros ............................................................................................... 67

3.3.7. Resultados Selección de parámetros................................................................................ 68

3.4. Modelo final ............................................................................................................................... 72

3.5. Comparación colegios categoría A y A+ vs la categoría D .................................................... 76

3.5.1. Modulo información personal .......................................................................................... 77

3.5.2. Modulo información socioeconómica .............................................................................. 78

3.5.3. Modulo información del colegio ....................................................................................... 85

4. CAPITULO 4: PROPUESTAS DE MEJORA ............................................................................................. 87

4.1. Ampliar cobertura del PAE y capacitaciones a padres de familia ....................................... 87

4.2. Crear hábitos de lectura mediante actividades didácticas. ...................................................... 91

4.3. Aumentar acceso a internet y a computadores en colegios públicos. ................................... 94

5. CAPITULO 5. CONCLUSIONES Y TRABAJO FUTURO. ........................................................ 98

5.1. Conclusiones generales ............................................................................................................. 98

5.2. Trabajo futuro ........................................................................................................................... 99

ANEXOS .................................................................................................................................................. 102

Referencias............................................................................................................................................... 103

Page 11: Análisis de las Pruebas Saber 11, años 2017 y 2018

x

Lista de tablas

Tabla 1 Estudios previos relacionados con la brecha y la desigualdad en la educación ............................ 10

Tabla 2 Clasificación Instituciones según Rango del Índice ...................................................................... 15

Tabla 3 Descripción base de datos resultados prueba Saber 11. ................................................................ 20

Tabla 4 Descripción base de datos clasificación de los planteles. ............................................................. 21

Tabla 5 Variables información personal base de datos resultados prueba Saber 11. ................................. 22

Tabla 6 Variables información de contacto base de datos resultados prueba Saber 11. ............................ 22

Tabla 7 Variables información socioeconómica base de datos resultados prueba Saber 11. ..................... 23

Tabla 8 Variables información del colegio base de datos resultados prueba Saber 11. ............................. 23

Tabla 9 Variables datos citación del examen base de datos resultados prueba Saber 11. .......................... 24

Tabla 10 Variables resultados base de datos resultados prueba Saber 11. ................................................. 24

Tabla 11 Variables base de datos clasificación de los planteles. ............................................................... 25

Tabla 12 Grado de relación según coeficiente de correlación.................................................................... 28

Tabla 13 Variables descartadas para el análisis. ........................................................................................ 28

Tabla 14 Variables seleccionadas para el análisis. .................................................................................... 30

Tabla 15 Puntaje promedio de acuerdo con la educación del padre........................................................... 36

Tabla 16 Puntaje promedio de acuerdo con la educación de la madre ....................................................... 37

Tabla 17 Puntaje promedio de acuerdo con el estrato de la vivienda ........................................................ 39

Tabla 18 Puntaje promedio global dependiendo del trabajo laboral del padre .......................................... 50

Tabla 19 Puntaje promedio global dependiendo del trabajo laboral de la madre ...................................... 50

Tabla 20 Puntaje global dependiendo la jornada del colegio. .................................................................... 57

Tabla 21 Variables a incluir en el modelo Random Forest ....................................................................... 63

Tabla 22 Importancia de las variables del modelo ..................................................................................... 73

Page 12: Análisis de las Pruebas Saber 11, años 2017 y 2018

xi

Lista de ilustraciones

Ilustración 1 Panorama del rendimiento de Colombia en lectura, matemáticas y ciencias........... 1

Ilustración 2 Porcentaje de estudiantes Pruebas Saber 11 2017 por tipo de colegio ..................... 5

Ilustración 3 Porcentaje de estudiantes Pruebas Saber 11 2018 por tipo de colegio .................... 6

Ilustración 4 Metodología de la investigación. ........................................................................... 19

Ilustración 5 Distribución del puntaje global .............................................................................. 34

Ilustración 6 Puntaje global de acuerdo con el género del estudiante ......................................... 34

Ilustración 7 Puntaje global de acuerdo si el estudiante tiene etnia. .......................................... 35

Ilustración 8 Puntaje global de acuerdo con la educación del padre ........................................... 36

Ilustración 9 Puntaje global de acuerdo con la educación de la madre ....................................... 37

Ilustración 10 Puntaje global de acuerdo con el estrato de la vivienda del estudiante................ 38

Ilustración 11 Puntaje global de acuerdo con el número de personas en el hogar ...................... 40

Ilustración 12 Puntaje global de acuerdo con el número de cuartos en el hogar ........................ 40

Ilustración 13 Puntaje global de acuerdo con si la familia cuenta con computador o no. .......... 41

Ilustración 14 Puntaje global dependiendo si la familia tiene internet........................................ 42

Ilustración 15 Puntaje global de acuerdo con si tiene lavadora o no .......................................... 42

Ilustración 16 Puntaje global de acuerdo de si se tiene servicio de tv en la familia ................... 43

Ilustración 17 Puntaje global de acuerdo si se tiene automóvil en la familia ............................. 44

Ilustración 18 Puntaje global de acuerdo si se tiene motocicleta en el hogar ............................. 44

Ilustración 19 Puntaje global de acuerdo si tiene consola de videojuegos .................................. 45

Ilustración 20 Puntaje promedio de acuerdo con el número de libros que tiene la familia......... 46

Page 13: Análisis de las Pruebas Saber 11, años 2017 y 2018

xii

Ilustración 21 Puntaje promedio de acuerdo con el número de veces que se comen derivados de

la leche en la semana..................................................................................................................... 47

Ilustración 22 Puntaje global de acuerdo con el número de veces que se come carne, pescado y

huevo en la semana ....................................................................................................................... 48

Ilustración 23 Puntaje global de acuerdo con el número de veces que se come cereal, frutos y

legumbres ...................................................................................................................................... 49

Ilustración 24 Puntaje promedio de acuerdo con la dedicación de lectura diaria ....................... 51

Ilustración 25 Puntaje global de acuerdo con la dedicación diaria a navegar en internet ........... 52

Ilustración 26 Puntaje promedio de acuerdo con las horas a la semana que trabaja el estudiante.

....................................................................................................................................................... 53

Ilustración 27 Puntaje promedio global dependiendo del género del colegio ............................. 54

Ilustración 28 Puntaje promedio global dependiendo si el colegio es bilingüe .......................... 54

Ilustración 29 Puntaje global dependiendo del carácter del colegio ........................................... 55

Ilustración 30 Puntaje global dependiendo el área de ubicación del colegio .............................. 56

Ilustración 31 Puntaje global dependiendo la jornada del colegio .............................................. 57

Ilustración 32 Puntaje promedio dependiendo de las horas trabajas en la semana y la jornada . 58

Ilustración 33 Proporción de estudiantes dependiendo de la educación del padre y del área de

ubicación del colegio .................................................................................................................... 59

Ilustración 34 Proporción de estudiantes dependiendo de la educación de la madre y del área de

ubicación del colegio .................................................................................................................... 59

Ilustración 35 Configuración del modelo de Machine Learning ................................................. 66

Ilustración 36 Flujo de trabajo del modelo Random Forest ........................................................ 67

Ilustración 37 Valores de selección para las métricas ................................................................. 68

Page 14: Análisis de las Pruebas Saber 11, años 2017 y 2018

xiii

Ilustración 38 Resultado validación cruzada con división de datos 80/20 ................................ 69

Ilustración 39 Resultado validación cruzada con división de datos 75/25 .................................. 69

Ilustración 40 Resultado validación cruzada con división de datos 70/30 .................................. 70

Ilustración 41 RMSE en función del mtry y el número de arboles ............................................. 71

Ilustración 42 MAE en función del mtry y el número de arboles ............................................... 71

Ilustración 43 Modelo final de Random Forest ........................................................................... 72

Ilustración 44 Importancia de variables del modelo ................................................................... 76

Ilustración 45 Proporción de estudiantes que tienen internet dependiendo de la categoría del

colegio. .......................................................................................................................................... 77

Ilustración 46 Proporción de estudiantes que tienen etnia dependiendo de la categoría del

colegio. .......................................................................................................................................... 78

Ilustración 47 Proporción de estudiantes que tienen internet dependiendo de la categoría del

colegio. .......................................................................................................................................... 78

Ilustración 48 Proporción de estudiantes que tienen computador dependiendo de la categoría del

colegio. .......................................................................................................................................... 79

Ilustración 49 Proporción de estudiantes que no tienen computador dependiendo del estrato de

la vida. ........................................................................................................................................... 80

Ilustración 50 Proporción de estudiantes dependiendo de si tienen servicio de televisión y de la

categoría del colegio. .................................................................................................................... 81

Ilustración 51 Proporción de estudiantes dependiendo de la dedicación diaria a internet y de la

categoría del colegio. .................................................................................................................... 81

Ilustración 52 Proporción de estudiantes dependiendo del número de libros en la familia y de la

categoría del colegio. .................................................................................................................... 82

Page 15: Análisis de las Pruebas Saber 11, años 2017 y 2018

xiv

Ilustración 53 Proporción de estudiantes dependiendo la dedicación a la lectura diaria y de la

categoría del colegio. .................................................................................................................... 83

Ilustración 54 Proporción de estudiantes dependiendo del consumo de lácteos en la semana y la

categoría del colegio. .................................................................................................................... 84

Ilustración 55 Proporción de estudiantes dependiendo del consumo de proteínas en la semana y

la categoría del colegio. ................................................................................................................ 84

Ilustración 56 Proporción de estudiantes dependiendo del consumo de cereales frutos y

legumbres en la semana y de la categoría del colegio. ................................................................. 85

Ilustración 57 Proporción de estudiantes dependiendo del área de ubicación y la categoría del

colegio. .......................................................................................................................................... 86

Ilustración 58 Cobertura nacional PAE 2016 .............................................................................. 89

Ilustración 59 Cobertura nacional PAE 2017 .............................................................................. 89

Ilustración 60 Cobertura nacional PAE 2018 .............................................................................. 90

Ilustración 61 Puntaje promedio de acuerdo con la dedicación diaria de lectura. ...................... 91

Ilustración 62 Porcentaje de estudiantes según la dedicación diaria a la lectura. ....................... 92

Ilustración 63 Número de sedes conectadas 2019 ....................................................................... 95

Ilustración 64 Número de sedes conectadas 2020 ....................................................................... 95

Ilustración 65 Número de estudiantes promedio por computador .............................................. 96

Page 16: Análisis de las Pruebas Saber 11, años 2017 y 2018

xv

INTRODUCCION

La educación colombiana, en cuanto a las pruebas realizadas a nivel internacional, como

las pruebas del Programme for International Student Assessment (PISA), evidencia una seria

problemática. Desde la primera vez, en el 2006, que Colombia participó en estas pruebas no se ha

visto una notable mejoría y en todas las ocasiones se ha ubicado por debajo del promedio respecto

a los resultados del resto de países; al igual que en las pruebas Progress in International Reading

Literacy Study (PIRLS) que miden la compresión lectora, en 2011 evidenciaron que seis de cada

diez estudiantes colombianos tienen problemas para entender e interpretar textos complejos,

además de que en esta ocasión el país también se ubicó por debajo de la media y estuvo entre los

10 países con menores resultados (MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE.,

2012). A su vez, también se puede notar el estancamiento que se tiene en los resultados de las

Pruebas Saber 11, publicados por el Instituto Colombiano para la Evaluación de la Educación

(ICFES), en donde el resultado promedio nacional desde el año 2014 oscila alrededor de 250

puntos de 500 posibles; esto permite evidenciar los problemas que se vienen presentando en el

sistema educativo colombiano; por lo tanto, se considera de suma importancia analizar los datos

que posee el ICFES para conocer los motivos por los cuales está fallando.

En el presente proyecto investigativo se orienta hacia realizar un análisis de las variables

incluidas en las bases de datos publicadas por el ICFES de los resultados de las Pruebas Saber 11

de los colegios públicos de Colombia durante los años 2017 y 2018, para identificar cuáles son las

variables que tienen mayor incidencia en los resultados obtenidos. Cabe resaltar que, no solo es

importante conocer las variables sino también observar cuales son las diferencias entre los

estudiantes de colegios con altos resultados y aquellos que se encuentran rezagados, esto hace que

sea necesario hacer una comparación entre los estudiantes de los colegios categoría A y A+ con

Page 17: Análisis de las Pruebas Saber 11, años 2017 y 2018

xvi

los colegios categoría D; de manera que se puedan esclarecer los factores causantes de la brecha

existente en los resultados de las Pruebas Saber 11. El análisis exploratorio de los datos y la

comparación de variables se lleva a cabo mediante el software R-Studio, el cual brinda la facilidad

para analizar y procesar los datos.

Page 18: Análisis de las Pruebas Saber 11, años 2017 y 2018

1

1. CAPITULO 1: GENERALIDADES DEL PROYECTO

1.1. Descripción de la problemática.

Colombia es uno de los países con bajos índices de desempeño en cuanto a educación,

según las pruebas PISA, en las cuales no se han tenido buenos resultados y por lo general se ha

ubicado por debajo del promedio en pruebas de matemáticas, lectura y ciencias, según el informe

publicado por La Organización para la Cooperación y el Desarrollo Económicos (OCDE) en el

año 2019. El hecho de tener estos resultados bajos, como se observa en la Ilustración 1 y no mejorar

en ellos, evidencia que el sistema educativo colombiano está fallando y se tienen cosas por

solucionar. Adicional a estos resultados, se le suma que Colombia es uno de los países con mayor

desigualdad en América latina, por lo que no todos los estudiantes que presentan las Pruebas Saber

11 cuentan con las mismas condiciones, ni con el mismo entorno de desarrollo (Regional, s.f.).

Ilustración 1 Panorama del rendimiento de Colombia en lectura, matemáticas y ciencias.

Fuente: Program for International Student Assessment (PISA) Results from PISA 2018

Page 19: Análisis de las Pruebas Saber 11, años 2017 y 2018

2

Las Pruebas Saber 11, están a cargo del ICFES, quienes recolectan, procesan y custodian

información relacionada con la institución educativa, el estudiante que presenta la prueba y el

entorno del estudiante. Esta información es expresada a través de 94 variables, que bajo un enfoque

de analítica de datos pueden ser estudiados a profundidad, teniendo en cuenta que no se sabe con

claridad y certeza, si alguna de estas variables afecta el desempeño del estudiante en la prueba. Por

lo tanto, se presenta la oportunidad de realizar un análisis que permita identificar cuáles de las

variables resultan determinantes en los resultados de los estudiantes que presentan las Pruebas

Saber 11. Además, si bien es importante conocer que variables tienen influencia en los resultados,

también es necesario saber cuáles son las diferencias de estas variables entre los estudiantes de

colegios que tienen un mejor desempeño (categoría A y A+) y aquellos que están rezagados

(categoría D) de modo que se entienda qué condiciones específicas son responsables de la brecha

existente actualmente entre los estudiantes de estos colegios.

1.2. Formulación del problema.

¿Cuáles son las variables más representativas en los resultados de los años 2017 y 2018 de

las Pruebas Saber 11, la importancia de estas en la brecha existente entre colegios de categoría A+

y A versus la categoría D, y cómo afectan el desempeño de los estudiantes?

1.3.Objetivos del proyecto

1.3.1. Objetivo general

Analizar las variables reportadas en los resultados de las Pruebas Saber 11 de los colegios públicos

de Colombia durante los años 2017 y 2018, identificando la incidencia de estas en los bajos

resultados obtenidos, y su importancia con la brecha existente entre los estudiantes de los colegios

con altos y bajos resultados.

Page 20: Análisis de las Pruebas Saber 11, años 2017 y 2018

3

1.3.2. Objetivos específicos

• Construir la base de datos con las variables de las Pruebas Saber 11 de los

años 2017 y 2018 publicadas por el ICFES.

• Identificar las variables con mayor influencia en los resultados de las Pruebas

Saber 11 y la importancia que estas tienen en la brecha que hay entre colegios

de categoría A+ y A vs los D, aplicando herramientas de Ingeniería Industrial.

• Desarrollar propuestas de mejora basados en las variables determinantes que

diferencian a los colegios categoría A+ y A de los colegios categoría D.

1.4. Justificación.

Uno de los desafíos a los que Colombia se enfrenta es el de mejorar la calidad de la

educación con el fin de poder acelerar su crecimiento económico y, además, poder ofrecer mayores

posibilidades de bienestar a sus habitantes. En los últimos años el país ha logrado avances en

materia de disminución de pobreza, del 2018 al 2019 la pobreza multidimensional a nivel nacional

disminuyo en 1,6 puntos porcentuales (DANE, 2019); a pesar de esto el país sigue siendo uno de

más desiguales de América latina. Entre los factores que explican esta situación se destaca la escasa

capacidad del sistema educativo de aumentar el capital humano. (OECD, 2013)

A lo largo del tiempo se ha destacado el grado de influencia que algunas características

como el contexto familiar, sexo, nivel educativo de los padres o raza, entre otras, ha tenido en el

logro educativo de un individuo; también se ha destacado la importancia de desarrollar y evaluar

políticas públicas que permitan de algún modo nivelar las condiciones para los individuos con

situaciones menos favorables. (Carneiro, 2008)

Page 21: Análisis de las Pruebas Saber 11, años 2017 y 2018

4

Al existir una diferencia en la calidad de la educación entre los estudiantes de educación

media, quienes reciben una educación de menor calidad se ven afectadas a mediano y largo plazo,

pues al no desarrollar ciertas capacidades que estaría dejando esta diferencia, el ingreso a la

educación superior es menos probable y en cuanto al mercado laborar su desempeño es menor, lo

que limita la capacidad de generar ingresos. El hecho que existan diferencias de calidad en la

educación recibida ocasiona brechas en la calidad de vida de la población. La educación brindada

de esta forma, en lugar de ayudar a cerrar brechas y reducir las diferencias entre los estudiantes

del país, lo que está haciendo es profundizarlas y perpetuarlas. (Sarmiento, Becerra, & González,

2000)

Las brechas, en cuanto a calidad educativa, son un problema de eficacia escolar y se definen

como la incapacidad del sistema educativo de lograr que la población con menores condiciones

socioeconómicas incorpore efectivamente los conocimientos y competencias que puede necesitar

para participar de una manera adecuada en la sociedad. (Celis, Jiménez, & Jaramillo, 2015)

1.5. Alcance.

Este proyecto se enmarca en el análisis de los registros con los resultados obtenidos en las

Pruebas Saber 11 de los estudiantes de colegios públicos de Colombia calendario A, de los años

2017 y 2018, publicados por el ICFES y que pertenezcan a colegios categorizados ya sean A+,

A, B, C o D; con el fin de determinar cuáles de estas variables tienen mayor incidencia en los

resultados de los estudiantes y la importancia de estas en la brecha que hay entre colegios de

categoría A+ y A versus los D; estos hallazgos permitirán desarrollar propuestas basadas en los

resultados, que de ser aplicadas, puedan mejorar el desempeño de los estudiantes de colegios

públicos en las Pruebas Saber 11. Para dar una mayor claridad de la población de estudio, a

continuación, se presentan algunos datos que permiten observar la dimensión de dicha población.

Page 22: Análisis de las Pruebas Saber 11, años 2017 y 2018

5

En el Ilustración 2 se observa el total de estudiantes que presentaron las Pruebas Saber 11

en el año 2017 de colegios públicos y que se encuentran en colegios categorizados por el ICFES

en uno de los siguientes tipos A+, A, B, C, D siendo A+ los colegios con mejores puntajes, y D

aquellos con los puntajes más bajos. Es importante resaltar que del total de estudiantes que

presentaron la prueba Saber 11 reportados por el ICFES, el 12% pertenecían a colegios que no

estaban categorizados, por lo tanto, el total de estudiantes mostrados en la ilustración excluye

estos estudiantes. En la ilustración también se puede observar el porcentaje de estudiantes por

tipo de colegió, donde en la categoría A+ se ubican el 3,51% de los estudiantes (13.500

estudiantes), en la categoría A se encuentran el 17,74% de los estudiantes (6.8247 estudiantes),

en la categoría B se encuentran el 36,81% de los estudiantes(14.1573 estudiantes), en la

categoría C se encuentran el 22,48% de los estudiantes(8.6466 estudiantes) y por último en la

categoría D se encuentran el 19,46% de los estudiantes(74.834 estudiantes).

Ilustración 2 Porcentaje de estudiantes Pruebas Saber 11 2017 por tipo de colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

La cantidad de estudiantes de colegios públicos de Colombia que presentaron la prueba

Saber 11 en el año 2018, se presenta en la ilustración 3. En ella se observa el porcentaje de

estudiantes según el tipo de colegio al que pertenecen teniendo en cuenta los tipos A+, A, B, C y

D, perteneciendo al tipo A+ los colegios que tienen mejores resultados con un 4.22% de los

Page 23: Análisis de las Pruebas Saber 11, años 2017 y 2018

6

estudiantes (17.292) y D aquellos con desempeños más bajos con un 19,6% de los estudiantes

(66.460). Es importante resaltar que en este número de estudiantes se excluyen los registros de

colegio privado y aquellos que aparecen sin categorización.

Ilustración 3 Porcentaje de estudiantes Pruebas Saber 11 2018 por tipo de colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

1.6. Marco teórico.

Según lo dispuesto por el Decreto 869 de 2010, publicado por el ICFES en su sitio web

oficial, la prueba SABER 11° evalúa el nivel de la Educación Media y además de ser una

herramienta que retroalimenta al Sistema Educativo la prueba tiene por objetivos, los siguientes:

• Comprobar el grado de desarrollo de las competencias de los estudiantes que están por

finalizar el grado undécimo de la educación media.

• Proporcionar elementos al estudiante para la realización de su autoevaluación y el

desarrollo de su proyecto de vida.

• Proporcionar a las instituciones educativas información pertinente sobre las

competencias de los aspirantes a ingresar a programas de educación superior, así como

Page 24: Análisis de las Pruebas Saber 11, años 2017 y 2018

7

sobre las de quienes son admitidos, que sirva como base para el diseño de programas

de nivelación académica y prevención de la deserción en este nivel.

• Monitorear la calidad de la educación de los establecimientos educativos del país, con

fundamento en los estándares básicos de competencias y los referentes de calidad

emitidos por el Ministerio de Educación Nacional.

• Proporcionar información para el establecimiento de indicadores de valor agregado,

tanto de la educación media como de la educación superior.

• Servir como fuente de información para la construcción de indicadores de calidad de la

educación, así como para el ejercicio de la inspección y vigilancia del servicio público

educativo.

• Proporcionar información a los establecimientos educativos que ofrecen educación

media para el ejercicio de la autoevaluación y para que realicen la consolidación o

reorientación de sus prácticas pedagógicas.

• Ofrecer información que sirva como referente estratégico para el establecimiento de

políticas educativas nacionales, territoriales e institucionales. (ICFES, 2010)

Las pruebas SABER se basan en el enfoque de la calidad en los resultados, la cual es

medible a través de la observación del grado de desarrollo de algunas competencias en los

estudiantes. Su “prototipo es el de las llamadas pruebas objetivas, las cuales establecen diferencias

entre los individuos a partir de un patrón único considerado válido para toda la población, la cual

se supone homogénea desde el punto de vista de la capacidad que se pretende medir” (Jiménez &

Pinzón, 1998). Estas pruebas proveen información para comparar, dentro de cada una de ellas, a

los distintos individuos o grupos, lo que las habilita para desarrollar el objetivo de determinar

Page 25: Análisis de las Pruebas Saber 11, años 2017 y 2018

8

cuáles son las diferencias en la calidad educativa y qué factores influyen en un mayor o menor

logro. (Celis, Jiménez, & Jaramillo, 2015)

En 1998, Piñeros y Rodríguez destacaron dos elementos sobre la manera en que se

determina el logro de los estudiantes. El primero es la naturaleza multinivel del proceso en el que

predominan cuatro grupos de factores: la organización escolar, el nivel de clase, el contexto y el

desempeño individual del estudiante. Además, los autores advierten la necesidad de reconocer la

interdependencia entre los distintos grupos de factores. El segundo aspecto destacado es la

importancia del contexto, este condiciona en gran medida los resultados de la escuela, de allí que

se vea la institución educativa “un sistema en interacción con el ambiente” (Jiménez & Pinzón,

1998).

Lo anterior es coherente con el planteamiento de la teoría histórico cultural, la cual niega

la idea de que el rendimiento de la educación pueda separarse de los contextos sociales, culturales

e históricos en los que participan los individuos, pues “las funciones mentales superiores humanas

están mediadas por la interacción social significativa y la actividad” (Pedro R. Portes, 2014).

Algunos aspectos que pueden afectar el aprendizaje escolar se pueden caracterizar en: (a) lo que

llevan los estudiantes a la institución educativa, es decir, características individuales; (b) el apoyo

que reciben del hogar, como las condiciones familiares sociales y económicas; (c) los elementos

de la escuela o plantel educativo, como la eficacia de los profesores y las características de

infraestructura; y (d) aspectos institucionales como la administración de los sistemas escolares

(BANCO MUNDIAL, 2008)

Según (Celis, Jiménez, & Jaramillo, 2015), dichos factores generan una brecha en los

resultados, la cual puede entenderse como la diferencia entre el puntaje que obtiene el estudiante

y aquel puntaje que debería obtener dadas sus características personales, familiares y de

Page 26: Análisis de las Pruebas Saber 11, años 2017 y 2018

9

contexto. Adicionalmente, la definición de brecha suele emplearse, en términos comparativos,

como una diferencia de puntajes entre el grupo observado y otro de referencia, este es el caso del

estudio que hizo (Rivera, 2010) para medir la brecha de los estudiantes de Barranquilla frente a

sus pares de Bogotá y Bucaramanga.

Con el fin de analizar la brecha existente menciona anteriormente se debe analizar

puntualmente el efecto que tienen distintos factores en el logro educativo de los estudiantes, se

deben reconocer al menos cuatro grupos de características que influyen en el rendimiento de los

estudiantes. Estas son:

a. Las institucionales o geográficas que corresponden a elementos estructurales del

sistema educativo, su administración y la región donde el estudiante accede al servicio.

b. Las condiciones socioeconómicas, familiares y del entorno en que vive el estudiante

que afectan su aprendizaje a través de los procesos de socialización primaria y secundaria y

por la reproducción de prácticas culturales heredadas.

c. Las características de las instituciones educativas que se manifiestan en su dotación

de recursos físicos y humanos, las relaciones entre los actores que forman parte ellas y en la

existencia de externalidades producidas por las características de estos, cuya influencia

comúnmente se denomina efecto plantel.

d. Las condiciones individuales como el esfuerzo y la salud física y mental. Para el

propósito de este estudio las características individuales se consideran inobservables; las

características de los planteles y las socioeconómicas son variables determinantes de la calidad

educativa, incluidas en un modelo multinivel y las características geográficas agregan los

resultados obtenidos. (Jiménez & Pinzón, 1998)

Page 27: Análisis de las Pruebas Saber 11, años 2017 y 2018

10

1.7. Marco de Referencia.

1.7.1. Antecedentes

A continuación, en la tabla 1 se presentan estudios técnicos, trabajos de grado e investigaciones

realizadas previamente relacionadas con el objeto de estudio del presente proyecto, con su

respectivo título, autor, objetivo y resultados.

Tabla 1 Estudios previos relacionados con la brecha y la desigualdad en la educación

ESTUDIOS PREVIOS RELACIONADOS CON LA BRECHA Y LA DESIGUALDAD EN

LA EDUCACIÓN

TITULO DEL

PROYECTO

AUTORES OBJETIVO

RESULTADOS

Factores

académicos de

incidencia en la

generación de

desigualdades

educativas en el

colegio seminario

San Juan Apóstol y

el Liceo Hermano

Miguel La Salle

desde los

resultados de las

Pruebas Saber 11

2015-2017

(Pineda,

Bernal, &

Páez, 2019)

Describir los factores

académicos que

generan desigualdad

educativa y afectan la

calidad de la

educación en las

instituciones

educativas Colegio

Seminario San Juan

Apóstol de Facatativá

y el Liceo Hermano

Miguel La Salle, de

Bogotá D.C.

Las desigualdades educativas

entre los contextos rurales y

urbanos se logran identificar por

diferentes factores, tales como

aspectos sociales, culturales y

familiares. Adicionalmente,

cuando los estudiantes no tienen

formal y/o legalmente, las

mismas posibilidades

educativas y planes de

mejoramiento hacia la calidad

de la educación se fragmentan

los procesos de evaluación.

La brecha de

rendimiento

académico de

Barranquilla

(Rivera, 2010)

Analiza las brechas

correspondientes al

rendimiento

académico en

Barranquilla, Bogotá y

Bucaramanga,

revisando la calidad

educativa y las

pruebas Saber

Los resultados enfatizan la

relevancia que tienen en el

rendimiento académico el que

los padres se involucren en la

formación de capital humano de

sus hijos menores (como

presumiblemente lo hacen los

padres más educados). Padres

más y mejor educados exponen

a sus hijos a un ambiente mucho

más propicio para la

acumulación de capital humano,

que al final se traduce en mayor

productividad y mayor bienestar

Page 28: Análisis de las Pruebas Saber 11, años 2017 y 2018

11

económico. En cualquier caso,

solo a través de la inversión en

mejores colegios, mejores

profesores y recursos

disponibles para los estudiantes

barranquilleros se podrá crear

un círculo virtuoso en el que la

mayor educación de los

estudiantes de hoy, que son los

padres del mañana, repercuta en

las brechas educativas de la

ciudad en el futuro.

¿Cuál es la brecha

de la calidad

educativa en

Colombia en la

educación media y

en la superior?

(Celis,

Jiménez, &

Jaramillo,

2015)

Con el objetivo de

encontrar cuál es la

brecha de la calidad

de la educación

colombiana en los

niveles medio y

superior, se

examinaron los

resultados de las

Pruebas Saber 11 y

SABER PRO a través

de modelos

jerárquicos en los que

se contrastaron

factores individuales,

familiares y del

plantel asociados con

el puntaje obtenido.

Los resultados permiten

concluir que existen brechas

educativas en la educación

media y en la educación

superior asociadas a problemas

de eficacia escolar. Sin

embargo, existen diferencias en

la dinámica educativa de ambos

niveles analizados. En la

educación media se ratifica la

importancia de las condiciones

socioeconómicas y los

antecedentes familiares; en la

educación superior se destaca la

importante de las IES en el

puntaje obtenido por los

estudiantes.

Análisis de

eficiencia de la

educación en

Colombia

(Iregui, Melo,

& Ramos,

2007)

Medir el impacto de

diversos factores aso-

ciados con el colegio

y con el entorno

socioeconómico de los

estudiantes en el

rendimiento

académico, y se

estiman los niveles de

eficiencia técnica de

una muestra de 4.542

colegios públicos y

privados en el 2002

Los resultados indican que las

variables asociadas con la

infraestructura de los colegios y

con el entorno socioeconómico

de los estudiantes tienen un

impacto positivo y significativo

en el logro académico. En

términos de eficiencia, los

resultados muestran que los

colegios privados se podrían

estar beneficiando de

condiciones de entorno más

favorables, si se tiene en cuenta

que ´estos, en promedio,

atienden alumnos de mayores

ingresos. No obstante, cuando

Page 29: Análisis de las Pruebas Saber 11, años 2017 y 2018

12

se asumen entornos

equivalentes, no existen grandes

diferencias en las medidas de

eficiencia entre colegios

públicos y privados.

Variables asociadas

al desempeño

escolar.

(Bareño, 2015)

Determinar si existe

relación entre las

variables contextuales

(nivel educativo de los

padres e ingreso en el

hogar) y el desempeño

escolar, reflejado en

los resultados de las

Pruebas Saber 11, de

las instituciones

educativas con

puntajes superiores e

inferiores.

El resultado parece indicar que

padres con mayor nivel

educativo, brindan la

posibilidad de apoyar de una

forma más efectiva el proceso

de enseñanza de sus hijos,

facilitando el aprendizaje y que

se refleja en los resultados en

las pruebas. De la misma

manera, padres con niveles

mayores de educación, asumen

la educación como un valor

importante y estarían

presentando mayores

expectativas sobre sus hijos,

influenciando a su vez en el

desempeño.

Desigualdad de

oportunidades en el

sistema de

educación pública

en Bogotá,

Colombia

(López,

Virgüez, Silva,

& Sarmiento,

2017)

Realizar un análisis

comparativo sobre la

desigualdad de

oportunidades en los

resultados de la

prueba Saber 11 de

2012 entre dos

modelos de educación

pública en Bogotá:

tradicional y por

concesión. Se utilizó

la técnica Propensity

Score Matching para

escoger el grupo de

estudiantes de

colegios públicos

tradicionales a

comparar con los de

colegios en concesión.

Los resultados indican que los

estudiantes de colegios

concesionados presentan un

menor grado de desigualdad de

oportunidades en el logro

educativo que los estudiantes de

los colegios públicos

tradicionales.

Análisis de la

evolución de la

igualdad de

oportunidades en

educación media,

(Gamboa,

2012)

El trabajo provee una

medición del nivel de

desigualdad de

oportunidades en el

logro educativo en

Se encuentra que el género es la

circunstancia que menos

desigualdad de oportunidades

(inequidad) genera y que el tipo

de colegio evidencia altos

Page 30: Análisis de las Pruebas Saber 11, años 2017 y 2018

13

en una perspectiva

internacional. El

caso de Colombia.

educación básica para

Colombia, y su

situación respecto a

otros países de

América Latina.

niveles de inequidad tanto para

Colombia como para el resto de

los países incluidos en el

análisis. Por otro lado, se

encuentra una modesta

reducción en los niveles de

inequidad en el tiempo que han

modificado los ordenamientos

entre países más inequitativos.

Calidad de la

Educación Básica y

Media en

Colombia:

Diagnóstico y

Propuestas

(Barrera,

Maldonado, &

Rodríguez.,

2012)

Este trabajo hace una

propuesta de política

educativa para

Colombia que

permitirá mejorar la

calidad de la

educación básica,

secundaria y media y

así convertirla en una

herramienta efectiva

de movilidad social.

Se muestra que Colombia ha

tenido avances importantes en

cuanto a cobertura. Sin

embargo, las mejoras en

términos de calidad han sido

marginales e inequitativas. Las

propuestas de política son:

• Fortalecimiento de la

evaluación de la calidad de la

educación.

• Fortalecimiento de la

capacidad institucional de los

colegios públicos.

• Implementación de la

jornada escolar completa.

• Implementación de una

política de docentes que permita

atraer mejores profesionales y

mejorar los instrumentos de

evaluación de los docentes.

• Participación del sector

privado en la provisión de

educación.

Inequidad en los

aprendizajes

escolares en

América Latina

(Duarte &

María Soledad

Bos, 2009)

Analizar las

diferencias en los

aprendizajes de los

estudiantes

latinoamericanos a

partir de las

condiciones

socioeconómicas de

sus familias.

Se confirma que existe una

relación positiva y significativa

entre la condición

socioeconómica de

los estudiantes y los resultados

en el Segundo Estudio Regional

Comparativo y Explicativo

(SERCE), tanto para la región

en general como para cada país

participante en particular. Fuente: Elaboración propia.

Page 31: Análisis de las Pruebas Saber 11, años 2017 y 2018

14

1.7.2. Marco Conceptual

Para tener una correcta compresión del desarrollo de este proyecto se hace necesario tener

claro algunos temas mencionados y especificados a continuación.

Categorización de establecimientos y sedes: En las características para la clasificación

de establecimientos y sedes, no se especifica el cálculo del índice por medio del cual se hace la

asignación de la categoría, ya que esta se encuentra realizada por el ICFES, teniendo en cuenta

que:

• Se genera después de cada aplicación de SABER 11°, es decir, dos veces al año.

• Se produce por separado para los grados 11° y 26° (ciclo de adultos), tanto para

establecimientos como para sedes.

• Se realiza con base en los resultados de los estudiantes de los últimos tres años.

• Para ser clasificado se requiere que los estudiantes con resultados válidos sean al menos 9

y al menos el 80% de los matriculados registrados en Sistema Integrado de Matrícula

(SIMAT).

• La clasificación se hace con base en los puntajes obtenidos en las cinco pruebas del examen

y depende no solamente de los promedios sino también de la varianza, es decir, de qué tan

grandes son en cada prueba las diferencias de puntajes entre los estudiantes. Entre más

altos y más homogéneos sean los puntajes de estudiantes en una institución, más alta resulta

su clasificación.

• En cada una de las cinco pruebas del examen: Lectura Crítica, Sociales y Ciudadanas,

Matemáticas, Ciencias Naturales e Inglés, solo se tienen en cuenta los resultados del 80%

de matriculados con puntajes más altos. Entre el 20% que se excluyen se cuentan, además

Page 32: Análisis de las Pruebas Saber 11, años 2017 y 2018

15

de los matriculados que no tienen resultados válidos (por ejemplo, no presentar el examen

completo), o aquellos que tienen los puntajes más bajos en esa prueba.

• No se usan los resultados de estudiantes repitentes que hayan presentado anteriormente

el examen, ni los de los estudiantes discapacitados (salvo que el colegio solicite

expresamente su inclusión).

• La clasificación se realiza en cinco categorías: A+, A, B, C, D; a partir de un índice

general calculado para cada establecimiento o sede. El índice general está compuesto a

su vez de los índices de resultados de cada una de las cinco pruebas del examen.

• Las categorías para cada establecimiento son asignadas teniendo en cuenta los

siguientes puntos de corte. (ICFES, 2014)

Tabla 2 Clasificación Instituciones según Rango del Índice

IG: Índice General

Fuente: Instituto Colombiano para la Evaluación de la Educación

Educación media académica: Es el nivel de formación que profundiza en un campo

específico de las ciencias, las artes o las humanidades, y que le permite al estudiantado al culminar

en el nivel de enseñanza media (grados 10 y 11) acceder a la educación superior. En la educación

media académica son obligatorias y fundamentales las mismas áreas de la educación básica en un

nivel más avanzado, además de las ciencias económicas, políticas y la filosofía. (DANE, 2018)

Educación media técnica: Es el nivel de formación que profundiza en un campo

específico de formación calificada en especialidades tales como: agropecuaria, comercio,

Page 33: Análisis de las Pruebas Saber 11, años 2017 y 2018

16

industria, entre otras, y que le permite al estudiantado, al culminar el nivel de enseñanza media

(grados 10 hasta 11), acceder a la educación superior. (DANE, 2018)

Base de datos: Es una colección organizada de información estructurada, o datos,

típicamente almacenados electrónicamente en un sistema de computadora, usualmente controlada

por un sistema de gestión de base de datos (DBMS). En conjunto, los datos y el DBMS, junto con

las aplicaciones que están asociados con ellos, se conocen como un Sistema de Base de Batos, que

a menudo se denomina solo base de datos. (ORACLE, s.f.)

Correlación: La correlación expresa el grado de asociación entre dos variables, esta puede

ser lineal o curvilínea, positiva o directa, negativa o inversa o funcional; cuando no se observa una

relación entre las variables y los datos están distribuidos al azar se dice que no están

correlacionadas. (Barrera M. A., 2014)

1.7.3. Marco legal.

• Decreto 869 del 17 marzo de 2010: “Por el cual se reglamenta el Examen de Estado de

Educación Media, ICFES – SABER 11”. (Ministerio de Educación Nacional, 2010)

• Decreto único reglamentario 1075 de 2015 nivel nacional: “Por medio del cual se expide

el Decreto Único Reglamentario del Sector Educación”. (Presidencia de La Republica de

Colombia, 2015)

• Decreto 218 de 14 de febrero de 2020: “Por el cual se establece la estructura interna de la

Unidad Administrativa Especial de alimentación escolar – Alimentos para aprender”

(Ministerio de Educación Nacional, 2020)

• Ley 1450 de 2011, parágrafo 4, en donde se traslada el Programa de Alimentación Escolar

(PAE) del Instituto Colombiano de Bienestar Familiar (ICBF) al Ministerio de Educación

Page 34: Análisis de las Pruebas Saber 11, años 2017 y 2018

17

Nacional (MEN), la orientación, ejecución y articulación del programa, sobre la base de

estándares mínimos de obli­gatorio cumplimiento para su prestación, de manera

concurrente con las entidades territoriales. (El Congreso de Colombia, 2011)

• La constitución política de Colombia: establece a través del Artículo 67 que la educación

es un derecho de la persona, además que con ella se busca el acceso al conocimiento.

“Corresponde al Estado regular y ejercer la suprema inspección y vigilancia de la

educación con el fin de velar por su calidad, por el cumplimiento de sus fines y por la mejor

formación moral, intelectual y física de los educandos; garantizar el adecuado cubrimiento

del servicio y asegurar a los menores las condiciones necesarias para su acceso y

permanencia en el sistema educativo. La Nación y las entidades territoriales participarán

en la dirección, financiación y administración de los servicios educativos estatales, en los

términos que señalen la Constitución y la ley” (Constitución Política de Colombia, 1991)

1.8.Metodología

El presente proyecto se desarrolló en tres fases, para de esta formar darles cumplimiento a

los objetivos. En la ilustración 4, se enlistan las actividades que se realizaron en cada una de las

fases establecidas, a continuación, se resume cada una de estas actividades:

• Fase 1 – Construcción de la base de datos. Esta fase corresponde al desarrollo del

primer objetivo específico, en la cual se genera la base de datos; dentro de las actividades

correspondientes a esta fase se tiene, en primer lugar la recolección de la información, la cual se

obtiene de cuatro bases de datos publicadas por el ICFES, denominadas “Clasificación planteles

2017”, “Clasificación planteles 2018”, “Resultados prueba Saber 11- 2017-2” y “Resultados

prueba Saber 11- 2018-2”, donde se encuentra información relacionada con los estudiantes, su

Page 35: Análisis de las Pruebas Saber 11, años 2017 y 2018

18

entorno, el de los colegios y los resultados para los años 2017 y 2018; como segunda actividad se

crea la base de datos, haciendo uso del software Excel, a partir de allí se genera un archivo que

relaciona las cuatro bases de datos mencionadas anteriormente y en la tercera actividad se realiza

el procesamiento y limpieza de los datos, seleccionando las variables que se utilizaran para el

estudio.

• Fase 2 – Análisis de las variables. Esta fase corresponde al segundo objetivo

específico, en la cual se desarrolla el análisis de la base de datos obtenida en la fase anterior, para

determinar las variables que tienen mayor influencia en los resultados de las Pruebas Saber 11 en

los años 2017 y 2018. Partiendo de allí, en primer lugar, se hace un análisis exploratorio de datos

comparando cada una de las variables seleccionadas con el promedio del puntaje de los resultados

en las pruebas. En segundo lugar, se determina el grado de influencia de cada una de ellas, para

realizar la comparación de cada variable con las categorías de estudio A+ y A vs D, evidenciando

así cuales podrían estar siendo las variables que afectan positiva o negativamente el desempeño de

los estudiantes en la prueba. Finalmente, se desarrolla la visualización de este proceso, permitiendo

presentar los resultados obtenidos en cada una de las actividades previas.

• Fase 3 – Propuestas. Esta fase corresponde al desarrollo del tercer objetivo

específico, en la cual se hace una revisión detallada de los resultados obtenidos en la fase 2 y,

teniendo en cuenta las variables que más influencia tienen sobre la prueba Saber 11, se procede a

plantear propuestas que permitan mejorar el resultado de los estudiantes de dichas pruebas y

ayuden a disminuir la brecha entre colegios públicos en Colombia.

Page 36: Análisis de las Pruebas Saber 11, años 2017 y 2018

19

Ilustración 4 Metodología de la investigación.

Fuente: Los autores.

Page 37: Análisis de las Pruebas Saber 11, años 2017 y 2018

20

2. CAPITULO 2: CONSTRUCCIÓN DE LA BASE DE DATOS.

En este capítulo se desarrolla el objetivo específico 1, el cual consiste en: Construir la

base de datos con las variables de las Pruebas Saber 11 de los años 2017 y 2018 publicadas por

el ICFES.

2.1. Recolección de la información

Para dar inicio al desarrollo de la primera fase del presente proyecto denominada

“construcción”, se inició con la primera actividad que tuvo como objetivo la recolección de la

información, para esto fue necesario ingresar a las bases de datos del ICFES, de donde se

descargaron las bases de datos de los resultados de las Pruebas Saber 11 y la clasificación de los

planteles para los años 2017 y 2018, para el año 2017 se tuvo inicialmente un total de 546.261

registros y para el 2018 de 549.934. Cada base de datos contaba con un total de 82 variables

dentro de las que se encuentra información personal del estudiante, información de contacto,

información socioeconómica, información del colegio, datos de citación del examen y resultados.

(Ver Anexo A)

A continuación, en la tabla 3, se presenta una breve descripción de las variables halladas en la

base de datos de los resultados pruebas Saber 11, agrupadas por módulos.

Tabla 3 Descripción base de datos resultados prueba Saber 11.

Modulo Descripción

INFORMACIÓN PERSONAL

Consta de diez variables, en las cuales se

encuentra información personal de la

persona que presenta la prueba.

INFORMACIÓN DE CONTACTO

Consta de cuatro variables, que permiten

ubicar en que parte del país se ubica la

persona que presenta la prueba.

Page 38: Análisis de las Pruebas Saber 11, años 2017 y 2018

21

INFORMACIÓN SOCIECONOMICA

Consta de veinticuatro variables, que

permiten identificar las condiciones en las

que vive y algunos de los hábitos que se

tienen dentro del hogar.

INFORMACIÓN DEL COLEGIO

Consta de dieciséis variables, que permiten

identificar las características del colegio y

la ubicación.

DATOS DE CITACIÓN DEL EXAMEN

Consta de cinco variables, que permiten

identificar si la persona que presenta se

encuentra privada de la libertad y donde

será aplicada la prueba

RESULTADOS

Consta de veinticuatro variables, en las

cuales se puede apreciar los resultados de

cada área y a nivel global, el estado de los

resultados de la prueba y si es beneficiario

de los programas ofrecidos por el gobierno

para acceder a la educación superior. Fuente: Elaboración propia.

De la base de datos de clasificación de los planteles, se obtuvieron 9.071 registros para el

año 2017 y 9.150 para el año 2018. Cada una de estas bases de datos contaba con 22 variables

relacionadas con información de los colegios. (Ver Anexo B)

En la tabla 4, se presenta una breve descripción de lo que se encuentra en la base de

datos.

Tabla 4 Descripción base de datos clasificación de los planteles.

Modulo Descripción

INFORMACIÓN

COLEGIO

En esta base de datos se encuentran veintidós variables, que permiten

identificar las características e información sobre el establecimiento;

además, se obtienen los índices en cada área de evaluación y la

categoría según los rangos anteriormente mencionados.

Fuente: Elaboración propia.

2.2. Construcción de la base de datos.

Esta actividad consiste en la construcción de la base de datos con la que se desarrolla el

proyecto. Es importante tener en cuenta que en esta actividad hace referencia solo a la construcción

Page 39: Análisis de las Pruebas Saber 11, años 2017 y 2018

22

inicial, la cual se hizo mediante la relación de las bases de datos ya presentadas en el numeral 2.1,

de manera tal que estuviera la información en un solo archivo, esta relación se hizo en el software

Excel, haciendo la unión de los registros de 2017 y 2018 y utilizando la función BUSCAR.SI para

asignar la categoría de los colegios a cada uno de los registros, esta variable categoría se encontraba

en las bases de datos de clasificación plateles de 2017 y 2018, y se utilizó como llave el código

DANE de la sede (COLE_COD_DANE_SEDE y CODIGO_DANE_SEDE). Cabe aclarar que las

bases de datos tenían variables en común, por lo que al unirlas quedaron un total de 94 variables.

En la tabla 5, se muestran las variables de información personal; en la tabla 6 se presentan las

variables de información de contacto; La tabla 7 tiene las variables de información

socioeconómica; La tabla 8 contiene las variables relacionadas con la información del colegio, en

la tabla 9 se muestran las variables correspondientes a los datos de citación al examen; en la 10 se

encuentran las variables relacionadas con los resultados de la prueba y en la tabla 11 se presentan

las variables relacionadas con la clasificación de los planteles.

Tabla 5 Variables información personal base de datos resultados prueba Saber 11.

Información Personal

ESTU_TIPODOCUMENTO

ESTU_NACIONALIDAD

ESTU_GENERO

ESTU_FECHANACIMIENTO

PERIODO

ESTU_CONSECUTIVO

ESTU_ESTUDIANTE

ESTU_PAIS_RESIDE

ESTU_TIENEETNIA

ESTU_ETNIA

Fuente: Elaboración propia.

Tabla 6 Variables información de contacto base de datos resultados prueba Saber 11.

Información de contacto

Page 40: Análisis de las Pruebas Saber 11, años 2017 y 2018

23

ESTU_DEPTO_RESIDE

ESTU_COD_RESIDE_DEPTO

ESTU_MCPIO_RESIDE

ESTU_COD_RESIDE_MCPIO Fuente: Elaboración propia.

Tabla 7 Variables información socioeconómica base de datos resultados prueba Saber 11.

Información socioeconómica

FAMI_EDUCACIONPADRE

FAMI_EDUCACIONMADRE

FAMI_ESTRATOVIVIENDA

FAMI_PERSONASHOGAR

FAMI_CUARTOSHOGAR

FAMI_TIENECOMPUTADOR

FAMI_TIENELAVADORA

FAMI_TIENEHORNOMICROOGAS

FAMI_TIENEINTERNET

FAMI_TIENESERVICIOTV

FAMI_TIENEAUTOMOVIL

FAMI_TIENEMOTOCICLETA

FAMI_TIENECONSOLAVIDEOJUEGOS

FAMI_NUMLIBROS

FAMI_COMELECHEDERIVADOS

FAMI_COMECARNEPESCADOHUEVO

FAMI_COMECEREALFRUTOSLEGUMBRE

FAMI_TRABAJOLABORPADRE

FAMI_TRABAJOLABORMADRE

FAMI_SITUACIONECONOMICA

ESTU_DEDICACIONLECTURADIARIA

ESTU_DEDICACIONINTERNET

ESTU_HORASSEMANATRABAJA

ESTU_TIPOREMUNERACION

Fuente: Elaboración propia.

Tabla 8 Variables información del colegio base de datos resultados prueba Saber 11.

Información del colegio

COLE_CODIGO_ICFES

COLE_COD_DANE_ESTABLECIMIENTO

COLE_NOMBRE_ESTABLECIMIENTO

Page 41: Análisis de las Pruebas Saber 11, años 2017 y 2018

24

COLE_GENERO

COLE_NATURALEZA

COLE_CALENDARIO

COLE_BILINGUE

COLE_CARACTER

COLE_COD_DANE_SEDE

COLE_NOMBRE_SEDE

COLE_SEDE_PRINCIPAL

COLE_AREA_UBICACION

COLE_JORNADA

COLE_COD_MCPIO_UBICACION

COLE_MCPIO_UBICACION

COLE_COD_DEPTO_UBICACION

COLE_DEPTO_UBICACION

Fuente: Elaboración propia.

Tabla 9 Variables datos citación del examen base de datos resultados prueba Saber 11.

Datos de citación del examen

ESTU_PRIVADO_LIBERTAD

ESTU_COD_MCPIO_PRESENTACION

ESTU_MCPIO_PRESENTACION

ESTU_DEPTO_PRESENTACION

ESTU_COD_DEPTO_PRESENTACION

Fuente: Elaboración propia.

Para el módulo de resultados es importante aclarar que para el año 2017 se manejó la

variable “ESTU_PILOPAGA” y para el 2018 cambió esta variable por

“ESTU_GENERACION_E”; debido al cambio de programa que permite a los estudiantes

bachilleres con mejores puntajes en las Pruebas Saber 11 obtener becas para acceder a la educación

superior, según los proyectos del Ministerio de Educación Nacional.

Tabla 10 Variables resultados base de datos resultados prueba Saber 11.

Resultados

PUNT_LECTURA_CRITICA

PERCENTIL_LECTURA_CRITICA

DESEMP_LECTURA_CRITICA

Page 42: Análisis de las Pruebas Saber 11, años 2017 y 2018

25

PUNT_MATEMATICAS

PERCENTIL_MATEMATICAS

DESEMP_MATEMATICAS

PUNT_C_NATURALES

PERCENTIL_C_NATURALES

DESEMP_C_NATURALES

PUNT_SOCIALES_CIUDADANAS

PERCENTIL_SOCIALES_CIUDADANAS

DESEMP_SOCIALES_CIUDADANAS

PUNT_INGLES

PERCENTIL_INGLES

DESEMP_INGLES

PUNT_GLOBAL

PERCENTIL_GLOBAL

ESTU_INSE_INDIVIDUAL

ESTU_NSE_INDIVIDUAL

ESTU_NSE_ESTABLECIMIENTO

ESTU_ESTADOINVESTIGACION

ESTU_PILOPAGA

ESTU_GENERACION_E

Fuente: Elaboración propia.

Tabla 11 Variables base de datos clasificación de los planteles.

Clasificación planteles

PERIODO

COLE_COD_DANE

COLE_INST_NOMBRE

CODIGO_DANE_SEDE

SEDE_NOMBRE

COLE_CODMPIO_COLEGIO

COLE_MPIO_MUNICIPIO

COLE_COD_DEPTO

COLE_DEPTO_COLEGIO

COLE_NATURALEZA

COLE_GRADO

COLE_CALENDARIO_COLEGIO

COLE_GENEROPOBLACION

MATRICULADOS_ULTIMOS_3

EVALUADOS_ULTIMOS_3

Page 43: Análisis de las Pruebas Saber 11, años 2017 y 2018

26

INDICE_MATEMATICAS

INDICE_C_NATURALES

INDICE_SOCIALES_CIUDADANAS

INDICE_LECTURA_CRITICA

INDICE_INGLES

INDICE_TOTAL

COLE_CATEGORIA

Fuente: Elaboración propia.

2.3. Procesamiento y limpieza.

El procesamiento y limpieza de datos constituyen una etapa importante a la hora de analizar

datos, dado que de esto depende un óptimo resultado, además de asegurar la calidad de los datos

y evitar información errónea; teniendo la precaución de no empobrecer la base y evitando

introducir sesgos (Romero, Ventura, Pechenizkiy, & Baker, 2011). A continuación, se describen

los pasos realizados dentro de la actividad.

2.3.1. Eliminación de datos faltantes.

En la eliminación de los datos faltantes se buscan aquellos registros que contenían casillas

en blanco las cuales no permiten que se realice un correcto análisis. Las variables que más tenían

registros en blanco son la educación del padre y de la madre donde en promedio tenían el 5% de

los registros con datos faltantes, este proceso se realizó para cada una de las variables, después de

este paso quedaron 801.141 registros de los 1’096.195 que se tenían inicialmente.

2.3.2. Aplicación de filtros.

Teniendo en cuenta el objetivo del proyecto, se filtra inicialmente la variable

COLE_NATURALEZA, la cual indica la naturaleza del establecimiento ya sea oficial o no oficial;

de manera tal que solo queden los registros de los estudiantes pertenecientes a los colegios oficiales

Page 44: Análisis de las Pruebas Saber 11, años 2017 y 2018

27

del país, del total de registros del paso anterior se retiraron 181.170 pertenecientes a los colegios

no oficiales quedando con 619.971 registros de los colegios oficiales.

En segundo lugar, se filtra la variable ESTU_NACIONALIDAD, con el fin de que solo

quedaran los estudiantes de nacionalidad colombiana. La decisión es tomada ya que al incluir

estudiantes de nacionalidad extranjera se puede ver afectado el resultado del estudio, debido que

no se tiene información previa de si estos estudiantes solo han estudiado en Colombia; además,

esta población representa solo el 0.04% del total de registros, que corresponde a 256 registros, por

lo que se considera irrelevante.

2.3.3. Eliminación de caracteres especiales.

Debido a que el análisis se realizó en el software R Studio, fue necesario eliminar los

caracteres especiales tales como tildes y virgulillas, de manera que el software no generara errores

a la hora de analizar los datos.

2.3.4. Eliminación de variables.

Dado que algunas de las variables mencionadas en la actividad dos (2) correspondiente a

la construcción de la base de datos, se consideran irrelevantes para el objetivo del estudio, se

deciden eliminarlas de manera tal que sea más ágil realizar el análisis, evitando datos sin

relevancia.

La interpretación de los valores se ha expresado por diversos autores en diferentes escalas a lo

largo de la historia, sin embargo, una de las más utilizadas es la que se presenta en la tabla 12.

Page 45: Análisis de las Pruebas Saber 11, años 2017 y 2018

28

Tabla 12 Grado de relación según coeficiente de correlación.

Rango Relación

-0.91 a-1.00 Correlación negativa perfecta

-0.76 a-0.90 Correlación negativa muy fuerte

-0.51 a-0.75 Correlación negativa considerable

-0.11 a-0.50 Correlación negativa media

-0.01 a-0.10 Correlación negativa débil

0.00 No existe correlación

+0.01 a+0.10 Correlación positiva débil

+0.11 a+0.50 Correlación positiva media

+0.51 a+0.75 Correlación positiva considerable

+0.76 a+0.90 Correlación positiva muy fuerte

+0.91 a+1.00 Correlación positiva perfecta

Fuente: Elaboración propia, basada en Hernández Sampieri & Fernández Collado, 1998.

A continuación, en la tabla 13 se muestran las variables descartadas y el motivo.

Tabla 13 Variables descartadas para el análisis.

Descartada Motivo

ESTU_FECHANACIMIENTO

Irrelevante dado que la mayoría de la

población de estudio está en el mismo rango

de edad.

ESTU_CONSECUTIVO Esta variable pertenece al código del inscrito

la cual no brinda información relevante.

ESTU_ETNIA Se descarto ya que el 94% de los registros

tenían datos faltantes en esta variable.

ESTU_PAIS_RESIDE

Solo se utilizó procesamiento y limpieza fue

necesaria, para filtrar a los estudiantes de

Colombia.

ESTU_PRIVADO_LIBERTAD

La cantidad de estudiantes privados de la

libertad es mínima por lo que se puede

descartar.

ESTU_PILOPAGA Irrelevantes ya que son variables que dependen

del resultado de la prueba y no de ellas el

resultado. ESTU_GENERACION_E

ESTU_NACIONALIDAD Irrelevante, se filtró y se dejaron solo

estudiantes colombianos.

ESTU_INSE_INDIVIDUAL Se utiliza la estratificación socioeconómica.

ESTU_NSE_INDIVIDUAL

Page 46: Análisis de las Pruebas Saber 11, años 2017 y 2018

29

ESTU_NSE_ESTABLECIMIENTO

ESTU_ESTADOINVESTIGACION Irrelevante, solo presenta el estado de los

resultados.

ESTU_ESTUDIANTE Irrelevante, se filtró y se dejaron solo

estudiantes.

FAMI_SITUACIONECONOMICA

Irrelevante, ya que esta variable es una

percepción económica del año de presentación

respecto a los años anteriores.

ESTU_COD_RESIDE_DEPTO

Estas variables permiten hacer la

geolocalización del estudiante y del colegio,

por ende, no son relevantes para el estudio.

ESTU_MCPIO_RESIDE

ESTU_COD_RESIDE_MCPIO

COLE_COD_MCPIO_UBICACION

COLE_COD_DEPTO_UBICACION

ESTU_COD_MCPIO_PRESENTACION

ESTU_COD_DEPTO_PRESENTACION

ESTU_MCPIO_PRESENTACION

ESTU_DEPTO_PRESENTACION

COLE_MCPIO_UBICACION

COLE_CODIGO_ICFES

No brindan información de relevancia para el

estudio, porque son variables únicas para cada

colegio.

COLE_COD_DANE_SEDE

COLE_SEDE_PRINCIPAL

COLE_NOMBRE_SEDE

COLE_NOMBRE_ESTABLECIMIENTO

COLE_COD_DANE

COLE_COD_DANE_ESTABLECIMIENTO

COLE_GRADO Todos los estudiantes de grado 11.

COLE_NATURALEZA

Se filtró y se dejaron solo colegios oficiales,

después se eliminó la variable, ya que no

aportaba nada al estudio

COLE_CALENDARIO Irrelevante, todos los resultados del 2017-2 y

2018-2 pertenecen al calendario A.

MATRICULADOS_ULTIMOS_3

Irrelevante, solo muestra el número de

estudiantes matriculados en los últimos tres

años en cada institución.

EVALUADOS_ULTIMOS_3

Irrelevante, solo muestra el número de

estudiantes que presentan la prueba Saber 11

en los últimos tres años en cada institución.

PERCENTIL_LECTURA_CRITICA Estas variables se consideran irrelevantes, ya

que la hace la correlación de los resultados por DESEMP_LECTURA_CRITICA

Page 47: Análisis de las Pruebas Saber 11, años 2017 y 2018

30

PERCENTIL_MATEMATICAS área con el puntaje global se comprobó que

están fuertemente relacionadas. DESEMP_MATEMATICAS

PERCENTIL_C_NATURALES

DESEMP_C_NATURALES

PERCENTIL_SOCIALES_CIUDADANAS

PERCENTIL_GLOBAL

DESEMP_SOCIALES_CIUDADANAS

PERCENTIL_INGLES

INDICE_MATEMATICAS

INDICE_C_NATURALES

INDICE_SOCIALES_CIUDADANAS

INDICE_LECTURA_CRITICA

INDICE_INGLES

INDICE_TOTAL

PUNT_LECTURA_CRITICA

PUNT_MATEMATICAS

PUNT_C_NATURALES

PUNT_SOCIALES_CIUDADANAS

PUNT_INGLES

DESEMP_INGLES

Fuente: Elaboración propia.

Del total de variables inicial, quedaron descartadas cincuenta y ocho (58), ya que no

representaban mayor relevancia para el estudio.

A continuación, en la tabla 14 se presentan las variables seleccionadas para el análisis:

Tabla 14 Variables seleccionadas para el análisis.

Utilizada

ESTU_TIPODOCUMENTO

ESTU_GENERO

PERIODO

ESTU_TIENEETNIA

ESTU_DEPTO_RESIDE

FAMI_EDUCACIONPADRE

FAMI_EDUCACIONMADRE

Page 48: Análisis de las Pruebas Saber 11, años 2017 y 2018

31

FAMI_ESTRATOVIVIENDA

FAMI_PERSONASHOGAR

FAMI_CUARTOSHOGAR

FAMI_TIENECOMPUTADOR

FAMI_TIENELAVADORA

FAMI_TIENEHORNOMICROOGAS

FAMI_TIENEINTERNET

FAMI_TIENESERVICIOTV

FAMI_TIENEAUTOMOVIL

FAMI_TIENEMOTOCICLETA

FAMI_TIENECONSOLAVIDEOJUEGOS

FAMI_NUMLIBROS

FAMI_COMELECHEDERIVADOS

FAMI_COMECARNEPESCADOHUEVO

FAMI_COMECEREALFRUTOSLEGUMBRE

FAMI_TRABAJOLABORPADRE

FAMI_TRABAJOLABORMADRE

ESTU_DEDICACIONLECTURADIARIA

ESTU_DEDICACIONINTERNET

ESTU_HORASSEMANATRABAJA

ESTU_TIPOREMUNERACION

COLE_GENERO

COLE_BILINGUE

COLE_CARACTER

COLE_AREA_UBICACION

COLE_JORNADA

COLE_DEPTO_UBICACION

PUNT_GLOBAL

COLE_CATEGORIA

Fuente: Elaboración propia.

En total quedaron seleccionadas treinta y seis (36) variables, con las que se inició la fase

dos (2) correspondiente a la identificación de las variables con mayor influencia en los resultados

de las Pruebas Saber 11 y la importancia que estas tienen en la brecha que hay entre colegios de

categoría A+ y A vs los D.

Page 49: Análisis de las Pruebas Saber 11, años 2017 y 2018

32

En este capítulo se presentó el paso a paso para la construcción de la base de datos, a dicha

construcción se le dio inició con la creación de una relación entre la base de datos de clasificación

de planteles y la de los resultados de las Pruebas Saber 11, con el fin de obtener una sola base de

datos, terminada esta actividad se dio inicio al procesamiento y limpieza, asegurando la calidad de

los datos a trabajar en el análisis. De acuerdo con lo anterior, se da cumplimiento al primer objetivo

del presente proyecto.

Page 50: Análisis de las Pruebas Saber 11, años 2017 y 2018

33

3. CAPITULO 3: IDENTIFICACIÓN DE VARIABLES CON MAYOR

INFLUENCIA EN LOS RESULTADOS DE LAS PRUEBAS SABER 11 Y LA

INFLUENCIA DE ESTAS EN LA BRECHA ENTRE COLEGIOS CATEGORÍA A+

Y A VS LOS D

En este capítulo se llevó a cabo el desarrollo del objetivo específico 2: Identificar las

variables con mayor influencia en los resultados de las Pruebas Saber 11 y la importancia que

estas tienen en la brecha que hay entre colegios de categoría A+ y A vs los D, aplicando

herramientas de Ingeniería Industrial.

Para dar cumplimiento al objetivo se hace uso del software R- Studio, dado que permite

hacer el análisis y procesamiento de los datos de una manera adecuada.

3.1. Identificación de variables y grado de influencia

3.1.1. Análisis exploratorio de los datos

Para empezar con el análisis y la identificación de las variables con mayor influencia en

los resultados de las pruebas 11, se realiza un análisis exploratorio de los datos, donde se pudo

observar de manera gráfica la influencia de cada una de las variables seleccionadas en el numeral

2.3 sobre el resultado global de las pruebas.

Con relación a la variable PUNT_GLOBAL que hace referencia al puntaje global, en la

ilustración 5, se observa la distribución de los datos de la muestra, acumulados entre un puntaje de

150 y 380 con una media de 252.64.

Page 51: Análisis de las Pruebas Saber 11, años 2017 y 2018

34

Ilustración 5 Distribución del puntaje global

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En cuanto a la variable ESTU_GENERO, que tiene valores {F, M}, en donde de género

femenino se encuentran 55.9% y de género femenino 44.1% del total de estudiantes, de la

ilustración 6 se puede concluir que los estudiantes de género masculino tienen un puntaje promedio

mayor que el género femenino, donde el género femenino obtiene un puntaje promedio de 248.9,

y el género masculino un puntaje promedio de 257.4.

Ilustración 6 Puntaje global de acuerdo con el género del estudiante

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 52: Análisis de las Pruebas Saber 11, años 2017 y 2018

35

Por otra parte, para la variable ESTU-TIENEETNIA, donde los estudiantes con etnia

representan el 6% y los que no tienen etnia el 93%, los estudiantes que tienen etnia obtienen un

puntaje promedio menor que los estudiantes que no tienen, donde el puntaje promedio de los

estudiantes que no tienen etnia es de 254,4 versus el puntaje promedio de los estudiantes que, si la

tienen, para ellos el resultado promedio es de 228,1, lo que se ve reflejado en la ilustración 7.

Ilustración 7 Puntaje global de acuerdo si el estudiante tiene etnia.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Con relación a la variable FAMI_EDUCACIONPADRE en ilustración 8 y en la tabla 15,

se concluye que el nivel de estudio del padre influye en el resultado de la prueba Saber 11, ya que

en general a medida que el nivel de estudio del padre aumenta también lo hace el puntaje del hijo

en la prueba, adicional a esto, en cuanto a las categorías más frecuentes son la de primaria

incompleta, donde el 23% de los estudiantes tienen padres con ese grado de educación y

secundaria completa con 22% de estudiantes que tienen padres con ese grado de educación.

Page 53: Análisis de las Pruebas Saber 11, años 2017 y 2018

36

Ilustración 8 Puntaje global de acuerdo con la educación del padre

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Tabla 15 Puntaje promedio de acuerdo con la educación del padre

Fuente: Elaboración propia en el software R Studio a partir de la información del ICFES de las Pruebas Saber 11.

Al igual que sucede con la educación del padre, la variable FAMI_EDUCACIONMADRE

influye en el resultado de los estudiantes como se observa en la ilustración 9 y la tabla 16, ya que

se observa un comportamiento similar, en general a medida que el nivel de estudio de la madre

aumenta, también lo hace el puntaje del hijo en la prueba. Esta información se puede comprobar

en la ilustración 10 y en la tabla 15, donde los estudiantes que tienen el puntaje promedio más alto

con 290.94, el nivel de educación de su madre es posgrado y en último lugar se encuentran los

Page 54: Análisis de las Pruebas Saber 11, años 2017 y 2018

37

hijos de las madres que no tuvieron ninguna educación 221.73. Además, la secundaria completa

tiene la mayor frecuencia con 26.77% seguido por primaria incompleta con 17.97%, en cuanto a

las categorías con menores frecuencias son no aplica 0.15% y postgrado 0.87%.

Ilustración 9 Puntaje global de acuerdo con la educación de la madre

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Tabla 16 Puntaje promedio de acuerdo con la educación de la madre

Fuente: Elaboración propia en el software R Studio a partir de la información del ICFES de las Pruebas Saber 11.

Page 55: Análisis de las Pruebas Saber 11, años 2017 y 2018

38

En la variable FAMI_ESTRATOVIVIENDA para el estrato de la vivienda del estudiante,

se evidencia la influencia en el resultado en la tabla 16 y en la ilustración 10, sin embargo, no es

una relación directamente proporcional, esto quiere decir que no por tener el estrato más alto se

tendrá mayor puntaje, ya que los estudiantes pertenecientes al estrato 3 son quienes obtienen mayor

puntaje con 263.05, seguidos por los estudiantes con estrato 2 con 257.9, en tercer lugar se tienen

los estudiantes con estrato 4 con puntaje promedio de 248.92, seguidos por los estudiantes estrato

1 con 246.24. En los tres últimos lugares se encuentran el estrato 5, sin estrato y estrato 6 con

229.39, 218.88 y 217.02 respectivamente. Adicionalmente en la tabla 17, se puede observar la

frecuencia de cada una de las categorías. Una duda que surge como trabajo futuro es investigar

¿Por qué los estudiantes estrato 5 y 6 quienes cuenta con mayor condición socioeconómica y quizás

mejores recursos obtienen de los resultados más bajos?

Ilustración 10 Puntaje global de acuerdo con el estrato de la vivienda del estudiante

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 56: Análisis de las Pruebas Saber 11, años 2017 y 2018

39

Tabla 17 Puntaje promedio de acuerdo con el estrato de la vivienda

Fuente: Elaboración propia en el software R Studio a partir de la información del ICFES de las Pruebas Saber 11.

Con relación entre el puntaje global vs el número de personas en el hogar, en la ilustración

11, se observa que cuando el número de personas en el hogar es 3 o 4 el resultado promedio del

estudiante es 257.53 con una frecuencia de 46.42%, resultado que es más que alto que cuando se

convive con menos o más personas; cuando conviven 5 a 6 personas el resultado promedio es de

251.05 con frecuencia de 33.96%; en el caso de los que el número de personas en el hogar es de 1

a 2 el puntaje promedio es de 250.96 con frecuencia de 6.87%, en cuarto lugar se tienen aquellos

estudiantes que conviven en su hogar de 7 a 8 personas con puntaje promedio de 241.63 con

frecuencia de 9.18% y en último lugar los hogares con 9 o más personas con 235.56 con frecuencia

de 3.56% . Se observa una tendencia decreciente después de estas 3 o 4 personas, lo que indica

que a mayor número de personas en el hogar después de 3 o 4, menores son los resultados,

obteniendo así que aquellos estudiantes que en sus hogares conviven 9 o más personas, sus

resultados son los más bajos, además los resultados de familias de 1 o 2 personas son similares a

los de estudiantes con familias de 5 a 6 personas.

Page 57: Análisis de las Pruebas Saber 11, años 2017 y 2018

40

Ilustración 11 Puntaje global de acuerdo con el número de personas en el hogar

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Ahora, en la ilustración 12, correspondiente a la variable FAMI_CUARTOSHOGAR, que

tiene los valores 1, 2, 3, 4, 5 y 6 o más, con un porcentaje de frecuencia de 5.67%, 37.67%, 38.08%,

12.72%, 3.86% y 1.98% respectivamente, se puede concluir que los estudiantes que cuentan con

tres habitaciones en el hogar son quienes mayor puntaje promedio obtienen con 255.74, después y

antes de tres habitaciones los puntajes promedio tienden a disminuir, siendo los estudiantes con

una y con seis o más habitaciones los que menores puntajes promedio obtienen con 241.31.

Ilustración 12 Puntaje global de acuerdo con el número de cuartos en el hogar

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 58: Análisis de las Pruebas Saber 11, años 2017 y 2018

41

En cuanto a la variable que mide si los estudiantes tienen computador o no y como esto

afecta el desempeño en las Pruebas Saber 11, observando la ilustración 13 se puede afirmar que

tener un computador en casa permite a los estudiantes obtener mejores resultados, ya que el

promedio de los estudiantes que tienen computador es de 261.77 vs los que no con un 241.90,

donde el 54% de los estudiantes tienen computador y el 46% no lo tienen.

Ilustración 13 Puntaje global de acuerdo con si la familia cuenta con computador o no.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11

Los estudiantes que cuentan con internet en sus hogares representan el 52% del total de

estudiantes de este estudio, frente a un 48% que no cuenta con internet, donde los estudiantes que

si tienen internet obtienen mejores resultados, logrando un puntaje promedio de 262.35, lo que

significa alrededor de 20 puntos por encima de los que no cuentan con este recurso y obtienen en

promedio 242.26, esto se puede ver reflejado en la ilustración 15.

Page 59: Análisis de las Pruebas Saber 11, años 2017 y 2018

42

Ilustración 14 Puntaje global dependiendo si la familia tiene internet.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la ilustración 15, correspondiente a la variable que mide la influencia de tener lavadora

en el hogar en los resultados de las pruebas; arroja que tenerla permite obtener un mejor resultado,

ya que en promedio los estudiantes que tienen lavadora obtuvieron un puntaje de 255.4597 vs

245.4099 los que no, con una frecuencia del 72% para los que sí cuentan con este electrodoméstico

y un 28% para los que no.

Ilustración 15 Puntaje global de acuerdo con si tiene lavadora o no

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 60: Análisis de las Pruebas Saber 11, años 2017 y 2018

43

En la ilustración 16, correspondiente a la variable que mide la influencia de tener

televisor en la casa muestra que en promedio un estudiante que si tiene televisor obtiene como

resultado 255.03 y una frecuencia del 73%, y los que no tienen, obtienen un resultado promedio

de 246.10 con una frecuencia del 27, lo que significa que quienes cuentan con este aparato

electrónico obtienen alrededor de 9 puntos más que quienes no lo tienen.

Ilustración 16 Puntaje global de acuerdo de si se tiene servicio de tv en la familia

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

De la ilustración 17, que mide la influencia de tener automóvil en el hogar respecto al

puntaje global, se pudo observar que en promedio los estudiantes que tienen automóvil en sus

hogares obtienen 261.44 con una frecuencia de 16.4% versus los que no tienen, que obtuvieron en

promedio 250.90 con una frecuencia de 83.6%.

Page 61: Análisis de las Pruebas Saber 11, años 2017 y 2018

44

Ilustración 17 Puntaje global de acuerdo si se tiene automóvil en la familia

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la variable que mide influencia de tener motocicleta en el desempeño en las Pruebas

Saber 11, se observa que a diferencia de tener automóvil en este caso tienen mejor desempeño

aquellos que no tienen motocicleta con un puntaje promedio de 254.87 y una frecuencia de 58%

versus los que si tienen con un puntaje de 249.6 y una frecuencia de 42%, esto se puede observar

en la ilustración 18.

Ilustración 18 Puntaje global de acuerdo si se tiene motocicleta en el hogar

Page 62: Análisis de las Pruebas Saber 11, años 2017 y 2018

45

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la ilustración 19, se observa el promedio de puntaje global respecto a si en su hogar

cuenta con consola de videojuegos, obteniendo así un puntaje promedio de 258.96 y una frecuencia

de 17% los estudiantes que si tienen versus un puntaje 251.36 y una frecuencia de 83% para los

que no tienen consola.

Ilustración 19 Puntaje global de acuerdo si tiene consola de videojuegos

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

La variable que mide si contar en el hogar con libros y la cantidad de estos influencian en el

desempeño de los estudiantes en las Pruebas Saber 11, arroja que esta cantidad si tiene una

influencia positiva en este resultado, obteniendo así que a mayor cantidad de libros mayor es el

resultado. Los estudiantes que tienen más de 100 libros en su hogar obtuvieron en promedio un

puntaje 269.92 como resultado y representan el 5.4% del total de estudiantes, aquellos que tienen

de 26 a 100 libros obtuvieron un puntaje promedio de 268.99 con una frecuencia de 18.9%, los

que tienen de 11 a 25 libros sacaron un puntaje promedio de 254.64 y una frecuencia de 31.5%

Page 63: Análisis de las Pruebas Saber 11, años 2017 y 2018

46

para esta categoría y quienes tienen de 0 a 10 libros obtuvieron un puntaje promedio de 242.05

con una frecuencia de 44% , esta información se puede observar en la ilustración 20.

Ilustración 20 Puntaje promedio de acuerdo con el número de libros que tiene la familia.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la ilustración 21, se mide la influencia de la cantidad de veces que se consumen

semanalmente derivados de la leche en el hogar del estudiante, se observa una tendencia

decreciente que evidencia que a menor cantidad de consumo menor resultado en la prueba, ya que

quienes consumen todos o casi todos los días obtienen mejores resultados con 262.51 con una

repetibilidad de 26.53% , seguidos por quienes consumen de 3 a 5 veces a la semana con 258.49 y

frecuencia de 26.12%, en tercer lugar están quienes consumen 1 o 2 veces por semana con 246.11

y repetición de 37.61% y en último lugar se encuentran los estudiantes que nunca o rara vez

consumen con 235.25 como resultado y frecuencia de 9.72%.

Page 64: Análisis de las Pruebas Saber 11, años 2017 y 2018

47

Ilustración 21 Puntaje promedio de acuerdo con el número de veces que se comen derivados de

la leche en la semana.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Respecto a la variable que mide la influencia de la cantidad de consumo de proteína

semanalmente en el rendimiento de los estudiantes en las Pruebas Saber 11, en la ilustración 22 se

puede apreciar que esta variable tiene una tendencia decreciente ya que se evidencia que a medida

que hay menos consumo de proteína menor es el resultado en la prueba, como resultado se tiene

que los estudiantes que consumen todos o casi todos los días proteína obtienen como puntaje

promedio 259.49 con una frecuencia de 36.33%, seguidos por quienes consumen 3 a 5 veces por

semana con 254.84 con reiteración de 31.57%, en tercer lugar se tienen aquellos que consumen de

1 a 2 veces por semana con 244.21 con una repetición de 27.17% y en último lugar los que nunca

o rara vez consumen con 234.51 y repetibilidad de 4.92%.

Page 65: Análisis de las Pruebas Saber 11, años 2017 y 2018

48

Ilustración 22 Puntaje global de acuerdo con el número de veces que se come carne, pescado y

huevo en la semana

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la ilustración 23, se observa la relación entre la variable del número de veces que come

cereales, frutos o legumbre y el puntaje promedio de los estudiantes que presentaron las Pruebas

Saber 11 en los años de estudio; como resultado se tiene que los dos grupos de estudiantes que

más consumen cereales, frutos y legumbres semanalmente obtienen mejores resultados que

quienes lo hacen en menos ocasiones. Los estudiantes que consumen de 3 a 5 veces por semana

obtuvieron en promedio 259.67 con frecuencia de 29.09%, para aquellos que consumen todos o

casi todos los días su puntaje promedio fue de 255.33 y frecuencia de 14.75%, mientras que para

los estudiantes que consumen 1 o 2 veces por semana fue de 250.52 con frecuencia de 14.05% y

por último aquellos que nunca o rara vez consumen es de 242.23 con frecuencia de 15.09%.

Page 66: Análisis de las Pruebas Saber 11, años 2017 y 2018

49

Ilustración 23 Puntaje global de acuerdo con el número de veces que se come cereal, frutos y

legumbres

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

La tabla 18, presenta la variable relacionada con el trabajo del padre, se evidencia que los

hijos de padres que tienen un trabajo como profesionales tienen un mayor puntaje promedio en los

resultados de las Pruebas Saber 11, luego siguen los hijos de padres con cargos como operarios,

de tipo auxiliar administrativo, propietarios de negocios pequeños, trabajadores por cuenta propia

o pensionados, los cuales tienen puntajes promedios entre 257 y 259, por último los puntajes más

bajos están relacionados con los hijos de padres cuyos trabajos son de tipo agricultor, pesquero,

jornalero trabaja en el hogar, no trabaja o estudia. En la tabla 1 también se puede encontrar la

frecuencia de padres con cada categoría de trabajos donde los trabajos que más resaltan son los de

agricultor, pesquero o jornalero (16.9%), trabajos por cuenta propia (12.1%) y operarios (10.9%).

De igual modo esta variable está relacionada con la variable del nivel educativo del padre, donde

a mayor nivel educativo mayor oportunidad de obtener un mejor empleo profesional, lo que

aumenta la probabilidad de que sus hijos obtengan mejores resultados.

Page 67: Análisis de las Pruebas Saber 11, años 2017 y 2018

50

Tabla 18 Puntaje promedio global dependiendo del trabajo laboral del padre

FAMI_TRABAJOLABORPADRE promedio porcentaje

Trabaja como profesional (por ejemplo, medico, abogado, ingeniero) 274.119 4.845

Pensionado 259.297 2.167

Es operario de máquinas o conduce vehículos (taxi, chofer) 258.812 10.992

Tiene un trabajo de tipo auxiliar administrativo (por ejemplo,

secretario o asistente) 258.547 4.254

Es propietario de un negocio pequeño (tiene pocos empleados o no

tiene, por ejemplo, tienda, papelería, etc. 258.477 7.749

Trabaja por cuenta propia (por ejemplo, plomero, electricista) 257.196 12.186

No sabe 253.828 9.625

No aplica 252.996 8.918

Es vendedor o trabaja en atención al publico 251.313 6.208

Trabaja como personal de limpieza, mantenimiento, seguridad o

construcción 250.831 8.368

Es propietario de un negocio grande, tiene un cargo de nivel directivo

o gerencial 249.235 1.352

Es agricultor, pesquero o jornalero 241.790 16.938

Trabaja en el hogar, no trabaja o estudia 234.652 6.397 Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11

Al igual que en la variable anterior los puntajes promedios más altos pertenecen a hijos de

madres con empleos profesionales, y los más bajos a hijos de madres con trabajos como agricultor

pesquero o jornalero, y el trabajo más representativo es el de trabaja en el hogar, no trabaja o

estudia (45.1%), como se puede observar en la tabla 19.

Tabla 19 Puntaje promedio global dependiendo del trabajo laboral de la madre

FAMI_TRABAJOLABORMADRE promedio porcentaje

Trabaja como profesional (por ejemplo, medico, abogado, ingeniero) 276.3063 4.963024

Tiene un trabajo de tipo auxiliar administrativo (por ejemplo,

secretario o asistente) 264.5566 7.594616

Es operario de máquinas o conduce vehículos (taxista, chofer) 261.1821 1.631111

Es propietario de un negocio pequeño (tiene pocos empleados o no

tiene, por ejemplo, tienda, papelería, etc. 258.2203 8.444246

Trabaja por cuenta propia (por ejemplo, plomero, electricista) 256.7908 3.046819

Es vendedor o trabaja en atención al publico 255.2171 7.672353

Page 68: Análisis de las Pruebas Saber 11, años 2017 y 2018

51

Trabaja como personal de limpieza, mantenimiento, seguridad o

construcción 253.1699 9.448323

Pensionado 250.0902 0.537483

Trabaja en el hogar, no trabaja o estudia 248.9993 45.15778

Es propietario de un negocio grande, tiene un cargo de nivel

directivo o gerencial 245.0175 0.849459

No aplica 241.8933 4.984256

No sabe 241.0517 2.442044

Es agricultor, pesquero o jornalero 236.4326 3.228491 Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11

Ahora, se presenta la variable de dedicación diaria de lectura del estudiante, en la

ilustración 24 se observa una tendencia ascendente, lo que confirma que a mayor cantidad de

lectura diaria mejor es el resultado, ya que aquellos estudiantes que dedican más de dos horas

diarias de lectura obtienen los mejores resultados con un promedio de 270.61 y frecuencia de

4.21%, seguidos de aquellos que dedican entre 1 y 2 horas con 261.06 con repetibilidad de 11.74%,

en tercer lugar se encuentran aquellos que leen entre 30 y 60 minutos con 259.40 y frecuencia de

28.09%, seguidos por los estudiantes que dedican entre 30 minutos o menos con un promedio de

246.62 y frecuencia 39.79% y en último lugar se encuentran aquellos estudiantes que no leen por

entretenimiento con un puntaje de 244.94 y frecuencia de 16.17%.

Ilustración 24 Puntaje promedio de acuerdo con la dedicación de lectura diaria

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 69: Análisis de las Pruebas Saber 11, años 2017 y 2018

52

En la ilustración 25, se puede observar la relación entre la dedicación diaria de internet y

el resultado promedio de los estudiantes, donde se evidencia que a medida que aumenta el tiempo

de navegación en internet tiende a aumentar el resultado promedio de los estudiantes a excepción

de aquellos estudiantes que dedican más de 3 horas a esta actividad, ya que se observa un mínimo

decrecimiento en el resultado. Los estudiantes que no navegan en internet representan el 6.9% del

total, los que navegan 30 minutos o menos representan el 20%, los que navegan entre 30 y 60

minutos representan el 27.3%, los que navegan entre 1 y 3 horas representan el 28.3% y los que

navegan más de 3 horas representan el 13.4%, de manera que los estudiantes que mejor puntaje

obtienen son los que mayor representación tienen y son aquellos que navegan en internet entre 1

y 3 horas.

Ilustración 25 Puntaje global de acuerdo con la dedicación diaria a navegar en internet

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En cuanto a la variable que mide la influencia de las horas que trabaja semanalmente el

estudiante en el resultado de las prueba Saber 11, se observa en la ilustración 26, que entre más

horas trabaja a la semana su resultado tiende a ser menor, ya que aquellos que no trabajan son los

que mejores puntajes promedio obtienen con 257.57 y frecuencia de 67.53%, seguidos por los que

trabajan entre 11 y 20 horas con un puntaje promedio de 243.85 y frecuencia de 7.88% , en tercer

Page 70: Análisis de las Pruebas Saber 11, años 2017 y 2018

53

lugar estas aquellos que trabajan menos de 10 horas con un puntaje promedio de 243.84 y

frecuencia 19.09%, los estudiantes que dedican entre 21 y 30 horas obtienen en promedio 241.40

con frecuencia de 2.67% y en último lugar se encuentran aquellos que trabajan más de 30 horas

que obtienen en promedio 229.43 con frecuencia 2.83%.

Ilustración 26 Puntaje promedio de acuerdo con las horas a la semana que trabaja el

estudiante.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la ilustración 27, se mide la influencia del género del colegio en los resultados de las

Pruebas Saber 11, se pudo observar que el promedio en los resultados fue más alto en los colegios

femeninos con 279.71 con una frecuencia del 2.3% de total de los estudiantes, seguido por los

colegios masculinos con 274.93 con una frecuencia de 0.38% y en último lugar se encuentran los

colegios mixtos con 251.90 con una frecuencia de 97%.

Page 71: Análisis de las Pruebas Saber 11, años 2017 y 2018

54

Ilustración 27 Puntaje promedio global dependiendo del género del colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

A continuación, en la ilustración 28 se presenta la variable que permite reconocer si el

colegio es bilingüe o no, se observa que tienen mayor resultado promedio aquellos estudiantes que

no pertenecen a colegio bilingüe con un puntaje promedio de 252.77 y repetibilidad de 99.05%

versus 238.61 y frecuencia de 0.95% de los estudiantes pertenecientes a colegio bilingüe.

Ilustración 28 Puntaje promedio global dependiendo si el colegio es bilingüe

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 72: Análisis de las Pruebas Saber 11, años 2017 y 2018

55

En la ilustración 29, se observa el puntaje promedio global dependiendo del carácter del

colegio, a partir de la Ilustración se puede concluir que los colegios con mejor desempeño son

aquellos que su carácter es técnico/académico con 255.66, seguido por los colegios de carácter

académico con 250.77, en tercer lugar se encuentran los colegios de carácter técnico con 248.40 y

en último lugar los colegios que no aplican para algún carácter con 215.64, lo que podría indicar

que evidentemente tiene influencia en el resultado de los estudiantes el pertenecer a algún carácter

de los anteriormente mencionados. Además, los colegios técnicos y técnico/académicos presentan

resultados similares.

Ilustración 29 Puntaje global dependiendo del carácter del colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Los colegios urbanos tienen una superioridad en cuanto al resultado de las Pruebas Saber

11, esto se observa en la ilustración 30, en donde los colegios urbanos obtienen en promedio 255.66

vs 236.27 que obtienen en promedio los estudiantes de colegio rural, además la frecuencia para

colegio rural es de 94.44% contra 15.56% de los colegios rurales.

Page 73: Análisis de las Pruebas Saber 11, años 2017 y 2018

56

Ilustración 30 Puntaje global dependiendo el área de ubicación del colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la ilustración 31, se observa la influencia de la jornada del centro educativo en el

resultado de la prueba Saber 11, lo que evidencia que los colegios con jornada única son quienes

mejores resultados tienen con 259.73, seguidos por los jornada completa 256.75, en tercer lugar,

se encuentra la jornada mañana con 256.03, seguido de la jornada de la tarde con 255.92, el

quinto lugar es para la jornada de la noche con 216.73 y en último lugar se encuentra la jornada

sabatina con 213.84; además, se puede evidenciar que las jornadas noche y sabatina presentan

puntajes promedios inferiores respecto a las otras cuatro jornadas, las cuales tienen puntajes muy

similares.

Page 74: Análisis de las Pruebas Saber 11, años 2017 y 2018

57

Ilustración 31 Puntaje global dependiendo la jornada del colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la tabla 20 se observan las frecuencias según la jornada del colegio, donde la jornada de la

mañana es la jornada con frecuencia más alta con 57.253%, seguida por la jornada de la tarde

con 15.472%, en tercer lugar, se encuentra la jornada única con 9.319%, seguida por la jornada

completa 8.642%, en los dos últimos lugares se encuentran la jornada noche con 5.183% y

sabatina con 4.131%.

Tabla 20 Puntaje global dependiendo la jornada del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 75: Análisis de las Pruebas Saber 11, años 2017 y 2018

58

3.1.2. Análisis de los datos de variables del colegio y variables socio económicas de

los estudiantes

En la ilustración 32, se puede observar la relación entre las horas trabajadas a la semana y

la jornada del colegio con respecto al puntaje promedio global obtenido por los estudiantes,

donde se puede resaltar que las jornadas noche y sabatina sacan mejores resultados aquellos

estudiantes que trabajan entre 21 y 30 horas y aquellos que trabajan más de 30 horas, en el resto

de las jornadas los mejores puntajes los obtienen los estudiantes que no trabajan.

Ilustración 32 Puntaje promedio dependiendo de las horas trabajas en la semana y la jornada

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En las ilustraciones 33 y 34, podemos observar de manera clara las proporciones de los tipos de

educación de los padres en el área rural y urbana, se evidencia que en el área rural predominan los

padres con nivel educativo de primaria incompleta en el caso de los padres corresponde al 35.7%

y en las madres el 28.9%, por otro lado, en el área urbana predominan los padres y madres con

nivel educativo de secundaria completa con el 23.6% y 27.9% respectivamente, adicional a esto el

Page 76: Análisis de las Pruebas Saber 11, años 2017 y 2018

59

grado de educación menos frecuente en el área urbana y rural es el postgrado tanto para madres

como padres.

Ilustración 33 Proporción de estudiantes dependiendo de la educación del padre y del área de

ubicación del colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Ilustración 34 Proporción de estudiantes dependiendo de la educación de la madre y del área

de ubicación del colegio

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 77: Análisis de las Pruebas Saber 11, años 2017 y 2018

60

3.2. Métodos Machine Learning

Machine Learning puede ser ampliamente definida como métodos computacionales que usan la

experiencia para mejorar el desempeño de las predicciones, logrando ser estas más precisas.

Cuando nos referimos a experiencias hablamos específicamente de la información histórica

recolectada que se utiliza para los procesos de entrenamiento. (Mohri, Rostamizadeh, &

Talwalkar, 2012)

Machine Learning puede ser aplicada en tareas de:

• Clasificación: en este caso la idea central de la aplicación de la técnica es

identificar a que clase pertenece una nueva entrada, tales ejemplos se aplican en la

clasificación de documentos, imágenes, diagnóstico médico, etc.

• Regresión: predice un valor real para cada ítem, por ejemplos la predicción de la

demanda, stocks de inventarios, variables económicas, tasas, etc.

• Ranking: utilizada para ordenar ítems basado en algún criterio, por ejemplo, la

búsqueda web.

• Clustering: este tipo de aplicaciones son fuertemente utilizadas en procesos

comerciales para segmentar clientes y productos de esta forma facilitar los

procesos de decisiones referentes a que vender y a quienes.

• Reducción de Dimensionalidad: Transforma la representación de los ítems inicial

en una representación de baja dimensionalidad, perseverando las propiedades de

la inicial representación. Un ejemplo de esto lo encontramos en el

reprocesamiento de imágenes digitales. (Cabrera, 2014)

Page 78: Análisis de las Pruebas Saber 11, años 2017 y 2018

61

3.2.1. Algoritmo Random Forest

El algoritmo Random Forest es una combinación de árboles predictores tal que cada árbol

depende de los valores de un vector aleatorio muestreado independientemente y con la misma

distribución de todos los árboles del bosque, utilizado para la regresión y la clasificación. Los

árboles utilizan un método determinado de cruce para representar los posibles resultados que

ocasionaría la toma de una decisión. En estos modelos cada nodo representa una prueba en una

variable específica y las ramas muestran los resultados que deja dicha prueba como producto.

(Breiman, 2001)

El error de generalización de un bosque depende de la fuerza de los árboles individuales y

la correlación entre ellos. Las estimaciones internas supervisan el error, fuerza, y la correlación,

se utilizan para demostrar la respuesta al aumento del número de características utilizadas en la

división. También se utilizan estimaciones internas para medir la importancia de cada predictor

sobre la variable a predecir. (Breiman, 2001)

3.2.2. Ventajas Random Forest

Se presentan las ventajas principales por las cuales se escogió un modelo Random Forest

para el desarrollo de la investigación, donde se resaltan la facilidad para aplicarse tanto a

problemas de regresión como clasificación, en este caso se utiliza para regresión ya que se quiere

analizar e intentar predecir un valor en específico el cual es el puntaje global obtenido por los

estudiantes del estudio en las pruebas saber 11, además que permite identificar de manera rápida

y eficiente las variables predictoras más importantes.

Page 79: Análisis de las Pruebas Saber 11, años 2017 y 2018

62

• Los árboles son fáciles de interpretar aun cuando las relaciones entre predictores son

complejas.

• Los árboles pueden, en teoría, manejar tanto predictores numéricos como categóricos sin

tener que crear variables dummy o one-hot-encoding. En la práctica, esto depende de la

implementación del algoritmo que tenga cada librería.

• Al tratarse de métodos no paramétricos, no es necesario que se cumpla ningún tipo de

distribución específica.

• Si para alguna observación, el valor de un predictor no está disponible, a pesar de no

poder llegar a ningún nodo terminal, se puede conseguir una predicción empleando todas

las observaciones que pertenecen al último nodo alcanzado. La precisión de la predicción

se verá reducida, pero al menos podrá obtenerse.

• Son muy útiles en la exploración de datos, permiten identificar de forma rápida y

eficiente las variables (predictores) más importantes.

• Son capaces de seleccionar predictores de forma automática.

• Pueden aplicarse a problemas de regresión y clasificación. (Rodrigo, 2017)

3.3.Grado de influencia de variables utilizando un modelo de Random Forest

Si bien en el análisis exploratorio anterior se observó cómo unas variables influyen más

que otras en el resultado de los estudiantes en las Pruebas Saber 11 de los años de estudio, es

importante tener claridad de cuáles son las variables más importantes, por lo tanto, se decide

utilizar algoritmos de aprendizaje de máquina o machine learning los cuales a través de un modelo

de Random Forest intentará predecir el resultado global de un estudiante en la prueba Saber 11

Page 80: Análisis de las Pruebas Saber 11, años 2017 y 2018

63

teniendo en cuenta que lo que se pretende buscar con este modelo es la determinación del nivel

de importancia de cada variable incluida en el mismo sobre el puntaje global del estudiante.

Las variables a incluir en el modelo se presentan en la tabla 21 , de las variables

seleccionadas para el estudio, se excluyeron las variables ESTU_DEPTO_RESIDE,

COLE_DEPTO_UBICACION, COLE_JORNADA, ESTU_TIPOREMUNERACION,

ESTU_TRABAJO_LABORAL PADRE, ESTU_TRABAJO LABORAL MADRE , debido a

que el número de categorías de estas variables es grande, se hace imposible correr el modelo con

dicha cantidad y los equipos que se tienen a disposición. Además, también se excluyeron las

variables ESTU_TIENEHORNOMICROOGAS, ESTU_TIENEAUTOMOVIL,

ESTU_TIENEMOTOCICLETA con la intención de reducir el peso del modelo y teniendo en

cuenta que estas variables van relacionadas con la variable estrato la cual se está teniendo en

cuenta.

Tabla 21 Variables a incluir en el modelo Random Forest

VARIABLE

FAMI_TIENEINTERNET

FAMI_TIENECOMPUTADOR

ESTU_DEDICACIONLECTURADIARIA

ESTU_GENERO

FAMI_NUMLIBROS

ESTU_TIENEETNIA

COLE_AREA_UBICACION

FAMI_COMELECHEDERIVADOS

FAMI_TIENESERVICIOTV

FAMI_COMECEREALFRUTOSLEGUMBRE

FAMI_COMECARNEPESCADOHUEVO

ESTU_DEDICACIONINTERNET

FAMI_TIENECONSOLAVIDEOJUEGOS

COLE_CARACTER

FAMI_CUARTOSHOGAR

FAMI_PERSONASHOGAR

Page 81: Análisis de las Pruebas Saber 11, años 2017 y 2018

64

FAMI_ESTRATOVIVIENDA

FAMI_EDUCACIONPADRE

ESTU_HORASSEMANATRABAJA

FAMI_EDUCACIONMADRE

COLE_GENERO

COLE_BILINGUE

PUNT_GLOBAL Fuente: Elaboración propia.

A continuación, se presentan cada uno de los pasos realizados para la ejecución del modelo,

empezando por las librerías utilizadas.

3.3.1. Librerías utilizadas

• rsample: Sirve para dividir el conjunto de datos en entrenamiento/prueba (train/test).

• recipe: Para el preprocesamiento de las variables (estandarización, conversión, variables

dummy, entre otros).

• parsnip: Para especificar el modelo o algoritmo de machine learning.

• yardstick: Para evaluar el modelo utilizando diferentes métricas (MSE, RMSE).

• tune: Utilizada para calibrar los parámetros de los modelos y algoritmos.

• workflows: Para integrar todas las tareas que se realizan para entrenar los modelos y

algoritmos.

• Ranger: Utilizada para la implementación del modelo Random Forest, permite acelerar el

proceso al correr el modelo.

3.3.2. División del conjunto de datos en train/test

Como primer paso se dividió el conjunto de datos en dos grupos, como se acostumbra en

este tipo de experimentos:

Page 82: Análisis de las Pruebas Saber 11, años 2017 y 2018

65

train: para entrenar los modelos y algoritmos de machine learning.

test: para validar la capacidad predictiva del modelo entrenado.

Para esta división se utilizaron tres proporciones 80/20, 75/25 y 70/30 con el fin de

encontrar los mejores parámetros para el modelo que presenten un menor error. Las proporciones

indican que para el entrenamiento se utilizaran grupos del 80%, 75% y 70% de total de los datos

y para el test grupos de 20%, 25% y 30% respectivamente, los resultados de estas divisiones se

encuentran en el apartado calibración de parámetros que se encuentra en los siguientes pasos.

3.3.3. Preprocesamiento de datos

El procesamiento permitió hacer los ajustes y transformaciones necesarias a los datos, para

que quedaran listos para entrenar los modelos.

Las tareas ejecutadas para este modelo son:

step_dummy (): convierte las variables categóricas en variables booleanas. Las variables

categóricas contienen un número finito de categorías o grupos. Por ejemplo: la variable

ESTU_GENERO tiene dos categorías {F, M} las cuales convierte en dos variables, F= {0,1} 1 si

es género femenino 0 de lo contrario y M= {0,1} 1 si es género masculino 0 de lo contrario. Se

crean tantas variables como categorías tenga el factor. Este proceso se realiza para todas las

variables de la tabla 21 a excepción del PUNT_GLOBAL que es una variable numérica y además

es la variable para predecir por lo que no se le puede hacer ninguna transformación.

3.3.4. Configurar el modelo de Machine Learning

Page 83: Análisis de las Pruebas Saber 11, años 2017 y 2018

66

Tipo de modelo: Se definió el modelo que como se mencionó con anterioridad es un

Random Forest, utilizando la función rand_forest() que permite especificar el tipo de modelo a

utilizar.

Los argumentos: los valores de los parámetros del modelo, establecidos usando la función

set_args(), la cual toma permite definir los parámetros que se utilizan en el modelo.

La implementación: Se utiliza la librería ranger para la implementación del Random

Forest, por lo cual se hizo uso de la función set_engine() para configurar los parámetros de dicho

modelo.

El modo de aprendizaje: El tipo de predicción que se realizó es por medio de regresión

(predicción continua), la configuración se hizo utilizando la función set_mode ().

Ilustración 35 Configuración del modelo de Machine Learning

Fuente: Elaboración propia en el software R Studio.

3.3.5. Definir el flujo de trabajo

Page 84: Análisis de las Pruebas Saber 11, años 2017 y 2018

67

En la ilustración 36 se muestra el flujo de trabajo para el modelo Random Forest el cual

permite integrar todas las tareas que se están desarrollando y que se han mencionado en los pasos

anteriores, de manera que se pueda entrenar el modelo de machine learning.

Ilustración 36 Flujo de trabajo del modelo Random Forest

Fuente: Elaboración propia en el software R Studio.

3.3.6. Calibración de parámetros

Para calibrar los parámetros se utilizó el método de validación cruzada. Este procedimiento

tuvo como propósito encontrar los parámetros óptimos del modelo o algoritmo. La Validación

Cruzada o k-fold Cross Validation consiste en tomar los datos originales y crear a partir de ellos

dos conjuntos separados: un primer conjunto de entrenamiento (y prueba), y un segundo conjunto

de validación, realizando iteraciones con los valores de los parámetros ingresados de manera que

se seleccione los valores que menor error generen.

Page 85: Análisis de las Pruebas Saber 11, años 2017 y 2018

68

• mtry: Este parámetro se encarga de decidir el número de variables que se consideran en

cada nodo para conseguir la mayor información posible, es uno de los parámetros más

importantes en el desarrollo del Random forest.

• trees: número de árboles utilizados en el modelo con el fin de estabilizar el error.

Para esta regresión y con el fin de encontrar los mejores parámetros se usaron las siguientes

métricas.

La raíz del Error cuadrático medio (Root Mean Square Error) rmse: es la desviación estándar

de los residuos (errores de predicción). Los residuos son una medida de qué tan lejos están los

puntos de datos de la línea de regresión; RMSE es una medida de la dispersión de estos residuos.

Error Medio Absoluto (Mean Absolute Error) mae: mide el error o desviación, en valor

absoluto, entre el valor real de y el valor estimado por el modelo.

3.3.7. Resultados Selección de parámetros

Para la selección de los parámetros más adecuados para el modelo se hicieron pruebas con las tres

divisiones de conjuntos mencionadas con anterioridad, dando posibles valores a los parámetros de

manera que se seleccionaran los que mostraran valores más bajos en las métricas.

La ilustración 37 muestra los valores de selección asignados a las métricas, donde para mtry se

asignaron tres posibles valores 3, 5 y 9 y para el parámetro trees se asignaron los valores 300 y

500. Los posibles valores de las métricas se asignaron después de realizar varias pruebas e

identificar que entre estos valores se encontraban los parámetros más adecuados.

Ilustración 37 Valores de selección para las métricas

Page 86: Análisis de las Pruebas Saber 11, años 2017 y 2018

69

Fuente: Elaboración propia en el software R Studio.

Resultados división de datos 80/20

En la ilustración 38 podemos observar el resultado de la validación cruzada para la división de

datos 80/20, donde el 0.8 hace referencia a que se tomaran el 80% de los datos para entrenamiento,

para este caso los mejores parámetros son mtry=5 y trees=500.

Ilustración 38 Resultado validación cruzada con división de datos 80/20

Fuente: Elaboración propia en el software R Studio.

Resultados división de datos 75/25

Los mejores parámetros con la división datos 75/25 son mtry=5 y trees= 500 como se puede

observar en la ilustración 39.

Ilustración 39 Resultado validación cruzada con división de datos 75/25

Page 87: Análisis de las Pruebas Saber 11, años 2017 y 2018

70

Fuente: Elaboración propia en el software R Studio.

Resultados división de datos 70/30

Con la división de datos 70/30 se encuentra que los mejores parámetros son mtry=5 y trees=500

como se puede observar en la ilustración 40.

Ilustración 40 Resultado validación cruzada con división de datos 70/30

Fuente: Elaboración propia en el software R Studio.

De las ilustraciones 38, 39 y 40 podemos concluir que los resultados de la validación cruzada son

los mismos para las tres divisiones del conjunto de datos, entonces los mejores parámetros para el

modelo son mtry=5 y trees= 500.

Las ilustraciones 41 y 42, permiten identificar, de forma más clara, los parámetros adecuados para

el modelo. Se presentan los valores de las métricas en función del mtry y el número de árboles y

Page 88: Análisis de las Pruebas Saber 11, años 2017 y 2018

71

se escoge la combinación de parámetros que generen un menor error, el cual se encuentra en los

puntos de inflexión.

Ilustración 41 RMSE en función del mtry y el número de arboles

Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11.

Ilustración 42 MAE en función del mtry y el número de arboles

Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11

Page 89: Análisis de las Pruebas Saber 11, años 2017 y 2018

72

3.4. Modelo final

A continuación, en la ilustración 43, se presenta el modelo final donde se incluyen todas las

tareas realizadas con anterioridad.

Ilustración 43 Modelo final de Random Forest

Fuente: Elaboración propia mediante el software R Studio.

Cabe aclarar que este modelo no permite predecir de manera precisa el resultado que va a

tener un estudiante en las Pruebas Saber 11, ya que hay muchas otras variables que afectan el

desempeño del estudiante, y que para este modelo no se están incluyendo, tal es el caso del

coeficiente intelectual de cada estudiante, el apoyo que reciben del hogar, los elementos de la

escuela o plantel educativo como la eficacia de los profesores y las características de

infraestructura (BANCO MUNDIAL, 2008), no obstante, el objetivo principal del modelo es

identificar la importancia de cada una de las variables incluidas en el mismo sobre el puntaje global

obtenido en las Pruebas Saber 11.

Page 90: Análisis de las Pruebas Saber 11, años 2017 y 2018

73

Importancia de las variables del modelo

Dado que las variables categóricas se convirtieron en variables booleanas para la correcta

ejecución del modelo , este arroja la importancia de cada categoría de todas las variables. El valor

de la importancia mostrado en la tabla 22 corresponde a un valor asignado por el modelo que

permite identificar el grado de importancia de cada variable sobre el puntaje global. Esta

importancia puede darse debido a que la variable contribuye a puntajes altos o por el contrario a

puntajes bajos, como por ejemplo el hecho de tener un computador el cual hace que se obtengan

mejores puntajes y por el contrario no tenerlo contribuye a obtener resultados más bajos.

Tabla 22 Importancia de las variables del modelo

VARIABLE IMPORTANCIA

FAMI_NUMLIBROS_X0.A.10.LIBROS 19527365.4

ESTU_HORASSEMANATRABAJA_X0 14883402.9

FAMI_TIENEINTERNET_Si 14085737.4

FAMI_TIENEINTERNET_No 13839901.0

FAMI_NUMLIBROS_X26.A.100.LIBROS 13411134.8

FAMI_TIENECOMPUTADOR_Si 12441143.8

FAMI_TIENECOMPUTADOR_No 12412894.8

ESTU_DEDICACIONLECTURADIARIA_X30.minutos.o. menos 9447835.9

FAMI_EDUCACIONMADRE_Tecnica.o.tecnologica.completa 9367075.0

FAMI_EDUCACIONMADRE_Primaria.incompleta 9312629.0

ESTU_GENERO_M 8982280.9

ESTU_GENERO_F 8747854.7

FAMI_PERSONASHOGAR_X3.a.4 8628750.0

FAMI_ESTRATOVIVIENDA_Estrato.1 8510814.3

ESTU_DEDICACIONLECTURADIARIA_No.leo.por.entretenimient

o

8496946.2

ESTU_TIENEETNIA_No 8232539.1

FAMI_EDUCACIONPADRE_Primaria.incompleta 8181236.4

ESTU_DEDICACIONLECTURADIARIA_Entre.30.y.60.minutos 8073816.6

FAMI_COMELECHEDERIVADOS_X1.o.2.veces.por.semana 8035184.1

FAMI_CUARTOSHOGAR_Dos 8031922.7

FAMI_COMECEREALFRUTOSLEGUMBRE_X3.a.5.veces.por.sem

ana

7981748.6

COLE_CARACTER_TECNICO.ACADEMICO 7963268.8

Page 91: Análisis de las Pruebas Saber 11, años 2017 y 2018

74

FAMI_COMELECHEDERIVADOS_Todos.o.casi.todos.los.dias 7962803.8

FAMI_CUARTOSHOGAR_Tres 7943536.9

FAMI_ESTRATOVIVIENDA_Estrato.2 7940874.3

ESTU_DEDICACIONINTERNET_Entre.1.y.3.horas 7918974.9

ESTU_TIENEETNIA_Si 7894187.0

COLE_CARACTER_ACADEMICO 7859950.9

FAMI_COMECARNEPESCADOHUEVO_Todos.o.casi.todos.los.dias 7786231.8

FAMI_COMECARNEPESCADOHUEVO_X1.o.2.veces.por.semana 7576792.6

COLE_AREA_UBICACION_URBANO 7574140.3

FAMI_COMECEREALFRUTOSLEGUMBRE_X1.o.2.veces.por.sem

ana

7543879.5

COLE_AREA_UBICACION_RURAL 7360873.1

ESTU_DEDICACIONINTERNET_X30.minutos.o.menos 7346903.8

ESTU_DEDICACIONINTERNET_Entre.30.y.60.minutos 7277319.0

FAMI_PERSONASHOGAR_X5.a.6 7068613.5

FAMI_COMECARNEPESCADOHUEVO_X3.a.5.veces.por.semana 7026248.3

FAMI_EDUCACIONMADRE_Secundaria..Bachillerato..completa 6969358.1

FAMI_COMELECHEDERIVADOS_X3.a.5.veces.por.semana 6939036.8

FAMI_EDUCACIONPADRE_Ninguno 6842008.6

FAMI_EDUCACIONPADRE_Secundaria..Bachillerato..completa 6828389.6

FAMI_TIENESERVICIOTV_Si 6789201.8

FAMI_TIENESERVICIOTV_No 6761143.0

FAMI_NUMLIBROS_X11.A.25.LIBROS 6689437.9

FAMI_ESTRATOVIVIENDA_Sin.Estrato 6629957.7

FAMI_COMELECHEDERIVADOS_Nunca.o.rara.vez.comemos.eso 6583648.0

FAMI_EDUCACIONMADRE_Educacion.profesional.completa 6314948.9

FAMI_COMECEREALFRUTOSLEGUMBRE_Todos.o.casi.todos.los

.dias

6289670.4

FAMI_ESTRATOVIVIENDA_Estrato.3 6239878.9

FAMI_CUARTOSHOGAR_Cuatro 6231931.8

FAMI_EDUCACIONPADRE_Secundaria..Bachillerato..incompleta 6225239.1

FAMI_COMECEREALFRUTOSLEGUMBRE_Nunca.o.rara.vez.com

emos.eso

6209482.7

FAMI_EDUCACIONMADRE_Secundaria..Bachillerato..incompleta 6187736.8

FAMI_EDUCACIONPADRE_Tecnica.o.tecnologica.completa 6168692.5

ESTU_DEDICACIONLECTURADIARIA_Entre.1.y.2.horas 6131364.3

COLE_CARACTER_TECNICO 6069364.2

ESTU_DEDICACIONINTERNET_MAS.de.3.horas 6065682.5

FAMI_EDUCACIONMADRE_Primaria.completa 5797208.1

FAMI_EDUCACIONPADRE_Primaria.completa 5688918.4

FAMI_TIENECONSOLAVIDEOJUEGOS_Si 5643019.2

FAMI_TIENECONSOLAVIDEOJUEGOS_No 5630488.9

Page 92: Análisis de las Pruebas Saber 11, años 2017 y 2018

75

ESTU_HORASSEMANATRABAJA_Menos.de.10.horas 5615965.5

ESTU_DEDICACIONLECTURADIARIA_MAS.de.2.horas 5515294.2

FAMI_PERSONASHOGAR_X7.a.8 5203319.2

FAMI_EDUCACIONPADRE_Educacion.profesional.completa 5178521.7

FAMI_NUMLIBROS_MAS.DE.100.LIBROS 4695379.7

ESTU_DEDICACIONINTERNET_No.Navega.Internet 4694459.8

FAMI_EDUCACIONPADRE_No.sabe 4543430.0

FAMI_PERSONASHOGAR_X1.a.2 4464965.1

FAMI_EDUCACIONMADRE_Ninguno 4425711.5

FAMI_COMECARNEPESCADOHUEVO_Nunca.o.rara.vez.comemo

s.eso

4401069.6

FAMI_CUARTOSHOGAR_Uno 4375455.2

COLE_GENERO_MIXTO 4270491.5

ESTU_HORASSEMANATRABAJA_Entre.11.y.20.horas 4073130.7

ESTU_HORASSEMANATRABAJA_MAS.de.30.horas 3946561.3

FAMI_PERSONASHOGAR_X9.o.MAS 3780201.5

FAMI_CUARTOSHOGAR_Cinco 3629433.9

FAMI_ESTRATOVIVIENDA_Estrato.4 3559650.9

COLE_GENERO_FEMENINO 3418899.2

FAMI_EDUCACIONMADRE_Tecnica.o.tecnologica.incompleta 3084845.1

FAMI_EDUCACIONMADRE_Postgrado 2920022.2

FAMI_EDUCACIONMADRE_Educacion.profesional.incompleta 2767893.3

FAMI_EDUCACIONPADRE_Educacion.profesional.incompleta 2681083.0

FAMI_CUARTOSHOGAR_Seis.o.mas 2592593.7

FAMI_EDUCACIONPADRE_Tecnica.o.tecnologica.incompleta 2435599.3

ESTU_HORASSEMANATRABAJA_Entre.21.y.30.horas 2434935.9

FAMI_EDUCACIONPADRE_Postgrado 2367046.9

FAMI_EDUCACIONMADRE_No.sabe 2298433.2

FAMI_EDUCACIONPADRE_No.Aplica 1847840.8

FAMI_ESTRATOVIVIENDA_Estrato.5 1730497.2

FAMI_ESTRATOVIVIENDA_Estrato.6 1321961.3

COLE_BILINGUE_N 1149938.8

COLE_BILINGUE_S 1140861.8

COLE_GENERO_MASCULINO 829326.2

FAMI_EDUCACIONMADRE_No.Aplica 459230.0

COLE_CARACTER_NO.APLICA 111360.5

Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11.

Page 93: Análisis de las Pruebas Saber 11, años 2017 y 2018

76

Al tener los resultados de esta manera genera confusión a la hora de interpretar la

importancia de cada variable, por lo tanto, se decide agrupar cada variable por sus categorías,

obteniendo la siguiente clasificación de las variables dada su importancia.

En la Ilustración 44 se puede observar las variables incluidas en el modelo con su grado de

importancia, el cual se obtuvo promediando la importancia de las categorías de cada variable,

donde la variable referente a si la familia tiene internet en la casa es la que más influye en resultado

de la prueba Saber 11.

Ilustración 44 Importancia de variables del modelo

Fuente: Elaboración propia a partir de la base de datos de las Pruebas Saber 11

3.5. Comparación colegios categoría A y A+ vs la categoría D

Para este punto ya se identificaron las variables de mayor importancia en el puntaje

obtenido en las Pruebas Saber 11, pero con el fin de recopilar más información relacionada con

0,00 4000000,00 8000000,00 12000000,00 16000000,00

COLE_BILINGUECOLE_GENERO

FAMI_EDUCACIONMADREFAMI_EDUCACIONPADREFAMI_ESTRATOVIVIENDA

FAMI_CUARTOSHOGARCOLE_CARACTER

FAMI_TIENECONSOLAVIDEOJUEGOSFAMI_PERSONASHOGAR

ESTU_HORASSEMANATRABAJAESTU_DEDICACIONINTERNET

FAMI_TIENESERVICIOTVFAMI_COMECEREALFRUTOSLEGUMBRE

FAMI_COMECARNEPESCADOHUEVOFAMI_COMELECHEDERIVADOS

COLE_AREA_UBICACIONESTU_TIENEETNIA

ESTU_GENEROESTU_DEDICACIONLECTURADIARIA

FAMI_NUMLIBROSFAMI_TIENECOMPUTADOR

FAMI_TIENEINTERNET

Importancia

Page 94: Análisis de las Pruebas Saber 11, años 2017 y 2018

77

cómo mejorar estos resultados, se realiza una comparación entre los colegios categoría (A y A+)

versus los colegios de categoría D, para observar las diferencias en las 11 variables con mayor

importancia que llevan a los colegios categoría (A+ y A) a tener mejores puntajes e identificar

algunas de las causas de la brecha existente en los resultados de las pruebas saber 11 entre colegios

públicos.

A continuación, se presenta la comparación agrupando las variables según el módulo al

que pertenecen de acuerdo con los establecidos en la recolección de la información del capítulo

dos.

3.5.1. Modulo información personal

En la ilustración 45, se observa la comparación entre los colegios categoría A+ y A vs la

categoría D de acuerdo con el género del estudiante, donde se puede observar que no hay una

diferencia significativa en esta variable, ya que la proporción de estudiantes de género masculino

y femenino son muy similares en las categorías comparadas, donde en la categoría A+ y A el

57.7% son mujeres y el 42.2% hombres y en la categoría D 54.2 % son mujeres y el 45.7 %

hombres.

Ilustración 45 Proporción de estudiantes que tienen internet dependiendo de la categoría del

colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 95: Análisis de las Pruebas Saber 11, años 2017 y 2018

78

Ahora, en la ilustración 46, se presenta la proporción de estudiantes que tienen etnia

dependiendo de la categoría del colegio, se evidencia una diferencia de los estudiantes que tienen

etnia en los colegios categoría A+ y A y la categoría D, donde en los colegios categoría A+ y A

la proporción de estudiantes que tienen etnia es de 1.65% respecto 23.9% de los colegios

categoría D.

Ilustración 46 Proporción de estudiantes que tienen etnia dependiendo de la categoría del

colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

3.5.2. Modulo información socioeconómica

En la ilustración 47, podemos observar la diferencia que hay entre los colegios categoría

A+ y A y la categoría D con relación a la proporción de estudiantes que tienen acceso a internet

en su casa, se observa que es mayor la proporción de estudiantes que tienen internet en los

colegios A+ y A con 71.6% vs 27.58% los que cuentan con este recurso en los colegios categoría

D, lo que podría estar influyendo en que estos estudiantes tengan mejores resultados en las

Pruebas Saber 11.

Ilustración 47 Proporción de estudiantes que tienen internet dependiendo de la categoría del

colegio.

Page 96: Análisis de las Pruebas Saber 11, años 2017 y 2018

79

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

La proporción de estudiantes que tienen computador es mayor en los colegios categoría

A+ y A con 71% vs 33% los estudiantes de la categoría D, debido a que esta es una de las

variables más influyentes en los resultados de las Pruebas Saber 11, podría explicar el por qué

los estudiantes que tienen computador obtienen mejores resultados, esta proporción se puede

observar en la ilustración 48.

Ilustración 48 Proporción de estudiantes que tienen computador dependiendo de la categoría

del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 97: Análisis de las Pruebas Saber 11, años 2017 y 2018

80

Para tener mayor certeza de cómo influye el estrato para poseer computador se presenta la

ilustración 49, en la que se observa que del total de estudiantes que no tienen computador el 51%

pertenecen al estrato 1, el 29% al estrato 2 y va disminuyendo hasta llegar al estrato 6 con 0.6%.

Ilustración 49 Proporción de estudiantes que no tienen computador dependiendo del estrato de

la vida.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la ilustración 50, se puede observar la diferencia que hay en la proporción de

estudiantes que tienen servicio de televisión entre los colegios categoría A+ y A y los colegios

categoría D, donde en la categoría A+ y A la proporción de estudiantes que tienen este servicio

llega hasta el 80.7% y en los colegios categoría D llega al 64%.

Page 98: Análisis de las Pruebas Saber 11, años 2017 y 2018

81

Ilustración 50 Proporción de estudiantes dependiendo de si tienen servicio de televisión y de la

categoría del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la comparación de los colegios categoría A+ y A vs los colegios categoría D respecto

al tiempo que dedican los estudiantes a navegar en internet en el día, en la Ilustración 51 se puede

observar que en los colegios categoría A+ y A los estudiantes suelen navegar por más tiempo en

internet, en especial en un lapso entre 1 y 3 horas en el cual están el 33.7% de los estudiantes de

colegios categoría A+ y A y el 22.8% de la categoría D.

Ilustración 51 Proporción de estudiantes dependiendo de la dedicación diaria a internet

y de la categoría del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Page 99: Análisis de las Pruebas Saber 11, años 2017 y 2018

82

En la Ilustración 52, se observa que los estudiantes de colegios categoría D tienen menor

cantidad de libros en el hogar, donde el 54.7% de los estudiantes tienen entre 0 y 10 libros, y en

los colegios categoría A+ y A esta proporción es menor con un 32% y a medida que aumentan el

número de libros es mayor la proporción en los colegios categoría A+ y A que en los D, lo que

favorece a estos estudiantes, ya que como se pudo ver con anterioridad a mayor cantidad de

libros mayor es el puntaje promedio en la prueba Saber 11.

Ilustración 52 Proporción de estudiantes dependiendo del número de libros en la familia

y de la categoría del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

En la Ilustración 53, respecto a la lectura diaria no se puede ver una diferencia clara ya que

los estudiantes de ambas categorías A+ y A versus D suelen dedicar casi el mismo tiempo a la

lectura daría.

Page 100: Análisis de las Pruebas Saber 11, años 2017 y 2018

83

Ilustración 53 Proporción de estudiantes dependiendo la dedicación a la lectura diaria y de la

categoría del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Con relación al tipo de alimentación, las ilustraciones 54, 55 y 56 permiten observar que

los estudiantes de colegios categoría A+ y A suelen tener una mejor alimentación ya que consumen

derivados de la leche, carnes, pescado, huevos, cereales, frutos y legumbres con mayor frecuencia

a la semana que los estudiantes de colegios categoría D; además, en el análisis exploratorio de los

datos se mostró que a mayor consumo de estos alimentos mayor puntaje se obtenía en las Pruebas

Saber 11;esto nos ayuda a entender porque los estudiantes de colegios categoría A+ y A obtiene

mejores resultados, ya que los resultados van relacionados con una buena alimentación que le

permite al estudiante desempeñarse de la mejor manera tanto en la adquisición de conocimiento

como en el día de la prueba Saber 11.

Page 101: Análisis de las Pruebas Saber 11, años 2017 y 2018

84

Ilustración 54 Proporción de estudiantes dependiendo del consumo de lácteos en la semana y la

categoría del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Ilustración 55 Proporción de estudiantes dependiendo del consumo de proteínas en la semana y

la categoría del colegio.

Page 102: Análisis de las Pruebas Saber 11, años 2017 y 2018

85

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Ilustración 56 Proporción de estudiantes dependiendo del consumo de cereales frutos y

legumbres en la semana y de la categoría del colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

3.5.3. Modulo información del colegio

La ilustración 57, permite observa que la mayoría de los estudiantes de colegios categoría

A+ y A son de área urbana con un 95% con respecto al 64.6% de los colegios categoría D; si se

analiza a fondo los estudiantes del área urbana suele tener mayor facilidad a internet y un

computador que como ya vimos en este trabajo son las variables que más influyen a obtener

mejores puntajes en las Pruebas Saber 11.

Page 103: Análisis de las Pruebas Saber 11, años 2017 y 2018

86

Ilustración 57 Proporción de estudiantes dependiendo del área de ubicación y la categoría del

colegio.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Como conclusión de este capítulo se puede afirmar el cumplimiento del segundo objetivo,

en primer lugar se logró identificar cuáles de las variables incluidas en las bases de datos de los

resultados de las Pruebas Saber 11 tienen mayor influencia en el puntaje obtenido por los

estudiantes; esto a través de un modelo de Random Forest, el cual arrojo el grado de importancia

de cada una de las variables incluidas sobre la variable determinante, que en este caso es el

promedio del puntaje global obtenido en la prueba. Se pudo observar que las dos variables más

importantes son el acceso a internet (FAMI_TIENEINTERNET) y al acceso a un computador en

el hogar (FAMI_TIENECOMPUTADOR), lo que indica que la falta de conectividad a nivel

nacional en los colegios está influyendo en estos resultados; en segundo lugar se compararon las

categorías de los colegios A+ y A con los colegios categoría D, respecto a las 11 variables más

importantes arrojadas por el modelo aplicado; donde se encontraron las principales diferencias en

las variables analizadas que hacen que los estudiantes de los colegios categoría A+ y A tengan

mejores resultados respecto a los estudiantes de categoría D y que además contribuyen a la brecha

existente entre estas categorías de colegios.

Page 104: Análisis de las Pruebas Saber 11, años 2017 y 2018

87

4. CAPITULO 4: PROPUESTAS DE MEJORA

En este capítulo se llevó a cabo el desarrollo del objetivo específico 3 que consiste en

desarrollar propuestas de mejora basadas en las variables determinantes que diferencian a los

colegios categoría A+ y A de los colegios categoría D.

Teniendo en cuenta los resultados del capítulo 3, se plantean 3 propuestas de mejora a partir

de las variables más influyentes, con el fin de que los resultados de los estudiantes de Colombia

en las Pruebas Saber 11 mejoren, especialmente los resultados de aquellos estudiantes que

pertenecen a colegios de categoría D, los cuales presentan los resultados más bajos.

4.1. Ampliar cobertura del PAE y capacitaciones a padres de familia

Uno de los factores que tiene mayor incidencia en el desempeño escolar de los estudiantes

es la alimentación. Esto se comprobó en el análisis desarrollado en el capítulo tres, en el que se

evidenció que aquellos estudiantes que semanalmente se alimentan de una mejor manera obtienen

mejores resultados en las Pruebas Saber 11 para los años en los que se realizó el estudio, respecto

a aquellos estudiantes que no se alimentan de forma adecuada.

Se considera alimentación saludable aquella que aporta todos los nutrientes que necesita el

cuerpo para mantener un óptimo funcionamiento del organismo, un buen desarrollo físico,

personal y psicológico minimizando el riesgo de enfermedades en el corto y largo plazo,

asegurando un mejor crecimiento y desarrollo. Para lograrlo es necesario el consumo de frutas,

verduras, cereales, legumbres, leche, carnes, pescado, aves y aceite vegetal en cantidades

adecuadas y variadas. (MINSALUD, s.f.)

Page 105: Análisis de las Pruebas Saber 11, años 2017 y 2018

88

En la vida escolar es importante que los padres y educadores aporten sus conocimientos a

los niños y adolescentes acerca de los estilos de vida saludables, asociados a una buena nutrición

y a hábitos alimentarios adecuados. (Aured & Pinilla, 2007)

Teniendo en cuenta lo anterior, se propone que el Ministerio de Educación Nacional, a

través de su programa de alimentación escolar (PAE) que tiene como objetivo “Contribuir con el

acceso y la permanencia escolar de los niños, niñas y adolescentes en edad escolar, que están

registrados en la matrícula oficial, fomentando estilos de vida saludables y mejorando su capacidad

de aprendizaje, a través del suministro de un complemento” (MINEDUCACIÓN, s.f.), se garantice

que los estudiantes de colegios oficiales de todo el país cuenten con dicho suministro alimentario,

ya que aunque es un compromiso del Gobierno Nacional el alcanzar la cobertura universal del

PAE en educación prescolar, básica y media (Artículo 136, numeral 4, Parágrafo 4° de la Ley 1450

de 2011), no se da el cumplimiento de esto como se puede observar en las ilustraciones 58, 59 y

60 aunque se observa una mejoría con el pasar de los años, no cumplen su compromiso en un

100%, esto por diferentes irregularidades tales como el no informe por parte de las entidades

territoriales de la cobertura del programa, el beneficio a individuos no registrados en el sistema

integrado de matrícula (SIMAT),la falta de organización y la no adecuada regulación del programa

en sí. (Ardila, Flórez, Ricciulli, Domínguez, & Segura, 2017)

Page 106: Análisis de las Pruebas Saber 11, años 2017 y 2018

89

Ilustración 58 Cobertura nacional PAE 2016

Fuente: Ministerio Nacional de Educación.

Ilustración 59 Cobertura nacional PAE 2017

Fuente: Ministerio Nacional de Educación.

Page 107: Análisis de las Pruebas Saber 11, años 2017 y 2018

90

Ilustración 60 Cobertura nacional PAE 2018

Fuente: Ministerio Nacional de Educación.

Además, que MINEDUCACIÓN y las unidades administrativas de educación de cada

región, teniendo en cuenta la población de cada institución educativa, brinden capacitaciones a

directivos, profesores, personal administrativo y padres de familia, en las que se les enseñe acerca

de la importancia de una óptima alimentación y una orientación de como suplir dicha alimentación

en casa, teniendo en cuenta los alimentos propios del entorno y buscando aprovechar de la mejor

manera los recursos existentes, que en muchas ocasiones son muy limitados, por la precaria

situación económica de las familias.

Page 108: Análisis de las Pruebas Saber 11, años 2017 y 2018

91

4.2. Crear hábitos de lectura mediante actividades didácticas.

En el desarrollo del proyecto se evidenció que la lectura tiene un papel fundamental en el

resultado de la prueba Saber 11. Como se observa en la Ilustración 61, los estudiantes que dedican

mayor tiempo diario a la lectura obtienen mejores resultados en la prueba, por lo que se puede

concluir que la lectura diaria influye en el puntaje global promedio.

Ilustración 61 Puntaje promedio de acuerdo con la dedicación diaria de lectura.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Marisela Vital carrillo profesora de la Universidad Autónoma de Hidalgo, menciona que

es importante que los adolescentes lean un libro por lo menos una vez al mes, ya que esta actividad

les permite estimular fácilmente su imaginación y su función cerebral. Además, la lectura

contribuye con la mejora del vocabulario, a desarrollar mejor las habilidades del cerebro para poder

comprender mejor los argumentos de varias líneas y personajes. También, menciona que la falta

de capacidad lectora puede influir en el bajo rendimiento escolar, debido a la falta de interés en las

investigaciones escolares, el poco vocabulario que tiene, la dificultad para comprender y analizar

Page 109: Análisis de las Pruebas Saber 11, años 2017 y 2018

92

textos y sobre todo el no entender cuando alguien le explica de un determinado tema. (Carrillo,

2018)

En la parte asociada a la dedicación a la lectura por parte de los estudiantes incluidos en

este proyecto, la ilustración 62, evidencia el porcentaje de estudiantes según la dedicación a la

lectura diaria, donde el 39,79 % de los estudiantes leen 30 minutos o menos; el 28 % leen entre 30

y 60 minutos; el 16% no leen por entretenimiento; el 11,7 % leen entre 1 y 2 horas y el 4.2% leen

más de 2 horas. Dicho lo anterior si se une los estudiantes que no leen por entretenimiento y los

que leen 30 minutos o menos se tiene que más de la mitad de los estudiantes leen muy poco o nada.

Ilustración 62 Porcentaje de estudiantes según la dedicación diaria a la lectura.

Fuente: Elaboración propia a partir de la información del ICFES de las Pruebas Saber 11.

Con base en lo anterior lo anterior se plantean las siguientes sugerencias para incentivar y

mejorar el hábito de lectura en los colegios públicos de Colombia, con el fin de contribuir con la

mejora en los resultados de las Pruebas Saber 11.

• En primer lugar, se propone manejar un canon de libro por periodo y

teniendo en cuenta el Catálogo de Textos escolares creado por MINEDUCACION con el

Page 110: Análisis de las Pruebas Saber 11, años 2017 y 2018

93

fin de elevar el valor social de los libros de texto (para que los diferentes actores entiendan

la importancia de este dentro del proceso educativo) (MinEducación), el cual se debe

ajustar a los requerimientos exigidos para el año en curso. Además, la lectura de este se

evaluará exigiendo en cada área una actividad; es importante tener en cuenta que las

instituciones deben asegurar que los estudiantes tengan la facilidad de acceso al libro, bien

sea proporcionando las copias de manera gratuita o a un bajo costo para cada estudiante, la

facilidad de descarga en línea o alianza con bibliotecas cercanas que sirvan como medio

para que todos tengan acceso a los libros seleccionados.

• En segundo lugar, programar donaciones de libros en las secretarias de

educación del país y en las instituciones de tal manera que cuenten con suficientes libros.

Se considera importante que estos libros no solo sean de carácter académico, sino que se

maneje una amplia gama de géneros para que los estudiantes se interesen por la lectura

según sus gustos e intereses.

• En la investigación realizada por Trujillo (s.f), denominada “Formación de hábitos de

lectura en niños en edad escolar” se recalca la importancia de las bibliotecas, ya que se

demostró que en las escuelas que cuentan con una, hay un 46% de alumnos que pueden ser

clasificados como lectores, mientras que un 28% de los alumnos en las escuelas sin

bibliotecas aparecen en esa categoría. (Trujillo, s.f); por lo que se propone la adecuación

de las bibliotecas en las instituciones educativas, con el fin de que los estudiantes tengan

espacios adecuados para leer.

Es importante que en este espacio de igual forma se incentive la lectura, mediante

actividades a lo largo de la semana en los espacios extracurriculares. Dentro de estas actividades

Page 111: Análisis de las Pruebas Saber 11, años 2017 y 2018

94

se pueden programar talleres, charlas, conversatorios, etc., teniendo en cuenta las edades y etapas

de los estudiantes.

4.3. Aumentar acceso a internet y a computadores en colegios públicos.

Como se pudo observar en el desarrollo de este trabajo, las dos variables más influyentes

en el desempeño de los estudiantes en las Pruebas Saber 11 en los años para los cuales se realizó

este estudio son el acceso a internet (FAMI_TIENEINTERNET) y el acceso a un computador

(FAMI_TIENECOMPUTADOR). De igual manera, al observar la comparación de estas variables

entre los colegios categoría A+ y A con los colegios categoría D, es posible afirmar que los

estudiantes que tienen acceso a internet y a un computador superan el 70%, mientras que de los

estudiantes de colegios categoría D solo alrededor del 30 %, tienen acceso a estos recursos, esto

contribuye a que los estudiantes de colegios categoría A+ y A puedan tener un mejor desempeño

en estas pruebas.

Se reconoce por parte del Ministerio de Tecnologías de la Información y las

Comunicaciones (MinTic), su interés por brindar equidad social, educativa y económica en el país,

por medio de proyectos como el de implementar Centros digitales, donde escuelas, puestos de

salud, comunidades indígenas, etc., de las zonas rurales del país cuenten con servicio de internet

sin costo hasta 2031 (Ministerio de Tecnologías de la Información y las Comunicaciones, 2021);

sin embargo, en materia de conectividad para los colegios y acceso a computadores queda mucho

por hacer a nivel nacional para reducir la brecha.

A continuación, en las ilustraciones 63 y 64, se muestran el número de sedes conectadas

del total de sedes oficiales a nivel nacional para los años 2019 y 2020. El término conectadas hace

referencia a las sedes en las que los alumnos pueden usar internet como ayuda pedagógica. En

Page 112: Análisis de las Pruebas Saber 11, años 2017 y 2018

95

ambas ilustraciones se observa que la mayoría de las sedes están desconectadas, por lo que es

posible indicar que los estudiantes no tienen acceso a internet desde sus instituciones.

Adicionalmente, se observa que para el año 2020 este dato disminuye aún más, esto podría estar

asociado a la crisis ocasionada por la pandemia del covid-19.

Ilustración 63 Número de sedes conectadas 2019

Fuente: Ministerio Nacional de Educación.

Ilustración 64 Número de sedes conectadas 2020

Page 113: Análisis de las Pruebas Saber 11, años 2017 y 2018

96

Fuente: Ministerio Nacional de Educación.

En la ilustración 65, se observa el número promedio de estudiantes por computador hasta

el año 2019, donde si bien con el paso de los años se ha logrado disminuir este número, aún sigue

siendo alto y combinado con la falta de conectividad hace que el aprendizaje de los estudiantes

tenga serias complicaciones, llevando así a obtener bajos resultados en las Pruebas Saber 11.

Ilustración 65 Número de estudiantes promedio por computador

Fuente: Ministerio Nacional de Educación.

Page 114: Análisis de las Pruebas Saber 11, años 2017 y 2018

97

Dadas estas circunstancias, y viendo la importancia del acceso a internet y a un computador

para los estudiantes del país, se plantean dos propuestas.

• Se recomienda hacer un esfuerzo mayor por parte del Gobierno en compañía del MinTic

que permita mejorar el acceso a internet y a computadores en todos los colegios oficiales

del país, donde en cada institución se designe un espacio en el cual los estudiantes puedan

tener acceso a estos recursos, no solo en los horarios de clase sino también extra-clase, que

les permita apoyarse en sus procesos formativos, logrando así una mejora en la educación

en el país. Se propone que en el corto plazo se garantice el acceso a estos recursos en las

instituciones educativas y progresivamente incorporarlo en los hogares, ya que esta parte

requiere un esfuerzo más complejo.

• Dado que dotar a todos los colegios públicos del país con computadores e internet es un

gran desafío y algo que tomara bastante tiempo, sobre todo en las zonas rurales donde cada

institución tiene varias sedes, se propone que se designen centros de experiencia para

estudiantes; ubicados en puntos estratégicos y/o centrales, que se encuentren dotados de

equipos de cómputo, red wifi y espacios adecuados para el desarrollo de actividades,

contando con la asesoría de personal capacitado que verifique que hagan uso de estos

recursos de una manera adecuada.

Se considera importante resaltar que el Gobierno mediante sus entes de control deben verificar

y garantizar el cumplimiento de los proyectos actuales relacionados con la conectividad en las

instituciones educativas.

Page 115: Análisis de las Pruebas Saber 11, años 2017 y 2018

98

5. CAPITULO 5. CONCLUSIONES Y TRABAJO FUTURO.

5.1. Conclusiones generales

1. A pesar de que en un principio se contaba con una gran cantidad de

variables, al analizar y detallar a fondo, se observó que muchas de estas no

presentaban mayor relevancia para el desarrollo del objetivo del proyecto, por lo que

para el modelo solo se incluyeron las variables que, a partir de análisis exploratorio

de datos, demostraban que tenían alguna influencia significativa sobre el resultado de

los estudiantes en las pruebas saber 11.

2. El modelo Random Forest permitió encontrar de manera clara las variables

que tienen mayor influencia en los resultados de las Pruebas Saber 11 en los años de

estudio, ya que este es un modelo que se ajusta mejor a la realidad, prediciendo de

una mejor manera los resultados, esto gracias a la versatilidad de funciones que se

pueden utilizar y que permiten detectar la importancia de cada uno de los predictores

sobre la variable de a predecir, que este caso era el puntaje global de los estudiantes.

3. Se encontró que de las variables analizadas las tres que tienen mayor

influencia en los resultados obtenidos por los estudiantes en las Pruebas Saber 11, son

el acceso a internet, el acceso a un computador y el número de libros en el hogar,

estas variables están relacionadas con la información socioeconómica de los

estudiantes. Teniendo en cuenta que estos resultados de los estudiantes que se

analizaron son de los años 2017 y 2018, se evidencia que desde ese entonces la

importancia de tener acceso a instrumentos de consulta juega un papel fundamental

en el aprendizaje de los estudiantes y más ahora que la educación a raíz de la

pandemia ocasionada por el Covid 19, se ha orientado hacia un aprendizaje remoto.

Page 116: Análisis de las Pruebas Saber 11, años 2017 y 2018

99

4. La brecha existente entre los colegios públicos de Colombia en los

resultados de las Pruebas Saber 11, se genera en gran parte por las diferencias que hay

en las variables de mayor relevancia entre los colegios más sobresalientes (Categoría

A+ y A) y aquellos más rezagados (Categoría D), donde en la categoría A+ y A la

mayoría de los estudiantes cuentan con conexión a internet, acceso a un computador y

una mayor cantidad de libros en la casa, situación que no se presenta en los colegios

categoría D, esto genera que los estudiantes de estos colegios tengan una menor

oportunidad de acceder a la educación superior y menos competencias para la vida

laboral.

5. A pesar de que el software R Studio es especializado para el manejo y

procesamiento de datos, se debe contar con un equipo de cómputo con características

de gama alta, ya que correr un modelo de Random Forest con grandes cantidades de

datos genera demasiado estrés en el equipo. El equipo manejado en el estudio contaba

con las siguientes características: Intel Core i5 de 8th Gen, Con memoria Ram de 8

Gb y disco duro de 1 TB. Con las características mencionadas el modelo tardó un

tiempo considerable (12 horas) en correr y ya que se tenían que plantear varios

escenarios para determinar los mejores parámetros para el modelo, este proceso

requirió bastante tiempo que con un equipo con mejores características pudo

reducirse.

5.2. Trabajo futuro

Teniendo en cuenta la investigación desarrollada y las posibles mejoras, a continuación,

se presentan las recomendaciones para trabajos futuros:

Page 117: Análisis de las Pruebas Saber 11, años 2017 y 2018

100

• Debido a la complejidad de algunas variables y por falta de amplio

conocimiento en algunos temas, no se pudieron realizar propuestas en torno a variables

como la etnia, el género de los estudiantes, genero del colegio, entre otras; queda abierta

la posibilidad de seguir profundizando en el tema en un futuro, con expertos que

contribuyan con ideas y orientación sobre como intervenir en estas variables en pro de

una mejor calidad educativa y de mejorar los resultados de las Pruebas Saber 11.

• Teniendo en cuenta las políticas de Estado actuales, en cuanto a garantizar

mediante el PAE alimento a los niños en etapa escolar y los programas del MINTIC, en

donde se propone garantizar el acceso a internet de los estudiantes del país, se sugiere

como trabajo futuro verificar el cumplimiento de dichas políticas y aquellas que se

encuentren relacionadas.

• En el modelo de Random Forest, se excluyeron algunas variables, como el

trabajo del padre y la madre, debido al gran número de categorías que cada una de ellas

tenía y dada la falta de un equipo de cómputo más avanzado no fue posible correr el

modelo incluyendo esas variables, pero a futuro contando con un mejor equipo se podrían

incluir y así obtener un modelo más completo.

• En cuanto a la variable que mide la influencia que tiene ser parte de una

etnia, se propone como trabajo futuro investigar ¿Qué factores causan que estos

estudiantes presenten menores resultados y como poder solucionar esta problemática?

Esto se propone ya que en este estudio no se cuenta con la información necesaria para

resolver estos interrogantes,

• Respecto a la variable correspondiente al estrato del estudiante y la

influencia de esta, se plantea como trabajo futuro la investigación de ¿Por qué los

Page 118: Análisis de las Pruebas Saber 11, años 2017 y 2018

101

estudiantes estrato 5 y 6 quienes cuenta con mayor condición socioeconómica y quizás

mejores recursos obtienen de los resultados más bajos en las pruebas Saber 11?

Page 119: Análisis de las Pruebas Saber 11, años 2017 y 2018

102

ANEXOS

ANEXO A. Diccionario de variables saber 11 periodo 20142 – 20182.

ANEXO B. Diccionario clasificación de planteles.

Page 120: Análisis de las Pruebas Saber 11, años 2017 y 2018

103

Referencias

Ardila, M. V., Flórez, M. A., Ricciulli, C. M., Domínguez, V. H., & Segura, V. H. (2017).

EVALUACION DEL PROGRAMA DE ALIMENTACIÓN ESCOLAR (PAE) 2016.

Aured, M. L., & Pinilla, M. F. (2007). SEDCA. Obtenido de

http://www.nutricion.org/publicaciones/pdf/Guía AP-DietéticaWeb.pdf

BANCO MUNDIAL. (2008). La calidad de la educacion en Colombia : un análisis y algunas

opciones para un programa de política.

Bareño, M. I. (2015). Variables asociadas al desempeño escolar. Bogotá D.C.

Barrera, F., Maldonado, D., & Rodríguez., C. (2012). Calidad de la Educación Básica y Media

en Colombia : Diagnóstico y Propuestas.

Barrera, M. A. (2014). USO DE LA CORRELACIÓN DE SPEARMAN EN UN ESTUDIO DE

INTERVENCIÓN EN FISIOTERAPIA.

Cabrera, F. P. (2014). Desarrollo de un modelo basado en Machine Learning para la predicción

de la demanda de.

Carneiro, P. (2008). Equality of opportunity and educational achievement in Portugal.

Portuguese Economic Journal, 17-41.

Carrillo, M. V. (2018). UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO. Obtenido

de https://www.uaeh.edu.mx/scige/boletin/prepa4/n10/e5.html

Page 121: Análisis de las Pruebas Saber 11, años 2017 y 2018

104

Celis, M. T., Jiménez, Ó. A., & Jaramillo, J. F. (2015). ¿Cuál Es La Brecha De La Calidad

Educativa En Colombia En La Educación Básica Y En La Superior? Saber Investigar.

Constitución Política de Colombia. (1991). Constitución Política de Colombia. Artículo 67.

DANE. (2018). Manual de conceptos. Obtenido de

https://www.dane.gov.co/files/censo2018/informacion-tecnica/cnpv-2018-glosario.pdf

DANE. (2019). DANE. Obtenido de https://www.dane.gov.co/index.php/estadisticas-por-

tema/pobreza-y-condiciones-de-vida/pobreza-y-desigualdad/pobreza-monetaria-y-

multidimensional-en-colombia-2019

Duarte, J., & María Soledad Bos, M. M. (2009). Inequidad en los aprendizajes escolares en

América Latina.

El Congreso de Colombia. (2011). LEY 1450 DE 2011.

Gamboa, L. F. (2012). Análisis de la evolución de la igualdad de oportunidades en educación

media, en una perspectiva internacional. El caso de Colombia. Bogotá D.C.

ICFES. (18 de MARZO de 2010). DECRETO 869 DE 2010. Obtenido de

https://www.icfes.gov.co/documents/20143/166604/Proyecto+resolucion+inscripcion+sa

ber+11+-+version+publicacion.pdf/4b8d7afe-464a-cf71-18ac-aac6c778309e

ICFES. (2014). Clasificación de establecimientos y sedes. Bogotá D.C.

Iregui, A. M., Melo, L., & Ramos, J. (2007). Análisis de eficiencia de la educación en Colombia.

Jiménez, L. J., & Pinzón, A. R. (1998). Los insumos escolares en la educación secundaria y su

efecto sobre el rendimiento académico de los estudiantes: Un estudio en Colombia.

Page 122: Análisis de las Pruebas Saber 11, años 2017 y 2018

105

López, Á., Virgüez, A., Silva, C., & Sarmiento, J. (2017). Desigualdad de oportunidades en el

sistema de educación pública en Bogotá, Colombia. Bogotá D.C.

MEN. (2019). Plan Estratégico .

MinEducación. (s.f.). Catálogo de Textos Escolares: los Mejores Libros a los Mejores Precios.

Altablero. Obtenido de Catálogo de Textos Escolares: los Mejores Libros a los Mejores

Precios: https://www.mineducacion.gov.co/1621/article-87337.html

MINEDUCACIÓN. (s.f.). MINISTERIO DE EDUCACIÓN NACIONAL . Obtenido de

https://www.mineducacion.gov.co/1759/w3-article-349942.html?_noredirect=1

Ministerio de Educación Nacional. (2010). Decreto 869 de 2010.

Ministerio de Educación Nacional. (2020). Decreto 218 de 2020.

MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE. (2012). Estudio Internacional de

progreso en comprensión lectora, matemáticas y ciencias Volumen I : Informe en

español. Madrid.

Ministerio de Tecnologías de la Información y las Comunicaciones. (2021). Así conectarán los

Centros Digitales a estudiantes y ‘profes’ de 14.745 colegios públicos del país.

MINSALUD. (s.f.). Ministerio de Salud y Protección Social . Obtenido de

https://www.minsalud.gov.co/salud/publica/HS/Paginas/que-es-alimentacion-

saludable.aspx#:~:text=Para%20lograrlo%2C%20es%20necesario%20el,que%20tenemos

%20una%20alimentaci%C3%B3n%20saludable.

Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2012). Foundations of Machine Learning.

Page 123: Análisis de las Pruebas Saber 11, años 2017 y 2018

106

OECD. (2013). OECD. Obtenido de https://read.oecd-ilibrary.org/economics/oecd-economic-

surveys-colombia-2013_eco_surveys-col-2013-en#page1

OECD. (2019). PROGRAMME FOR INTERNATIONAL STUDENT ASSESSMENT (PISA)

RESULTS FROM PISA 2018 .

ORACLE. (s.f.). ORACLE. Obtenido de https://www.oracle.com/co/database/what-is-database/

Pedro R. Portes, S. S. (2014). El sueño demorado o por qué la educación multicultural no logra

cerrar la brecha educativa. Un análisis histórico-cultural.

Pineda, S. A., Bernal, J. A., & Páez, A. B. (2019). Factores académicos de incidencia en la

generación de desigualdades educativas en el colegio seminario San Juan Apóstol y el

Liceo Hermano Miguel La Salle desde los resultados de las pruebas saber 11 2015-2017.

Bogotá D.C.

Presidencia de La Republica de Colombia. (2015). DECRETO 1075 DE 2015.

Regional, Í. d. (s.f.). IDERE LATAM. Obtenido de http://www.iderelatam.com/

Rivera, J. D. (2010). Capitulo 3. La brecha de rendimiento académico de Barranquilla. En La

economía de Barranquilla a comienzos del siglo XXI (págs. 95-142). Barranquilla.

Rodrigo, J. A. (Febrero de 2017). Árboles de decisión, random forest, gradient boosting y C5.0.

Romero, C., Ventura, S., Pechenizkiy, M., & Baker, R. (2011). Handbook of Educational Data

Mining.

Sampieri, R. H., Collado, C. F., & Lucio, M. d. (1998). Metodologia de la investigacion.

México: McGraw-Hil.

Page 124: Análisis de las Pruebas Saber 11, años 2017 y 2018

107

Sarmiento, A., Becerra, L., & González, J. I. (2000). La incidencia del plantel en el logro

educativo del alumno y su relación con el nivel socioeconómico. Coyuntura Social, 53-

64.

Trujillo, N. R. (s.f.). Formación de hábitos de lectura en niños en edad escolar. Caracas.