“francisco jose de caldas” - riud: página de...

112
UNIVERSIDAD DISTRITAL “FRANCISCO JOSE DE CALDAS” TRABAJO FINAL ESPECIALIZACION EN PROYECTOS INFORMATICOS PROTOTIPO DE PREDICCIÓN DEL DESEMPEÑO LABORAL APLICANDO TÉCNICAS DE MINERÍA DE DATOS Autores Jose David Lima Charry Hanson Javier Garzón Ruiz Director Roberto Pava Bogotá 2017

Upload: doannhi

Post on 02-Oct-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDAD DISTRITAL

“FRANCISCO JOSE DE CALDAS”

TRABAJO FINAL

ESPECIALIZACION EN PROYECTOS INFORMATICOS

PROTOTIPO DE PREDICCIÓN DEL DESEMPEÑO LABORAL APLICANDO TÉCNICAS

DE MINERÍA DE DATOS

Autores

Jose David Lima Charry

Hanson Javier Garzón Ruiz

Director

Roberto Pava

Bogotá 2017

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS ii

Resumen

La permanencia de un empleado en la empresa depende de muchos factores, el clima laboral, sus

metas personales, lo cómodo que se sienta con las funciones que desempeña, las proyecciones de

ascensos dentro de la organización, entre otros. Sin embargo, analizar y controlar todos estos

factores para garantizar la retención del talento humano y garantizar que sus capacidades son

aprovechadas en los cargos correctos no es una tarea sencilla.

Toda organización, por pequeña que sea, cuenta con información relevante sobre cada uno de sus

colaboradores, así como de los aspirantes a las vacantes de la empresa que en algún momento

han pasado por el proceso de selección; datos como su información personal, familiar, historial

laboral y académico, así como con datos sobre sus aptitudes, destrezas y hábitos. Pero las

pequeñas empresas en general desconocen el potencial que esta información puede albergar.

La minería de datos, con técnicas de clasificación y predicción, puede ser usada para analizar

información, extraer conocimiento y modelos de predicción de tendencias futuras de los datos,

entre las técnicas más utilizadas se encuentran: los árboles de decisión, las redes neuronales, los

métodos bayesianos, algoritmos genéticos y la lógica difusa.

Este trabajo pretende emplear la técnica de árboles de decisión y diseñar un modelo que utilice

los datos que la empresa SFC Pack S.A.S. ha almacenado en sus procesos de gestión del talento

humano, y con la ayuda de las técnicas mencionadas, permita anticipar el desempeño laboral de

un aspirante al cargo de mayor rotación dentro de la compañía, su adherencia y permanencia en

el mismo y sus probabilidades de éxito en el desempeño de determinadas funciones.

Palabras clave: Gestión del talento humano, Predicción del desempeño laboral, Minería

de datos, Técnicas de clasificación de datos, Algoritmos basados en reglas, Árboles de decisión,

Redes bayesianas, Redes neuronales, Lógica difusa.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS iii

Abstract

The permanence of an employee in the company depends on many factors, the work climate,

his/her personal goals, how comfortable he/she feels with the functions he/she performs,

projections of promotions within the organization, among others. However, analyzing and

controlling all these factors to ensure retention of human talent and ensuring that their

capabilities are tapped into the right jobs is not an easy task.

Every organization, however small, has relevant information about each one of its collaborators,

as well as those aspiring to the vacancies of the company that at some point have gone through

the selection process; data such as their personal information, family, work and academic history,

as well as information about their skills, abilities and habits. But small businesses in general are

unaware of the potential that this information can hold.

Data mining, through its classification and prediction techniques, can be used to analyze

information, extract knowledge and prediction models of future data trends, among the most

used techniques are: decision trees, neural networks, Bayesian methods, genetic algorithms and

fuzzy logic.

This work intends to use the decision trees technique to design a model that uses the data that the

company SFC Pack S.A.S. has stored in its human talent management processes, and with the

help of the mentioned techniques, allows to anticipate the work performance of an aspirant to the

position of higher staff turnover within the company, his/her adherence and permanence in the

company and his/her probability of success in the execution of certain functions.

Keywords: Talent management, prediction of job performance, data mining, data

classification techniques, rule-based algorithms, decision trees, Bayesian networks, neural

networks, fuzzy logic.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS iv

Agradecimientos

A nuestras familias, que con su sacrificio y amor nos dan la fuerza para afrontar nuevos

retos y se convierten en la base de nuestra formación.

A nuestros compañeros y docentes que comparten su conocimiento y experiencias sin

esperar nada a cambio y nos permiten dar este importante paso en nuestro proceso académico

hacia la consolidación de nuestros proyectos de vida.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS v

Tabla de contenido

Introducción .................................................................................................................................... 1

Capítulo 1 Descripción de la Investigación .................................................................................... 3

Identificación del problema ........................................................................................................ 3

Objetivos .................................................................................................................................... 5

Objetivo general ......................................................................................................................... 5

Objetivos específicos ................................................................................................................. 5

Justificación ................................................................................................................................ 6

Hipótesis ..................................................................................................................................... 7

Metodología ............................................................................................................................... 7

Levantamiento de información. ............................................................................................... 7

Diseño. ..................................................................................................................................... 7

Desarrollo y evaluación del prototipo. ..................................................................................... 7

Organización del trabajo ............................................................................................................ 8

Capítulo 2 Marco Teórico ............................................................................................................... 9

Conceptos básicos sobre Gestión de Personal ........................................................................... 9

La Minería de Datos como apoyo a la Selección de Personal ................................................. 12

Contextualización. ................................................................................................................. 12

Técnicas de minería. .............................................................................................................. 13

Metodologías de Minería de datos. ........................................................................................ 18

Capítulo 3 Recolección y Preparación de Datos ........................................................................... 30

Fase 1 Comprensión del negocio ............................................................................................. 30

Contexto. ................................................................................................................................ 30

Objetivos del negocio y criterios de éxito. ............................................................................ 40

Inventario de recursos. ........................................................................................................... 40

Requerimientos, presunciones y restricciones. ...................................................................... 41

Riesgos y contingencias. ........................................................................................................ 43

Terminología. ......................................................................................................................... 45

Costos y beneficios. ............................................................................................................... 46

Objetivos de la Minería de Datos. ......................................................................................... 48

Criterios de éxito de la minería de datos. .............................................................................. 48

Plan del proyecto. .................................................................................................................. 49

Evaluación inicial de herramientas y técnicas. ...................................................................... 51

Fase 2 Comprensión de los Datos ............................................................................................ 53

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS vi

Recolección de datos iniciales. .............................................................................................. 53

Descripción de los datos. ....................................................................................................... 54

Informe de Colección de Datos Iniciales. .............................................................................. 58

Contexto. ................................................................................................................................ 58

Criterios de Selección. ........................................................................................................... 58

Verificación de la calidad de los datos. ................................................................................. 61

Fase 3 Preparación de los Datos ............................................................................................... 62

Selección de datos. ................................................................................................................. 62

Análisis Inclusión/Exclusión de Datos. ................................................................................. 63

Limpieza de datos. ................................................................................................................. 67

Construcción de datos. ........................................................................................................... 67

Integración de datos. .............................................................................................................. 69

Formateo de datos. ................................................................................................................. 73

Capítulo 4 Diseño del Prototipo .................................................................................................... 75

Fase 4 Modelado ...................................................................................................................... 75

Selección de la técnica de modelado. .................................................................................... 75

Generación de la prueba de diseño. ....................................................................................... 80

Construcción del prototipo. ................................................................................................... 86

Evaluación del prototipo. ....................................................................................................... 90

Capítulo 5 Ejecución y Análisis de Resultados ............................................................................ 99

Fase 5 Evaluación .................................................................................................................... 99

Evaluación de resultados sobre datos iniciales. ..................................................................... 99

Fase 6 Desarrollo .................................................................................................................... 100

Conclusiones ............................................................................................................................... 101

Bibliografía ................................................................................................................................. 102

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS vii

Tabla de Figuras

Figura 1. Composición básica del modelo CRISP DM ................................................................ 23

Figura 2. Fase de Comprensión del negocio del modelo CRISP DM .......................................... 24

Figura 3. Fase de Compresión de datos del modelo CRISP DM .................................................. 25

Figura 4. Fase de Preparación de datos del modelo CRISP DM .................................................. 26

Figura 5. Fase de Modelado del modelo CRISP DM ................................................................... 27

Figura 6. Fase de Evaluación del modelo CRISP DM .................................................................. 28

Figura 7. Fase de Desarrollo del modelo CRISP DM ................................................................... 29

Figura 8. Modelo de Negocio Canvas SFC Pack S.A.S. .............................................................. 30

Figura 9. Organigrama SFC Pack S.A.S. ...................................................................................... 32

Figura 10. Proyectos Estratégicos SFC Pack S.A.S. 2017............................................................ 33

Figura 11. Manual de Funciones y Responsabilidades de Servicio Técnico ................................ 34

Figura 12. Manual de Funciones y Responsabilidades Asistente de Ensamble Eléctrico ............ 37

Figura 13. Modelo Relacional Prototipo ....................................................................................... 53

Figura 14. Consulta SQL Tabla Consolidada Criterios de Selección ........................................... 68

Figura 15. Tabla Consolidada Criterios de Selección ................................................................... 69

Figura 16. Parámetros de exportación a CSV ............................................................................... 70

Figura 17. Cargue de archivo CSV a Weka .................................................................................. 71

Figura 18. Selección de Criterio Principal de Clasificación ......................................................... 72

Figura 19. Filtro para Conversión a Valores Discretos ................................................................. 73

Figura 20. Comparativa Edad en Valores Continuos y Discretos ................................................ 74

Figura 21. Resultados algoritmo DecisionStump ......................................................................... 80

Figura 22. Resultados algoritmo HoeffdingTree .......................................................................... 81

Figura 23. Resultados algoritmo J48 ............................................................................................ 82

Figura 24. Resultados algoritmo LMT.......................................................................................... 83

Figura 25. Resultados algoritmo RandomTree ............................................................................. 84

Figura 26. Árbol de decisión y resultado generado para el prototipo ........................................... 86

Figura 27. Dispersión en variable Edad ........................................................................................ 90

Figura 28. Dispersión en variable Mayor Permanencia en un Cargo ........................................... 91

Figura 29. Dispersión en variable Test Personalidad.................................................................... 92

Figura 30. Dispersión en variable Test Razonamiento ................................................................. 93

Figura 31. Dispersión en variable Personas a cargo ..................................................................... 94

Figura 32. Perfil DISC Especialista .............................................................................................. 96

Figura 33. Perfil DISC Agente...................................................................................................... 97

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS viii

Figura 34. Perfil DISC Persuasivo ................................................................................................ 97

Figura 35. Perfil DISC Profesional ............................................................................................... 98

Figura 36. Perfil DISC Perfeccionista .......................................................................................... 98

Figura 37. Validación del modelo de predicción contra los datos iniciales.................................. 99

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS ix

Índice de Tablas

Tabla 1. Técnicas de Minería de Datos aplicables para Selección de Personal. ........................... 15

Tabla 2. Metodologías más utilizadas para Minería de Datos. ..................................................... 19

Tabla 3. Comparación de Metodologías. ...................................................................................... 21

Tabla 4. Requerimientos, presunciones y restricciones. ............................................................... 41

Tabla 5. Riesgos y contingencias. ................................................................................................. 43

Tabla 6. Terminología. .................................................................................................................. 45

Tabla 7. Costos por Servicios Profesionales. ................................................................................ 46

Tabla 8. Compra y adquisición de equipos y herramientas. ......................................................... 46

Tabla 9. Costos Generales............................................................................................................. 46

Tabla 10. Costos Consolidados. .................................................................................................... 47

Tabla 11. Costo-Beneficio. ........................................................................................................... 47

Tabla 12. Plan del proyecto con Recursos Entradas y Salidas ..................................................... 49

Tabla 13. Diccionario de datos. .................................................................................................... 55

Tabla 14. Criterios de Selección ................................................................................................... 59

Tabla 15. Análisis Inclusión/Exclusión de Datos ......................................................................... 63

Tabla 16. Técnicas de modelado para árboles de decisión ........................................................... 75

Tabla 17. Comparativa Algoritmos Árboles de Decisión ............................................................. 85

Tabla 18. Modelo de decisión inicial para el Prototipo ................................................................ 89

Tabla 19. Modelo de decisión final para el Prototipo ................................................................... 95

Tabla 20. Resultados validación modelo contra datos iniciales ................................................. 100

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 1

Introducción

El concepto del ser humano como recurso dentro de una organización ha evolucionado,

las personas ya no son vistas como un componente de fácil sustitución dentro del proceso

productivo. La automatización de procesos viene relegando las tareas operativas a las máquinas y

sistemas de información y el ser humano toma valor en una organización por sus habilidades

blandas, experiencias, personalidad y motivaciones.

Lo anterior aumenta la complejidad en la gestión del talento humano involucrando

múltiples variables y procesos: Las directrices del Sistema de Gestión en Seguridad y Salud en el

Trabajo (SG-SST), los procesos de selección y contratación, los de evaluación de desempeño y

capacitaciones, los procesos disciplinarios, y otros como solicitud de vacaciones, licencias,

certificaciones, préstamos, etc.

Las micro y pequeñas empresas no cuentan habitualmente con la experiencia ni las

personas necesarias para garantizar la gestión efectiva del talento humano. Algunas empresas

logran invertir en sistemas integrados de gestión, pero su alcance se limita a la liquidación de

nómina y otros procesos con implicaciones contables, olvidando la dimensión humana de la

administración del talento.

Como consecuencia de un presupuesto limitado, no es posible implementar un Sistema de

Información dedicado a la gestión del talento humano, sin embargo, la rotación de personal y los

colaboradores con bajo desempeño y poco compromiso con los objetivos del negocio impactan

negativamente los limitados recursos de las micro y pequeñas empresas.

En medio de los rudimentarios procesos de gestión de talento humano en la pequeña

empresa, se capturan datos que ocultan un potencial valor, el conocimiento sobre el posible

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 2

desempeño de sus colaboradores o aspirantes a los cargos, funciones y marco de cultura de la

organización.

De ser posible construir una herramienta que soporte la toma de decisiones en materia de

selección y/o promoción interna, y la masificación de su uso en las pequeñas empresas, sería de

gran valor para las mismas, impactando en gran medida su productividad como consecuencia del

máximo aprovechamiento del talento humano.

La minería de datos cumple con el mencionado propósito de extraer el conocimiento

contenido en los datos dispersos con los que cuenta una organización, es por ello que aquí se

pretende explorar diferentes técnicas de clasificación y predicción en minería de datos para llegar

a un prototipo que permita anticipar el desempeño laboral de un aspirante a un cargo y su

permanencia en el mismo dentro de la empresa SFC Pack S.A.S.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 3

Capítulo 1

Descripción de la Investigación

Identificación del problema

El capital humano es sin duda aquel que agrega mayor valor a las organizaciones, y esto

resulta más visible en las pequeñas empresas, las cuales por lo general cuentan con procesos

definidos informalmente o sin documentar; es por esta razón que los colaboradores con más

permanencia en las empresas se convierten en las piedras angulares de las mismas.

Las pequeñas empresas tienen inconvenientes en sus procesos de gestión del talento

humano, en la mayoría de los casos pobres o inexistentes, como consecuencia, toman decisiones

de selección, contratación y promoción interna de manera instintiva o basándose en

percepciones.

Pocas organizaciones analizan los costos asociados a las malas decisiones en la gestión

del talento humano, una alta rotación de personal conlleva a un aumento en el número de

procesos de selección, los cuales tienen asociadas otras variables como el costo de publicar

anuncios de vacantes, el tiempo del gerente o directivo durante las entrevistas, el salario del

asistente que lleva el proceso, así como los costos de exámenes médicos, afiliaciones y demás

gastos de contratación; sin hablar del costo del proceso de capacitación y el tiempo empleado por

quienes realizan el mismo.

En el desarrollo de las actividades de gestión del talento humano, se recopila un gran

volumen de datos que contiene información valiosa acerca de la probabilidad de éxito de una

persona en un cargo específico, es el caso de las hojas de vida, entrevistas a aspirantes, pruebas

técnicas y psicotécnicas, informes de ausentismo, evaluaciones de desempeño, encuestas de

clima laboral, y respuestas a diligencias de descargos en procesos disciplinarios.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 4

El uso de la minería de datos y sus técnicas de clasificación, se han convertido en un

estándar para descubrir información oculta a partir de grandes volúmenes de datos, y podría ser

usada por las pequeñas empresas para construir modelos predictivos a partir de los datos

recopilados en los procesos de gestión del talento humano. Los árboles de decisión,

clasificadores bayesianos, redes neuronales y la lógica difusa pueden convertirse en herramientas

de gran valor para los procesos de gestión humana.

Ante este escenario, surge la siguiente pregunta problema:

¿Cómo prever el desempeño laboral de un colaborador basado en su información

histórica, usando técnicas de minería de datos, para tomar las mejores decisiones durante los

procesos de selección y/o promoción interna en las organizaciones?

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 5

Objetivos

De acuerdo con el planteamiento del problema se establecen los siguientes objetivos:

Objetivo general

Diseñar un prototipo predictivo del desempeño laboral, basado en datos obtenidos en el

proceso de selección, con el apoyo de técnicas de clasificación de minería de datos, y probarlo

como un soporte a la toma de decisiones durante los procesos de selección para un cargo de alta

rotación en la empresa SFC Pack S.A.S.

Objetivos específicos

• Identificar la información obtenida en los procesos de gestión del talento humano,

susceptibles a ser utilizados por las técnicas de minería de datos.

• Comparar metodologías para el desarrollo de proyectos de minería de datos,

seleccionando la que más se ajuste a las necesidades del presente proyecto.

• Comparar las principales técnicas de clasificación de minería de datos que más se ajusten

a las necesidades de la predicción del desempeño en el talento humano.

• Consolidar los datos, las reglas y las técnicas analizadas en un prototipo predictivo de

desempeño laboral basado en minería de datos.

• Realizar una evaluación del prototipo predictivo analizando los resultados para la

empresa sobre la cual se tomaron los datos iniciales.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 6

Justificación

Esta investigación tiene una aplicación práctica directa en los procesos de gestión del

talento humano de toda organización, haciendo particular énfasis en las micro y pequeñas

empresas, siendo estas quienes no cuentan con sofisticadas áreas, procesos y profesionales en la

gestión humana.

Al contar con un prototipo de predicción del desempeño laboral de un colaborador,

tomando como base información básica como la edad, estado civil, formación académica,

experiencia laboral, resultados de pruebas psicométricas, pruebas técnicas, etc., se garantiza que

el prototipo será aplicable a las MiPymes que, sin importar su tamaño, cuentan con esta

información como base para el uso del prototipo.

El impacto positivo de esta investigación se verá reflejado en bajos índices de rotación de

personal, altos índices de desempeño laboral y mejores resultados en encuestas de clima

organizacional en las empresas que encuentren aplicable el prototipo de predicción resultado de

este trabajo.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 7

Hipótesis

Para el presente proyecto de investigación se plantea la siguiente hipótesis:

“El crear un prototipo predictivo del desempeño laboral de un colaborador basado en

datos históricos y minería de datos, puede producir un gran impacto en la productividad de la

pequeña empresa y en el desarrollo de los objetivos empresariales”

Metodología

A continuación, se describen cada una de las técnicas metodológicas que se utilizaran

para el desarrollo de este proyecto.

Levantamiento de información. Este proyecto tomará como base la información

recopilada en el área de Talento Humano de la empresa SFC Pack S.A.S. Se extraerá

información de las hojas de vida de los aspirantes al cargo de Asistente de Servicio Técnico, la

información capturada durante las entrevistas a estos aspirantes, así como las pruebas de

conocimiento, razonamiento y personalidad presentadas por los mismos.

Diseño. En el diseño del prototipo se realizará en primer lugar, una comparación de

distintas técnicas de Minería de Datos, mostrando a los Árboles de Decisión como los favoritos

para esta aplicación, también se compararán tres metodologías para el proceso de Minería de

Datos: SEMMA, Catalyst y CRISP-DM, seleccionando la última para el desarrollo del presente

proyecto.

Desarrollo y evaluación del prototipo. Siguiendo la metodología CRISP-DM, se

llevarán a cabo cada una de sus seis fases: Comprensión del Negocio, Comprensión de los datos,

Preparación de los datos, Modelado, Evaluación e Implantación

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 8

Organización del trabajo

El plan de trabajo de este proyecto se describe a continuación:

PARTE I FUNDAMENTACIÓN DE LA INVESTIGACIÓN

CAPÍTULO 1 - Descripción del Proyecto de Investigación

Este capítulo presenta la fundamentación del presente proyecto de investigación, y los

objetivos de la misma.

PARTE II DESARROLLO DE LA INVESTIGACIÓN

CAPÍTULO 2 - Marco teórico

Este capítulo presenta el estado del arte, el marco teórico y las investigaciones

relacionadas.

CAPÍTULO 3 - Recolección y Preparación de Datos

Este capítulo abarca la comprensión del negocio, la identificación de datos y variables, en

el contexto específico de la empresa analizada, la recopilación de datos y la normalización de los

mismos, para su posterior procesamiento.

CAPÍTULO 4 - Diseño del Prototipo

Este capítulo abarca el análisis y selección de algoritmos de clasificación de minería de

datos, la construcción del prototipo de clasificación y el descubrimiento de patrones.

PARTE III CIERRE DE LA INVESTIGACIÓN

CAPÍTULO 5 - Ejecución del Prototipo y Análisis de Resultados

Este capítulo presenta la aplicación del prototipo sobre los datos, la generación y análisis

de reportes y la comparación con informe de los encargados de Talento Humano.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 9

Capítulo 2

Marco Teórico

En la base teórica del actual proyecto se establecen los siguientes tópicos que componen

la estructura de la investigación desarrollada.

Conceptos básicos sobre Gestión de Personal

Con respecto a la administración del recurso humano, (Dessler, 2001) nos indica que se

cumplen cinco funciones básicas: planear, organizar, proveer de personal, dirigir y controlar, que

muestran el proceso de la administración de personal y que cada una representa lo siguiente:

1. Planificar, se refiere a establecer metas y normas para el futuro de la empresa.

2. Organizar, significa implementar la estructura de trabajo, de jurisdicción y de

comunicaciones, así como dar disposiciones a los empleados.

3. Proveer de personal, consiste en determinar qué tipo de empleados se requieren,

seleccionarlos, establecer políticas de desempeño y evaluarlos, dar compensaciones,

asesoramiento, capacitación y desarrollo.

4. Dirigir, es comprobar que el personal cumpla con su trabajo, conservar la moral y

motivación.

5. Controlar, significa establecer estándares, evaluarlos y establecer formas de mejora en

la contratación.

Es por ello que (Siliceo Aguilar, 2006) indica que la administración de personal debe

“comprender y coordinar” las siguientes funciones: Reclutamiento, Selección, Introducción o

Inducción, inventario de los recursos humanos, evaluación del potencial y desempeño,

entrenamiento o capacitación y planeación de vida y carrera; estas características tienen relación

con el tema ya manejado de administración de recursos humanos, que pone especial énfasis en

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 10

que el objetivo es lograr un sistema efectivo de equilibrio y planeación de vida y carrera, que a

su vez representa tener la disponibilidad en número de personal, un adecuado perfilamiento y

cultura organizacional.

Es evidente que en ambos casos, dentro de la administración de personal los componentes

de reclutamiento y selección o dotación de personal, son significativos argumentos para las bases

del proceso de gestión de los Recursos Humanos, y como explica (Chiavenato, 2007), hay dos

maneras de estudiar la administración de recursos humanos, la primera comprende todos

aquellos factores que describen la personalidad, aspiraciones y valores entre otras, y en la

segunda analizados como recursos, en donde se encuentran habilidades, capacidades, destrezas y

conocimientos; en los dos casos es relevante cada aspecto analizado, su estudio comprende la

base de la teoría de las organizaciones acerca del recurso humano; la selección de personal es

clave para alcanzar los objetivos estratégicos de la empresa, pero a su vez, las personas tienen

metas individuales y se valen de las organizaciones para alcanzarlas, la relación existente entre la

persona y la organización puede ser orientada en un gana-gana, cooperando y a buen término,

pero también puede ser tensa y conflictiva.

Claramente el objeto de estudio por los autores es el candidato, y se distinguen dos tipos:

candidatos reales, que son aquellos que buscan oportunidades de ubicación en la organización o

algún tipo de beneficio, y los candidatos potenciales, que son quienes tienen la capacitación para

llenar las vacantes en forma satisfactoria por su perfil, pero que no necesariamente están

buscando el beneficio de ser ascendidos.

Teniendo en cuenta los dos tipos de candidatos de los cuales son válidos ambos casos, la

selección de personal comprende el proceso mediante el cual podemos darle viabilidad a un

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 11

perfil determinado que se adapte a las necesidades que busca la organización por sus

características personales, aptitudes, motivación, etc., (Nebot Lopez, 1999)

Es por ello que se debe iniciar con el reclutamiento y selección, al respecto (Nebot

Lopez, 1999) muestra que la selección de personal es diferente al reclutamiento, ya que el

reclutamiento no sigue un proceso determinado, y que su función es buscar un perfil idóneo para

un puesto determinado considerando el entorno en el cual se va a desenvolver como trabajador

de la empresa.

Atraer candidatos potenciales del mercado laboral es el objetivo del reclutamiento, tal

como indica (Chiavenato, 2007) “es un conjunto de procedimientos orientados a atraer

candidatos potenciales calificados y capaces a ocupar cargos dentro de la organización”, a

diferencia de la selección de personal en donde se enfocan los esfuerzos para elegir un grupo de

candidatos para posteriormente determinar quien cumple el mejor perfil establecido con el

objetivo de suplir esa vacante.

Para el presente trabajo contemplamos la etapa de selección de personal en donde se

determina los potenciales candidatos que cumplen con un perfil prestablecido, comprendiendo

que ya se ha realizado una etapa de reclutamiento.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 12

La Minería de Datos como apoyo a la Selección de Personal

Contextualización. En lo que respecta de la minería de datos, los datos son el elemento

básico, tal como lo indica (Davenport & Prusak, 2000), “Son la mínima unidad semántica, y se

corresponden con elementos primarios de información que por sí solos son irrelevantes como

apoyo a la toma de decisiones”.

En el apoyo del concepto de dato también se puede citar dos autores que dan soporte en

la definición de la Minería de Datos, dado por (Connolly, 2005) que la define como “el proceso

de extraer información válida, previamente desconocida, comprensible y útil de bases de datos

de gran tamaño y utilizar dicha información para tomar decisiones de negocios cruciales”.

La novedad de este trabajo se pone en tela de juicio, como dice (Kantardzic, 2011) en

cuanto a que los investigadores científicos se han enfocado en la extracción de datos para

obtener información relevante del análisis, la novedad radica en que al aproximarse varios de

estos estudios y análisis y al ir creciendo los datos contenidos en estos, dan suficientes insumos a

la Minería de Datos para proveer en los aspectos científicos y comerciales, mientras que

(Strohmeier & Piazza, 2013), establecen que la Minería de Datos no inicio en el campo de los

Recursos Humanos, es por ello que los aportes en este campo contribuyen a nuevos hallazgos en

la gestión de recursos humanos y la selección de personal más específicamente; para estos

campos de acción corresponde citar la selección de personal, rotación de empleados, jerarquía de

personal, determinación de competencias, planificación de la carrera, costos de recursos

humanos, indemnizaciones, compensaciones y evaluación del desempeño, es decir, abarcando así

todos los temas que atañen a los recursos humanos; en cuanto a la adecuada selección de

personal los autores, (Sivaram, 2010) expresan que en este aspecto el mantenimiento del

personal es fundamental, en donde empresas dedicadas al sector tecnológico contratan

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 13

profesionales recién graduados en convenios con universidades aplicando herramientas de

selección como pruebas, entrevistas, etc., el esfuerzo por parte de las organizaciones para llevar a

cabo este proceso de selección es arduo en donde el establecimiento de patrones es complicado

de aislar. Es por ello que, dados los inconvenientes y nivel de complejidad en los procesos de

selección, se puede concluir que la minería de datos es un vehículo propicio para apoyar dichos

procesos y aumentar la efectividad en los mismos.

Dada la versatilidad de aplicación de la Minería de Datos en el campo de la Gestión de

Recursos Humanos, podemos concluir que según los requerimientos que tenga esta se pueden

aplicar diferentes técnicas que garanticen en un futuro un mejoramiento continuo en el

desempeño de la fuerza laboral de las organizaciones, reduciendo así rubros que se destinan para

las largas y costosas jornadas de selección en donde se ha demostrado según (Sivaram, 2010) que

existe una brecha de 1 a 20 entre los candidatos entrevistados y los seleccionados obligando a las

empresas a gastar presupuesto que se podría ahorrar con técnicas de Minería de Datos.

Aprovechando las técnicas tradicionales que han demostrado cierto grado de efectividad

en la aplicación de patrones, se podrían reutilizar fortaleciendo los modelos innovadores que

aplica la Minería de Datos para ahorrar como ya lo comentamos tiempo y dinero, en los procesos

de selección, sin dejar a un lado las técnicas tradicionales que hasta el momento son las

herramientas que la mayoría de las empresas encuentran aplicables en la actualidad.

Técnicas de minería. Como se evidenció en el apartado anterior las técnicas de Minería

de Datos pueden ser utilizadas para reclutamiento de personal, citando a (Strohmeier & Piazza,

2013) establecen que las técnicas que mejor apoyan las funciones de selección son los árboles de

decisión, el análisis de conglomerados, el análisis de asociación, las máquinas de vectores y las

redes neuronales, el planteamiento de (Sivaram, 2010) explica que los árboles de decisión,

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 14

máquinas de soportes de vectores y redes neuronales son viables y además el nivel en la

investigación de nuevas variantes y solución para el campo de los Recursos Humanos cobra cada

vez más importancia.

Las técnicas anteriormente enunciadas funcionan de manera similar ya que filtran la

información con el objetivo de sacar datos relevantes para la selección de personal; en la

siguiente tabla se explican las técnicas de Minería de Datos que son aplicables a los Recursos

Humanos:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 15

Tabla 1. Técnicas de Minería de Datos aplicables para Selección de Personal.

Técnica Descripción

Arboles de Decisión Organizan los datos en base a una decisión inicial tomando en cuenta la

influencia que debe tener cada rama, son sistemas relativamente simples

de manejar, pero tienen poco campo de complejidad para tareas en las

que se requiere más detalle; muchos de los procesos de recursos

humanos requieren el enfoque selectivo, en donde los árboles de

decisión están directamente relacionados a este tipo de enfoque.

Análisis de

Conglomerados

(Clustering)

Es el agrupamiento de datos para poder identificar tipologías o grupos

en donde existen datos similares, en los cuales se requiere diferenciar de

otros datos existentes, de forma de obtener datos filtrados para conseguir

información sobre lo que se demanda conocer, utilizando herramientas

estadísticas, algoritmos matemáticos u otras para el tratamiento de los

datos; además, de acuerdo a López y González (2007) el utilizar

conglomerados disminuye la precisión por el hecho de que al ser datos

agrupados necesariamente tendrán cierta homogeneidad, por lo que

resulta útil cuando las poblaciones de conglomerados son muy

numerosas, lo que en caso de selección de personal se puede utilizar si

se tiene grandes bases de datos.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 16

Análisis de

Asociación

Se utilizan para analizar relaciones entre sucesos que aparentemente no

están relacionados, pero que en realidad corresponden a eventos que

pueden generar nuevos eventos y que si tengan relación; se utilizan para

realizar análisis exploratorios que conlleven a predecir comportamientos

futuros de eventos, una de los algoritmos utilizados para asociación es el

algoritmo a-priori.

Este tipo de exploración es utilizable dentro de selección de personal, ya

que el procedimiento de selección utiliza normalmente una serie de

sucesos, que adecuadamente orientado para su uso con análisis de

asociaciones pueden generar nueva información.

Apoyo a las

máquinas de

vectores

Las máquinas de vectores dividen los datos de entrada en varios

subconjuntos o vectores, luego de lo cual a medida que siguen

procesando estos datos, los vectores iniciales se van alineando hasta

definir los vectores finales que clasifican al resto de la información. Esta

técnica tiene el inconveniente de no ser muy adecuado para grandes

volúmenes de información a pesar de la buena capacidad de generalizar

y clasificar los datos. Por este motivo, se puede aplicar a procesos de

selección de personal que no contenga datos extensos, pero si con cierto

nivel de complejidad.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 17

Redes neuronales Esta técnica se suele utilizar para descubrir categorías comunes en los

datos, tiene capacidad para detectar y aprender patrones más complejos

y, sobre todo, puede trabajar con datos incompletos; debido a esta

característica, y ya que muchas veces la información utilizada para

selección de personal está incompleta, su uso puede ser útil para esta

tarea.

Fuente: (Strohmeier & Piazza, 2013)

Selección de la Técnica de Minería. Para realizar una correcta elección en la técnica de

minería de datos, es necesario comprender que el tipo de dato que nos arroja el análisis de

selección de personal, no es totalmente numérico. Es por ello que se deben tener este tipo de

consideraciones para su posterior conversión a datos numéricos; los autores, (Strohmeier &

Piazza, 2013) establecen que las principales categorías de técnicas de búsqueda utilizados para

la gestión del talento humano, fueron los árboles de decisión y análisis de conglomerados y,

luego de sus mediciones (casos de variable n), con un resultado en donde las técnicas empleadas

menos frecuentes eran la regresión (n = 3), la regresión logística (n = 4), análisis discriminante (n

= 4), conjunto aproximado (n = 10), análisis de grupos (n = 11), el análisis de asociación (n =

11), máquinas de vectores soporte (n = 15), redes neuronales (n = 27), y árboles de decisión (n =

28) entre la más usada.

Como resultado tenemos que los árboles de decisión es la técnica que más se utiliza,

citando a (Sivaram, 2010), Se observa que los árboles de decisión tienen un enfoque simplista en

términos de analizar datos que no eran visibles, además de que la interpretación de los datos es

sencilla, comprender para comparar información y tomar decisiones, los árboles de decisión en

conclusión se orientan a la búsqueda selectiva de información no visible, orientado a la gestión

del Recurso Humano, que es el corte fundamental de este trabajo.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 18

Metodologías de Minería de datos. Una vez elegida la técnica de árboles de decisión, el

siguiente paso es elegir la Metodología a utilizarse; citando a (Moine Gordillo, 2011), los autores

hacen especial énfasis en que el objetivo de la Minería de Datos es la extracción de patrones,

empleando métodos como árboles de decisión, análisis de conglomerados y reglas de asociación,

sin profundizar en temas de metodología para llegar al conocimiento, para que el orden de la

investigación tenga un norte, por el contrario (Thomas M, 2005) establecen la prioridad en

desarrollar una “técnica sistemática”, haciendo especial énfasis en la importancia de llevar una

metodología para obtener óptimos resultados.

El autor, (Moine Gordillo, 2011) realizan un compendio en donde desarrollan las

siguientes metodologías:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 19

Tabla 2. Metodologías más utilizadas para Minería de Datos.

Técnica Descripción

SEMMA Creada por el SAS Institute, se define como “el proceso de selección,

exploración y modelado de grandes volúmenes de datos para descubrir

patrones de negocio desconocidos”.

Su nombre se basa en las fases básicas: Sample (Muestreo) Explore

(Exploración), Modify (Modificación), Model (Modelado) y Assess

(Valoración) y promueve una guía general del trabajo a realizar, ya que se

encuentra enfocada en aspectos técnicos, pero excluye el análisis y

comprensión del problema que se está abordando.

Catalyst De acuerdo a Moine (2013), Catalyst es una metodología que recomienda

revisar primero la problemática antes de iniciar el trabajo con los datos, y en

los casos que no se tenga un problema bien definido, iniciar utilizando P3TQ

(Product, Place, Price, Time, Quantity) que plantea la formulación de dos

modelos: El Modelo de Negocio y el Modelo de Minería de Datos. El primero

proporciona una guía para identificar un problema de negocio y los

requerimientos reales de la Organización, mientras el segundo proporciona una

guía de pasos para la construcción y ejecución de modelos de minería de datos.

En sus dos modelos, está compuesta por una serie de pasos llamados “boxes”,

luego de una acción, se evalúan los resultados y se determina el próximo paso

(box) a seguir, lo que permite una flexibilidad muy grande y una amplia

variedad de caminos posibles.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 20

CRISP-DM Acrónimo de “Cross-Industry Standard Process for Data Mining”, es la

metodología más utilizada actualmente en proyectos de Minería de Datos.

Creada por el grupo de empresas SPSS, NCR y Daimler Chrysler en el año

2000, profundiza en mayor detalle ya que estructura el proceso en seis fases:

Comprensión del Negocio, Comprensión de los datos, Preparación de los

datos, Modelado, Evaluación e Implantación. Cada fase no es rígida y se

descompone en varias tareas generales de segundo nivel.

Las tareas generales se proyectan a su vez en tareas específicas, pero no se

propone como realizarlas.

Fuente: (Moine Gordillo, 2011)

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 21

Selección de la Metodología. En la siguiente tabla de contraste se procede a comparar las

metodologías:

Tabla 3. Comparación de Metodologías.

Técnica Descripción

SEMMA vs.

Catalyst

Catalyst presenta una guía o primer modelo para identificar un problema de

negocio y los requerimientos reales de la organización, mientras que SEMMA

carece de un análisis del problema.

SEMMA presenta un buen análisis de aspectos técnicos, mientras que Catalyst

en forma similar, tiene un segundo modelo que desarrolla la solución en el

aspecto técnico.

SEMMA vs.

CRIPS-DM

SEMMA solo se afianza en aspectos técnicos ya que en su orientación se

asume que va directamente a resolver un problema preestablecido (orientado

solo al desarrollo del proceso), mientras que CRISP-DM da mucha

importancia a la situación de la empresa y presenta un análisis completo

adaptable a la realidad de cualquier empresa (orientado a los objetivos

empresariales)

En la parte técnica, ambas metodologías tienen similitudes: El muestreo,

exploración y manipulación de datos de SEMMA se corresponden a las fases

de Análisis y Preparación de datos de CRISP-DM, mientras que ambas tienen

las fases de Modelado y Evaluación; pero CRISP-DM además tiene la fase

inicial de Análisis del Problema y la fase final de Resultados (ambos

relacionados a los objetivos de la empresa, orientado a la gestión por

procesos).

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 22

Catalyst vs.

CRISP-DM

Catalyst estructura en “boxes” el proceso de creación, que le da un proceso de

desarrollo con múltiples opciones con dos modelos, el primero analiza el

problema y el segundo desarrolla la solución, mientras que CRISP-DM es un

proceso continuo y progresivo en donde se analiza todo el proceso de creación

relacionado a la empresa.

Si bien ambas metodologías cubren los aspectos del problema desde el punto

de vista de la empresa y el desarrollo de la solución, CRISP-DM ha sido más

utilizado por empresas que trabajan continuamente en proyectos de Minería de

Datos y es el sistema más utilizado actualmente para proyectos de minería de

datos.

Fuente: (Moine Gordillo, 2011)

En el proceso de la selección de la mejor metodología, el autor (Moine Gordillo, 2011)

explican que SEMMA se caracteriza solamente por iniciar con muestreo de datos, en donde por

el contrario la forma en la que se confronta el problema empresarial es de un nivel técnico

correspondiente a la metodología CRISP-DM, explicando que “la metodología CRISP-DM está

más cercana al concepto real de proyecto de investigación”; es por ello que en la tabla anterior se

concluye con esta metodología ya que se pasa de la parte organizacional al enfoque técnico, la

metodología CRISP-DM es la que mejor se adapta para los requerimientos del presente trabajo

de grado.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 23

Descripción de la Metodología CRISP-DM. Los autores (Rodríguez Montequín, Álvarez

Cabal, & Mesa Fernández, 2002) describen la guía metodológica a seguir, en donde el modelo

comprende seis elementos principales relacionados en la siguiente figura:

Figura 1. Composición básica del modelo CRISP DM Fuente: (Rodríguez Montequín, Álvarez Cabal, & Mesa Fernández, 2002), “Fases del proceso de modelado metodología CRISP-

DM. Las flechas indican relaciones más habituales entre las fases, aunque se pueden establecer relaciones entre cualquier fase.

El círculo exterior simboliza la naturaleza cíclica del proceso de modelado”.

A continuación, se describe cada elemento de la metodología CRISP-DM

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 24

Figura 2. Fase de Comprensión del negocio del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)

A nivel directivo se maneja la parte de la comprensión del negocio, es allí donde se

indaga con la alta gerencia cómo está conformada la organización en su parte estructural y a su

vez se esclarecen los objetivos corporativos, entendiendo los criterios de éxito de la misma; en la

evaluación de la situación tenemos un inventario de recursos, requerimientos, presunciones y

restricciones, también teniendo en cuenta los riesgos, contingencias y beneficios por parte de la

Minería de Datos, para a continuación determinar los objetivos de la Minería de Datos y sus

criterios de éxito desde el punto de vista de la Minería de Datos, y por último producir el Plan del

Proyecto y una primera evaluación de las herramientas y técnicas a emplear.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 25

Figura 3. Fase de Compresión de datos del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)

El análisis inicial de los datos con los que se va a trabajar pertenece a la segunda fase,

iniciando por determinar los datos a usar y recolectarlos, efectuar una descripción de estos,

reconocer problemas presentados en los datos, seleccionar la herramienta utilizada para

colectarlos, propiedades de los datos, etc., hacen parte de la exploración de los datos y finaliza

con la verificación de la calidad de los datos, como base del proyecto.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 26

Figura 4. Fase de Preparación de datos del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)

Para la tercera fase se trabaja únicamente con los datos, estableciendo cuales datos son

relevantes y cuales no para el proyecto de minería, posteriormente se preparan los datos para

poder emplearlos y ser utilizados, realizar una poda de datos de ser necesario, igualmente

construir, crear nuevos registros e integrar datos de ser necesario, y por último volver a generar

formato a los datos para que se adapten a las necesidades del análisis que se va a efectuar.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 27

Figura 5. Fase de Modelado del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)

La fase de modelado es la más importante y el objetivo principal es seleccionar la técnica

que se va a utilizar de manera específica, efectuar los ajustes necesarios sobre los datos acorde a

la técnica elegida, determinar el procedimiento para probar posteriormente el prototipo, luego se

genera la prueba de diseño, aplicar las herramientas y lograr construir el prototipo, realizar una

descripción del mismo y por último evaluarlo y revisar o corregir los parámetros de ajuste.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 28

Figura 6. Fase de Evaluación del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)

Para la fase de evaluación del prototipo se debe tener en cuenta diferentes factores como

la exactitud y la generalidad, todo ello con el fin de establecer el grado en que el prototipo es

aceptable o deficiente en relación a las necesidades del negocio del proyecto, en donde a

continuación se debe revisar el proceso en su totalidad para establecer posibles ajustes, para

posteriormente lograr determinar los siguientes pasos y tomar decisiones, en cuanto a corregir

parcial o totalmente el prototipo.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 29

Figura 7. Fase de Desarrollo del modelo CRISP DM Fuente: (Chapman & Clinton (SPSS), 2000)

Luego de la evaluación y los resultados obtenidos se despliega un plan para el desarrollo

de lo obtenido, en donde se desarrolla lo siguiente: la supervisión, el mantenimiento y desarrollar

el informe final, realizar la presentación final y hacer una revisión general del proyecto.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 30

Capítulo 3

Recolección y Preparación de Datos

Fase 1 Comprensión del negocio

Contexto. La presente investigación se centra sobre la empresa SFC Pack S.A.S.,

dedicada a la automatización de procesos industriales de empaque. Esta compañía fabrica

principalmente maquinaria para automatizar el etiquetado autoadhesivo de envases y empaques

en los procesos industriales.

El modelo de negocio de SFC Pack se puede comprender con mayor facilidad utilizando

el modelo Canvas:

Figura 8. Modelo de Negocio Canvas SFC Pack S.A.S. Fuente: (SFC Pack, Planeación Estratégica, 2017)

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 31

La estructura organizacional de SFC Pack S.A.S. está segmentada en cuatro grandes

áreas, un Departamento Administrativo, uno Financiero, uno Operativo y otro Comercial y de

Servicio.

Dentro del departamento comercial y de servicio se encuentra el equipo de Servicio

Técnico, quienes están encargados del servicio post-venta, así como de la capacitación inicial a

los operarios de la maquinaria; así mismo, están encargados de la instalación y puesta en marcha

de la maquinaria en las instalaciones del cliente.

Sin embargo, el equipo de Servicio Técnico, también hace parte del equipo de Taller, de

manera implícita, pues desempeñan funciones dentro del área de producción como por ejemplo

ensamble eléctrico, programación, cableado, entre otras.

El siguiente organigrama facilita la comprensión de su estructura organizacional:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 32

Figura 9. Organigrama SFC Pack S.A.S. Fuente: (SFC Pack, Organigrama SFC Pack SAS, 2016)

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 33

El principal desafío para SFC Pack en términos de selección y retención del Talento

Humano se encuentra en los cargos de Asistentes de Servicio Técnico, quienes comparten

responsabilidades entre el área de producción y el área comercial como servicio post-venta.

Como resultado del proceso de Planeación Estratégica para el 2017, la importancia del

proceso de selección y contratación de estos Asistentes de Servicio Técnico se evidenció en

distintas áreas de los proyectos estratégicos, entre ellos:

1. Talento Humano: Contratación y capacitación

a. Consolidar equipo de Servicio Técnico

b. Estructurar proceso de contratación

2. Distribuidores Internacionales

a. Acompañamiento y capacitación: que sería liderada por los asistentes de Servicio

Técnico

3. Penetración de Mercado Nacional

a. Plan comercial: que involucra un plan de incremento en ingresos por servicio

post-venta

Figura 10. Proyectos Estratégicos SFC Pack S.A.S. 2017 Fuente: (SFC Pack, Proyetos Estratégicos SFC pack SAS, 2017)

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 34

El cargo de Asistente Técnico, nació de la combinación de dos roles distintos que existían

para el 2015 en la empresa, estos eran el Coordinador de Servicio Técnico y el Asistente de

ensamble eléctrico. Esta es la descripción de cada uno de estos cargos según SFC:

Figura 11. Manual de Funciones y Responsabilidades de Servicio Técnico

MANUAL DE FUNCIONES Y RESPONSABILIDADES

COORDINADOR DE SERVICIO TÉCNICO

Versión 1.0

Validez:

19 05 2015

Código:

QM GAF MA 02

Proceso:

Comercial

1. Perfil del cargo

Denominación del Cargo Coordinador de servicio técnico

Proceso Comercial

Perfil del Cargo

Educación

Tecnólogo o ingeniero mecánico, en automatización

industrial, mecatrónico o afines

Experiencia

1 año en servicio al cliente, 6 meses en programación de

PLCs, HMIs, Variadores de Frecuencia,

Instrumentación industrial.

Formación Capacitación impartida por SFC Pack S.A.S.

Habilidades

Manejo de herramientas manuales y eléctricas para

ejecutar reparaciones y adecuaciones mecánicas

simples. Servicio al cliente y comunicación asertiva.

Habilidad en programación y parametrización de

componentes de automatización industrial.

Fuente: (Pack, 2017)

SFC PACK S.A.S.

Etiquetado Autoadhesivo

Automático

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 35

2. Responsabilidades

• Ejecutar todas las actividades que le sean asignadas por la dirección de comercial y de

servicio, que se encuentren dentro de sus capacidades y habilidades, encaminadas a

satisfacer las necesidades de servicio técnico y capacitación de los clientes.

• Velar por la integridad y el buen uso de los componentes, partes y herramientas que le

son encomendadas para la ejecución de sus actividades.

• Entregar a la dirección los reportes y/o informes a los que haya lugar, referentes a la

ejecución de las actividades que le son programadas.

3. Funciones Generales

• Liderar el departamento de servicio técnico y coordinar las actividades de los asistentes

de servicio que están a su cargo.

• Programar los servicios técnicos preventivos y correctivos solicitados por los clientes y

los de instalación, adecuación y puesta en marcha de equipos nuevos.

• Hacer seguimiento a los servicios técnicos prestados, la documentación de los mismos y

la satisfacción de los clientes con la solución brindada.

• Garantizar que las hojas de vida de los equipos en funcionamiento se encuentren siempre

actualizadas.

• Ejercer control de calidad sobre los equipos entregados por producción, listos para

despacho.

• Realizar seguimiento interno a requerimientos de servicio técnico en el área de

producción.

• Apoyar la labor de los asistentes de servicio técnico tanto en planta como en las

instalaciones de clientes, en funciones como:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 36

• Realizar esquemas eléctricos y manuales de uso para los equipos, así como llevar el

archivo de los mismos.

• Adecuar el cableado de los tableros eléctricos, así como los componentes externos a los

tableros de los proyectos.

• Configurar, parametrizar, cargar programa y calibrar los componentes a los que haya

lugar en cada máquina.

• Realizar el arranque, parametrización y sincronización inicial de los equipos.

• Realizar pruebas del funcionamiento de cada componente electrónico instalado y del

funcionamiento general de los equipos.

• Realizar las modificaciones que se requieran a nivel de programación de PLC o interfaces

en los equipos, así como gestionar el correcto archivo de estos programas en las carpetas

digitales compartidas.

• Realizar calibración mecánica de los equipos y validar el correcto funcionamiento de los

sistemas mecánicos, de igual forma, realizar los ajustes mecánicos menores a los que

haya lugar.

• Reportar los errores encontrados durante las validaciones a nivel mecánico, para que sean

corregidos por el área de diseño y producción.

• Llevar registro de los componentes y sistemas utilizados en el ensamble de cada equipo

para realizar las modificaciones de la hoja de vida de cada equipo.

• Impartir las capacitaciones a las que haya lugar, tanto al personal técnico como operativo

que disponga el cliente para el manejo de los equipos.

• Diligenciar los formatos de servicio técnico y capacitación con cada servicio prestado.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 37

Figura 12. Manual de Funciones y Responsabilidades Asistente de Ensamble Eléctrico

MANUAL DE FUNCIONES Y RESPONSABILIDADES

ASISTENTE DE ENSAMBLE ELÉCTRICO

Versión 1.0

Validez:

14 08 2014

Código:

QM GAF MA 02

Proceso:

Operativo

1. Perfil del cargo

Denominación del Cargo Asistente de Ensamble Eléctrico

Proceso Operativo

Perfil del Cargo

Educación

Técnico o tecnólogo en electro-mecánica,

automatización industrial, mecatrónica o afines

Experiencia No requiere

Formación Capacitación impartida por SFC Pack S.A.S.

Habilidades

Cableado de tableros eléctricos, elaboración e

interpretación de esquemas eléctricos, conocimientos en

programación de PLCs y configuración de componentes

electrónicos, aptitudes mecánicas para manipulación de

herramienta de mano como taladro, motortool, llaves,

etc. Manejo de internet y herramientas de ofimática.

Fuente: (Pack, 2017)

2. Responsabilidades

• Ejecutar todas las actividades que le sean asignadas por la coordinación de producción,

que se encuentren dentro de sus capacidades y habilidades, encaminadas a la fabricación

de los proyectos.

• Velar por la integridad y el buen uso de los componentes, partes y herramientas que le

son encomendadas para la ejecución de sus actividades.

SFC PACK S.A.S.

Etiquetado Autoadhesivo

Automático

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 38

• Entregar a la coordinación los reportes y/o informes a los que haya lugar, referentes a la

ejecución de las actividades que le son programadas.

3. Funciones Generales

• Realizar los planos y esquemas eléctricos para los proyectos, así como llevar el archivo

de los mismos.

• Ensamblar y cablear los tableros eléctricos, así como los componentes externos a los

tableros de los proyectos.

• Configurar, parametrizar, cargar programa y calibrar los componentes a los que haya

lugar en cada proyecto.

• Realizar el arranque, parametrización y sincronización inicial de nuestros equipos.

• Realizar pruebas del funcionamiento de cada componente electrónico instalado y del

funcionamiento general de nuestros equipos.

• Realizar las modificaciones que se requieran a nivel de programación de PLC o interfaces

en los equipos, así como gestionar el correcto archivo de estos programas en las carpetas

digitales compartidas.

• Realizar la pre-calibración mecánica de los equipos y validar el correcto funcionamiento

de los sistemas mecánicos, de igual forma, realizar los ajustes mecánicos menores a los

que haya lugar.

• Reportar los errores encontrados durante las validaciones a nivel mecánico, para que sean

corregidos por el área de diseño.

• Llevar registro de los componentes y sistemas utilizados en el ensamble de cada equipo

para realizar la apertura de la hoja de vida de cada equipo entregado.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 39

• Ejecutar las demás actividades que le sean programadas por la coordinación de

producción que se encuentren dentro de su competencia.

• Reportar a la coordinación de producción el estado de la ejecución de todas las

actividades que le sean programadas.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 40

Objetivos del negocio y criterios de éxito. El objetivo principal del resultado de esta

investigación es facilitar el proceso de selección de nuevos Asistentes de Servicio Técnico, lo

que se verá reflejado en la organización de la siguiente manera:

• Disminución de los tiempos promedio de contratación de nuevos Asistentes de Servicio,

que actualmente son de 3 meses aproximadamente.

• Aumento de la permanencia de los Asistentes de Servicio contratados, que actualmente

tienen un tiempo de 1.5 años en promedio.

De lo anterior se espera un impacto en los tiempos de respuesta en asistencia post-venta,

así como en la calidad del servicio prestado por la compañía.

Inventario de recursos. En la organización se dispone de dos personas que atienden el

área de recurso humano, Luz Stella Charry, Directora de área y Luisa Lima, Asistente de talento

humano, en infraestructura se cuenta con dos equipos de escritorio, ambos cuentan con las

mismas características: Procesador Core i5 Intel de séptima generación a 3.0 GHz, 4 GB de

memoria RAM, disco duro de 1TB, lector de DVD RW, también se cuenta con un repositorio

físico (Archivo metálico con llave) en donde reposan las hojas de vida e información histórica de

pruebas de selección del personal vitales para el desarrollo del presente trabajo de grado.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 41

Requerimientos, presunciones y restricciones. Los requerimientos, presunciones y

restricciones están detalladas en la siguiente tabla:

Tabla 4. Requerimientos, presunciones y restricciones.

Componente Descripción

Requerimientos • Los requerimientos del trabajo de grado deben tener en

consideración los datos capturados en el proceso de selección en

donde al probarlo funcione como soporte a la toma de decisiones

durante los procesos de selección para un cargo de alta rotación en

la empresa SFC Pack S.A.S descartando información que genera

ruido en la toma de decisiones.

• Los datos principales deben estar agrupados y adaptados a un solo

formato para ser válidos, y su resultado debe estar

comprensiblemente resumido para su entendimiento y

procesamiento.

Presunciones • Se debe asumir que los datos del personal existentes, tanto en su

base como en su desarrollo, contienen la información suficiente

para poder realizar un análisis con minería de datos que arroje

resultados utilizables y verificables.

• El grupo objetivo para este trabajo se basa en el personal que ha

terminado las pruebas del proceso de selección y se encuentra en el

archivo de la empresa, tomando en consideración solo los datos

capturados en el proceso de selección de talento humano.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 42

Restricciones • Existe cierta información en el archivo que tiene carácter

confidencial, por lo que el acceso a esta información debe ser

coordinado o manipulada de tal forma que no sea asociada a una

persona en particular sino a un perfil específico, por tanto, es

importante manejar los datos para que se adapten a este fin

particular de investigación.

Fuente: Desarrollado por los Autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 43

Riesgos y contingencias. Para el presente trabajo de investigación existen riesgos

implícitos en la temática y demás factores, es por ello que a continuación se describen los

posibles riesgos que puedan existir en el proceso de aplicación del prototipo.

Tabla 5. Riesgos y contingencias.

Riesgo Plan de Contingencia

Acceso restringido a

ciertos datos del personal

que pueden ser importantes

para lograr los objetivos

Se debe realizar el acercamiento con la Directora General de

Recursos Humanos actual para la autorización respectiva y

argumentar la finalidad de los datos explicando su respectiva

confidencialidad de los mismo.

Base de Datos con

información insuficiente

Ampliar el margen de búsqueda respecto de la fecha que se está

analizando para ampliar el número de candidatos a ser incluidos

en el prototipo de minería de datos o incluir candidatos que

tengan los datos suficientes para ser incluidos en este.

Resultados inadecuados

por parte del prototipo de

minería de datos

Es necesario el ajuste de los criterios ingresados a la técnica de

minería de datos para que los resultados del prototipo predictivo

sean correctos respecto de la finalidad que se esté buscando.

La estructura de datos sea

diversa y se dificulte la

compilación de datos de la

base de datos principal

Se debe realizar la implementación de ajustes a los datos y

metadatos para organizar la información y permitir su

manipulación y exportación de forma adecuada.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 44

Dentro de la estructura de

los datos no exista los

datos o tablas necesarias

para un análisis adecuado

de lo que se intenta

implementar.

Se deberá realizar la búsqueda de la información, verificando

donde se encuentran los datos importantes para exportarla e

implementarla dentro de las condiciones de selección de personal.

Fuente: Desarrollado por los Autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 45

Terminología. La terminología propia de conceptos manejados por la industria del

etiquetado, son necesarias para la comprensión del presente trabajo de investigación, se

procederá a describirlas en la siguiente tabla:

Tabla 6. Terminología.

Término Significado

Automatización

de Procesos

Industriales

Para el caso del presente trabajo de investigación, el termino refiere a la

utilización de componentes electromecánicos, que de manera sistematizada

controlan maquinaria de rotuladores para etiquetar envases de diferentes

geometrías y materiales.

Etiquetado

Autoadhesivo

Describe el proceso en el que se lleva una etiqueta con información relevante

de un producto en una cara, y en la otra lleva incorporado pegamento o

adhesivo para poder adherirlo en alguna parte de la superficie del producto.

Post-venta Son todos los esfuerzos que realiza la compañía por satisfacer al cliente

posteriores a la venta, en donde se pueden ofrecer servicios adicionales

relacionados con el etiquetado.

Ensamble

Eléctrico

Empalme y sujeción de varios componentes electrónicos con el objetivo de

armar un mecanismo electrónico con un propósito definido, en este caso

alguna pieza clave dentro de la maquinaria de etiquetado.

PLC Programmable Logic Controller o PLC es un controlador lógico programable

que sirve para automatizar funciones por separado de una maquina

etiquetadora.

Fuente: Desarrollado por los Autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 46

Costos y beneficios. De acuerdo con la infraestructura disponible para la ejecución del

presente trabajo de grado, se realiza una estimación respecto de los costos parciales y totales en

la siguiente tabla:

Tabla 7. Costos por Servicios Profesionales.

Fuente: Desarrollado por los Autores

Tabla 8. Compra y adquisición de equipos y herramientas.

Fuente: Desarrollado por los Autores

Tabla 9. Costos Generales.

Fuente: Desarrollado por los Autores

Profesional Meses Valor por Mes Cantidad Valor

Estudiante

Investigador

6 COP$4’000.000 2 COP$48’000.000

Director 6 COP$2’000.000 (2 Horas por Semestre)

1 COP$12’000.000

Equipo Valor por Mes Cantidad Valor

Equipos de

Computo

COP$2’000.000 2 COP$4’000.000

Gasto Valor Mensual Cantidad Valor

Internet COP$140.000

6 COP$840.000

Transporte COP$240.000 6 COP$1’440.000

Papelería y

varios

COP$30.000 6 COP$720.000

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 47

Tabla 10. Costos Consolidados.

Fuente:

Fuente:Desarrollado por los Autores

Según los costos relacionados anteriormente podemos establecer una tabla Costo-

Beneficio en el siguiente cuadro comparativo:

Tabla 11. Costo-Beneficio.

Fuente: Desarrollado por los Autores

Detalle Total

Costos por servicios profesionales COP$60’000.000

Compra y adquisición de equipos y herramientas COP$4’000.000

Costos Generales COP$3’000.000

Detalle Costo Beneficio

Costos por servicios

profesionales

COP$60’.000.000 • Poder establecer unos honorarios para

los investigadores garantiza una

viabilidad económica y la dimensión

presupuestal del proyecto

Compra y adquisición

de equipos y

herramientas

COP$4’000.000 • La infraestructura es clave para

desarrollar todas las tareas operativas

que requieren el manejo de datos en

este trabajo de investigación.

Costos Generales COP$3’000.000 • Hay costos generales producto de la

operación, se convierten en elementos

fundamentales que garantizan un

adecuado manejo de las demás

actividades del proyecto.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 48

Objetivos de la Minería de Datos. Para determinar los factores comunes que se

presentan en la selección de personal para el cargo de Asistente de Servicio Técnico en SFC

Pack S.A.S., se establece el siguiente objetivo:

Determinar los valores de los parámetros relacionados a casos de éxito en contrataciones

anteriores para el cargo, de acuerdo al método del árbol de decisión utilizado y que logre una

clasificación con el menor error determinable.

Criterios de éxito de la minería de datos. Los criterios de éxito para este proyecto son

los siguientes:

1. Cuando se aplique el prototipo a una población candidata que requiera su clasificación

para los puestos de trabajo, esta clasificación esté acorde a lo previsto por el prototipo en

un porcentaje lo más alto posible.

2. Que los resultados arrojados por el prototipo sean comprensibles y fáciles de manejar e

interpretar por el usuario del sistema.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 49

Plan del proyecto. .

Tabla 12. Plan del proyecto con Recursos Entradas y Salidas

Etapa Detalle Recursos Entradas Salidas

Análisis de los datos

de la Base de Datos

Revisión de la base de datos junto con

formularios físicos

Información de los tipos

de datos disponibles en la

BD y documentos de

Archivo

Todos los tipos de

datos de la BD de

personal

Instalación del

sistema en el

sector

Selección de los

datos relevantes

Escoger los tipos de datos que serán

requeridos para el análisis de la Minería de

Datos

Información detallada de

los tipos de datos de la

BD

Todos los tipos de

datos de la BD de

personal

Selección de los

datos

Selección inicial de

herramientas y técnicas

Escoger la técnica de Minería de Datos y

sus herramientas asociadas

Disponibilidad de técnicas

de Minería de Datos y sus

herramientas

Datos

seleccionados

para Minería de

Datos

Seleccionar la

técnica y

herramienta más

adecuada

Revisión y estructuración de

los datos relevantes

Verificar formato y compatibilidad de los

datos, datos faltantes en base a la técnica

seleccionada.

Acceso completo a la

estructura de los datos

Datos, técnica y

herramientas

seleccionadas

Estado de los

datos (formato,

compatibilidad y

faltantes)

Soluciones de estructura

de la base de datos

Solucionar problemas de estructura o datos

faltantes en la BD

Acceso completo a la

estructura de los datos

Estado de los

datos a utilizar

Estado de los

datos a utilizar

Desarrollo del modelo Configurar el modelo de Minería de Datos a

aplicar en la BD

Acceso completo a la

estructura de los datos y

aplicabilidad en sitio del

modelo considerado.

Datos

estructurados y

completos,

técnica y

Modelo inicial

de Minería de

Datos a aplicar

en la BD

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 50

herramientas

seleccionadas

Prueba inicial de modelo Aplicar el modelo en la BD y observar los

resultados obtenidos inicialmente hasta

verificar funcionamiento.

Acceso completo a la

estructura de los datos y

aplicabilidad en sitio del

modelo considerado.

Modelo inicial de

Minería de Datos

Resultados

obtenidos en la

prueba inicial

Ajustes del modelo

y/o base de datos

Realizar los ajustes al modelo o la base de

datos para que los resultados sean los

esperados (es necesario realizar otras

pruebas hasta terminar los ajustes)

Acceso completo a la

estructura de los datos y

aplicabilidad en sitio del

modelo considerado.

Resultados

obtenidos en la

prueba inicial al

aplicar el modelo

Modelo y/o base

de datos ajustado

para optimizar

resultados

esperados

Prueba del modelo Se realiza la prueba definitiva del modelo

con la presencia de la autoridad relacionada

Acceso completo a la

estructura de los datos y

aplicabilidad en sitio del

modelo considerado.

Modelo y/o base

de datos ajustado

(revisión final)

Modelo probado

formalmente ante

la autoridad

competente

Evaluación del modelo Se realiza la evaluación de los resultados

arrojados por el modelo y se comparan con

los resultados esperados.

Modelo y Base de Datos

final

Modelo y base de

datos final

Evaluación final

del sistema

Instrucción Se imparte la instrucción de operación de la

aplicación al personal encargado de

manejar la Base de Datos y del sistema de

selección de personal.

Documentos del sistema

y evaluación disponibles

Evaluación y

funciones del

sistema; usuarios

del sistema

Usuarios del

sistema

capacitados en el

uso de la

aplicación de

Minería de Datos

Fuente: Desarrollo de los Autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 51

Evaluación inicial de herramientas y técnicas. Los criterios para seleccionar las

herramientas y técnicas se van a enumerar a continuación:

1. Para las entradas se considera el factor histórico del personal previamente evaluado

en el proceso de selección, son estos datos los insumos que el método de minería de

datos requiere como entrada, para que arroje los porcentajes óptimos de cada grupo

de datos de personal.

2. Son las herramientas y técnicas las que deben permitir que se clasifique al personal

idóneo que va a ser contratado de acuerdo a las tendencias encontradas y determinar

los mejores candidatos para el cargo en cuestión.

3. Por lo tanto, las herramientas y técnicas deben permitir que una vez finalizados los

procesos de selección más cercanos al presente estudio, sean capturados los datos de

este, abordando este nuevo compendio de información con el objetivo de que dichos

datos sirvan de retroalimentación al prototipo para optimizarlo.

Por lo tanto, al evaluando el análisis inicial realizado, se van a plantear los criterios para

apoyar la herramienta seleccionada:

Árboles de Decisión:

De acuerdo al análisis realizado en el capítulo 1, se toma la iniciativa de emplear un árbol

de decisión debido a que es un método que ofrece más garantías para el prototipo y el posterior

análisis de los datos, cabe resaltar que no siempre son arrojados árboles que se entiendan de

manera sencilla, poniendo en riesgo el proceso y aportando un grado de complejidad más alto

para el prototipo.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 52

Para culminar el presente trabajo de investigación, se apoyó en esta herramienta de

Minería de Datos con el objetivo de perfilar personal en proceso de selección, desarrollando un

algoritmo basado en su metodología.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 53

Fase 2 Comprensión de los Datos

Recolección de datos iniciales. Como primer paso para procesar los datos recopilados

del archivo físico, se hace necesario almacenarlos en una base de datos relacional, por tal razón

se crea el siguiente Modelo Relacional:

Figura 13. Modelo Relacional Prototipo

Fuente: Desarrollado por los Autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 54

Descripción de los datos. Para el Modelo Entidad Relación tenemos una tabla principal

denominada “aspirante” en donde se encuentra la información completa de cada aspirante. Para

estructurar las tablas se realiza tomando la tabla “aspirante” y de ella se derivan siete tablas que

corresponden a “estadocivil”, “ciudad”, “tipoVivienda”, “formacionAcademica”, “aplicacion”,

“experienciaLaboral” y “familia” de la Figura 13 se puede observar de manera general todo el

Modelo Relacional que compone la estructura de datos.

La fuente primaria de datos para el prototipo consiste en la captura de datos generada a

partir de la hoja de vida de los candidatos y la posterior entrevista, así como los resultados a las

pruebas técnicas, de razonamiento y personalidad:

A continuación, se detalla el diccionario de datos para el anterior Modelo Relacional:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 55

Tabla 13. Diccionario de datos.

Tabla Campo Descripción Tipo dato

Aspirante id

identificacion

nombres

apellidos

genero

fechaNacimiento

ciudad_id

estadoCivil_id

tipoVivienda_id

Identificador de tabla

Identificación

Nombres

Apellidos

Género

Fecha de Nacimiento

Lugar de Nacimiento

Estado Civil

Tipo de Vivienda

INT

VARCHAR(45)

VARCHAR(45)

VARCHAR(45)

VARCHAR(1)

DATETIME

INT

INT

INT

Aplicación id

aspirante_id

testRazonamiento

testConocimiento

testPersonalidad_id

estadoAplicacion_id

Identificador de tabla

ID Tabla Aspirante

Test de razonamiento

Test de conocimiento

Test de Personalidad

Estados aplicación

INT

INT

DOUBLE

DOUBLE

INT

INT

Cargo id

nombre

nivel

Identificador Tabla

Nombre del Cargo

Tipo Nivel Cargo

INT

VARCHAR(45)

INT

Ciudad id

nombre

país_id

Identificador Tabla

Nombre País

Codigo País

INT

VARCHAR(45)

INT

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 56

Estado de la

Aplicación

id

nombre

Identificador Estado

Nombre del Tipo de Estado

INT

VARCHAR(45)

Estado Civil id

nombre

Identificador Tabla

Nombre del Estado Civil

INT

VARCHAR(45)

Estado

Laboral

id

nombre

Identificador Tabla

Nombre de Estado Laboral

INT

VARCHAR(45)

Experiencia

Laboral

id

aspirante_id

cargo_id

duración

estadoLaboral_id

Identificador Tabla

ID Aspirante

ID cargo

Duración en meses

ID Estado Laboral

INT

INT

INT

INT

INT

Familia aspirante_id

familiar_id

parentesco_id

dependenciaEcon

convivencia

ID Tabla Aspirante

ID Familiar

ID Parentesco

ID Tipo de Dependencia Econom

ID Tipo de Convivnecia

INT

INT

INT

TINYINT

TINYINT

Familiar id

fechaNacimiento

Identificador de tabla

Fecha de Nacimiento

INT

DATETIME

Formación

Académica

aspirante_id

nivelAcademico_id

fechaInicio

fechaFin

ID Aspirante

ID Nivel Académico

Fecha inicio

Fecha Fin

INT

INT

DATETIME

DATETIME

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 57

Nivel

Académico

id

nombre

nivel

Identificador de tabla

Nombre del nivel académico

Escala del nivel académico

INT

VARCHAR(45)

INT

País id

nombre

Identificador de tabla

Nombre País

INT

VARCHAR(45)

Parentesco id

nombre

Identificador de tabla

Nombre parentesco

INT

VARCHAR(45)

Perfil DISC id

nombre

Identificador de tabla

Nombre Perfil DISC

INT

VARCHAR(45)

Test

Personalidad

Id

resultadoD

resultadoI

resultadosS

resultadoC

perfilDisc_id

Identificador de tabla

Resultado cuadrante D

Resultado cuadrante I

Resultado cuadrante S

Resultado cuadrante C

ID Perfil DISC

INT

INT

INT

INT

INT

INT

Tipo

Vivienda

id

nombre

Identificador de tabla

Tipo de Vivienda

INT

VARCHAR(45)

Fuente: Desarrollado por los Autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 58

Informe de Colección de Datos Iniciales.

Contexto. Los datos son recolectados del archivo físico de la empresa, la información es

ingresada en la base de datos creada a partir del Modelo Relacional de la Figura 13, debido a

que la forma de extraer los datos es de tipo manual se debe contemplar el siguiente

procedimiento para lograr este objetivo:

1. Establecer el grupo de candidatos objeto del presente estudio.

2. Tabulación de cada uno de los candidatos con sus identificadores.

3. Ingreso manual de la información de cada candidato a la base de datos.

4. Seleccionar los atributos de la información de los candidatos que es relevante para el

estudio.

5. Realizar vistas en la base de datos de atributos ya seleccionados o relevantes respecto de

los candidatos en cuestión.

6. Integración de la información obtenida para ser migrada a un archivo CSV.

Criterios de Selección. Con el objetivo de cumplir el propósito de la Minería de datos en

el presente trabajo de investigación se establecieron los siguientes criterios de selección:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 59

Tabla 14. Criterios de Selección

Criterio Descripción

Edad La edad es un criterio que favorece en la selección de un

aspirante ya que el cargo requiere personal en un rango de

edades para el perfil.

Estado Civil Este atributo demuestra la capacidad de arraigo que el aspirante

puede tener por el puesto de trabajo.

Test de Razonamiento Los resultados del Test de Razonamiento aportan criterio

suficiente para establecer si el aspirante cumple con un mínimo

de capacidades matemáticas y abstractas.

Test Técnico Los resultados del Test Técnico aportan criterio suficiente para

establecer si el aspirante tiene las aptitudes técnicas que su

cargo requiere.

Test Disc El Test Disc aporta información sobre la personalidad del

aspirante en el proceso de Selección, básica para la relación en

el ambiente laboral.

Cantidad de Cargos Este criterio proporciona información sobre la experiencia que

el aspirante tiene.

Mayor Nivel de Cargo Arroja información sobre el cargo más alto que el aspirante

ocupó en empleos anteriores.

Mayor Duración de Cargo Revela la estabilidad laboral que demuestra el candidato,

importante para su proceso de selección.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 60

Fuente: Desarrollado por los Autores

Menor Duración de Cargo Este dato demuestra que el aspirante en ese tipo de ocupación

en específico, tuvo inconvenientes y no es una fortaleza para su

perfil.

Tiempo Total de Cargos Este criterio totaliza el tiempo de experiencia a lo largo de la

vida profesional del aspirante.

Hijos Al igual que el parámetro Estado Civil demuestra el nivel de

obligaciones que el aspirante tiene y el arraigo que pueda

demostrar por su futuro trabajo.

Vivienda Arroja información relevante para el personal de talento

humano en cuanto a la estabilidad habitacional del candidato.

Personas a Cargo Del mismo modo que datos anteriores de carácter personal esta

información es relevante para medir el tipo de arraigo del

individuo.

Nivel de Formación Información relevante respecto de los conocimientos

adquiridos en su proceso de formación y que pueden ser

aplicados en el futuro empleo.

Resultado Estados que describen el proceso de selección del aspirante los

cuales son: Entrevistado No aprobado, Aprobado nunca

Contratado, Contratado por más de 6 meses y Contratado por

menos de 6 meses.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 61

Verificación de la calidad de los datos. Los problemas que se presentaron al momento

de analizar los datos radican en el almacenamiento de formularios, pruebas y demás documentos

históricos en repositorios de archivo físico, a continuación, se describirán varios motivos que

dieron lugar a verificación de calidad de los datos:

• La caligrafía en muchos formatos de pruebas técnicas y de razonamiento era poco

legibles.

• Algunos formatos que fueron llenados a lápiz iban perdiendo legibilidad debido al tiempo

que habían estado almacenados.

• La humedad deterioro documentos y no hizo posible que estos fueran analizados.

• Los criterios de calificación de las pruebas variaron con el tiempo, obligando a tener un

estándar para aquellas pruebas que habían sido calificadas de forma diferente.

• En algunos formatos de Hojas de vida faltaban datos básicos, que fueron pasados por alto

por el personal de Talento Humano que realizó el proceso de selección en su momento.

En el proceso de adaptación, se realizó la validación de la consistencia que los datos

tenían en formularios y evaluaciones en donde se contrastaron y se les dio relevancia dentro de la

investigación, se escogieron los perfiles que estaban más completos y podían aportar muchos

más parámetros a la presente investigación.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 62

Fase 3 Preparación de los Datos

Selección de datos. La selección de datos estuvo definida en la recolección de material

histórico en procesos de selección realizados en la empresa SFC Pack S.A.S en un periodo de

dos años, en los cuales se aplicaron pruebas de razonamiento matemático y abstracto, así como

pruebas técnicas y de personalidad. Se escogieron 78 perfiles de los cuales se obtuvo 15 atributos

seleccionados para ser ingresados a un modelo entidad relación, cabe resaltar que el proceso

inició sin tener una base de datos normalizada como tampoco información sistematizada, el

esfuerzo de hacer un modelo entidad relación y diseñar una estructura de datos MySQL fue de

los autores del presente proyecto de investigación.

Los datos son recolectados del archivo físico de la empresa, la información es ingresada

en la base de datos creada a partir del Modelo Relacional de la Figura 13, debido a que la forma

de extraer los datos es de tipo manual se debe contemplar el siguiente procedimiento para lograr

este objetivo:

7. Establecer el grupo de candidatos objeto del presente estudio.

8. Tabulación de cada uno de los candidatos con sus identificadores.

9. Ingreso manual de la información de cada candidato a la base de datos.

10. Seleccionar los atributos de la información de los candidatos que es relevante para el

estudio.

11. Realizar vistas en la base de datos de atributos ya seleccionados o relevantes respecto de

los candidatos en cuestión.

12. Integración de la información obtenida para ser migrada a un archivo CSV.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 63

Análisis Inclusión/Exclusión de Datos. Con el objetivo de cumplir el propósito de la

Minería de datos en el presente trabajo de investigación se establecieron los siguientes criterios

de selección:

Tabla 15. Análisis Inclusión/Exclusión de Datos

Criterio Inclusión/Exclusión Descripción

Edad INCLUSIÓN Se presume que la edad es un factor

determinante en el proceso de selección

por recomendación del personal de

Talento Humano.

Sexo EXCUSIÓN Aunque la contratación siempre ha estado

sesgada a los hombres en este cargo en

particular, se quiere evitar este sesgo en el

prototipo.

Ciudad EXCLUSIÓN Debido a que es la ciudad de nacimiento y

no la ciudad de residencia, se presume

que no es un factor decisivo en el proceso.

Estado Civil INCLUSIÓN Este atributo demuestra la capacidad de

arraigo que el aspirante puede tener por el

puesto de trabajo.

Test de Razonamiento INCLUSIÓN Los resultados del Test de Razonamiento

aportan criterio suficiente para establecer

si el aspirante cumple con un mínimo de

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 64

capacidades matemáticas y de

abstracción.

Test Técnico INCLUSIÓN Los resultados del Test Técnico aportan

criterio suficiente para establecer si el

aspirante tiene las aptitudes técnicas que

su cargo requiere.

Test DISC INCLUSIÓN El Test DISC aporta información sobre la

personalidad del aspirante en el proceso

de Selección, básica para la relación en el

ambiente laboral.

Cantidad de Cargos

INCLUSIÓN Este criterio proporciona información el

tiempo que el aspirante lleva laborando, y

se presume que esto le aporte a su perfil

positivamente.

Mayor Nivel de Cargo INCLUSIÓN Arroja información sobre el cargo más

alto que el aspirante ocupó en empleos

anteriores. Se espera que haya una

relación de este con sus probabilidades de

éxito.

Mayor Duración de

Cargo

INCLUSIÓN Revela la estabilidad laboral que

demuestra el candidato, importante para

su proceso de selección.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 65

Menor Duración de

Cargo

INCLUSIÓN Este dato demuestra que el aspirante en

ese tipo de ocupación en específico, tuvo

inconvenientes y no es una fortaleza para

su perfil.

Tiempo Total de Cargos INCLUSIÓN Este criterio totaliza el tiempo de

experiencia a lo largo de la vida

profesional del aspirante.

Hijos INCLUSIÓN Al igual que el parámetro Estado Civil

demuestra el nivel de obligaciones que el

aspirante tiene y el arraigo que pueda

demostrar por su futuro trabajo.

Aspiración Salarial EXCLUSIÓN No se pudo tomar como un criterio de

selección pues la información sobre este

era incompleta.

Edad Cónyuge EXCLUSIÓN La de edad del cónyuge no demostró

ningún patrón significativo para el

modelo.

Edad Hijo Menor EXCLUSIÓN Las edades de los hijos no aportaron

patrones significativos para el modelo en

cuanto a criterios de decisión.

Edad Hijo Mayor EXCLUSIÓN Las edades de los hijos no aportaron

patrones significativos para el modelo en

cuanto a criterios de decisión.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 66

Fuente: Desarrollado por los autores.

Vivienda INCLUSIÓN Arroja información relevante para el

personal de talento humano en cuanto a la

estabilidad habitacional del candidato.

Área de Formación EXCLUSIÖN Se encontró más relevante el nivel de

formación ya que el área de formación

implicaba un grado más alto de

complejidad innecesario para el prototipo.

Nivel de Formación INCLUSIÓN Información relevante respecto de los

conocimientos adquiridos en su proceso

de formación y que pueden ser aplicados

en el futuro empleo.

Personas a Cargo INCLUSIÓN Del mismo modo que datos anteriores de

carácter personal esta información es

relevante para medir el tipo de arraigo del

individuo.

Resultado INCLUSIÓN Estados que describen el proceso de

selección del aspirante los cuales son:

Entrevistado No aprobado, Aprobado

nunca Contratado, Contratado por más de

6 meses y Contratado por menos de 6

meses.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 67

Limpieza de datos. Debido a que ingresamos manualmente los datos, fueron revisados

uno a uno y por lo tanto fueron ingresados en una base de datos relacional normalizada,

garantizando la integridad referencial y consistencia de los datos; sin embargo, hubo lugar a

modificaciones y ajustes todo con el objetivo de que el prototipo tuviera las mejores garantías

para cumplir con su propósito de predicción.

Construcción de datos. Para obtener los quince criterios de selección escogidos en una

sola tabla de la base de datos, se construyó una gran consulta a partir de la cual se generaría un

archivo plano como base para la posterior ejecución del algoritmo de clasificación y posterior

construcción del árbol de decisión, la consulta SQL para la obtención de esta información se

muestra a continuación:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 68

Figura 14. Consulta SQL Tabla Consolidada Criterios de Selección Fuente: Desarrollo de los autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 69

Como resultado de esta consulta de consolidación, se obtiene una tabla como la mostrada

a continuación:

Figura 15. Tabla Consolidada Criterios de Selección Fuente: Desarrollo de los autores

Integración de datos. La tabla generada se puede exportar directamente a un archivo

separado por comas para poder ser integrado al WEKA, esta herramienta nos permitirá ejecutar

el algoritmo de clasificación sobre los datos para generar el árbol de decisión.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 70

Figura 16. Parámetros de exportación a CSV Fuente: Desarrollo de los autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 71

El archivo generado, luego es cargado a la herramienta WEKA, desarrollada por la

Universidad de Waikato en Nueva Zelanda, es una colección de algoritmos de machine learning

para tareas de Minería de Datos. Para el desarrollo del presente proyecto se utilizó en su versión

3.8.1. A continuación se muestra la manera en que es cargado el archivo:

Figura 17. Cargue de archivo CSV a Weka Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 72

Por defecto, la última columna de la tabla es usada como criterio de calificación, en

nuestro caso la columna “Resultado”, que tiene cuatro posibles valores:

Figura 18. Selección de Criterio Principal de Clasificación Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 73

Formateo de datos. Para mejorar el proceso de clasificación, se ha aplicado un filtro

sobre los campos con valores continuos como la edad, el tiempo de permanencia en los cargos, el

nivel de formación, etc.

Weka asume que todo campo con valores numéricos es de tipo continuo, por lo que es

necesario convertirlo en un campo de valores discretos, para ello aplicamos un filtro sobre los

datos como lo muestra la siguiente imagen:

Figura 19. Filtro para Conversión a Valores Discretos Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 74

Figura 20. Comparativa Edad en Valores Continuos y Discretos

Fuente: Desarrollo de los autores – WEKA 3.8.1

El filtro se aplica automáticamente a todas las variables continúas encontradas, por lo que

no es necesario aplicarlo más de una vez.

Tras completar este formateo de datos, la información se encuentra lista para la fase de

modelado, en la cual se ejecutarán los algoritmos de clasificación sobre los datos, esta fase se

desarrolla en el capítulo a continuación.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 75

Capítulo 4

Diseño del Prototipo

Fase 4 Modelado

La selección realizada en el Estado del Arte y de Comprensión del Negocio definió a la

técnica del Árbol de Decisión como la más adecuada para realizar el trabajo de selección de

personal para el ingreso a las diferentes especialidades de la Armada, sin embargo, se debe

definir la técnica más específicamente.

Selección de la técnica de modelado. De acuerdo a (Viscaíno Garzon, 2008), las

técnicas de modelado que se pueden aplicar en árboles de decisión, se detallan en el siguiente

cuadro:

Tabla 16. Técnicas de modelado para árboles de decisión

Técnica Detalles

ADTree: Alternating

Decision Tree. Método

de Clasificación

proveniente del

aprendizaje

automático, las

estructuras de datos y

el algoritmo son una

generalización de los

árboles de decisión.

Contienen nodos divisor (splitter) y nodos de predicción. El

nodo divisor está asociado a una prueba, mientras que el nodo

de predicción está asociados con una prueba.

La Clasificación es asociada con una instancia que se calcula

con la suma de las predicciones cercanas al camino en el que es

definido por esta instancia.

El algoritmo de aprendizaje para su construcción es una

estrategia Top-Down, en que cada paso de aumento es

seleccionado y adiciona una nueva regla o su equivalente a una

nueva unidad que consiste en un nodo splitter y dos nodos de

predicción.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 76

Decision Stump:

Árbol de decisión de

un nivel

Funcionan de forma aceptable en problemas de dos clases, pero

mayor a esto es muy difícil encontrar tasas de error inferiores a

0.5

El algoritmo construye un modelo de cada caso a ser

clasificado, pero tomando únicamente un subconjunto de casos

de entrenamiento. Este algoritmo clasifica los casos basados en

valores característicos, cada nodo en un árbol de decisión de un

nivel representa una característica de un caso para ser

clasificado, y cada rama representa un valor que el nodo puede

tomar. Los casos son clasificados comenzando en el nodo raíz y

se cataloga basándose en sus valores característicos.

ID3: Inducción

mediante árboles de

decisión

En el algoritmo ID3, cada nodo corresponde a un atributo y

cada rama al valor posible de ese atributo. Una hoja del árbol

especifica el valor esperado de la decisión de acuerdo con los

ejemplos dados.

La explicación de una determinada decisión viene dada por la

trayectoria desde la raíz a la hoja representativa de esa decisión;

a cada nodo es asociado aquel atributo más informativo que aún

no haya sido considerado en la trayectoria desde la raíz.

Para medir cuánto informativo es un atributo se emplea el

concepto de entropía; cuanto menor sea el valor de la entropía,

menor será la incertidumbre y más útil será el atributo para la

clasificación.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 77

J48: Es una

implementación del

algoritmo C4.5.

Algoritmo de inducción que genera una estructura de reglas o

árbol a partir de subconjuntos (ventanas) de casos extraídos del

conjunto total de datos de entrenamiento (similar a ID3). Se

genera una estructura de reglas y se evalúa su “bondad” usando

criterios que miden la precisión en la clasificación de los casos.

Emplea dos criterios: Calcula el valor de información

proporcionada por una regla candidata (o rama del árbol) con

una rutina que se llama “info”, y calcula la mejora global que

proporciona una regla / rama usando una rutina que se llama

gain (beneficio).

Con estos criterios se puede calcular el costo / beneficio en cada

ciclo del proceso para decidir, por ejemplo, si crea dos nuevas

reglas o agrupa los casos en una sola.

El algoritmo realiza el proceso de los datos en sucesivos ciclos.

En cada ciclo se incrementa el tamaño de la “ventana” de

proceso en un porcentaje determinado respecto al conjunto total,

buscando tener reglas a partir de la ventana que clasifiquen

correctamente a un número cada vez mayor de casos en el

conjunto total. Cada ciclo de proceso emplea como punto de

partida los resultados conseguidos por el ciclo anterior y en cada

ciclo se ejecuta un sub-modelo contra los casos restantes que no

están incluidos en la ventana. De esta forma se calcula la

precisión del modelo respecto a la totalidad de datos.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 78

LMT: Logistic Model

Tree

Consiste en una

estructura de un árbol

de decisión con

funciones de regresión

logística en las hojas

Se realiza una prueba sobre uno de los atributos, que es

asociado con cada nodo interno. Para enumerar los atributos con

k valores, el nodo tiene k nodos hijos, y los casos son

clasificados en las k ramas dependiendo del valor del atributo.

Para atributos numéricos, el nodo tiene dos nodos hijos y la

prueba consiste en comparar el valor del atributo con un umbral

que define a qué lado de la rama se van los datos.

M5P: Árbol de

regresión

Es un árbol basado en árbol de decisión numérico tipo “model

tree”; tiene características como:

Construcción de árbol mediante algoritmo inductivo de árbol de

decisión.

Decisiones de enrutado en nodos tomadas a partir de valores de

los atributos.

Cada hoja tiene asociada una clase que permite calcular el valor

estimado de la instancia mediante una regresión lineal.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 79

NBTree: Naive Bayes

Tree

Algoritmo hibrido que genera un tipo de árbol de decisión, pero

las hojas contienen un clasificador Naive Bayes construido a

partir de los ejemplos que llegan al nodo.

A pesar de que es un eficiente y efectivo algoritmo de

aprendizaje, previo a los resultados muestra que su capacidad es

limitada ya que puede únicamente representar cierto grado de

separación entre las funciones binarias. Requiere suficientes

condiciones es el proceso en el dominio binario para que tenga

una representación uniforme. Se ve entonces que el aprendizaje

(y los datos de error) de Naive Bayes puede ser afectado

dramáticamente por distribuciones de muestreo.

Fuente: (Viscaíno Garzon, 2008)

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 80

Generación de la prueba de diseño. Para la selección del algoritmo más apropiado, se

usará cada uno de los algoritmos disponibles sobre los datos cargados y se comparará su

porcentaje de éxito en el proceso de clasificación.

En la siguiente serie de imágenes, se mostrará el resultado de ejecución de cada una de

las alternativas con sus resultados, información que será resumida en una tabla al final de dichas

imágenes.

Figura 21. Resultados algoritmo DecisionStump Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 81

Figura 22. Resultados algoritmo HoeffdingTree Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 82

Figura 23. Resultados algoritmo J48 Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 83

Figura 24. Resultados algoritmo LMT Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 84

Figura 25. Resultados algoritmo RandomTree Fuente: Desarrollo de los autores – WEKA 3.8.1

En la siguiente tabla se presenta el resumen de los resultados obtenidos para cada uno de

los algoritmos:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 85

Tabla 17. Comparativa Algoritmos Árboles de Decisión

Técnica Instancias clasificadas

correctamente

% Instancias clasificadas

correctamente

DecisionStump 67 85.8974%

HoeffdingTree 71 91.0256%

J48 72 92.3077%

LMT 72 92.3077%

RandomTree 68 87.1995%

Fuente: Desarrollo de los autores

La tabla muestra los algoritmos J48 y LMT como los de mejor desempeño para el

conjunto de datos probado. Dado que el algoritmo LMT produjo un árbol de decisión de un solo

nodo, se opta por seleccionar al algoritmo J48 para el prototipo del actual proyecto.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 86

Construcción del prototipo. Luego de ejecutar el algoritmo J48 sobre los datos de

entrenamiento cargados, se obtuvo el árbol de decisión mostrado a continuación:

Figura 26. Árbol de decisión y resultado generado para el prototipo

Fuente: Desarrollo por los Autores WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 87

Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 88

Lo anterior produce un árbol de decisión que por su tamaño no es posible visualizar

claramente, se explicará en detalle a continuación, pero se muestra su imagen como referencia.

El modelo de decisión muestra solamente dos niveles de validación, tras podar el árbol de

decisión, las variables de mayor relevancia resultaron ser el resultado de la prueba técnica, el

estado civil y el cargo de mayor nivel o rango que el aspirante ha tenido en el pasado.

El árbol puede ser simplificado eliminando caminos contiguos que llevan al mismo

resultado y corrigiendo errores del proceso de conversión a valores discretos, la siguiente tabla

explica el modelo de decisión simplificado.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 89

Tabla 18. Modelo de decisión inicial para el Prototipo

Primer Nivel Segundo Nivel Resultado esperado

Puntaje Test

Técnico menor a 55%

DESCARTAR ASPIRANTE

NO CONTRATABLE

Puntaje Test

Técnico entre 55% y 61.4%

Estado civil SOLTERO CONTRATABLE Y CON

PERMANENCIA > 6 MESES

Estado civil SEPARADO DESCARTAR ASPIRANTE

NO CONTRATABLE

Estado civil UNION LIBRE DESCARTAR ASPIRANTE

NO CONTRATABLE

Estado civil CASADO DESCARTAR ASPIRANTE

NO CONTRATABLE

Puntaje Test

Técnico entre 61.4% y 67.8%

CONTRATABLE Y CON

PERMANENCIA < 6 MESES

Puntaje Test

Técnico entre 67.8% y 74.2%

Experiencia máxima en cargos

como APRENDIZ U

OPERARIO

CONTRATABLE Y CON

PERMANENCIA > 6 MESES

Experiencia máxima en cargos

como TECNICO O

ASISTENTE

CONTRATABLE Y CON

PERMANENCIA > 6 MESES

Experiencia máxima en cargos

como COORDINADOR O

SUPERVISOR

ASPIRANTE RECHAZARÁ

LA OFERTA

Puntaje Test

Técnico mayor a 74.2%

CONTRATABLE Y CON

PERMANENCIA > 6 MESES

Fuente: Desarrollo de los autores

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 90

Evaluación del prototipo. El modelo de decisión inicial planteado para el prototipo,

encontró relevancia únicamente en tres de las 14 variables evaluadas, este fenómeno se puede

comprender en varias de estas variables debido a la gran dispersión de los valores del campo

“Resultado” como lo muestra el siguiente par de imágenes.

Figura 27. Dispersión en variable Edad

Fuente: Desarrollo de los autores – WEKA 3.8.1

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 91

Figura 28. Dispersión en variable Mayor Permanencia en un Cargo

Fuente: Desarrollo de los autores – WEKA 3.8.1

Por otra parte, algunos parámetros no muestran tal dispersión, sino por el contrario

muestran una marcada tendencia que debería ser aprovechada en el modelo para el prototipo

final. Algunos casos en particular son los resultados del test de personalidad y el test de

razonamiento, así como la cantidad de personas a cargo.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 92

Figura 29. Dispersión en variable Test Personalidad

Fuente: Desarrollo de los autores – WEKA 3.8.1

En la imagen se puede ver cómo los aspirantes contratados han mostrado cinco de los

quince perfiles de personalidad posibles del Test DISC, estos son PERSUASIVO,

ESPECIALISTA, AGENTE, PROFESIONAL Y PERFECCIONISTA. Esta variable podría ser

introducida en el modelo para reducir la incertidumbre.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 93

Figura 30. Dispersión en variable Test Razonamiento

Fuente: Desarrollo de los autores – WEKA 3.8.1

En la imagen se puede apreciar cómo los aspirantes con un resultado superior al 70% han

sido tradicionalmente contratados, indistintamente de la permanencia del colaborador en la

organización.

La inclusión de esta variable en el prototipo final también debería ser considerada para

disminuir la incertidumbre donde aplique.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 94

Figura 31. Dispersión en variable Personas a cargo

Fuente: Desarrollo de los autores – WEKA 3.8.1

Aquí se puede apreciar cómo todos los aspirantes que han sido contratados no tenían

personas a cargo, este factor muestra gran relevancia en el proceso de selección pues presenta

una tendencia muy marcada. Su inclusión en el prototipo también debería ser considerada.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 95

Después de analizar estas tres variables de una marcada tendencia, se decide incluirlas las

dos relacionadas con la personalidad y el test de razonamiento en el modelo de decisión final, la

variable de personas a cargo no se incluirá pues podía considerarse discriminatorio dentro del

prototipo de predicción.

Tabla 19. Modelo de decisión final para el Prototipo

Primer Nivel Segundo Nivel Tercer Nivel Resultado esperado

Puntaje Test

Técnico menor a 55%

DESCARTAR

ASPIRANTE NO

CONTRATABLE

Puntaje Test

Técnico entre 55% y

61.4%

Estado civil SOLTERO Puntaje Test de

Razonamiento mayor a

70% y Personalidad

dentro de los 5 perfiles

CONTRATABLE Y

CON PERMANENCIA

> 6 MESES

En caso contrario CONTRATABLE Y

CON PERMANENCIA

< 6 MESES

Estado civil

SEPARADO

DESCARTAR

ASPIRANTE NO

CONTRATABLE

Estado civil UNION

LIBRE

DESCARTAR

ASPIRANTE NO

CONTRATABLE

Estado civil CASADO DESCARTAR

ASPIRANTE NO

CONTRATABLE

Puntaje Test

Técnico entre 61.4% y

67.8%

Puntaje Test de

Razonamiento mayor a

70% y Personalidad

dentro de los 5 perfiles

CONTRATABLE Y

CON PERMANENCIA

< 6 MESES

En caso contrario DESCARTAR

ASPIRANTE NO

CONTRATABLE

Puntaje Test

Técnico entre 67.8% y

74.2%

Experiencia máxima en

cargos como

APRENDIZ U

OPERARIO

CONTRATABLE Y

CON PERMANENCIA

> 6 MESES

Experiencia máxima en

cargos como TECNICO

O ASISTENTE

CONTRATABLE Y

CON PERMANENCIA

> 6 MESES

Experiencia máxima en

cargos como

COORDINADOR O

SUPERVISOR

ASPIRANTE

RECHAZARÁ LA

OFERTA

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 96

Puntaje Test

Técnico mayor a 74.2%

Puntaje Test de

Razonamiento mayor a

70% y Personalidad

dentro de los 5 perfiles

CONTRATABLE Y

CON PERMANENCIA

> 6 MESES

En caso contrario CONTRATABLE Y

CON PERMANENCIA

< 6 MESES Fuente: Desarrollo de los autores

Se aclara que al decir que la variable “Personalidad” debe estar dentro de los 5 perfiles se

hace referencia a que el resultado del test DISC para este aspirante debe corresponder con uno de

los siguientes perfiles: PERSUASIVO, ESPECIALISTA, AGENTE, PROFESIONAL Y

PERFECCIONISTA.

Al ver la descripción del test DISC para cada uno de estos perfiles, se puede evidenciar

que encajan muy bien con el perfil ocupacional del cargo Asistente de Servicio Técnico en SFC

Pack S.A.S.

Figura 32. Perfil DISC Especialista

Fuente: Test de Personalidad General DISC 2.0

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 97

Figura 33. Perfil DISC Agente

Fuente: Test de Personalidad General DISC 2.0

Figura 34. Perfil DISC Persuasivo

Fuente: Test de Personalidad General DISC 2.0

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 98

Figura 35. Perfil DISC Profesional

Fuente: Test de Personalidad General DISC 2.0

Figura 36. Perfil DISC Perfeccionista

Fuente: Test de Personalidad General DISC 2.0

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 99

Capítulo 5

Ejecución y Análisis de Resultados

Fase 5 Evaluación

Evaluación de resultados sobre datos iniciales. El modelo de decisión será aplicado

sobre la base utilizada como datos de entrenamiento para el árbol de decisión para comparar sus

resultados contra los resultados originales de la aplicación de los aspirantes.

Figura 37. Validación del modelo de predicción contra los datos iniciales

Fuente: Desarrollo de los autores

La anterior imagen muestra el modelo predictivo convertido en una fórmula de una hoja

de cálculo, tras comparar los resultados del modelo contra el resultado original del aspirante, se

evidencian los siguientes resultados:

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 100

Tabla 20. Resultados validación modelo contra datos iniciales

Criterio Cantidad Porcentaje

Aspirantes clasificados

correctamente

74 94.6%

Aspirantes clasificados

incorrectamente

4 5.4%

Aspirantes clasificados

correctamente como contratables

sin importar la predicción de su

permanencia en la empresa

78 100%

Total de muestras 78 100%

Fuente: Desarrollo de los autores

Al revisar los cuatro aspirantes clasificados erróneamente, se puede ver que, aunque se

acertó en que serían contratados, se falló en el tiempo que permanecería en la empresa, sin

embargo, se puede ver que los resultados del prototipo de predicción son muy satisfactorios.

Fase 6 Desarrollo

Esta fase no será cubierta por el presente proyecto, pues al tratarse de un Prototipo, no se

encuentra dentro del alcance de este su implementación en la organización.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 101

Conclusiones

Este proyecto ha sido de gran aporte para la empresa SFC Pack S.A.S., pues ha puesto en

evidencia el conocimiento que pueden producir a partir de los datos del archivo físico del área de

Gestión del Talento Humano.

El proceso permitió además que la empresa evidenciara la necesidad de contar con un

archivo digital estructurado, para gestionar la información de sus procesos de selección de

personal, y el Modelo Relacional producido en este proyecto servirá como base para un sistema

de información que cumpla ese propósito.

Aunque la empresa siempre ha realizado pruebas técnicas, de razonamiento y de

personalidad a los aspirantes, nunca había sido clara la relevancia de los resultados de estas en el

proceso de selección, el prototipo de predicción entregado les permitirá, si deciden

implementarlo, centrar su atención en las variables más importantes de cada aspirante, agilizando

sus tiempos de selección y contratación de personal, esto tendrá un impacto directo en el

cumplimiento de sus proyectos estratégicos pues, como se mostró, al menos tres de ellos recaen

sobre la necesidad de consolidar y mantener un equipo de Asistentes de Servicio Técnico.

La metodología CRISP-DM utilizada para el desarrollo del presente proyecto fue de gran

utilidad, para no omitir ningún paso en el proceso de recolección, comprensión, preparación e

integración de los datos en cuanto de Minería de Datos.

El algoritmo de clasificación J48 mostró ser la mejor elección para el propósito de crear

un árbol de decisión, que sirviera como modelo predictivo del desempeño laboral de los

aspirantes a un cargo.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 102

Bibliografía

Chapman, P., & Clinton (SPSS), J. (2000). Step-by-step data mining guide,. Obtenido de .the-

modeling-agency.com: https://www.the-modeling-agency.com/crisp-dm.pdf

Chiavenato, I. (2007). Administración de recursos humanos, el capital humano de las

organizaciones. México D.F.: McGraw-Hill.

Connolly, T. M. (2005). Sistemas de Bases de Datos, Un enfoque práctico para diseño,

implementación y gestión. Madrid: Pearson Educatción S.A.

Davenport, T. H., & Prusak, L. (2000). Working Knowledge: How Organizations Manage What

They Know. Boston: Harvard Business School Press.

Dessler, G. (2001). Administración de personal. Naucalpan de Juárez: Pearson Educación.

Kantardzic, M. (2011). Data Mining: Concepts, Models, Methods, and Algorithms, 2nd Edition.

Wiley-IEEE Press.

Moine Gordillo, H. (2011). Análisis comparativo de metodologías para la gestión de. XVII

CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIÓN.

Nebot Lopez, M. J. (1999). La selección de personal: Guía practica para directivos y mandos de

las empresas. Fundación Confemetal.

Pack, S. (2017). MANUAL DE FUNCIONES Y RESPONSABILIDADES. Bogotá.

Rodríguez Montequín, M. T., Álvarez Cabal, J. V., & Mesa Fernández. (2002).

METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE. U. Oviedo.

SFC Pack. (2016). Organigrama SFC Pack SAS. Bogotá.

SFC Pack. (2017). Planeación Estratégica. Bogotá.

SFC Pack. (2017). Proyetos Estratégicos SFC pack SAS. Bogotá.

PREDICCIÓN DESEMPEÑO LABORAL CON MINERÍA DE DATOS 103

Siliceo Aguilar, A. (2006). Capacitación y desarrollo de personal. México D.F.: Editorial

Limusa.

Sivaram, N. K. (2010). Applicability of Clustering and Classification Algorithms. Kovilpatti,

India: National Engineering College.

Strohmeier, S., & Piazza, F. (2013). Domain driven data mining in human resource

management: A review. Saarbruecken, Germany: ELSEVIER.

Thomas M, C. y. (2005). Sistemas de Bases de Datos :Un enfoque práctico para diseño,

implementación y gestión. Madrid: Pearson.

Viscaíno Garzon, P. A. (2008). Fundación Universitaria Konrad Lorenz. Obtenido de

www.konradlorenz.edu.co:

http://www.konradlorenz.edu.co/images/stories/suma_digital_sistemas/2009_01/final_pa

ula_andrea.pdf