análisis de cociente triádico para procesos de admisión de estudiantes en la fundación insutec...

Upload: jmrson3167

Post on 26-Feb-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    1/19

    Anlisis de cociente tridico paraprocesos de admisin de estudiantesen la fundacin Insutec medianteminera de datos

    Triadic ratio analysis for student admission processes in thefoundation Insutec through data mining

    John Petearson Anzola Anzola*

    Fecha de recepcin: octubre 1 de 2010

    Fecha de aceptacin: noviembre 9 de 2010

    Resumen

    Actualmente, el proceso de admisin en las instituciones de educacin superior anivel nacional e internacional se ha convertido en un factor de-terminante. La seleccin de un programa profesional a travsde las diferentes ofertas y demandas de formacin representa,

    a menudo, un problema en el momento de elegir una carreraprofesional. As mismo, dentro del proceso de aprendizaje in-terferen mltiples variables externas que pueden conducir a lano culminacin de una carrera profesional.

    El cociente tridico es una herramienta de caracterizacin deindividuos cuyo fn es analizar las variables internas del ser, lascualesal combinarse con las externasmodelan un ambien-te incierto y especulativo frente al comportamiento de los sereshumanos en el proceso de seleccin y admisin de una carreraprofesional. Es justo en este punto donde converge la minerade datos, un conjunto de tecnologas que permite descubrir einferir conocimiento a partir de diferentes tcnicas.

    Palabras clave: Cociente Mental Tradico, minera de datos,caracterizacin, agrupacin de datos, Weka.

    * Aspirante a Magister en Ciencias de la Informacin y Comunicacin de la Universidad Distrital Francisco Jos deCaldas. Docente investigador de la Fundacin Universitaria Los Libertadores. Miembro del grupo de investigacinIdeas de la Universidad Distrital. Correo electrnico: [email protected]

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    2/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    44

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    Abstract

    Currently, the process of admission to higher educationinstitutions nationally and internationally, has become a keyfactor. Selecting a professional program through the vari-ous offers and demands of training, is often a problem when

    selecting a career, interfering in the process of forming mul-tiple external variables that can lead to non-completion of acareer training in Colombia.

    The striated ratio is a tool for characterization of individuals,which analyzes the internal variables of being, which com-bined with external variables, model an environment of un-certainty and speculation against the behavior of individualsin the process of selection and admission of a career. It is atthis point that converges data mining, tool in which we candiscover and infer knowledge from different techniques.

    Keywords:Mental Ratio Triadic, Data Mining, characterization,Data Association, Weka.

    Introduccin

    Felder y Silverman [1] clasican a los estu-

    diantes segn su forma de aprendizaje y de

    acuerdo a un conjunto de pares dicotmi-

    cos: observando y escuchando, pensando y

    analizando, reexionando y actuando, razo-

    nando lgica e intuitivamente, memorizan-

    do y visualizando, construyendo analogas

    y modelos de asociacin que, por lo gene-

    ral, son matemticos. Por su parte, los estu-

    diantes adoptan mtodos de enseanza que

    se encuentran denidos por el estilo y la for-

    macin de los docentes; es decir, algunos de

    ellos leen; otros, demuestran; unos discuten

    o se centran en principios y en leyes univer-

    sales; muchos otros, en aplicaciones; algunos

    enfatizan en la memorizacin y otros, en la

    comprensin, etc. Entonces, lo que cada es-

    tudiante aprenda en una clase depender de

    la habilidad innata que posea, de su prepara-

    cin previa y, adems, de la compatibilidad

    entre su estilo de aprendizaje y el de la ense-

    anza del docente [2].

    Como profesor de la Facultad de Ingeniera

    de la Fundacin de Educacin Superior (In-

    sutec), consider de gran utilidad determinar

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    3/19

    JOHNPETEARSON ANZOLAANZOLA

    55

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    las caractersticas del perl de aprendizaje de

    los estudiantes; en funcin de ellas pueden

    adecuarse las estrategias de enseanza. Bajo

    esta premisa y empleando el test propuesto

    por Felder y Soloman [3], fueron encuestadosochenta y nueve estudiantes de la misma fa-

    cultad. As mismo, con el n de descubrir el

    conocimiento implcito en las respuestas, se

    sigui el proceso de descubrimiento de cono-

    cimiento en bases de datos (KDD-Knowledge-

    discovery in databases) y, a travs de tcnicas

    de minera de datos, pudo caracterizarse un

    estudiante en el proceso de admisin.

    Objetivos del anlisis

    Un paso previo al anlisis lo constituy la

    fuente de informacin (base de datos), en

    la cual se establecieron los siguientes objeti-

    vos: extraccin de bsqueda de relaciones,

    identicacin de modelos subyacentes en los

    datos y comprensin del dominio de los mis-

    mos. Lo anterior con el n de establecer una

    idea clara sobre la caracterizacin de un estu-

    diante en el proceso de admisin. As mismo,

    antes de comenzar con el anlisis fue elegida

    la plataforma de software para aprendizaje

    automtico y minera de datos Weka(Waikato

    EnvironmentforKnowledgeAnalysis ), la cual est

    escrita en Java y fue desarrollada en la Uni-

    versidad de Waikato [4].

    Adems, el uso de Weka en el proceso de

    anlisis de datos (KDD) permitir dirigir la

    bsqueda y el renamiento de la informa-

    cin mediante una interpretacin adecuada

    de los resultados generados. Cabe resaltarque los anlisis efectuados no

    de los datos, sino que deben ser considerados

    e interpretados con detenimiento como pri-

    mer paso del estudio.

    El objetivo principal de este artculo es rela-

    cionar los resultados obtenidos en las prue-

    bas con las caractersticas o los perles de

    los estudiantes en el proceso de admisin (si

    bien la descripcin e informacin de la base

    de datos disponible no es muy amplia y pro-

    bablemente habr que adaptarse y sujetar-

    se al contenido con el que se cuenta). Por suparte, las siguientes son algunas premisas

    que se pueden plantear y responder como

    objetivos del anlisis:

    Qu caractersticas cerebrales tienen los

    estudiantes de cada programa?

    Existen grupos de estudiantes, no co-

    nocidos de antemano, con caractersticas

    similares?

    Existen diferencias signicativas en los

    resultados obtenidos segn las pregun-tas A0, A1, A2 y A3?

    La eleccin de una carrera profesional

    depende del entorno o de qu variable?

    Es posible predecir la seleccin de un

    programa mediante alguna variable pre-

    viamente conocida?

    Cules son las relaciones ms signica-

    tivas entre variables?

    Como se observar ms adelante, en los resul-

    tados obtenidos pueden encontrarse relacio-

    nes triviales, conocidas previamente o, inclu-

    so, no hallarse ninguna signicativa; situacin

    que sera relevante para el proceso de inter-

    pretacin. A continuacin dos ejemplos poten-

    ciales: a)determinar, despus de un anlisis

    exhaustivo, que la clase social no condicio-

    na la escogencia de una carrera profesional; y

    b)que la prueba de ingreso debe considerar-

    se homognea sin importar su estraticacin

    social (resultados como los anteriores podraninterpretarse como conclusiones vlidas). Por

    otra parte, este anlisis tiene un enfoque intro-

    ductorio e ilustrativo que permite acercarse

    a las tcnicas disponibles y a su misma ma-

    nipulacin desde la herramienta Weka, hecho

    que deja abierto para el investigador el

    estudio del dominio de datos a resultados y

    conclusiones ms elaborados.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    4/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    66

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    Por su parte, la siguiente tabla contiene la can-tidad de estudiantes por periodo acadmico:

    Periodo Nmero de estudiantes

    matriculados

    2008-II

    2009-I

    2009-II

    2010-I

    483

    607

    497

    668

    CT - Revelador del cociente tridico

    El Test Revelador del Cociente Mental Tradi-co (Rcmt) fue diseado y validado por Wal-

    demar de Gregory para diagnosticar las ma-nifestaciones del cerebro triuno (tridico).ste, a su vez, se caracteriza por poseer cier-tas manifestaciones, en el comportamientoproporcional o desproporcional, que incidenen el desempeo educativo y social del es-tudiante identifcadas mediante el uso del

    Rcmt. As mismo, la aplicacin de este testpuede incidir conscientemente en el desarro-llo de las operaciones, habilidades y facul-tades mentales (en especial las relacionadas

    con el pensar: crear-imaginar-sentir y concre-tar-actuar) [5].

    Manifestaciones del cerebro triuno

    Fuente de datos

    La principal fuente de datos utilizada en estainvestigacin la constituyeron los estudiantesque presentaron los exmenes de admisinen los periodos acadmicos comprendidosdesde 2008-II hasta 2010-I. En total fueron2.255 jvenes, de ambas jornadas (diurnay nocturna), cuyas edades oscilan entre los16 y los 27 aos. As mismo, la mayor partede estos estudiantes se encuentran becados ypertenecen a estratos socioeconmicos bajos[6]. El conjunto de datos consta de 26 atribu-

    tos y un total de 2.255 registros.

    Anlisis estadstico de losdatos en Weka

    La fgura 1 ilustra el anlisis de la clase-pe-riodo, la cual contiene cuatro atributos quese destacan grfcamente:

    Tabla 1.Manifestacionesdel cerebro triuno.

    CEREBRO

    Izquierdo Central Derecho

    Verbal,numrico,

    analtico,

    lgico

    descompositor,

    racional,

    abstracto,

    alerta,

    vigilante,

    articulador,

    crtico,

    investigador,visual y lineal.

    Instintivo,vegetativo,

    motor,

    concreto,

    administra-

    dor, regulador,

    trabajador,

    profesional,

    negociante,

    apropiador,

    planifcador,

    econmico,poltico,

    mercader y

    ecosistmico.

    Proverbial,magntico,

    intuitivo,

    sinttico,

    reintegrador,

    holstico,

    emocional,

    sensorial,

    espacial,

    espontneo,

    relajado, libre,

    asociativo,artstico,

    contemplativo,

    sonoro y

    no lineal.

    Figura 1.Clase-periodo acadmico.

    Tabla 2.Estudiantespor periodo acadmico.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    5/19

    JOHNPETEARSON ANZOLAANZOLA

    77

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    En seguida es expuesta la cantidad de es-

    tudiantes durante los cuatro periodos de

    observacin:

    Sexo Cantidad

    Masculino

    Femenino

    1152

    1103

    La fgura 3, que expone el anlisis de la clase-

    estrato, contiene tres atributos:

    Entre tanto, la fgura 2 ilustra el anlisis de la

    clase-sexo:

    Estrato Cantidad

    1

    2

    3

    739

    754

    762

    A continuacin se ilustra el anlisis de la clase-

    edad, el cual se caracteriza por ser una variablede tipo entero:

    Figura 2.Clase-sexo.

    Tabla 3.Cantidad de hombres y

    mujeres durante los cuatro periodos.

    Tabla 4.Estratos de la totalidad

    de la poblacin de muestra.

    Figura 3.Clase-estrato

    Figura 4.Clase-edad.

    As mismo, la siguiente tabla evidencia la

    cantidad total de estudiantes, durante

    los cuatro periodos, acorde a su estrato

    socioeconmico:

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    6/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    88

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    La tabla 6 contiene los datos estadsticos de

    la clase jornada:

    N Jornada Cantidad

    1

    2

    Diurna

    Nocturna

    1124

    1131

    En la siguiente fgura se ilustra el anlisis de

    la clase-programa, una variable categrica

    cuya distribucin se observa a continuacin:

    En la siguiente tabla pueden observarse los

    datos estadsticos de la clase-edad, desta-

    cando que fueron tomados de los cuatro pe-

    riodos acadmicos:

    Los datos estadsticos de la clase-programa

    conforman la tabla 7. Cabe resaltar que se to-

    maron de los cuatro periodos acadmicos:

    Tabla 5.Datos estadsticos

    de la clase-edad.

    Tabla 6.Cantidad de

    estudiantes por jornada.

    Tabla 7.Cantidad deestudiantes por programa.

    Edad Valor

    Mnimo

    Mximo

    Promedio

    Desviacin Estndar

    16

    27

    21.514

    3.539

    La fgura 5 ilustra el anlisis de la clase-

    jornada. Esta es una variable categrica:

    Figura 5.Clase-Jornada.

    Figura 7.Clase A0.

    Figura 6.Clase-programa.

    N Programa Cantidad

    1

    2

    3

    4

    5

    6

    7

    Produccin

    Administracin

    Seguridad

    Modas

    Electrnica

    Sistemas

    Diseo grfco

    272

    352

    320

    346

    325

    330

    311

    En la siguiente fgura se ilustra el anlisis de

    la clase A0 correspondiente a la pregunta:

    se encuentra trabajando actualmente?

    En seguida, los datos estadsticos del cuestio-

    namiento A0:

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    7/19

    JOHNPETEARSON ANZOLAANZOLA

    99

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    N A0 Cantidad

    1

    2

    S

    NO

    487

    1768

    Figura 8: clase A1, vive con sus padres?

    Datos estadsticos de la clase A2:Tabla 8.Datos totales

    de la pregunta A0. Tabla 10.Datos totalesde la pregunta A2.

    Tabla 11.Datos totalesde la pregunta A3.

    Tabla 9.Datos totalesde la pregunta A1.

    Figura 8.Clase A1. Figura 10.Clase A3.

    Figura 9.Clase A2.

    Datos estadsticos de la clase A1:

    N A1 Cantidad

    1

    2

    S

    NO

    2109

    146

    En la siguiente fgura se ilustra el anlisis de

    la clase A2, el cual corresponde a la pregunta:tiene hijos?

    N A2 Cantidad

    1

    2

    S

    NO

    163

    2092

    La fgura 10 ilustra la pregunta de la clase

    A3: cuntos hijos tiene? La tabla 11 exponela totalidad de los datos de la clase A3:

    Estadsticas Cantidad

    Mnimo

    Mximo

    Promedio

    Des. Estndar

    0

    2

    0.106

    0.401

    Aplicacin de fltros

    Weka contiene fltros integrados que permi-ten realizar manipulaciones sobre los datosen dos niveles: atributos e instancias. Las ope-raciones de fltrado pueden aplicarse , de manera que cada fltro tome

    como entrada el conjunto de datos resultan-te de uno anterior y guarde los resultados

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    8/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    1010

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    de aplicar ltros en nuevos cheros que

    tambin sern de tipo Attribute-Relation File

    FormatARFF para manipulaciones poste-

    riores [7].

    Filtros de atributos

    A continuacin se indica entre todas las

    posibilidades implementadas la utilizacin

    de ltros para eliminar atributos, discretizar

    atributos numricos y aadir nuevos atribu-

    tos con expresiones segn por la frecuencia

    con la que se realizan estas operaciones.

    Al aplicar el ltro Remove se eliminan los

    atributos correspondientes a id, epistemolo-ga, act_cientifca, clasifcaciones, comunicacin,

    administracin, planeacin, pro_empresa, imp_

    sobrevivencia, espiritualidad, estado_alfa, crea-

    tividad y afectividad. Por tal motivo, slo se

    trabajarn los atributos: p_academico, sexo,

    estrato, edad, jornada, programa, A0, A1, A2,

    A3, cerebro_izq, cerebro_dery cerebro_cen.

    Otro ltro aplicado antes de implementar

    algunos algoritmos que se detallarn pos-

    teriormente es Discretize, el cual transfor-

    ma los atributos numricos seleccionados

    en atributos simblicos con una serie de eti-quetas que resultan tras dividir la amplitud

    total del atributo en intervalos. Por ejemplo,

    una vez empleado este ltro, si se dividen

    los intervalos del cerebro_deren

    cuatro de igual frecuencia, se obtendrn los

    rangos delimitados por (29.5, 32.5, 35.5), des-

    tacando cmo el 31.2 % de los estudiantes

    desarrolla el cerebro izquierdo.

    Visualizacin

    La herramienta de visualizacin de Weka

    se utiliza para representar grcas 2D que

    relacionan pares de atributos. La gura 11 re-

    presenta el rango del atributo cerebro_dercon

    la totalidad de los estudiantes que presenta-

    ron la prueba de admisin en el lapso 2008-

    II 2010-I.

    Figura 11.Filtro de discretizacin (4 Bins).

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    9/19

    JOHNPETEARSON ANZOLAANZOLA

    1111

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    En la fgura 12 se observa la tendencia de

    los estudiantes que desarrollaron el cerebro

    derecho durante los cuatro periodos acad-

    micos:

    A continuacin, en la fgura 13, se compara la

    tendencia de los estudiantes que desarrolla-

    ron el cerebro derecho durante los cuatro

    periodos acadmicos pero sin la aplicacin

    del fltro de discretizacin.

    Figura 12.cerebro_der Vs p_academico.

    Figura 13.Cerebro_der Vs p_academico (sin discretizar).

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    10/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    1212

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    Luego de comparar la fgura 12 con la 13

    puede apreciarse la forma en que los datos

    estn dispersos por cada periodo acadmi-

    co (teniendo una media en 32); mientras que

    en la fgura 12 persiste la misma tendenciapero con una dispersin menos, facilitando,

    as mismo, la caracterizacin de los estudian-

    tes por periodo acadmico.

    A continuacin se observarn algunas ten-

    dencias de los atributos sin discretizar:

    La fgura 14 expone la distribucin de la

    edad frente al atributo del cerebro izquierdo.Al interior del grfco se destaca la pregunta

    A1: vive con sus padres? Los que respondie-

    ron afrmativamente son expuestos en color

    azul; los que contestaron no estn en rojo.

    Figura 14.edad Vs cerebro_izq.

    Figura 15.cerebro_izq Vs cerebro_der.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    11/19

    JOHNPETEARSON ANZOLAANZOLA

    1313

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    En la gura 15 se compara la caracterizacin

    de los individuos que desarrollaron el cere-

    bro izquierdo y el derecho. As mismo, en

    su interior estn distribuidas, en color rojo y

    azul, las personas que tienen hijos.

    En la gura 16 son comparadas la caracteri-

    zaciones de los individuos por programa

    acadmico y cerebro derecho con la distri-

    bucin interna de la pregunta A0: vive con

    sus padres?. Sin embargo, fue aadida la ca-

    racterstica que se discretiz en tres grupos

    (manteniendo la frecuencia). La mayor par-

    te de los individuos se encuentran en la parte

    central.

    Otra etapa de ltrado consiste en la normali-

    zacin, proceso en el cual se dejan todos los

    trminos numricos en un rango de 0 a 1.

    Entonces, el rango de valores se transforma

    en un intervalo determinado (normalmente

    [0,1]) y est dado por [8]:

    Entre tanto, la normalizacin es necesaria

    si se van a aplicar algoritmos de aprendiza-

    je basados en distancias para que todos los

    atributos estn en el mismo rango. Con las

    variables normalizadas pueden estimarse visualmente el estado de las variables y

    su distribucin. Adems, con el n de apli-

    car este ltro de transformacin para usar los

    datos experimentales, su lectura se interpre-

    ta sectorizada y en porcentaje (de esta forma

    se normalizan para eliminar los efectos de las

    fuentes de sesgo). Si la normalizacin se lle-

    va a cabo correctamente, el proceso no alte-

    rar el contenido de los datos; simplemente

    corregir las desviaciones que surgan duran-

    te la de recoleccin de informacin.

    Agrupamiento

    Los algoritmos de agrupamiento buscan gru-

    pos de instancias con caractersticas simila-

    res segn un criterio de comparacin entre

    valores de atributos de las instancias deni-

    dos en los algoritmos.

    Figura 16.P_academico Vs cerebro_der (discretizado con blins en 3).

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    12/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    1414

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    Agrupamiento numrico

    Algoritmo K-Medias::k-means es un mtodo

    de anlisis de conglomerados que apunta a

    la particin de nobservaciones en kgrupos;en la que cada observacin pertenece al gru-

    po ms cercano con la media. Es similar a la

    expectativa de algoritmo de optimizacin de

    mezclas de gaussianas porque ambos inten-

    tan encontrar los centros de las agrupaciones

    naturales en los datos [9].

    Dado un conjunto de observaciones

    , donde cada una es un d-vector

    real dimensin, a continuacin, k-means tiene

    por objeto dividir las n observaciones enseries K (K < N)S =(S

    1, S

    2, S

    3, ..., S

    K)con el fn

    de reducir al mnimo la suma de los cuadra-

    dos:

    Donde es el punto medio en .

    Existen dos versiones del algoritmo k-me-

    dias. La primera es similar al Algoritmo EM

    y se basa en dos pasos iterativos: primero,

    reasigna todos los puntos a sus centros y de-

    ms cercanos; y segundo, vuelve a calcularlos centroides de los nuevos grupos creados

    en el anterior. El proceso contina hasta al-

    canzar un criterio de parada (por ejemplo,

    que no se realicen nuevas reasignaciones).

    Esta versin se conoce como Algoritmo de

    Forgy [10]. Por su parte, la segunda [11] rea-

    signa los puntos basndose en un anlisis

    ms detallado de los efectos causados sobre

    la funcin del objetivo al mover un punto de

    su clustera otro nuevo. Si el traslado es posi-tivo, se realiza, y en caso contrario, se queda

    como est. A diferencia de los anteriores al-

    goritmos (COBWEBy EM, k-medias) ste ne-

    cesita la especifcacin previa del nmero de

    clustersque se desean obtener. La implemen-

    tacin utilizada del Algoritmo de Forgy en el

    trabajo presente tambin es la ofrecida por

    Wekay se aplicar a los siguientes datos:

    Se va a comprobar si el atributop_academico

    divide naturalmente a los alumnos en grupos

    Figura 17. Algoritmo SimpleKMeans, con numCluster = 5.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    13/19

    JOHNPETEARSON ANZOLAANZOLA

    1515

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    Figura 18.Resultados del agrupamiento SimpleKMeans con k = 5.

    similares, para lo cual se seleccionar el algo-

    ritmo SimpleKMeanscon un nmero de clus-

    tersigual a cinco. A continuacin, aparecern

    los cinco grupos de ejemplos ms similares

    y sus centroides (promedios para atributosnumricos y valores ms repetidos en cada

    grupo para atributos simblicos). Por ejem-

    plo, para tres de los cinco clusters, el progra-

    ma ms repetido es TP.Administraciony, para

    los otros dos, son TP.Seguridady TP.Diseno.

    En todos los clusters, el periodo de mayor

    auencia de estudiantes fue el 2010-I. El n-

    mero de instancias agrupadas en cada cluster

    se observa en la gura 17.

    La implementacin de este algoritmo deagrupamiento permiti clasicar los progra-

    mas ms relevantes y sirvi como ltro

    puesto que la primera instancia que se obtu-

    vo en los cinco grupos fue:

    No seleccion el periodo acadmico

    2009-II.

    Los periodos acadmicos en los que se

    agruparon mayor cantidad de hombres

    fueron 2008-II y 2009-I.

    El estrato socioeconmico 1 no fue rele-

    vante en la agrupacin.

    El grupo con mayor edad fue el 1, que

    perteneci al periodo acadmico 2008-II.

    Su promedio fue de 23 aos.

    En la siguiente gura se describen los resulta-dos obtenidos por el algoritmo SimpleKMeans

    en Weka.

    En la gura 19 se encuentra ausente el perio-

    do acadmico 2009-II. Por este motivo slo

    aparecen cuatro grupos.

    El Algoritmo Esperanza-Maximizacin (EM)

    se utiliza en estadstica para encontrar estima-

    dores de mxima verosimilitud de parme-

    tros en modelos probabilsticos que depen-den de variables no observables. Adems,

    alterna pasos de esperanza (E) donde se com-

    puta la

    mediante la inclusin de variables latentes

    como si fueran observables; y un paso de

    maximizacin (M), en el que se computan

    estimadores de mxima verosimilitud de los

    parmetros mediante la maximizacin de la

    verosimilitud esperada de E. Los parmetros

    que se encuentran en M se usan para comen-

    zar el siguiente paso E. De esta forma, el pro-

    ceso se repite [12].

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    14/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    1616

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    Implementando en Weka el algoritmo EM,

    cin N = 5se puede extraer e inferir la siguien-

    te informacin, que se muestra en las guras

    20, 21 y 22:

    La gura 21 se destaca por el Algoritmo EM

    con N = 5 y una desviacin estndar de 1x10-6

    Entonces, se tiene:

    Figura 19.p_academico vs. periodo.

    Figura 20.Algoritmo EM en Weka.

    El grupo dos es el mayor. En l se encuen-

    tra concentrada el 72% de la informacin.

    Cuando los atributos son de tipo num-

    rico, la informacin arrojada se centra

    en el promedio y en la desviacin estn-

    dar. Una caracterstica llamativa es que

    los cinco grupos tienen una predominan-

    cia del cerebro derecho; es decir, que la

    caracterizacin en promedio de toda

    la poblacin est desarrollada en su he-

    misferio derecho.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    15/19

    JOHNPETEARSON ANZOLAANZOLA

    1717

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    Figura 21.Algoritmo

    EM (promedios).

    Figura 22.cerebro_der vs

    p_academico.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    16/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    1818

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    COBWEB[7] es un algoritmo de clusteringje-

    rrquico que se caracteriza por utilizar apren-

    dizaje incremental; en otras palabras, realiza

    las agrupaciones .

    As mismo, durante la ejecucin del algorit-mo se forma un rbol (de clasicacin) en

    el que las hojas representan los segmentos y el

    nodo-raz engloba, por completo, el conjunto

    de datos de entrada.

    En el inicio, el rbol consiste en un nico

    nodo-raz. Luego, las instancias se van aa-

    diendo una a una y el rbol empieza a ac-

    tualizarse en cada paso. La actualizacin,

    a su vez, consiste en encontrar el mejor si-

    tio para incluir la nueva instancia, operacinque puede requerir de la reestructuracin de

    todo el rbol (incluyendo la generacin

    de un nuevo nodo-antrin para la instancia

    y/o la fusin/particin de nodos existentes)

    o simplemente la inclusin de la instancia en

    un nodo existente. La clave para saber cmo

    y dnde se debe actualizar el rbol la propor-

    ciona una medida denominada utilidad de ca-

    tegora, la cual valora la calidad general de

    una particin de instancias en un segmento.

    Por su parte, la reestructuracin que mayor

    utilidad de categora proporciona es la adop-

    tada en ese paso. El algoritmo, adems, es

    muy sensible a otros dos parmetros:

    Acuity: este parmetro es necesario ya que la

    utilidad de categora se basa en una estima-

    cin de la media y la desviacin estndar del

    valor de los atributos. Sin embargo, cuando

    se estima la desviacin estndar del valor deun atributo para un nodo en particular, el re-

    sultado es cero (0) si dicho nodo slo contie-

    ne una instancia. As pues, el parmetro acui-

    tyrepresenta la medida de error de un nodo

    con una sla instancia; es decir, establece la

    varianza mnima de un atributo.

    Cut-off: valor empleado para evitar el creci-

    miento desmesurado del nmero de segmen-tos. Indica el grado de mejora que se debe

    producir en la utilidad de categora para que

    la instancia sea tenida en cuenta de manera

    individual.

    En otras palabras, cuando el incremento de

    la utilidad de categora no es suciente al

    aadir un nuevo nodo, ste se corta conte-

    niendo la instancia de otro ya existente.

    Adems, COBWEBpertenece a los mtodosde aprendizaje conceptuales o basados en

    modelos. Esto signica que cada cluster, ms

    que un ente formado por una coleccin de

    puntos, es considerado un modelo que pue-

    de describirse intrnsecamente. Al algoritmo

    COBWEBno hay que proporcionarle el n-

    mero exacto de clusters deseados, pues en

    base a los parmetros mencionados encuen-

    tra el nmero ptimo. La implementacin

    utilizada en este trabajo es la adoptada por el

    algoritmo implementado en Weka.

    Aplicando el algoritmo de COBWEBen Weka,

    con los parmetros por defecto y solamente a

    los siguientes atributos:

    Sexo.

    Estrato.

    Programa.

    Cerebro_izq

    Cerebro_der

    Cerebro_cen

    Entonces, el programa arroja los resultados

    mostrados en la gura 23 y en la visualiza-

    cin del rbol en la gura 24.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    17/19

    JOHNPETEARSON ANZOLAANZOLA

    1919

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    Figura 23.AlgoritmoCOWEB en Weka.

    Figura 24.rbolAlgoritmo COWEB.

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    18/19

    ANLISISDECOCIENTETRID ICOPARAPROCESOSDEADMISINDEESTUDIANTESENLAFUNDACININSUTECMEDIANTEMINERADEDATOS

    2020

    I + D I N V E S T I G A C I N Y D E S A R R O L L O

    Conclusiones

    La aplicacin del proceso de KDD posibili-t determinar la existencia de un alto grado

    de homogeneidad en la poblacin estudiantilpromedio que integra la Fundacin Insutec.As mismo, mediante el anlisis por cluster,se identic el estilo dominante de la pobla-cin: en el 72% predomina el uso del lbuloderecho. Este resultado se comprob apli-cando el Algoritmo EM.

    Por otra parte, en este trabajo tambin seplantearon lineamientos generales para ade-cuar las pruebas de admisin y seleccin del

    programa acadmico respecto al estilo domi-nante que caracteriza a la poblacin de estu-diantes. Cabe resaltar que dichos lineamien-tos debern ser particularizados dentro delmarco de cada programa acadmico.

    El algoritmo COBWEB, perteneciente a lafamilia clustering jerrquico, no result ade-cuado para la segmentacin de los datos tra-bajados en este artculo; tiende a agrupara la mayora en un slo segmento, accinpoco efectiva si se pretende la mejora en laestimacin de la caracterizacin estudiantil.No obstante, EMy k-mediasalgoritmos departicionado y recolocacin ofrecen me-jores resultados que COBWEB, pues indi-can tareas de segmentacin y clasicacin

    en estudiantes, ya sea por programa acad-mico, tendencia cerebral o caracterizacinsocioeconmica.

    Luego de comparar EMcon k-mediaspudie-ron apreciarse varias diferencias entre sussegmentos: k-mediasagrupa en un slo clus-ter los mismos programas acadmicos queEM divide en varios; es decir, EM realizauna divisin ms especca que k-medias. En-tonces EM, siendo un algoritmo que realizaclustering probabilstico, es ms adecuado quek-mediaspara segmentar poblaciones de datos

    que se distribuyen normalmente. Lo anteriorcon el n de mejorar la estimacin de los pro-medios poblacionales de cada clase.

    Referencias

    [1] Felder, R.M. y Silverman, L.K. (1988),Learning Styles and Teaching Styles inEngineering Education, en Engr. Edu-cation, vol. 78, nm. 7, pp. 674-681.

    [2] Durn E. y Costaguta R. (2007), Mine-ra de Datos para Descubrir Estilos deAprendizaje, en Revista Iberoamericanade Educacin, VOL. NM. PP.

    [3] Felder, F.M. y Soloman, B.A. (1991), In-

    dex of Learning Styles.North CarolinaState University.Disponibleon-line, [enlnea], disponible en:

  • 7/25/2019 Anlisis de cociente tridico para procesos de admisin de estudiantes en la fundacin Insutec mediante minera d

    19/19

    2121

    L O S

    J U L I O - D I C I E M B R E D E 2 0 1 0

    V O L U M E N 7 N M E R O 2

    UCNV

    [10] Garre, M., et. al. (2007), Comparacin

    de diferentes algoritmos de clustering

    en la estimacin de coste en el desarro-

    llo de software, en Revista Espaola de

    Innovacin, Calidad e Ingeniera de Soft-ware, vol. 3, nm. 1, pp. 18854486.

    [11] Duda, R. Hart, P., Pattern Classifca-

    tion and Scene Analysis, Wiley & Sons,

    1973.

    [12] Gmez Garca, J.; PalareaAlbaladejo, J.

    y Martn Fernndez, J.A. (2006). Mto-

    dos de Inferencia Estadstica con datos fal-

    tantes, en Estadstica espaola, vol. 48,

    pp. 240 -275.