mineria de datos tecnicas predictivas de...

20
MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 1 MINERÍA DE DATOS – TÉCNICAS PREDICTIVAS DE MODELIZACIÓN TÉCNICAS DE MINERÍA DE DATOS. TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN. MODELO DE REGRESIÓN MÚLTIPLE. MODELOS DE ELECCIÓN DISCRETA. CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 2 TÉCNICAS DE MINERÍA DE DATOS MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 3 TÉCNICAS DE MINERÍA DE DATOS LA FASE DE TÉCNICAS DE MINERÍA DE DATOS PROPIAMENTE DICHAS ENGLOBA: TÉCNICAS PREDICTIVAS ENFOCADAS A LA MODELIZACIÓN Y CLASIFICACIÓN AD HOC. TÉCNICAS DESCRIPTIVAS ENFOCADAS GENERALMENTE A LA CLASIFICACIÓN POST HOC Y OTRO TIPO DE TÉCNICAS VARIADAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 4 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS PREDICTIVAS: ESPECIFICAN EL MODELO PARA LOS DATOS EN BASE A UN CONOCIMIENTO TEÓRICO PREVIO. EL MODELO SUPUESTO DEBE CONTRASTARSE DESPUÉS DEL PROCESO DE MINERÍA DE DATOS ANTES DE ACEPTARLO COMO VÁLIDO. INCLUYEN TODOS LOS TIPOS DE: REGRESIÓN. SERIES TEMPORALES. ANÁLISIS DE LA VARIANZA Y COVARIANZA. ANÁLISIS DISCRIMINANTE. ÁRBOLES DE DECISIÓN. REDES NEURONALES. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 5 TÉCNICAS DE MINERÍA DE DATOS TÉCNICAS PREDICTIVAS: LOS ÁRBOLES DE DECISIÓN, LAS REDES NEURONALES Y EL ANÁLISIS DISCRIMINANTE SON A SU VEZ TÉCNICAS DE CLASIFICACIÓN: PUEDEN EXTRAER PERFILES DE COMPORTAMIENTO O CLASES, SIENDO EL OBJETIVO CONSTRUIR UN MODELO QUE PERMITA CLASIFICAR CUALQUIER NUEVO DATO. LOS ÁRBOLES DE DECISIÓN PERMITEN CLASIFICAR LOS DATOS EN GRUPOS BASADOS EN LOS VALORES DE LAS VARIABLES: EL MECANISMO CONSISTE EN ELEGIR UN ATRIBUTO COMO RAÍZ Y DESARROLLAR EL ÁRBOL SEGÚN LAS VARIABLES MÁS SIGNIFICATIVAS. MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 6 TÉCNICAS DE MINERÍA DE DATOS EJEMPLOS PREDICTIVOS: INTERPOLACIÓN: PREDICCIÓN SECUENCIAL: 1, 2, 3, 5, 7, 11, 13, 17, 19, ... ?. APRENDIZAJE SUPERVISADO: 13 4. 35 8. 72 9. 42 ?.

Upload: dangliem

Post on 05-Feb-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 1

MINERÍA DE DATOS – TÉCNICAS PREDICTIVAS DE MODELIZACIÓN� TÉCNICAS DE MINERÍA DE DATOS.

� TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN.

� MODELO DE REGRESIÓN MÚLTIPLE.

� MODELOS DE ELECCIÓN DISCRETA.

� CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 2

TÉCNICAS DE MINERÍA DE DATOS

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 3

TÉCNICAS DE MINERÍA DE DATOS

� LA FASE DE TÉCNICAS DE MINERÍA DE DATOS PROPIAMENTEDICHAS ENGLOBA:

� TÉCNICAS PREDICTIVAS ENFOCADAS A LA MODELIZACIÓNY CLASIFICACIÓN AD HOC.

� TÉCNICAS DESCRIPTIVAS ENFOCADAS GENERALMENTE ALA CLASIFICACIÓN POST HOC Y OTRO TIPO DE TÉCNICASVARIADAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 4

TÉCNICAS DE MINERÍA DE DATOS

� TÉCNICAS PREDICTIVAS:

� ESPECIFICAN EL MODELO PARA LOS DATOS EN BASE A UNCONOCIMIENTO TEÓRICO PREVIO.

� EL MODELO SUPUESTO DEBE CONTRASTARSE DESPUÉS DELPROCESO DE MINERÍA DE DATOS ANTES DE ACEPTARLOCOMO VÁLIDO.

� INCLUYEN TODOS LOS TIPOS DE:

� REGRESIÓN.

� SERIES TEMPORALES.

� ANÁLISIS DE LA VARIANZA Y COVARIANZA.

� ANÁLISIS DISCRIMINANTE.

� ÁRBOLES DE DECISIÓN.

� REDES NEURONALES.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 5

TÉCNICAS DE MINERÍA DE DATOS

� TÉCNICAS PREDICTIVAS:

� LOS ÁRBOLES DE DECISIÓN, LAS REDES NEURONALES Y ELANÁLISIS DISCRIMINANTE SON A SU VEZ TÉCNICAS DECLASIFICACIÓN:

� PUEDEN EXTRAER PERFILES DE COMPORTAMIENTO OCLASES, SIENDO EL OBJETIVO CONSTRUIR UN MODELOQUE PERMITA CLASIFICAR CUALQUIER NUEVO DATO.

� LOS ÁRBOLES DE DECISIÓN PERMITEN CLASIFICAR LOSDATOS EN GRUPOS BASADOS EN LOS VALORES DE LASVARIABLES:

� EL MECANISMO CONSISTE EN ELEGIR UN ATRIBUTOCOMO RAÍZ Y DESARROLLAR EL ÁRBOL SEGÚN LASVARIABLES MÁS SIGNIFICATIVAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 6

TÉCNICAS DE MINERÍA DE DATOS

� EJEMPLOS PREDICTIVOS:� INTERPOLACIÓN:

� PREDICCIÓN SECUENCIAL:• 1, 2, 3, 5, 7, 11, 13, 17, 19, ... ?.

� APRENDIZAJE SUPERVISADO:• 1 3 → 4.• 3 5 → 8.• 7 2 → 9.• 4 2 → ?.

Page 2: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 7

TÉCNICAS DE MINERÍA DE DATOS

� TÉCNICAS DESCRIPTIVAS:

� NO SE ASIGNA NINGÚN PAPEL PREDETERMINADO A LASVARIABLES.

� NO SE SUPONE LA EXISTENCIA DE VARIABLES DEPENDIENTESNI INDEPENDIENTES Y TAMPOCO SE SUPONE LA EXISTENCIADE UN MODELO PREVIO PARA LOS DATOS.

� LOS MODELOS SE CREAN AUTOMÁTICAMENTE PARTIENDODEL RECONOCIMIENTO DE PATRONES.

� INCLUYEN:

� CLUSTERING Y SEGMENTACIÓN (QUE TAMBIÉN SONTÉCNICAS DE CLASIFICACIÓN EN CIERTO MODO).

� ASOCIACIÓN Y DEPENDENCIA.

� ANÁLISIS EXPLORATORIO DE DATOS.

� REDUCCIÓN DE LA DIMENSIÓN FACTORIAL,COMPONENTES PRINCIPALES, CORRESPONDENCIAS,ETC.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 8

TÉCNICAS DE MINERÍA DE DATOS

� EJEMPLOS DESCRIPTIVOS:

� SEGMENTACIÓN (APRENDIZAJE NO SUPERVISADO):

• ¿CUÁNTOS GRUPOS HAY?.

• ¿QUÉ GRUPOS FORMO?.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 9

TÉCNICAS DE MINERÍA DE DATOS

Técnicas de minería

Predictivas

Descriptivas

Modelización

Clasificación ad hoc

Clasificación post hoc

Asociación

Dependencia

Reducción de la dimensión

Análisis exploratorio

Regresión

Análisis de la varianza

Análisis canónico

Redes Neuronales

Discriminante

Árboles de decisión

Clustering

Segmentación

Modelos de elección discreta

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 10

TÉCNICAS DE MINERÍA DE DATOS

� LAS TÉCNICAS DE CLASIFICACIÓN PUEDEN PERTENECER:

� AL GRUPO DE TÉCNICAS PREDICTIVAS: DISCRIMINANTE,ÁRBOLES DE DECISIÓN Y REDES NEURONALES.

� AL GRUPO DE TÉCNICAS DESCRIPTIVAS: CLUSTERING YSEGMENTACIÓN.

� LAS TÉCNICAS DE CLASIFICACIÓN PREDICTIVAS SUELENDENOMINARSE TÉCNICAS DE CLASIFICACIÓN AD HOC:

� CLASIFICAN INDIVIDUOS U OBSERVACIONES DENTRO DEGRUPOS PREVIAMENTE DEFINIDOS.

� LAS TÉCNICAS DE CLASIFICACIÓN DESCRIPTIVAS SEDENOMINAN TÉCNICAS DE CLASIFICACIÓN POST HOC:

� REALIZAN CLASIFICACIÓN SIN ESPECIFICACIÓN PREVIA DELOS GRUPOS.

� LAS REDES NEURONALES PUEDEN UTILIZARSE TANTO PARA LAMODELIZACIÓN COMO PARA LA CLASIFICACIÓN.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 11

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 12

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� REVISIÓN DE CONCEPTOS PREVIOS

� VARIANZA

� SI SE TIENE UN CONJUNTO DE DATOS DE UNA MISMA VARIABLE,LA VARIANZA SE CALCULA DE LA SIGUIENTE FORMA:

� : CADA DATO.

� n: N° DE ELEMENTOS.

� : MEDIA ARITMÉTICA DE LOS DATOS.

Page 3: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 13

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� REVISIÓN DE CONCEPTOS PREVIOS

� COVARIANZA

� PARA HACER EL ESTUDIO CONJUNTO DE LAS VARIABLESCUANTITATIVAS X E Y, SE SUPONE QUE SE DISPONE DE UNAMUESTRA DE n PARES DE OBSERVACIONES DE X E Y:

� LA COVARIANZA MUESTRAL ENTRE LAS OBSERVACIONES DE X EY SE DEFINE COMO:

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 14

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� REVISIÓN DE CONCEPTOS PREVIOS

� MODELO DE REGRESIÓN LINEAL

� LA RECTA DE REGRESIÓN DE Y SOBRE X ES LA RECTA y = a + bxQUE MINIMIZA EL ERROR CUADRÁTICO MEDIO (E.C.M.):

� EL COEFICIENTE DE CORRELACIÓN LINEAL ENTRE X E Y SEDEFINE COMO:

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 15

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� REVISIÓN DE CONCEPTOS PREVIOS

� COEFICIENTE DE CORRELACIÓN PARCIAL

� ES LA RELACIÓN ENTRE DOS VARIABLES CUANDO SE HAELIMINADO DE CADA UNA DE ELLAS EL EFECTO QUE SOBREELLAS TIENE UNA TERCERA VARIABLE:

� X , Y SON LAS VARIABLES OBJETO DEL ESTUDIO.

� Z ES LA VARIABLE DE CONTROL.

� CONSISTE EN ESTUDIAR LAS CORRELACIONES YCOMBINARLAS:

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 16

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� TÉCNICAS PARA LA MODELIZACIÓN

� LA CLASIFICACIÓN DE LAS TÉCNICAS DISCRIMINA ENTRE LAEXISTENCIA O NO DE VARIABLES EXPLICATIVAS YEXPLICADAS.

� TÉCNICAS PREDICTIVAS O MÉTODOS EXPLICATIVOS:

� EXISTE UNA DEPENDENCIA ENTRE LAS VARIABLESEXPLICADAS Y SUS VARIABLES EXPLICATIVAS, QUE PUEDAPLASMARSE EN UN MODELO.

� ESTAS TÉCNICAS DE ANÁLISIS DE LA DEPENDENCIA:

� PUEDEN CLASIFICARSE EN FUNCIÓN DE LA NATURALEZAMÉTRICA O NO MÉTRICA DE LAS VARIABLESINDEPENDIENTES Y DEPENDIENTES.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 17

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN

VARIABLE DEPENDIENTE

No métricas

ANOVAANCOVA

Regresión linealcon

variables ficticias

VARIABLES INDEPENDIENTES

Métricas

VARIABLE DEPENDIENTE

MANOVAMANCOVA

Análisis Discriminante

Modelos de elección discreta

Modelos de eleccióndiscreta con

variables ficticias

Análisis canónico

Regresión lineal

múltiple

Métrica No métrica

Simple MúltipleSimple Múltiple

Métrica No métrica

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 18

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL ANÁLISIS DE REGRESIÓN MÚLTIPLE:

� ES UTILIZADO PARA ANALIZAR LA RELACIÓN ENTRE:

� UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA.

� VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS)TAMBIÉN MÉTRICAS.

� EL OBJETIVO ESENCIAL ES UTILIZAR LAS VARIABLESINDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARAPREDECIR LA ÚNICA VARIABLE CRITERIO (DEPENDIENTE)SELECCIONADA POR EL INVESTIGADOR.

� LA EXPRESIÓN ES LA SIGUIENTE:

� y = F(x1, x2,…, xn)

� DONDE INICIALMENTE, TANTO LA VARIABLE DEPENDIENTE y

COMO LAS INDEPENDIENTES xi SON MÉTRICAS.

Page 4: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 19

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� TAMBIÉN SE PUEDE TRABAJAR CON VARIABLES

INDEPENDIENTES NO MÉTRICAS SI SE EMPLEAN VARIABLESFICTICIAS PARA SU TRANSFORMACIÓN EN MÉTRICAS:

� MODELOS DE REGRESIÓN CON VARIABLES FICTICIAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 20

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL ANÁLISIS CANÓNICO O ANÁLISIS DE LA CORRELACIÓN

CANÓNICA:

� ES UNA TÉCNICA PARA ANALIZAR LA RELACIÓN ENTREMÚLTIPLES VARIABLES DEPENDIENTES (O ENDÓGENAS)MÉTRICAS Y VARIAS VARIABLES INDEPENDIENTES (OEXÓGENAS) TAMBIÉN MÉTRICAS.

� EL OBJETIVO ESENCIAL ES UTILIZAR LAS VARIABLESINDEPENDIENTES, CUYOS VALORES SON CONOCIDOS, PARAPREDECIR LAS VARIABLES CRITERIO (DEPENDIENTES).

� LA EXPRESIÓN ES LA SIGUIENTE:

� G(y1, y2,…, yn) = F(x1, x2,…, xn)

� DONDE INICIALMENTE, TANTO LAS VARIABLESDEPENDIENTES yi COMO LAS INDEPENDIENTES xi SONMÉTRICAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 21

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� ES UNA AMPLIACIÓN DEL MODELO DE REGRESIÓN MÚLTIPLE AL

CASO DE VARIAS VARIABLES DEPENDIENTES.

� TAMBIÉN PUEDE EXTENDERSE AL CASO DE VARIABLESDEPENDIENTES NO MÉTRICAS Y AL CASO DE VARIABLESINDEPENDIENTES NO MÉTRICAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 22

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL ANÁLISIS DISCRIMINANTE:

� SE USA PARA ANALIZAR LA RELACIÓN ENTRE UNAVARIABLE DEPENDIENTE (O ENDÓGENA) NO MÉTRICA(CATEGÓRICA) Y VARIAS VARIABLES INDEPENDIENTES (OEXÓGENAS) MÉTRICAS.

� EL OBJETIVO ES UTILIZAR LOS VALORES CONOCIDOS DE LASVARIABLES INDEPENDIENTES PARA PREDECIR CON QUÉCATEGORÍA DE LA VARIABLE DEPENDIENTE SECORRESPONDEN.

� SE PUEDE PREDECIR EN QUÉ CATEGORÍA DE RIESGOCREDITICIO SE ENCUENTRA UNA PERSONA, EL ÉXITO DE UNPRODUCTO EN EL MERCADO, ETC.

� LA EXPRESIÓN ES:

� y = F(x1, x2,…, xn)

� DONDE y (DEPENDIENTE) ES NO MÉTRICA Y LAS VARIABLESINDEPENDIENTES SON MÉTRICAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 23

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� ES UN CASO PARTICULAR DEL ANÁLISIS DE REGRESIÓN

MÚLTIPLE.

� ES UNA TÉCNICA DE CLASIFICACIÓN QUE PERMITE:

� AGRUPAR A LOS ELEMENTOS DE UNA MUESTRA EN DOS OMÁS CATEGORÍAS DIFERENTES, PREDEFINIDAS EN UNAVARIABLE DEPENDIENTE NO MÉTRICA, EN FUNCIÓN DE UNASERIE DE VARIABLES INDEPENDIENTES MÉTRICASCOMBINADAS LINEALMENTE.

� PARA VALORES DADOS DE LAS VARIABLES INDEPENDIENTES SEDEBE PREDECIR LA PROBABILIDAD DE PERTENENCIA A UNACATEGORÍA O CLASE DE LA VARIABLE DEPENDIENTE:

� EJEMPLO: SEGÚN ALGUNAS VARIABLES MEDIDAS EN ELINDIVIDUO, PREDECIR LA PROBABILIDAD DE QUE:

� UN INDIVIDUO COMPRE UN PRODUCTO.

� UN INDIVIDUO DEVUELVA UN CRÉDITO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 24

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� MODELOS DE ELECCIÓN DISCRETA:

� TIENEN LA MISMA NATURALEZA QUE EL MODELODISCRIMINANTE.

� SE PREDICE LA PROBABILIDAD DE PERTENENCIA A UNACATEGORÍA (CLASE) PARA VALORES DADOS DE LASVARIABLES DEPENDIENTES.

� PREDICEN DIRECTAMENTE LA PROBABILIDAD DEOCURRENCIA DE UN SUCESO QUE VIENE DEFINIDO POR LOSVALORES DE LAS VARIABLES INDEPENDIENTES.

Page 5: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 25

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� UN CASO PARTICULAR DEL MODELO DE REGRESIÓN MÚLTIPLE ES

EL MODELO LINEAL DE PROBABILIDAD:

� Pi = F(xi, β) + ui

� SI F ES LA FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLEALEATORIA, ENTONCES P VARÍA ENTRE 0 Y 1.

� SI F ES LA FUNCIÓN LOGÍSTICA SE TIENE EL MODELO LOGIT OREGRESIÓN LOGÍSTICA:

� SI F ES LA FUNCIÓN DE DISTRIBUCIÓN DE UNA NORMALUNITARIA SE TIENE EL MODELO PROBIT:

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 26

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL ANÁLISIS DE LA VARIANZA SIMPLE SE UTILIZA PARA

ANALIZAR LA RELACIÓN ENTRE:

� UNA VARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y

� VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) NOMÉTRICAS.

� EL OBJETIVO ES DETERMINAR SI DIVERSAS MUESTRASPROCEDEN DE POBLACIONES CON IGUAL MEDIA.

� LOS VALORES NO MÉTRICOS DE LAS VARIABLESINDEPENDIENTES DETERMINARÁN UNA SERIE DE GRUPOS ENLA VARIABLE DEPENDIENTE.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 27

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL MODELO ANOVA MIDE LA SIGNIFICACIÓN ESTADÍSTICA DE

LAS DIFERENCIAS ENTRE LAS MEDIAS DE LOS GRUPOSDETERMINADOS EN LA VARIABLE DEPENDIENTE POR LOSVALORES DE LAS VARIABLES INDEPENDIENTES:

� y = F(x1, x2,…, xn)

� DONDE LA VARIABLE DEPENDIENTE y ES MÉTRICA Y LASVARIABLES INDEPENDIENTES SON NO MÉTRICAS.

� SE TRATA POR TANTO DE OTRO CASO PARTICULAR DELMODELO DE REGRESIÓN MÚLTIPLE.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 28

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL ANÁLISIS DE LA COVARIANZA SIMPLE ES UNA TÉCNICA

UTILIZADA PARA ANALIZAR LA RELACIÓN ENTRE UNAVARIABLE DEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIASVARIABLES INDEPENDIENTES (O EXÓGENAS), PARTE DE LASCUALES SON NO MÉTRICAS, SIENDO LA OTRA PARTE MÉTRICAS(COVARIABLES):

� y = F(x1, x2,…, xn)

� DONDE LA VARIABLE DEPENDIENTE y ES MÉTRICA Y LASVARIABLES INDEPENDIENTES SON ALGUNAS MÉTRICAS YOTRAS NO MÉTRICAS.

� ES OTRO CASO PARTICULAR DEL MODELO DE REGRESIÓNMÚLTIPLE.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 29

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL ANÁLISIS DE LA VARIANZA MÚLTIPLE ES UNA TÉCNICA

UTILIZADA PARA ANALIZAR LA RELACIÓN ENTRE:

� VARIAS VARIABLES DEPENDIENTES (O ENDÓGENAS)MÉTRICAS Y

� VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS) NOMÉTRICAS.

� EL OBJETIVO ES CONTRASTAR SI LOS VALORES NO MÉTRICOSDE LAS VARIABLES INDEPENDIENTES DETERMINARÁN LAIGUALDAD DE VECTORES DE MEDIAS DE UNA SERIE DE GRUPOSDETERMINADOS POR ELLOS EN LAS VARIABLES DEPENDIENTES.

� EL MODELO MANOVA MIDE LA SIGNIFICACIÓN ESTADÍSTICADE LAS DIFERENCIAS ENTRE LOS VECTORES DE MEDIAS DE LOSGRUPOS DETERMINADOS EN LAS VARIABLES DEPENDIENTESPOR LOS VALORES DE LAS VARIABLES INDEPENDIENTES.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 30

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� LA EXPRESIÓN ES:

� G(y1, y2,…, ym) = F(x1, x2,…, xn)

� DONDE LAS VARIABLES DEPENDIENTES SON MÉTRICAS YLAS VARIABLES INDEPENDIENTES SON NO MÉTRICAS.

� ES OTRO CASO PARTICULAR DE LA REGRESIÓN MÚLTIPLE.

Page 6: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 31

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL ANÁLISIS DE LA COVARIANZA MÚLTIPLE SE USA PARA

ANALIZAR LA RELACIÓN ENTRE:

� VARIAS VARIABLES DEPENDIENTES (O ENDÓGENAS)MÉTRICAS Y

� VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS)MEZCLA DE VARIABLES MÉTRICAS Y NO MÉTRICAS.

� LA EXPRESIÓN ES:

� G(y1, y2,…, ym) = F(x1, x2,…, xn)

� DONDE LAS VARIABLES DEPENDIENTES SON MÉTRICAS YLAS VARIABLES INDEPENDIENTES SON UNA PARTEMÉTRICAS Y OTRA PARTE NO MÉTRICAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 32

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EN EL ANÁLISIS DE LA COVARIANZA (SIMPLE Y MÚLTIPLE):

� LAS VARIABLES MÉTRICAS INDEPENDIENTES(COVARIABLES) TIENEN COMO OBJETIVO ELIMINARDETERMINADOS EFECTOS QUE PUEDAN SESGAR LOSRESULTADOS INCREMENTANDO LA VARIANZA DENTRO DELOS GRUPOS:

� ELIMINAR, MEDIANTE UNA REGRESIÓN LINEAL, LAVARIACIÓN EXPERIMENTADA POR LAS VARIABLESDEPENDIENTES PRODUCIDA POR LA COVARIABLE OCOVARIABLES DE EFECTOS INDESEADOS.

� HACER UN ANÁLISIS ANOVA O MANOVA SOBRE LASVARIABLES DEPENDIENTES AJUSTADAS (RESIDUOS DELA REGRESIÓN ANTERIOR).

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 33

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� LA REGRESIÓN MÚLTIPLE ADMITE LA POSIBILIDAD DE

TRABAJAR CON VARIABLES INDEPENDIENTES NO MÉTRICAS SISE EMPLEAN VARIABLES FICTICIAS PARA SU TRANSFORMACIÓNEN MÉTRICAS:

� A CADA CLASE DE LA VARIABLE NO MÉTRICA SE LE ASIGNAUN VALOR NUMÉRICO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 34

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� EL MODELO DE REGRESIÓN MÚLTIPLE CON VARIABLES

FICTICIAS:

� ES SIMILAR AL ANÁLISIS DE LA REGRESIÓN MÚLTIPLE.

� LA DIFERENCIA ES QUE LAS VARIABLES INDEPENDIENTESPUEDEN SER TAMBIÉN NO MÉTRICAS.

� SE USA PARA ANALIZAR LA RELACIÓN ENTRE UNA VARIABLEDEPENDIENTE (O ENDÓGENA) MÉTRICA Y VARIAS VARIABLESINDEPENDIENTES (O EXÓGENAS) MÉTRICAS, NO MÉTRICAS OMEZCLA DE AMBAS.

� EL OBJETIVO ES UTILIZAR LAS VARIABLES INDEPENDIENTES,CUYOS VALORES SON CONOCIDOS, PARA PREDECIR LA ÚNICAVARIABLE CRITERIO (DEPENDIENTE).

� LA EXPRESIÓN ES:

� y = F(x1, x2,…, xn)

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 35

TÉCNICAS PREDICTIVAS PARA LA MODELIZACIÓN� MÉTODOS DEL ANÁLISIS MULTIVARIANTE DE LA

DEPENDENCIA, SEGÚN LA NATURALEZA DE SUS VARIABLESDEPENDIENTES E INDEPENDIENTES:

TÉCNICA VARIABLES DEPENDIENTES

VARIABLES INDEPENDIENTES

ANOVA Y MANOVA Métrica (métricas) No métricas

ANCOVA Y MANCOVA Métrica (métricas) Métricas y no métricas

REGRESIÓN MÚLTIPLE Métrica Métricas

REGRESIÓN MÚLTIPLE (VARIABLES FICTICIAS)

Métrica Métricas y no métricas

CORRELACIÓN CANÓNICA Métricas y no métricas Métricas y no métricas

ELECCIÓN DISCRETA No métrica Métricas

ELECCIÓN DISCRETA(VARIABLES FICTICIAS)

No métrica Métricas y no métricas

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 36

MODELO DE REGRESIÓN MÚLTIPLE

Page 7: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 37

MODELO DE REGRESIÓN MÚLTIPLE

� LA REGRESIÓN MÚLTIPLE TIENE COMO OBJETIVO ANALIZARUN MODELO QUE PRETENDE EXPLICAR EL COMPORTAMIENTODE UNA VARIABLE (ENDÓGENA, EXPLICADA O DEPENDIENTE),Y, UTILIZANDO UN CONJUNTO DE VARIABLES EXPLICATIVAS(EXÓGENAS O INDEPENDIENTES), X1, X2,…, XK.

� EL MODELO LINEAL (MODELO ECONOMÉTRICO) VIENE DADOPOR:

� Y = b0 +b1X1+ b2X2+…+ bkXk + u

� LOS COEFICIENTES (PARÁMETROS) b1, b2,…, bk DENOTAN LAMAGNITUD DEL EFECTO QUE LAS VARIABLES EXPLICATIVAS(EXÓGENAS O INDEPENDIENTES) X1, X2,…, XK TIENEN SOBRE LAVARIABLE EXPLICADA (ENDÓGENA O DEPENDIENTE) Y.

� EL COEFICIENTE b0 SE DENOMINA TÉRMINO CONSTANTE (OINDEPENDIENTE) DEL MODELO.

� EL TÉRMINO u SE DENOMINA TÉRMINO DE ERROR DEL MODELO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 38

MODELO DE REGRESIÓN MÚLTIPLE

� SI SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARAC/U DE LAS VARIABLES ENDÓGENA Y EXÓGENAS, EL MODELO SEESCRIBE DE LA FORMA:

� Yt = b0 +b1X1t+ b2X2t+…+ bkXkt + ut t=1,2,3,…,T

� LA APARICIÓN (NO NECESARIA) DE UN TÉRMINOINDEPENDIENTE EN EL MODELO PUEDE INTERPRETARSE COMOLA PRESENCIA DE UNA PRIMERA VARIABLE X0 CUYO VALORSEA SIEMPRE 1.

� PROBLEMA FUNDAMENTAL: SUPONIENDO QUE LA RELACIÓNENTRE LA VARIABLE Y Y EL CONJUNTO DE VARIABLES X1, X2,…,XK ES COMO SE HA DESCRITO EN EL MODELO, Y QUE SE DISPONEDE UN CONJUNTO DE T OBSERVACIONES PARA C/U DE LASVARIABLES, LA ENDÓGENA Y LAS EXÓGENAS, ¿CÓMO PUEDENASIGNARSE VALORES NUMÉRICOS A LOS PARÁMETROS b0, b1,

b2,…, bk, BASÁNDONOS EN LA INFORMACIÓN MUESTRAL?:

� ESTOS VALORES SE LLAMARÁN ESTIMACIONES DE LOSPARÁMETROS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 39

MODELO DE REGRESIÓN MÚLTIPLE

� UNA VEZ ENCONTRADAS LAS ESTIMACIONES DE LOSPARÁMETROS DEL MODELO:

� SE PODRÁ HACER PREDICCIONES ACERCA DELCOMPORTAMIENTO FUTURO DE LA VARIABLE Y.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 40

MODELO DE REGRESIÓN MÚLTIPLE� EL MODELO LINEAL SE FORMULA BAJO LAS SIGUIENTES

HIPÓTESIS:

� LAS VARIABLES ��, ��, … , �� , SON DETERMINISTAS (NO SONVARIABLES ALEATORIAS), YA QUE SU VALOR ES UN VALORCONSTANTE PROVENIENTE DE UNA MUESTRA TOMADA.

� LA VARIABLE u (TÉRMINO DE ERROR) ES UNA VARIABLEALEATORIA CON ESPERANZA NULA Y MATRIZ DECOVARIANZAS CONSTANTE Y DIAGONAL (MATRIZ ESCALAR):

� PARA TODO t, LA VARIABLE ut, TIENE MEDIA CERO YVARIANZA σ

� NO DEPENDIENTE DE t, Y ADEMÁSCov( �� , � )=0 PARA TODO i Y PARA TODO j DISTINTOSENTRE SÍ:

• EL HECHO DE QUE LA VARIANZA DE � SEACONSTANTE PARA TODO t (QUE NO DEPENDA DE t), SEDENOMINA HIPÓTESIS DE HOMOSCEDASTICIDAD.

• EL HECHO DE QUE Cov(�� , �)=0 PARA TODO i DISTINTODE j SE DENOMINA HIPÓTESIS DE NOAUTOCORRELACIÓN.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 41

MODELO DE REGRESIÓN MÚLTIPLE

� LA VARIABLE Y ES ALEATORIA, YA QUE DEPENDE DE LAVARIABLE ALEATORIA u.

� SE SUPONE LA AUSENCIA DE ERRORES DE ESPECIFICACIÓN:

� SE SUPONE QUE TODAS LAS VARIABLES X QUE SONRELEVANTES PARA LA EXPLICACIÓN DE LA VARIABLE Y,ESTÁN INCLUIDAS EN LA DEFINICIÓN DEL MODELO LINEAL.

� LAS VARIABLES X1, X2,…, XK, SON LINEALMENTEINDEPENDIENTES:

� NO EXISTE RELACIÓN LINEAL EXACTA ENTRE ELLAS:

� HIPÓTESIS DE INDEPENDENCIA.

� CUANDO NO SE CUMPLE EL MODELO PRESENTAMULTICOLINEALIDAD.

� A VECES SE CONSIDERA LA HIPÓTESIS DE NORMALIDAD DE LOSRESIDUOS:

� LAS VARIABLES ut , SON NORMALES PARA TODO t.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 42

MODELO DE REGRESIÓN MÚLTIPLE

� ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE

� SE SUPONE QUE SE QUIERE AJUSTAR EL MODELO DEREGRESIÓN LINEAL MÚLTIPLE:

� Y = b0 +b1X1+ b2X2+…+ bkXk + u

� SE DISPONE DE UN CONJUNTO DE T OBSERVACIONES PARACADA UNA DE LAS VARIABLES ENDÓGENA Y EXÓGENAS.

� EL MODELO ES:

� Yt = b0 +b1X1t+ b2X2t+…+ bkXkt + ut t=1,2,3,…,T

� LA APARICIÓN (NO NECESARIA) DE UN TÉRMINOINDEPENDIENTE EN EL MODELO PUEDE INTERPRETARSE COMOLA PRESENCIA DE UNA PRIMERA VARIABLE X0 CUYO VALOR SEASIEMPRE 1.

Page 8: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 43

MODELO DE REGRESIÓN MÚLTIPLE

� ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE

� EL CRITERIO DE MÍNIMOS CUADRADOS CONSIDERA QUE LAFUNCIÓN QUE MEJOR SE AJUSTA A LOS DATOS ES LA QUEMINIMIZA LA VARIANZA DEL ERROR e, LO QUE ESEQUIVALENTE A MINIMIZAR:

� S(b0, b1, b2,…, bk) = ∑ ��

�� = ∑ � � �� ����� �

���� � ⋯ �����

� ��

� DERIVANDO RESPECTO DE LOS PARÁMETROS b0, b1, …, bk, EIGUALANDO A CERO SE TIENE:

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 44

MODELO DE REGRESIÓN MÚLTIPLE

� ESTIMACIÓN DEL MODELO LINEAL DE REGRESIÓN MÚLTIPLE

� ESTAS ECUACIONES FORMAN UN SISTEMA DENOMINADOSISTEMA DE ECUACIONES NORMALES, QUE PUEDE RESOLVERSEPARA b0, b1, …, bk MEDIANTE CUALQUIER MÉTODO APROPIADOPARA RESOLVER SISTEMAS DE ECUACIONES LINEALES.

� DE ESTA FORMA SE OBTIENE LA ESTIMACIÓN DEL MODELO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 45

MODELO DE REGRESIÓN MÚLTIPLE

� PREDICCIONES

� UNA DE LAS FINALIDADES DEL ANÁLISIS DE LOS MODELOSECONOMÉTRICOS ES HACER PREDICCIONES PARA LA VARIABLEDEPENDIENTE.

� SI SE ESTIMA EL MODELO Y=XB Y SE OBTIENE EL MODELOESTIMADO �� =X�� :

� SE TIENE QUE ��� = ���� ES UN ESTIMADOR LINEALINSESGADO ÓPTIMO DEL PRONÓSTICO DE � , PARA UNVALOR DADO �� DE �.

� SE PUEDE PREDECIR:

� LA MEDIA E(��).

� EL VALOR PUNTUAL ��.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 46

MODELO DE REGRESIÓN MÚLTIPLE

� PREDICCIONES

� LOS ERRORES DE PREDICCIÓN VENDRÁN CUANTIFICADOS PORLAS VARIANZAS DE LOS PREDICTORES:

� VARIANZA PARA LA PREDICCIÓN EN MEDIA:

� ���� ��� ����′.

� INTERVALO DE CONFIANZA PARA LA PREDICCIÓN ENMEDIA AL NIVEL �:

� ��� ± ! ����(�/2)�& �� ��� ����′' :

• ! ����(�/2) ES EL VALOR DE LA t DE STUDENT CON T-

k-1 GRADOS DE LIBERTAD EN EL PUNTO (�/2).

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 47

MODELO DE REGRESIÓN MÚLTIPLE

� PREDICCIONES

� VARIANZA PARA LA PREDICCIÓN PUNTUAL:

� �� (�� ��� �� ��′ � 1).

� INTERVALO DE CONFIANZA PARA LA PREDICCIÓNPUNTUAL:

� ��� ± ! ����(�/2)�& 1 � �� ��� ����′' :

• ! ����(�/2) ES EL VALOR DE LA t DE STUDENT CON T-

k-1 GRADOS DE LIBERTAD EN EL PUNTO (�/2).

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 48

MODELO DE REGRESIÓN MÚLTIPLE

� ANÁLISIS DE RESIDUOS

� UNA VEZ CONSTRUIDO EL MODELO DE REGRESIÓN:

� CONTRASTAR ENTRE OTRAS LAS HIPÓTESIS DE:

� LINEALIDAD.

� NORMALIDAD.

� HOMOSCEDASTICIDAD.

� NO AUTOCORRELACIÓN.

� INDEPENDENCIA.

� LOS RESIDUOS VAN A PRESENTAR UNA PRIMERA INFORMACIÓNSOBRE ESTAS HIPÓTESIS.

� SI EL HISTOGRAMA DE FRECUENCIAS DE LOS RESIDUOS NO SEAJUSTA AL DE UNA NORMAL, PUEDEN EXISTIR VALORESATÍPICOS:

� ELIMINANDO LOS PARES ( ���� ) QUE PRODUCEN LOSVALORES ATÍPICOS, SE PUEDE CONSEGUIR NORMALIDADEN LOS RESIDUOS.

Page 9: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 49

MODELO DE REGRESIÓN MÚLTIPLE

� ANÁLISIS DE RESIDUOS

� SI SE GRAFICAN LOS VALORES DE T CONTRA LOS VALORES DE *+,

Y SE DETECTA UNA TENDENCIA CRECIENTE O DECRECIENTE ENEL GRAFO:

� PUEDE EXISTIR AUTOCORRELACIÓN O CORRELACIÓNSERIAL.

� SI SE GRAFICAN LOS VALORES DE �� CONTRA LOS VALORES DE*+ Y SE DETECTA UNA TENDENCIA DE CUALQUIER TIPO EN ELGRAFO:

� PUEDE EXISTIR AUTOCORRELACIÓN:

� HABRÁ CORRELACIÓN ENTRE LOS RESIDUOS.

� PUEDE HABER HETEROSCEDASTICIDAD O FALTA DELINEALIDAD.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 50

MODELO DE REGRESIÓN MÚLTIPLE

� ANÁLISIS DE RESIDUOS

� SI SE GRAFICAN LOS VALORES DE -., CONTRA LOS DE *+,/ Y SE

DETECTA UNA TENDENCIA DE CUALQUIER TIPO EN EL GRAFO,PUEDE EXISTIR HETEROSCEDASTICIDAD.

� SI SE GRAFICAN LOS VALORES DE 0, CONTRA LOS DE *+, Y SEDETECTA UNA TENDENCIA CRECIENTE O DECRECIENTE EN ELGRAFO, PUEDE EXISTIR AUTOCORRELACIÓN:

� LOS RESIDUOS NO ESTARÁN INCORRELACIONADOS CONLAS VARIABLES EXPLICATIVAS.

� TAMBIÉN PUEDE HABER HETEROSCEDASTICIDAD O FALTADE LINEALIDAD.

� SI SE GRAFICAN LOS VALORES DE 0, CONTRA LOS VALORES DE*+,

/ Y SE DETECTA CUALQUIER TENDENCIA EN EL GRAFO:

� PUEDE EXISTIR HETEROSCEDASTICIDAD O FALTA DELINEALIDAD:

� HABRÁ RELACIÓN ENTRE LA VARIANZA DEL TÉRMINODEL ERROR Y LAS VARIABLES EXPLICATIVAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 51

MODELO DE REGRESIÓN MÚLTIPLE

� ANÁLISIS DE RESIDUOS

� UN CONTRASTE MUY IMPORTANTE PARA DETECTAR LAAUTOCORRELACIÓN ES EL CONTRASTE DE DURBIN-WATSON:

� D = ∑ (*+,�*+,12)/3

,4/

∑ *,/3

,42

� PERMITE ADOPTAR LA SIGUIENTE REGLA:

� SI D=0 HAY AUTOCORRELACIÓN PERFECTA POSITIVA.

� SI D SE APROXIMA A 2 NO HAY AUTOCORRELACIÓN.

� SI D SE APROXIMA A 4 HAY AUTOCORRELACIÓN PERFECTANEGATIVA.

� D SE ENCUENTRA TABULADO Y SEGÚN LA FRANJA EN LA QUECAIGA SU VALOR, SE ACEPTA O RECHAZA LA HIPÓTESIS DEAUTOCORRELACIÓN.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 52

MODELO DE REGRESIÓN MÚLTIPLE

� TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN

� EXISTEN CRITERIOS QUE PERMITEN ELEGIR EL MEJOR MODELOPARA UNAS VARIABLES Y UN CONJUNTO DE DATOS DADOS.

� CRITERIO DE REGRESIÓN HACIA ADELANTE:

� VA INCLUYENDO VARIABLES EN EL MODELO HASTAOBTENER EL AJUSTE IDEAL.

� CRITERIO DE REGRESIÓN HACIA ATRÁS:

� EMPIEZA INCLUYENDO TODAS LAS VARIABLES EN ELMODELO Y VA ELIMINANDO LAS ADECUADAS HASTAOBTENER UN AJUSTE ÓPTIMO LIBRE DE PROBLEMAS.

� CRITERIO DE SELECCIÓN PASO A PASO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 53

MODELO DE REGRESIÓN MÚLTIPLE

� TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN

� LOS ESTADÍSTICOS AIC DE AKALKE Y SC DE SCHWARZPERMITEN SELECCIONAR EL MODELO AJUSTADO CON MEJORCAPACIDAD EXPLICATIVA:

� AQUEL QUE PRESENTA MENOR VALOR PARA ESTOSESTADÍSTICOS.

� AIC = -/5

3�

/(672)

3

� SC = -/5

3�

672 589(3)

3

� l =-3

/(2 � 589(/:)+589

;<;

3)

� K ES EL NÚMERO DE VARIABLES INDEPENDIENTES DELMODELO (SIN INCLUIR LA CONSTANTE).

� T ES EL TAMAÑO MUESTRAL O NÚMERO DEOBSERVACIONES DE QUE SE DISPONE PARA LAESTIMACIÓN DEL MODELO.

� e ES EL ERROR DEL MODELO.MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 54

MODELO DE REGRESIÓN MÚLTIPLE

� TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN

� ES POSIBLE SELECCIONAR MODELOS LINEALES AJUSTADOS DEACUERDO A SU CAPACIDAD PREDICTIVA.

� SE DISPONE, ENTRO OTROS, DE LOS SIGUIENTES ESTADÍSTICOS(SIENDO n EL HORIZONTE DE PREDICCIÓN: LÍMITE PRÁCTICO YVÁLIDO PARA LA PREDICCIÓN):

� RAÍZ DEL ERROR CUADRÁTICO MEDIO (ROOT MEANSQUARED ERROR):

� RECM =∑ (-.=�-=)/>

=42º

>

'

� ERROR ABSOLUTO MEDIO (MEAN ABSOLUTE ERROR):

� EAM = ∑ -.=�-=

>=42º

>

� PROPORCIÓN DEL SESGO (BIAS PROPORTION):

� @A = (-.C�-)/

∑ (-.=�-=)/>=42º />

Page 10: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 55

MODELO DE REGRESIÓN MÚLTIPLE

� TÉCNICAS DE SELECCIÓN EN EL MODELO DE REGRESIÓN

� PROPORCIÓN DE LA VARIANZA (VARIANCE PROPORTION):

� PV =(A-.�A-)/

∑ (-.=�-=)/>=42º />

� PROPORCIÓN DE LA COVARIANZA (COVARIANCEPROPORTION):

� @D = /(2�E)A-.A-

∑ (-.=�-=)/>=42º />

� MIENTRAS MÁS PRÓXIMOS ESTÉN A CERO LOS VALORES DE LOSDOS PRIMEROS ESTADÍSTICOS:

� MEJOR SERÁ LA CAPACIDAD PREDICTIVA DEL MODELO.

� LAS TRES PROPORCIONES VARÍAN ENTRE 0 Y 1:

� ES CONVENIENTE QUE SEAN PEQUEÑAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 56

MODELO DE REGRESIÓN MÚLTIPLE

� EJEMPLO DE MLG MULTIVARIANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 57

MODELO DE REGRESIÓN MÚLTIPLE

� EJEMPLO DE MLG MULTIVARIANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 58

MODELO DE REGRESIÓN MÚLTIPLE

� EJEMPLO DE MLG MULTIVARIANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 59

MODELO DE REGRESIÓN MÚLTIPLE

� EJEMPLO DE MLG MULTIVARIANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 60

MODELO DE REGRESIÓN MÚLTIPLE

� EJEMPLO DE MLG MULTIVARIANTE

� RESULTADOS COMPLETOS

Page 11: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 61

MODELOS DE ELECCIÓN DISCRETA

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 62

MODELOS DE ELECCIÓN DISCRETA

� LA EXPRESIÓN DEL MODELO DE ANÁLISIS DE LA REGRESIÓNMÚLTIPLE ES:

� y = F(��, ��, … , �G).

� LA REGRESIÓN MÚLTIPLE ADMITE LA POSIBILIDAD DE TRABAJARCON VARIABLES DEPENDIENTES DISCRETAS EN VEZ DECONTINUAS PARA PERMITIR LA MODELIZACIÓN DEFENÓMENOS DISCRETOS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 63

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA:

� LA VARIABLE DEPENDIENTE ES UNA VARIABLE DISCRETAQUE REFLEJA DECISIONES INDIVIDUALES EN LAS QUE ELCONJUNTO DE ELECCIÓN ESTÁ FORMADO PORALTERNATIVAS SEPARADAS Y MUTUAMENTEEXCLUYENTES.

� LOS MODELOS DE ELECCIÓN DISCRETA EN LOS QUE ELCONJUNTO DE ELECCIÓN TIENE SÓLO DOS ALTERNATIVASPOSIBLES SE LLAMAN MODELOS DE ELECCIÓN BINARIA.

� CUANDO EL CONJUNTO DE ELECCIÓN TIENE VARIOS VALORESDISCRETOS SE TIENEN LOS MODELOS DE ELECCIÓN MÚLTIPLE OMODELOS MULTINOMIALES.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 64

MODELOS DE ELECCIÓN DISCRETA

� LOS MODELOS DE ELECCIÓN DISCRETA SE DENOMINANMODELOS DE DATOS DE RECUENTO CUANDO LOS VALORES DELA VARIABLE DEPENDIENTE DISCRETA SON NÚMEROS QUE NOREFLEJAN CATEGORÍAS.

� EN CASO DE QUE LOS VALORES NUMÉRICOS DE LA VARIABLEDEPENDIENTE DISCRETA REFLEJAN CATEGORÍAS LOS MODELOSSE DENOMINAN MODELO DE ELECCIÓN DISCRETACATEGÓRICOS:

� SE CLASIFICAN EN:

� MODELOS DE ELECCIÓN DISCRETA CATEGÓRICOSORDENADOS: LOS VALORES NUMÉRICOS NO TIENENSIGNIFICADO CUANTITATIVO Y REFLEJAN UN ORDEN DECATEGORÍAS.

� MODELOS DE ELECCIÓN DISCRETA CATEGÓRICOS NOORDENADOS: LOS VALORES NUMÉRICOS REFLEJANÚNICAMENTE CATEGORÍAS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 65

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� SE CONSIDERARÁN EL MODELO LINEAL DE PROBABILIDAD, ELMODELO LOGIT Y EL MODELO PROBIT.

� SE PARTE DEL MODELO DE REGRESIÓN LINEAL HABITUAL:

� Y=HI � H202 � H/0/ � ⋯ � HJ0J � K

� UNA DE CUYAS HIPÓTESIS ES:

� E(K|02, 0/, … , 0J) = 0

� ESTO PERMITE ESCRIBIR EL MODELO COMO:

� E(-|02, … , 0J) = HI � H202 � H/0/ � ⋯ � HJ0J

� PARA LOS MODELOS DE ELECCIÓN DISCRETA BINARIA:

� Y ES UNA VARIABLE ALEATORIA DE BERNOUILLI DEPARÁMETRO p, POR LO TANTO:

� E(�|��, … , ��) = P(� = 1|��, … , ��) = L� � L��� � L��� � ⋯ � L���

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 66

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� SE TIENE EL MODELO LINEAL DE PROBABILIDAD:

� POR EJEMPLO, L� MIDE LA VARIACIÓN EN LA PROBABILIDADDE "ÉXITO" (Y = 1) ANTE UNA VARIACIÓN UNITARIA EN ��,(CON TODO LO DEMÁS CONSTANTE).

� COMO Y ES UNA VARIABLE ALEATORIA DE BERNOUILLI:

� V(�|��, … , ��) = P(� = 1|��, … , ��)(1 - P(� = 1|��, … , ��))

� SE TIENE ENTONCES:

� Y = L� � L��� � L��� � ⋯ � L��� + u ⇒ u = Y - L� � L��� � L��� �⋯ � L���

� V(�) = V(� � L� � L��� � L��� � ⋯ � L���) = N(�|��, … , ��)

� V(��) = O�(1-O�) PARA CADA OBSERVACIÓN.

Page 12: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 67

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� SE TIENE UN MODELO CON HETEROSCEDASTICIDAD:

� PORQUE LA VARIANZA DEL ERROR NO ES CONSTANTE.

� PARA CADA VALOR DE ��, … , �� LA VARIANZA DEL ERRORTIENE UN VALOR DIFERENTE:

� V(u) NO CONSTANTE.

� Y ES UNA VARIABLE DE BERNOUILLI:

� NO SE CUMPLE LA HIPÓTESIS DE NORMALIDAD.

� HAY QUE ESTIMAR ESTOS MODELOS POR UN MÉTODOALTERNATIVO A MÍNIMOS CUADRADOS ORDINARIOS:

� EJ.: ESTIMADORES MÁXIMO VEROSÍMILES O MÍNIMOSCUADRADOS GENERALIZADOS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 68

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� REALIZADA LA ESTIMACIÓN DEL MODELO LINEAL DEPROBABILIDAD SE TIENE:

� �� = LP� � LP��� � LP��� � ⋯ � LP���= Q�

� SE PUEDE INTERPRETAR COMO UNA ESTIMACIÓN DE LAPROBABILIDAD DE "ÉXITO" (DE QUE Y = 1).

� EN ALGUNAS APLICACIONES TIENE SENTIDO INTERPRETARLP� COMO LA PROBABILIDAD DE ÉXITO CUANDO TODAS LAS �

VALEN 0.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 69

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� ES POSIBLE CONSIDERAR LOS MODELOS LOGIT (MODELO DEREGRESIÓN LOGÍSTICA) Y PROBIT COMO MODELOS DERESPUESTA BINARIA:

� P(� = 1 |��, ��, … , ��) = G(L� � L��� � L��� � ⋯ � L���)

� PARA EVITAR LOS PROBLEMAS DEL MODELO LINEAL DEPROBABILIDAD:

� SE ESPECIFICAN COMO Y = G(XH).

� DONDE G ES UNA FUNCIÓN QUE TOMA VALORESESTRICTAMENTE ENTRE 0 y 1 (0<G(Z)<1) PARA TODOS LOSNÚMEROS REALES z.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 70

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� SEGÚN LAS DIFERENTES DEFINICIONES DE G SE TIENEN LOSDISTINTOS MODELOS DE ELECCIÓN BINARIA:

� SI G(z) =RS

�7RS SE TIENE EL MODELO LOGIT:

� � = G(z) = G( L� � L��� � L��� � ⋯ � L��� ) =RTUVTWXWVTYXYV⋯VTZXZ

�7RTUVTWXWVTYXYV⋯VTZXZ

� SI G(z) = Φ(z) = \ ](^)_^`

�a SE TIENE EL MODELO PROBIT:

� Φ(z) =�

�' b �

1SY

Y ES LA FUNCIÓN DE DENSIDAD DE LA

NORMAL (0,1).

� � = G(z) = G( L� � L��� � L��� � ⋯ � L��� ) =

\�

�' b �

1cY

Y _^dU7dWeW7dYeY7⋯7dZeZ

�a

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 71

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� LOS MODELOS PROBIT Y LOGIT SON MODELOS NO LINEALES:

� NO SE PUEDE ESTIMAR POR MCO (MÍNIMOS CUADRADOSORDINARIOS).

� SE TENDRÁ QUE EMPLEAR MÉTODOS DE MÁXIMAVEROSIMILITUD.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 72

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� SI SE TIENEN n OBSERVACIONES DE UNA MUESTRA ALEATORIAQUE SIGUEN EL MODELO:

� P(Y=1|X) = G(L� � L��� � ⋯ � L���)

� PARA OBTENER EL ESTIMADOR DE MÁXIMA VEROSIMILITUD(MV), CONDICIONADO A LAS VARIABLES EXPLICATIVAS, ESNECESARIA LA FUNCIÓN DE VEROSIMILITUD:

� L(L) = ∏ Q�'gh�� ∏ (1 � Q�

'gh�� ) = ∏ i(��′L)ghG

��� (1 � i(��′L))��gh

� Q� = Q (��=1|��� , … , ���) = G(L� � L���� � ⋯ � L����) = i(��′L)

Page 13: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 73

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� EL ESTIMADOR DE MV DE L ES EL QUE MAXIMIZA ELLOGARITMO DE LA FUNCIÓN DE VEROSIMILITUD:

� l(L) = ln L(L) =∑ �� jk i ���L � (1 � ��) jk(1 � i ��

�L)G���

� QUE SERÁ UN ESTIMADOR CONSISTENTE,ASINTÓTICAMENTE NORMAL Y ASINTÓTICAMENTEEFICIENTE.

� LAS CONDICIONES DE PRIMER ORDEN SERÁN:

� S( L ) = ∑ gh

l eh<d

�(��gh)

(��l eh<d)

G��� ��m ��

�L =

∑gh�l eh

<d

l eh<d (��l eh

<d)G��� ��m ��

�L = 0

� g(.) ES LA FUNCIÓN DE DENSIDAD DE LA NORMAL O LALOGÍSTICA (DERIVADA DE LA FUNCIÓN DE DISTRIBUCIÓN).

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 74

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN DISCRETA BINARIA: MODELO LINEALDE PROBABILIDAD Y REGRESIÓN LOGÍSTICA BINARIA

� LA NO LINEALIDAD DEL PROBLEMA HACE QUE PARA OBTENEREL ESTIMADOR MV DE H SE NECESITE:

� APLICAR UN ALGORITMO ITERATIVO.

� OBTENER EL ESTIMADOR POR MÉTODOS NUMÉRICOSITERATIVOS.

� MEDIANTE EL ALGORITMO SCORING SE TIENE:

� LP �7�= LP�+ n(LP�) �� o(LP�)

� LA MATRIZ DE COVARIANZAS ASINTÓTICA DE LP SE ESTIMACOMO:

� A &̂ar LP = n(LP �) ��= ∑p(eh

<d.) Yeheh<

l eh<d. ��l eh

<d.G���

��

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 75

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGITMULTINOMIAL

� CUANDO EL CONJUNTO DE ELECCIÓN TIENE VARIOS VALORESDISCRETOS SE TIENEN LOS MODELOS DE ELECCIÓN MÚLTIPLEO MODELOS MULTINOMIALES.

� EL MODELO LOGIT MULTINOMIAL ES UNA EXTENSIÓN DELMODELO BINARIO PARA EL CASO EN EL QUE LA RESPUESTA,“DESORDENADA”, TIENE MÁS DE 2 POSIBILIDADES.

� SEA (��, ��) UNA MUESTRA ALEATORIA DE LA POBLACIÓN (i = 1,...,n).

� INTERESA SABER CÓMO AFECTAN LOS CAMBIOS EN LOSELEMENTOS DE X A LAS PROBABILIDADES DE RESPUESTA:

� Q(Y = j |��, ��, … , ��) = Q(Y = j |q) j = 1,…,J

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 76

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGITMULTINOMIAL

� LAS PROBABILIDADES DE RESPUESTA SON:

� Q(Y = j |�) =rst(qdu)

�7∑ rst(qdv)wv4W

= O(�, L) j = 1,…,J

� Q(Y = j |q) =rst(qdu)

�7∑ rst(qdv)wv4W

= O(qL) j = 1,…,J

� Q(Y = 0 |q) =�

�7∑ rst(qdv)wv4W

= O�(qL)

� SI J = 1 SE TIENE EL CASO BINARIO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 77

MODELOS DE ELECCIÓN DISCRETA

� MODELOS DE ELECCIÓN MÚLTIPLE: MODELO LOGITMULTINOMIAL

� EL MODELO SE ESTIMA POR MÁXIMA VEROSIMILITUD.

� EL LOGARITMO DE LA FUNCIÓN DE VEROSIMILITUDCONDICIONAL VIENE DADO POR:

� j(L) = ∑ ∑ 1xy��

z{�� �� = | log O(�� , L)

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 78

MODELOS DE ELECCIÓN DISCRETA

� MODELO LINEAL GENERAL DE REGRESIÓN MÚLTIPLE (GLM)

� EL MODELO GLM ES EL MODELO MÁS GENERAL POSIBLE DEREGRESIÓN LINEAL.

� INCLUYE:

� EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE CONVARIABLES CUANTITATIVAS.

� LOS MODELOS DE REGRESIÓN MÚLTIPLE CON VARIABLESCUALITATIVAS Y CUANTITATIVAS A LA VEZ.

� INCLUIRÁ TODOS LOS MODELOS DEL ANÁLISIS DE LAVARIANZA Y DE LA COVARIANZA.

Page 14: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 79

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO LOGIT MULTINOMIAL

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 80

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO LOGIT MULTINOMIAL

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 81

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO LOGIT MULTINOMIAL

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 82

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO LOGIT MULTINOMIAL

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 83

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO LOGIT MULTINOMIAL

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 84

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO LOGIT MULTINOMIAL

� RESULTADOS COMPLETOS

Page 15: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 85

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO PROBIT

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 86

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO PROBIT

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 87

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO PROBIT

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 88

MODELOS DE ELECCIÓN DISCRETA

� EJEMPLO DE MODELO PROBIT

� RESULTADOS COMPLETOS

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 89

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 90

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� ES ÚTIL CUANDO SE DESEA CONSTRUIR UN MODELO

PREDICTIVO PARA PRONOSTICAR EL GRUPO AL QUEPERTENECE UNA OBSERVACIÓN A PARTIR DE DETERMINADASCARACTERÍSTICAS OBSERVADAS QUE DELIMITAN SU PERFIL.

� PERMITE ASIGNAR O CLASIFICAR NUEVOS INDIVIDUOS UOBSERVACIONES DENTRO DE GRUPOS PREVIAMENTEDEFINIDOS:

� POR ELLO ES UNA TÉCNICA DE CLASIFICACIÓN AD HOC.

� SE LO CONOCE COMO ANÁLISIS DE LA CLASIFICACIÓN:

� SU OBJETIVO FUNDAMENTAL ES:

� PRODUCIR UNA REGLA O UN ESQUEMA DECLASIFICACIÓN.

� DEBE PREDECIR LA POBLACIÓN A LA QUE ES MÁSPROBABLE QUE TENGA QUE PERTENECER UNA NUEVAOBSERVACIÓN O INDIVIDUO.

Page 16: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 91

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� EL MODELO PREDICTIVO DEFINE LA RELACIÓN ENTRE:

� UNA VARIABLE DEPENDIENTE (O ENDÓGENA) NO MÉTRICA(CATEGÓRICA), Y.

� VARIAS VARIABLES INDEPENDIENTES (O EXÓGENAS)MÉTRICAS.

� LA EXPRESIÓN ES:

� y = F(�2, �/,…, �>).

� LAS CATEGORÍAS DE LA VARIABLE DEPENDIENTE DEFINEN LOSPOSIBLES GRUPOS DE PERTENENCIA DE LAS OBSERVACIONES OINDIVIDUOS.

� LAS VARIABLES INDEPENDIENTES DEFINEN EL PERFILCONOCIDO DE CADA OBSERVACIÓN.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 92

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� EL OBJETIVO ESENCIAL:

� ES UTILIZAR LOS VALORES CONOCIDOS DE LAS VARIABLESINDEPENDIENTES MEDIDAS SOBRE UN INDIVIDUO UOBSERVACIÓN (PERFIL).

� PARA PREDECIR CON QUÉ CATEGORÍA DE LA VARIABLEDEPENDIENTE SE CORRESPONDEN PARA CLASIFICAR ALINDIVIDUO EN LA CATEGORÍA ADECUADA.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 93

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� LAS DOS GRANDES FINALIDADES SON:

� LA DESCRIPCIÓN DE DIFERENCIAS ENTRE GRUPOS, Y.

� LA PREDICCIÓN DE PERTENENCIA A GRUPOS.

� LA INTERPRETACIÓN DE LAS DIFERENCIAS ENTRE LOS GRUPOSRESPONDE AL OBJETIVO DE DETERMINAR:

� EN QUÉ MEDIDA UN CONJUNTO DE CARACTERÍSTICASOBSERVADAS EN LOS INDIVIDUOS PERMITE EXTRAERDIMENSIONES QUE DIFERENCIAN A LOS GRUPOS.

� CUÁLES DE ESTAS CARACTERÍSTICAS SON LAS QUE ENMAYOR MEDIDA CONTRIBUYEN A TALES DIMENSIONES, ESDECIR, CUÁLES PRESENTAN EL MAYOR PODER DEDISCRIMINACIÓN.

� LAS CARACTERÍSTICAS USADAS PARA DIFERENCIAR ENTRE LOSGRUPOS RECIBEN EL NOMBRE DE VARIABLES DISCRIMINANTES.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 94

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� AL ANÁLISIS PARA VALORAR EL GRADO EN QUE LAS VARIABLES

INDEPENDIENTES CONTRIBUYEN A LA DIFERENCIACIÓN ENTRELOS GRUPOS SE LE DENOMINA ANÁLISIS DISCRIMINANTEDESCRIPTIVO.

� LA PREDICCIÓN DE PERTENENCIA A LOS GRUPOS REQUIEREUNA O MÁS ECUACIONES MATEMÁTICAS, DENOMINADASFUNCIONES DISCRIMINANTES:

� DEBEN PERMITIR LA CLASIFICACIÓN DE NUEVOS CASOS APARTIR DE LA INFORMACIÓN QUE POSEEMOS SOBRE ELLOS.

� COMBINAN UNA SERIE DE CARACTERÍSTICAS O VARIABLESDE TAL MODO QUE SU APLICACIÓN A UN CASO NOS PERMITEIDENTIFICAR EL GRUPO AL QUE MÁS SE PARECE:

� EN ESTE SENTIDO SE PUEDE HABLAR DEL CARÁCTERPREDICTIVO DEL ANÁLISIS DISCRIMINANTE.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 95

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� HIPÓTESIS EN EL MODELO DISCRIMINANTE

� EL MODELO DEL ANÁLISIS DISCRIMINANTE REQUIERE DE UNACOMPROBACIÓN DE DETERMINADOS SUPUESTOS.

� LA APLICACIÓN DEL ANÁLISIS DISCRIMINANTE REQUIERE QUESE CUENTE CON:

� UN CONJUNTO DE VARIABLES DISCRIMINANTES(CARACTERÍSTICAS CONOCIDAS DE LOS INDIVIDUOS).

� UNA VARIABLE NOMINAL QUE DEFINE DOS O MÁS GRUPOS(CADA MODALIDAD DE LA VARIABLE NOMINAL SECORRESPONDE CON UN GRUPO DIFERENTE).

� LOS DATOS DEBEN CORRESPONDER A INDIVIDUOS O CASOSCLASIFICADOS EN DOS O MÁS GRUPOS MUTUAMENTEEXCLUYENTES:

� CADA CASO CORRESPONDE A UN GRUPO Y SÓLO A UNO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 96

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� HIPÓTESIS EN EL MODELO DISCRIMINANTE

� LAS VARIABLES DISCRIMINANTES HAN DE ESTAR MEDIDAS ENUNA ESCALA DE INTERVALO O DE RAZÓN:

� PERMITIRÍA EL CÁLCULO DE MEDIAS Y VARIANZAS Y LAUTILIZACIÓN DE ÉSTAS EN ECUACIONES MATEMÁTICAS.

� TEÓRICAMENTE, NO EXISTEN LÍMITES PARA EL NÚMERO DEVARIABLES DISCRIMINANTES:

� SALVO LA RESTRICCIÓN DE QUE NO DEBE SER NUNCASUPERIOR AL NÚMERO DE CASOS EN EL GRUPO MÁSPEQUEÑO.

� ES CONVENIENTE CONTAR AL MENOS CON 20 SUJETOS PORCADA VARIABLE DISCRIMINANTE SI QUEREMOS QUE LASINTERPRETACIONES Y CONCLUSIONES OBTENIDAS SEANCORRECTAS.

Page 17: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 97

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� HIPÓTESIS EN EL MODELO DISCRIMINANTE

� LA APLICACIÓN DEL ANÁLISIS DISCRIMINANTE SE APOYA ENUNA SERIE DE SUPUESTOS BÁSICOS:

� NORMALIDAD MULTIVARIANTE.

� HOMOGENEIDAD DE MATRICES DE VARIANZA-COVARIANZA(HOMOSCEDASTICIDAD).

� LINEALIDAD Y AUSENCIA DE MULTICOLINEALIDAD.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 98

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� ESTIMACIÓN DEL MODELO DISCRIMINANTE

� UNA VEZ COMPROBADO EL CUMPLIMIENTO DE LOS SUPUESTOSSUBYACENTES AL MODELO MATEMÁTICO, SE PERSIGUE:

� OBTENER UNA SERIE DE FUNCIONES LINEALES A PARTIRDE LAS VARIABLES INDEPENDIENTES QUE PERMITAN:

� INTERPRETAR LAS DIFERENCIAS ENTRE LOS GRUPOS.

� CLASIFICAR A LOS INDIVIDUOS EN ALGUNA DE LASSUBPOBLACIONES DEFINIDAS POR LA VARIABLEDEPENDIENTE.

� ESTAS FUNCIONES LINEALES:

� SE DENOMINAN FUNCIONES DISCRIMINANTES.

� SON COMBINACIONES LINEALES DE LAS VARIABLESDISCRIMINANTES.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 99

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� ESTIMACIÓN DEL MODELO DISCRIMINANTE

� CON G GRUPOS (G > 2) EN ANÁLISIS DISCRIMINANTE MÚLTIPLE,EL NÚMERO MÁXIMO DE FUNCIONES O EJES DISCRIMINANTESQUE SE PUEDEN OBTENER VIENE DADO POR:

� min (G-1, k).

� PUEDEN OBTENERSE HASTA G-1 EJES DISCRIMINANTES:

� SI EL NÚMERO DE VARIABLES EXPLICATIVAS k ESMAYOR O IGUAL QUE G-l:

• SUELE SER SIEMPRE CIERTO.

• EN LAS APLICACIONES PRÁCTICAS EL NÚMERO DEVARIABLES EXPLICATIVAS SUELE SER GRANDE.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 100

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� ESTIMACIÓN DEL MODELO DISCRIMINANTE

� LA INTERPRETACIÓN DE LA FUNCIÓN DISCRIMINANTE PODRÁHACERSE ATENDIENDO A:

� LAS POSICIONES RELATIVAS QUE DETERMINA PARA LOSCASOS.

� LOS CENTROIDES DE CADA GRUPO.

� LA RELACIÓN ENTRE LAS VARIABLES Y LA FUNCIÓN:

� ESTABLECER LA CONTRIBUCIÓN DE LAS DISTINTASVARIABLES A LA DISCRIMINACIÓN.

� PARA EXAMINAR LA POSICIÓN RELATIVA QUE OCUPAN LOSCASOS Y LOS CENTROIDES DE ACUERDO CON LA FUNCIÓN OFUNCIONES OBTENIDAS:

� RECURRIR A LAS PUNTUACIONES DISCRIMINANTES:

� VALORES DE LA FUNCIÓN DISCRIMINANTE PARA CASOSESPECÍFICOS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 101

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� ESTIMACIÓN DEL MODELO DISCRIMINANTE

� C/U DE LAS FUNCIONES DISCRIMINANTES:

� REPRESENTA UN EJE EN EL ESPACIO DISCRIMINANTE.

� PERMITE DETERMINAR LA POSICIÓN DE CUALQUIER CASO ALO LARGO DE ESE EJE.

� TOMANDO LA FUNCIÓN CORRESPONDIENTE A UN EJECUALQUIERA, EL VALOR DE LA PUNTUACIÓN DISCRIMINANTEALCANZADA POR UN CASO m, PERTENECIENTE AL GRUPO k:

� SE OBTIENE AL SUSTITUIR EN LA ECUACIÓN LOS VALORES X

POR LAS PUNTUACIONES OBSERVADAS PARA ESE CASO ENCADA UNA DE LAS VARIABLES:

� ��� = �� � ������ � ������ � ⋯ � ������

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 102

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� ESTIMACIÓN DEL MODELO DISCRIMINANTE

� SI SE CALCULAN LAS PUNTUACIONES DISCRIMINANTES SOBRELOS DIFERENTES EJES, SE PUEDE LOCALIZAR EN EL ESPACIO LAPOSICIÓN DE CUALQUIER INDIVIDUO.

� C/ COEFICIENTE NO ESTANDARIZADO *= , REPRESENTA ELCAMBIO PRODUCIDO SOBRE LA POSICIÓN DE UN CASO SI EN LAVARIABLE 0= LA PUNTUACIÓN OBSERVADA AUMENTARA ENUNA UNIDAD.

� PARA ESTUDIAR LOS GRUPOS ES INTERESANTE LA POSICIÓN DELOS CENTROIDES DE CADA GRUPO.

� LA PUNTUACIÓN DE UN CENTROIDE SE DETERMINARÁSUSTITUYENDO LAS VARIABLES DE LA ECUACIÓNDISCRIMINANTE POR LOS VALORES MEDIOS QUE ALCANZANESAS VARIABLES EN EL GRUPO.

� LAS COORDENADAS DE LOS CENTROIDES DE DIFERENTESGRUPOS DETERMINAN POSICIÓN DE C/U DE ELLOS EN ELESPACIO DISCRIMINANTE.

Page 18: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 103

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE

� LAS FUNCIONES DISCRIMINANTES SE UTILIZAN PARAPRONOSTICAR EL GRUPO AL QUE QUEDARÁ ADSCRITO UNNUEVO CASO NO CONTEMPLADO AL EXTRAER LAS FUNCIONES.

� LA CLASIFICACIÓN DE UN SUJETO PODRÍA HACERSE:

� A PARTIR DE SUS VALORES EN LAS VARIABLESDISCRIMINANTES.

� EN LAS FUNCIONES DISCRIMINANTES.

� LA CLASIFICACIÓN A PARTIR DE LAS FUNCIONESDISCRIMINANTES ES MÁS CÓMODA Y SUELE LLEVAR A MEJORESRESULTADOS EN LA MAYORÍA DE LOS CASOS.

� LOS PROCEDIMIENTOS PARA LA CLASIFICACIÓN SE BASAN ENLA COMPARACIÓN DE UN CASO CON LOS CENTROIDES DEGRUPO, A FIN DE VER A CUÁL DE ELLOS RESULTA MÁSPRÓXIMO.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 104

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE

� UNO DE LOS PROCEDIMIENTOS PARA ASIGNAR UN CASO A UNODE LOS GRUPOS SE BASA EN LAS DENOMINADAS FUNCIONES DECLASIFICACIÓN POR GRUPOS.

� EXAMINANDO LAS PUNTUACIONES OBTENIDAS POR UN CASOEN C/U DE LAS FUNCIONES DE CLASIFICACIÓN:

� SE PUEDE ESTABLECER A QUÉ GRUPO HA DE SER ASIGNADO.

� EL CASO SERÁ ASIGNADO A AQUEL GRUPO EN EL QUE SEOBTIENE LA PUNTUACIÓN MÁS ALTA.

� OTRO PROCEDIMIENTO SE BASA EN EL CÁLCULO DE LADISTANCIA DEL CASO A LOS CENTROIDES DE CADA UNO DELOS GRUPOS O FUNCIONES DE DISTANCIA GENERALIZADA:

� EL CASO SERÍA ADSCRITO A AQUEL GRUPO CON CUYOCENTROIDE EXISTE UNA MENOR DISTANCIA.

� LA DISTANCIA DE MAHALANOBIS ES UNA MEDIDAADECUADA PARA VALORAR LA PROXIMIDAD ENTRE CASOSY CENTROIDES.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 105

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE

� OTRO PROCEDIMIENTO PARA ASIGNAR UN CASO A UNO DE LOSGRUPOS ES UTILIZAR LAS PROBABILIDADES DE PERTENENCIAAL GRUPO.

� UN CASO SE CLASIFICA EN EL GRUPO AL QUE SU PERTENENCIARESULTA MÁS PROBABLE.

� EL CÁLCULO ASUME QUE TODOS LOS GRUPOS TIENEN UNTAMAÑO SIMILAR:

� NO SE TIENE EN CUENTA QUE A PRIORI ES POSIBLEANTICIPAR UNA MAYOR PROBABILIDAD DE PERTENENCIA AUN DETERMINADO GRUPO CUANDO EN LA POBLACIÓN ELPORCENTAJE DE SUJETOS QUE PERTENECE A CADA GRUPOES MUY DIFERENTE.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 106

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE

� INCORPORANDO LAS PROBABILIDADES A PRIORI SE CONSIGUE:

� MEJORAR LA PREDICCIÓN FINAL.

� REDUCIR LOS ERRORES DE CLASIFICACIÓN.

� LA REGLA DE BAYES SERÍA ÚTIL PARA:

� CALCULAR LA PROBABILIDAD A POSTERIORI DEPERTENENCIA DEL CASO A UN GRUPO.

� CONOCIDA LA PROBABILIDAD A PRIORI PARA EL MISMO.

� UN CASO SERÁ CLASIFICADO EN EL GRUPO EN EL QUE SUPERTENENCIA CUENTA CON UNA MAYOR PROBABILIDAD APOSTERIORI.

� RESULTA INTERESANTE CONOCER PARA CADA INDIVIDUO:

� LA MÁXIMA PROBABILIDAD.

� LAS PROBABILIDADES DE PERTENECER A OTROS GRUPOS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 107

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE

� UN PROCEDIMIENTO MUY ÚTIL ES EL MAPA TERRITORIAL:

� SITUAR EN EL EJE HORIZONTAL Y EN EL VERTICAL DOSFUNCIONES DISCRIMINANTES (O VARIABLESDISCRIMINANTES).

� SEPARAR EN EL PLANO RESULTANTE, POR MEDIO DE LÍNEASLAS ZONAS O TERRITORIOS QUE OCUPARÍAN LOS SUJETOSCLASIFICADOS EN CADA GRUPO.

� CUANDO EL NÚMERO DE FUNCIONES ES MAYOR QUE DOS:

� REPRESENTAR SÓLO LAS DOS PRIMERAS, QUE SON LASQUE EN MAYOR MEDIDA CONTRIBUYEN A LASEPARACIÓN DE LOS GRUPOS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 108

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE

� PARA VALORAR LA BONDAD DE LA CLASIFICACIÓNREALIZADA:

� SE APLICA EL PROCEDIMIENTO A LOS CASOS PARA LOS QUESE CONOCE SU GRUPO DE ADSCRIPCIÓN.

� SE COMPRUEBA SI COINCIDEN EL GRUPO PREDICHO Y ELGRUPO OBSERVADO.

� EL PORCENTAJE DE CASOS CORRECTAMENTE CLASIFICADOSINDICARÍA LA CORRECCIÓN DEL PROCEDIMIENTO.

� LA MATRIZ DE CLASIFICACIÓN, TAMBIÉN DENOMINADAMATRIZ DE CONFUSIÓN, PERMITE PRESENTAR PARA LOS CASOSOBSERVADOS EN UN GRUPO:

� CUÁNTOS DE ELLOS SE ESPERABAN EN ESE GRUPO.

� CUÁNTOS EN LOS RESTANTES.

� RESULTA FÁCIL CONSTATAR QUÉ TIPO DE ERRORES DECLASIFICACIÓN SE PRODUCEN.

Page 19: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 109

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� CLASIFICACIÓN MEDIANTE EL MODELO DISCRIMINANTE

� EN LA MATRIZ DE CLASIFICACIÓN CADA VALOR >=�

REPRESENTA EL NÚMERO DE CASOS DEL GRUPO i QUE TRASAPLICAR LAS REGLAS DE CLASIFICACIÓN SON ADSCRITOS ALGRUPO j.

� LOS VALORES SITUADOS EN LA DIAGONAL DESCENDENTECONSTITUYEN EL NÚMERO DE CASOS QUE HAN SIDOCORRECTAMENTE CLASIFICADOS.

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 110

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� ESQUEMA GENERAL DE LA TÉCNICA DEL ANÁLISIS

DISCRIMANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 111

OBJETIVOS DE LA INVESTIGACIÓNClasificación de observaciones en grupos

Predicción de pertenencia de individuos a grupos Examen de las diferencias entre grupos

Identificación de dimensiones

DISEÑO DE LA INVESTIGACIÓN Selección de variable dependiente e independientes

Tamaño muestral, muestra de análisis y reserva

ASUNCIONESNormalidad de variables independientes y linealidad de relaciones

Ausencia de multicolinealidad entre variables independientes Matrices de igual dispersión para poblaciones de grupos

MÉTODO DISCRIMINANTE Estimación de funciones discriminantes (simultánea o paso a paso)

Significación estadística de las funciones discriminantes Significación de la precisión de la predicción

FUNCIONES DISCRIMINANTES¿Cuántas funciones se interpretan?

Una sola

Evaluación función

Dos o más

Pesos, cargas, centroides

VALI DACIÓN RESULTADOSMuestras partidas o validación cruzada

Diferencias de grupos perfiladas

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 112

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� EJEMPLO DE ANÁLISIS DISCRIMINANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 113

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� EJEMPLO DE ANÁLISIS DISCRIMINANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 114

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� EJEMPLO DE ANÁLISIS DISCRIMINANTE

Page 20: Mineria de Datos Tecnicas Predictivas de Modelizacionexa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones/... · no se supone la existencia de variables dependientes ni

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 115

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� EJEMPLO DE ANÁLISIS DISCRIMINANTE

MINERÍA DE DATOS - TÉCNICAS PREDICTIVAS DE MODELIZACIÓN 116

CLASIFICACIÓN AD HOC: ANÁLISIS DISCRIMINANTE� EJEMPLO DE ANÁLISIS DISCRIMINANTE

� RESULTADOS COMPLETOS