analisis multivariante 2

Upload: williemctell

Post on 14-Jul-2015

151 views

Category:

Documents


1 download

TRANSCRIPT

MDULO 6: ANLISIS MULTIVARIADO PROFESOR: LUIS E. NIETO BARAJAS EMAIL: [email protected] URL: http://allman.rhon.itam.mx/~lnieto Diplomado en Estadstica Aplicada PROFESOR: LUIS E. NIETO BARAJAS Mdulo 6: Anlisis Multivariado OBJETIVO: Proporcionar al alumno los aspectos bsicos de la teora y de la aplicacinconcomputadoradelasprincipalestcnicasdelanlisis estadstico de varias variables (multivariado). PLAN DE ESTUDIOS:1. Introduccin. 2. Anlisis exploratorio multivariado. 3. La distribucin normal multivariada. 4. Anlisis de componentes principales.5. Anlisis de cmulos.6. Escalamiento multidimensional.7. Anlisis de factores.8. Anlisis discriminante.9. Solucin de problemas prcticos. REFERENCIA BSICA: Johnson, D. E. (2000). Mtodos multivariados aplicados. ITP International Thomson Editores: Mxico. 2Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS REFERENCIAS ADICIONALES:Hair,J.F.,Anderson,R.E.,Tatham,R.L.&Black,W.(1998). Multivariate data analysis. Prentice Hall College Division. Johnson,R.A.&Wichern,D.W.(2002).Appliedmultivariatestatistical analysis. Prentice Hall: London. Kachigan, S. K. (1991). Multivariate statistical analysis. Radius Press. PAQUETESESTADSTICOS:Enelcursohabrunpaqueteestadsticobsico, enelcualseejemplificarnlastcnicaspresentadas.Estepaquetebsico noesexclusivo,sielalumnoaslodesea,puedeauxiliarsedecualquier otro paquete estadstico. Paquete bsico: SplusPaquetes auxiliares: SPSS, Statgraphics, Minitab, Matlab EVALUACIN:Elalumnorealizarunanlisisestadsticodeunabasede datos multivariada. El trabajo debe contener un anlisis exhaustivo usando almenosunadelastcnicasmultivariadasvistasenclase.Alfinalizarel mdulo,elalumnodeberentregarsutrabajoconteniendolossiguientes puntos:1) Descripcin de la base de datos. 2) Anlisis de los datos (exploratorio y descriptivo).3) Conclusiones, en el contexto de los datos, sobre los anlisis realizados.4) Fuente de los datos y bibliografa usada. 3Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS 1. Introduccin Losdatosmultivariadossurgenendistintasreasoramasdelaciencia. Ejemplos:1)Investigacindemercados:Identificarcaractersticasdelosindividuos para determinar qu tipo de personas compran determinado producto.2)Agricultura:Resistenciadedeterminadotipodecosechasadaospor plagas y sequas.3)Psicologa:Relacinentreelcomportamientodeadolescentesy actitudes de los padres. En qu situaciones surgen los datos multivariados?Cuandoaunmismoindividuoselemidemsdeunacaractersticade inters. Unindividuopuedeserunobjetooconceptoquesepuedemedir.Ms generalmente,losindividuossonllamadosunidadesexperimentales. Ejemplos de objetos: personas, animales, terrenos, compaas, pases, etc.Ejemplos de conceptos: amor, amistad, noviazgo, etc. Caractersticasdelosindividuos:Losindividuosdebendeser independientes entre s. Una variable es una caracterstica o atributo que se le mide a un individuo. 4Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS Tipos de variables NumricasCategricas ContinuasDiscretasOrdenadasNo ordenadas OBJETIVOS de los mtodos multivariados:1)Simplificacin:Losmtodosmultivariadossonunconjuntodetcnicas quepermitenalinvestigadorinterpretaryvisualizarconjuntosgrandes de datos (tanto en individuos como en variables).2)Relacin:Encontrarrelacionesentrevariables,entreindividuosyentre ambos.2.1) Relacin entre variables: Existe relacin entre variables cuando las variablesmidenunacaractersticacomn.Ejemplo:Supongaque serealizanexmenesdelectura,ortografa,aritmticaylgebraa estudiantesde6odeprimaria.Sicadaunodelosestudiantes obtienecalificacionesaltas,regularesobajasenloscuatro exmenes, entonces los exmenes estaran relacionados entre s. En este caso, la caracterstica comn que estos exmenes pueden estar midiendo podra ser la "inteligencia global". 2.2)Relacinentreindividuos:Existerelacinentreindividuossi algunodeellossonsemejantesentres.Ejemplo:Supongaquese evalancereales(paraeldesayudo)respectoasucontenido nutricional y se miden, por ejemplo, los gramos de grasa, protenas, 5Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS carbohidratos y sodio a cada uno de ellos. Se podra esperar que los cerealesdefibraestnrelacionadosentres,oqueloscereales endulzados tengan cierta relacin entre s, adems se podra esperar que ambos grupos fueran diferentes de uno a otro. Uso de los mtodos multivariados: Mineras de datos (data mining). Losmtodosmultivariadossonrealmenteunconjuntodetcnicasqueen su gran mayora tienen un carcter exploratorio y no tanto inferencial. CLASIFICACIN de los mtodos multivariados: 1)Dirigidasomotivadasporlasvariables:seenfocanenlasrelaciones entrevariables.Ejemplos:matricesdecorrelacin,anlisisde componentesprincipales,anlisisdefactores,anlisisderegresiny anlisis de correlacin cannica.2)Dirigidasomotivadasporlosindividuos:seenfocanenlasrelaciones entreindividuos.Ejemplos:anlisisdiscriminante,anlisisdecmulos y anlisis multivariado de varianza. EJEMPLOS de datos multivariados. Ejemplo1.(Johnson,2000).Caractersticasdecandidatosaingresarala polica. 6Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS Variables (medidas en centmetros).EST: Estatura ESTSEN: Estatura sentados BRAZO: Longitud del brazo ANTEB: Longitud del antebrazo MANO: Ancho de la mano MUSLO: Longitud del muslo PIERNA: Longitud de la parte inferior de la pierna PIE: Longitud del pie Variables adicionales:BRACH: Razn de la longitud del antebrazo y de la del brazo 100 TIBIO: Razn de la parte inferior de la pierna y la del muslo 100 Ejemplo2.(Johnson,2000).Consumodecauchoyotrasvariablesdesde 1948 hasta 1963.Variables.CTC: Consumo total de caucho CCN: Consumo de caucho para neumticos PA: Produccin de automviles PNB: Producto nacional bruto IPD: Ingreso personal disponible CCM: Consumo de combustible por motor Ejemplo3.(SIMM90,CONAPO).Sistemaautomatizadodeinformacin sobre la marginacin en Mxico 1990. 7Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS Variables. NOMBRE: Nombre POB: Poblacin total SUPERF: Superficie DENSP: Densidad ANALF: Porcentaje de poblacin mayor de 15 aos analfabeta S/PRI: Porcentaje de poblacin mayor de 15 aos sin primaria completa S/EXC: Porcentaje de ocupantes en viviendas sin drenaje ni excusado S/ELE: Porcentaje de ocupantes en viviendas sin energa elctrica S/AGU: Porcentaje de ocupantes en viviendas sin agua entubada HACIN: Porcentaje de viviendas con hacinamiento PISOT: Porcentaje de ocupantes en viviendas con piso de tierra L5000:Porcentajedepoblacinenlocalidadesconmenosde5,000 habitantes INGRE:Porcentajedepoblacinocupadaconingresomenorde2salarios mnimos INDICE: Indice de marginacin GRADO: Grado de marginacin Ejemplo4.(Jonson&Wichern,2002).Tasasderetornosemanalesde5 acciones de la bolsa de Nueva York.Variables. A.Chem: Tasa de retorno de Allied Chemical Dupont: Tasa de retorno de Du Pont U.Carbide: Tasa de retorno de Union Carbide 8Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS Exxon: Tasa de retorno de Exxon Texaco: Tasa de retorno de Texaco Ejemplo 5. (Jonson & Wichern, 2002). Informacin sobre 22 compaas de servicio pblico en E.U.A. en 1975.Variables. X1: Razn de cobertura (Ingreso/Pasivo) X2: Tasa de retorno sobre capital X3: Costo por capacidad de KW (en sitio) X4: Factor anual de carga X5: Crecimiento pico en la demanda entre 1974 y 1975 (kWh) X6: Ventas anuales en kWhX7: Porciento nuclear X8: Costo total de energa (centavos por kWh) Ejemplo 6. (Internet). Informacin sobre crditos a personas fsicas.Variables. CLASS: Clasificacin de crdito, 1 otorgado, 0 no otorgado. GENDER: Gnero del solicitante, 1 hombre, 0 mujer AGE: Edad del solicitante (en aos) JOBYRS: Antigedad en el trabajo (en aos) MSTATUS: Estado civil, 1 casado, 0 soltero TOTINC: Ingreso total mensual (en dlares) TOTBAL: Deuda total (excluyendo deuda hipotecaria) TOTPAY: Pagos mesuales totales que el aplicante realiza de TOTBAL 9Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS NOTACIN de matrices y vectores: p = nmero de variablesn = nmero de individuos Xij = j-sima variable del i-simo individuo xij = valor observado de la j-sima variable del i-simo individuo i=1,...,nyj=1,....,p Matriz de datos:|||||.|

\|=np 2 n 1 np 2 22 21p 1 12 11x x xx x xx x xxLM O M MLL xij = elemento en el i-simo rengln y j-sima columna Renglones = individuos Columnas = variables Vectores de datos: Los renglones de la matriz de datos se pueden expresar como vectores de la siguiente forma: El i-simo rengln de X se escribe como( )ip 2 i 1 i'ix ,..., x , x x =Nota: Todos los vectores son vectores columna, i.e.,|||||.|

\|=ip2 i1 iixxxxM 10Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS ESPERANZAS y VARIANZAS de vectores aleatorios |||||.|

\|=p21XXXXM Media:|||||.|

\|=|||||.|

\|= = p21p21) X ( E) X ( E) X ( E) X ( EM M es un vector de medias de dimensin p1. Varianzas-Covarianzas:( )( ) { }'X X E ) X , X ( Cov ) X ( Var = = = Escribiendo el vector completo,( ))` |||||.|

\| = p p 2 2 1 1p p2 21 1X ,..., X , XXXXEM

( ) ( )( ) ( )( )( )( ) ( ) ( )( )( )( ) ( )( ) ( )|||||.|

\| =2p p 2 2 p p 1 1 p pp p 2 222 2 1 1 2 2p p 1 1 2 2 1 121 1X X X X XX X X X XX X X X XELM O M MLL 11Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS Finalmente, los elementos de se denotan como: |||||.|

\| = pp 2 p 1 pp 2 22 21p 1 12 11LM O M MLL donde, { }2j j j j j jj) X ( E ) X ( Var ) X , X ( Cov = = = , para j=1,2,...,p, y { } ) X )( X ( E ) X , X ( Covj j k k j k kj = = , para kj=1,2,...,p es una matriz de varianzas y covarianzas dimensin pp. Correlaciones:|||||.|

\| = = 111) X ( Corr2 p 1 pp 2 21p 1 12LM O M MLL donde, jj kkkjj k kj) X , X ( Corr = = , para kj=1,2,...,p Cometarios:1)Elcoeficientedecorrelacin kj esunamedidadelarelacinlineal entre las variables Xk y Xj.2) -1 1 kj3) Si Xk y Xj son v.a. independientes 0kj = . 12Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS 4) Independencia entre X 0kj =k y Xj nicamente en el caso Normal.5)Paraapreciarlarelacin(engeneral)entredosvariableses recomendable,ademsdecalcularencoeficientedecorrelacin,hacer una grfica de dispersin de ellas. 13Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS 2. Anlisis exploratorio multivariado 2.1. Estadsticas multivariadas descriptivas Lasestadsticasdescriptivas(multivariadas),comosunombreloindica, sirven para describir el comportamiento de un conjunto de datos. Formalmente,unconjuntodedatosesunarealizacindeunamuestra aleatoriadeunadistribucinmultivariada.Esdecir,para i=1,...,n,n 2 1X ,..., X , X|||||.|

\|=ip2 i1 iiXXXXM. Enotraspalabras,cadaXiesunavariablealeatoriamultivariadade dimensin p. Porlotanto,unconjuntodedatosestaformadopornrealizacionesdep variables aleatorias. |||||.|

\|=np 2 n 1 np 2 22 21p 1 12 11X X XX X XX X XXLM O M MLL. 14Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS MEDIA MUESTRAL:== n1 iiXn1, que en realidad, escribiendo el vector completo, se puede expresar como:)`|||||.|

\|+ +|||||.|

\|=|||||.|

\|= np2 n1 np 11211p21XXXXXXn1MLM M. Esto implica que, para j=1,...,p == n1 iij jXn1. Propiedades:( ) = E . Splus: mean VARIANZA MUESTRAL:( )( ))` = =n1 i'i iXX1 n1, cuyos elementos se denotan como:|||||.|

\| = pp 2 p 1 pp 2 22 21p 1 12 11 LM O M MLL donde, (= = n1 i2j ij jjX1 n1) , para j=1,2,...,p, y( )(= = n1 ij ij k ik kjXX1 n1), para kj=1,2,...,p. 15Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS Propiedades:( ) = E . Splus: var CORRELACIN MUESTRAL:|||||.|

\|=1 r rr 1 rr r 1R2 p 1 pp 2 21p 1 12LM O M MLL donde, jj kkkjkj r = , para kj=1,2,...,p.Propiedades:1) -1 rkj 1 2) () R E . Splus: cor CUARTILESMUESTRALES:Estasestadsticasdeordenseobtienencomoen el caso univariado para cada una de las variables. Splus: summary 16Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS 2.2. Anlisis grfico de datos multivariados DIAGRAMAS DE DISPERSIN (bidimensional).Estetipodediagramaconsisteengraficarsimultneamenteendos dimensionesdiagramasdedispersinentretodaslasposiblesparejasde variables. Splus: plot, pairs DIAGRAMAS DE DISPERSIN (tridimensional) Estetipodediagramaconsisteengraficarentresdimensionestres variables simultneamente. Splus: brush, Graph > 3D Plot > 3D Scatter Plot DIAGRAMA DE BURBUJAS (tridimensional) Estetipodediagramaconsisteengraficarendosdimensionestres variablesenformadeburbujasdelasiguientemanera:ElejedelasX's correspondeaunadelasvariables,eleje de las Y's corresponde a otra de las variables, y la tercer variable quedar representada por el tamao de la burbuja. Splus: symbols CARAS DE CHERNOFF (multidimensional) Estetipodediagramaconsisteengraficarunconjuntomultivariadode variablesenformadecaras,asociandocaractersticasfacialesdiferentesa variablesdiferentes.Porejemplo,unavariablesepodraasociarconel 17Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS ancho vertical del ojo, la segunda con el ancho horizontal, la tercera con el tamaodeliris,ylasotrassepodranasociarconelespaciamientodelos ojos,laalturadelosojos,lalongituddelanariz,enanchodelanariz,la longituddelascejas,elanchodelascejas.Lainclinacindelascejas,el anchodelasorejas,lalongituddelasorejas,laaberturadelaboca,la sonrisa, etc.Estos diagramas son tiles para detectar datos extremos (outliers). Splus: faces DIAGRAMA DE ESTRELLAS (multidimensional) Estetipodediagramaseaplicacuandotodaslasvariablestomanvalores positivosyconsistenengraficarrayosoejesquepartendeunpunto central. La longitud del rayo corresponde al valor de la variable y se tiene un rayo para cada variable. Por ejemplo, vectores de datos con 5 variables requerirn 5 rayos separados entre s por un ngulo de 72 grados.Laprimeravariablegeneralmentecorrespondeconelrayoqueapunta hacia el norte y las otras variables se representan sobre los otros rayos en el orden del sentido del movimiento de las manecillas del reloj. Splus: stars DIAGRAMA DE ANDREWS (multidimensional)Estetipodediagramaconsisteenrepresentaralaobservacini-simade un vector aleatorio p-variado( )ip 2 i 1 i'ix ,..., x , x x =de la siguiente forma:L + + + + + = ) t 2 cos( x ) t 2 ( sen x ) t cos( x ) t ( sen x2x) t ( f5 i 4 i 3 i 2 i1 ii 18Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS para < < t .Deestaforma,lasobservacionesparaelindividuoidan lugaraunanicafuncinfi(t).EldiagramadeAndrewsseconstruye graficando las funciones f1(t), f2(t),... fn(t) para < < t .Estosdiagramassontilesparaencontraragrupamientosenlosdatos. Tambin son tiles para localizar datos extremos.Esrecomendablequelasvariablesestnmedidasenunidadessemejantes (estandarizacin).El orden de las variables afecta la interpretacin. 19Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS 3. La distribucin normal multivariada. 3.1. Introduccin y definiciones. La mayora de los mtodos multivariados tradicionales cuando son usados pararealizarinferencias,masqueparauncarcterexploratorio,suponen que los vectores de datos son muestras de v.a. normales multivariadas. Un vector aleatorio X es normal multivariado si su distribucin conjunta es normal multivariada. ExistenvariasDEFINICIONESequivalentesdeunadistribucinnormal multivariada:Definicin1(Simple):Sedicequeunvectoraleatorio tiene una distribucin normal multivariada si (p 2 1'X ,..., X , X X = )( )==|||||.|

\|=p1 jj jp21p 2 1'X aXXXa ,..., a , a X aM tiene una distribucin normal univariada para todos los posibles valores del vector a. Definicin 2 (Formal): Se dice que un vector aleatorioXtiene una distribucin normal multivariada con vector de medias y matriz de varianzas-covarianzas , si su funcin de densidad est dada por( )p 2 1'X ,..., X , X = 20Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS ( ) ( ) ()` = x x21exp) 2 (1, ; x f1 '2 / 12 / pX) , para px Notacin: X Np(, ) PROPIEDADES de la distribucin normal multivariada:SiXNp(,),esdecir,elvector( )p 2 1'X ,..., X , X X = tieneuna distribucin normal multivariada, entonces 1) E(X) = yVar(X) = .2) Cada Xj, para j=1,...,p, tiene un distribucin normal univariada. Es decir, Xj N(j, jj)y por lo tanto,E(Xj) = jyVar(Xj) = jj. 3)Si ( 0 )parajk=1,...,pentoncesX 0jk =jk =1,X2,...,Xpsonv.a. independientes. Nota:SicadaXj,j=1,..,ptieneunadistribucinnormalunivariada,no necesariamenteelvector( )p 2 1'X ,..., X , X X = tendrunadistribucin normalmultivariada.Engeneralssecumple,peroexistenalgunoscasos atpicos en donde no. 3.2. Distribucin normal bivariada Uncasoparticulardeladistribucinnormalmultivariadaescuandoel nmero de variables p=2. En este caso, si( )2 1'X , X = X N2(, ) se dice que X tiene una distribucin normal multivariada de dimensin 2 o que X tiene una distribucin normal bivariada, donde 21Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS ||.|

\|= 21y . ||.|

\| = 22 2112 11Recuerda que 22 111212 = . Ladistribucinnormalbivariadaesdeimportanciaporqueesposible visualizar su comportamiento en una grfica en tres dimensiones. Caractersticas de la funcin de densidad normal bivariada. 1) Tiene forma acampanada,2) Las curvas de nivel forman crculos (si 11=22, 12=0), o elipses. Splus: dmvnorm, pmvnorm, rmvnorm. 3.3. Inferencia estadstica Elproblemadeinferenciaestadsticaconsisteenaproximarelvalorde ciertascaractersticaspoblacionales(llamadasparmetros)pormediode resmenes(llamadosestadsticas)generadosapartirdelainformacin contenida en una muestra obtenida de la poblacin. ESTIMACINPUNTUAL:Elproblemadeestimacinpuntualconsisteen proporcionarunvalorpuntualqueaproximealparmetrodeinters.Los mtodosclsicosdeestimacinpuntualdeparmetrosson:mtodode momentos y mtodo de mxima verosimilitud. 22Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS Delosdosmtodosantesmencionados,elqueproduceestimadorescon mejorespropiedades(insesgamiento,eficiencia,consistencia,etc.),esel mtodo de mxima verosimilitud. Elmtododemximaverosimilitudconsisteenencontrarelvalordelos parmetrosquehacenquelamuestraobservadatengaprobabilidad mxima de haberse observado. Losestimadorespuntualesparaelvectordemedias,lamatrizde varianzas-covarianzas y la matriz de correlaciones de una distribucin normal multivariada son la media muestral, la varianza muestral y la correlacin muestral R, cuyas expresiones son:== n1 iiXn1)`|||||.|

\|+ +|||||.|

\|=|||||.|

\|= np2 n1 np 11211p21XXXXXXn1MLM M,( )( ))` = =n1 i'i iXX1 n1 , |||||.|

\| = pp 2 p 1 pp 2 22 21p 1 12 11 LM O M MLL|||||.|

\|=1 r rr 1 rr r 1R2 p 1 pp 2 21p 1 12LM O M MLL, 23Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS donde, (= = n1 i2j ij jjX1 n1) , para j=1,2,...,p,( )(= = n1 ij ij k ik kjXX1 n1), para kj=1,2,...,p, y jj kkkjkj r = , para kj=1,2,...,p.Nota: El estimador es el EMV de . El estimadorno es el EMV , sino n1 n. Propiedades:( ) = E , ( ) = Ey() R E . Splus: mean, var, cor. PRUEBAS DE HIPTESIS: El problema de contraste de hiptesis en estadstica consiste en decidir cul de dos hiptesis es correcta. La decisin se toma de acuerdo con la informacin de la muestra. Lapruebadehiptesisdemayorimportanciaendatosmultivariadoses probar si la correlacin entre dos variables es significativamente distinta de cero. Prueba de hiptesis para jk: Formalmente,se quiere probar0 : Hjk 0= vs. 0 : Hjk 1 La estadstica de prueba es:2jkjkr 12 n rT = , 24Mdulo 6: Anlisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS y la regin de rechazo es:{ }2 /) 2 n (t t : t> , donde es el punto de una distribucin t-Student con (n-2) grados de libertad que acumula /2 de probabilidad a la derecha.2 /) 2 n (t Splus: cor.test INTERVALOSDECONFIANZA:Elcalcularunintervalodeconfianzaesun problemadeestimacinporintervalo,endondeloqueseproporcionaes unconjuntodevaloresltamenteposiblescomoaproximacionesal parmetro. Al igual que en el caso de pruebas de hiptesis, el intervalo de confianza de mayor inters es el de la correlacin entre dos variables. Intervalosdeconfianzaparajk:Existenvariaspropuestas,perounade ellaseslapropuestaporFisher.Elintervalodeconfianzaenestecaso sera,( ) ( ))`+