metodos estadasticos y econometricos en la empresa y para finanzas

237
MÉTODOS ESTADÍSTICOS Y ECONOMÉTRICOS EN LA EMPRESA Y PARA FINANZAS José Antonio Ordaz Sanz María del Carmen Melgar Hiraldo Carmen María Rubio Castaño Departamento de Economía, Métodos Cuantitativos e Historia Económica Universidad Pablo de Olavide

Upload: clavijo-meneses-pina-teja

Post on 08-Nov-2015

225 views

Category:

Documents


2 download

DESCRIPTION

Métodos Estadísticos y Econometricos en La Empresa y Para Finanzasaplicación desde el sistema SPSS, aplicado a la estadística empresarial.

TRANSCRIPT

  • MTODOS ESTADSTICOS Y ECONOMTRICOS EN LA EMPRESA Y

    PARA FINANZAS

    Jos Antonio Ordaz Sanz

    Mara del Carmen Melgar Hiraldo

    Carmen Mara Rubio Castao

    Departamento de Economa, Mtodos Cuantitativos e Historia Econmica

    Universidad Pablo de Olavide

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    TEMA 1

    Introduccin a las tcnicas de Anlisis Multivariante en el mbito de la Economa y la Empresa

    1.1. Introduccin al Anlisis Multivariante: definicin y clasificacin.- El Anlisis Multivariante comprende un conjunto de tcnicas o mtodos estadsticos cuya finalidad es analizar simultneamente informacin relativa a varias variables para cada individuo o elemento estudiado. Algunos de estos mtodos son puramente descriptivos de los datos muestrales, mientras que otros utilizan dichos datos muestrales para realizar inferencias acerca de parmetros poblacionales.

    Entre los propsitos de estas tcnicas, podemos citar, por ejemplo:

    Describir informacin de forma resumida. Agrupar observaciones o variables en subconjuntos homogneos. Explorar la existencia de asociaciones entre variables. Explicar (o probar) comportamientos.

    Existen diferentes clasificaciones de los mtodos de Anlisis Multivariante. Una de las ms usuales distingue dos grandes grupos, segn el objetivo del anlisis: mtodos de dependencia y mtodos de interdependencia. Adems, dentro de cada uno de estos grupos, la naturaleza de las variables juega un papel importante en la definicin de los diversos mtodos. Asimismo, cada mtodo exige unas determinadas condiciones de aplicacin para asegurar la fiabilidad de los resultados obtenidos.

    Los mtodos de dependencia suponen que las variables analizadas estn divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los mtodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qu forma.

    En cuanto a los mtodos de interdependencia, stos no distinguen entre variables dependientes e independientes, sino que tienen como objetivo identificar qu variables pueden estar relacionadas entre s, cmo lo estn y por qu.

    A continuacin se seala una relacin de mtodos, clasificados segn el criterio mencionado.

    1

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    MTODOS DE DEPENDENCIA

    Variable(s) independiente(s)

    Variable(s) dependiente(s)

    Cuantitativa(s) Cualitativa(s)

    Cuantitativa(s)

    - Regresin - Anlisis factorial confirmatorio - Ecuaciones estructurales

    - Regresin dummy - t-test - ANOVA - MANOVA

    Cualitativa(s)

    - Anlisis discriminante (con 2 ms grupos) - Probit - Logit

    - Anlisis discriminante dummy - Anlisis conjunto (conjoint)

    MTODOS DE INTERDEPENDENCIA

    Anlisis Factorial (AF) AF de correlaciones (para variables cuantitativas) AF de correspondencias (para variables cualitativas)

    Anlisis de Componentes Principales Anlisis cluster (o de conglomerados)

    1.2. El Anlisis de la Varianza (ANOVA): introduccin.- Los modelos de ANOVA (ANalysis Of VAriance) son tcnicas de Anlisis Multivariante de dependencia, que se utilizan para analizar datos procedentes de diseos con una o ms variables independientes cualitativas (medidas en escalas nominales u ordinales) y una variable dependiente cuantitativa (medida con una escala de intervalo o de razn). En este contexto, las variables independientes se suelen denominar factores (y sus diferentes estados posibles o valores son niveles o tratamientos) y la variable dependiente se conoce como respuesta.

    Los modelos ANOVA permiten, bsicamente, comparar los valores medios que toma la variable dependiente en J poblaciones en las que los niveles de factores son distintos, con la finalidad de determinar si existen diferencias significativas segn dichos niveles o si, por el contrario, la respuesta en cada poblacin es independiente de los niveles de factores. Se trata, por tanto, de un contraste paramtrico que extiende al caso de J poblaciones el contraste de la igualdad de medias entre dos poblaciones independientes.

    Algunos ejemplos de aplicacin de estos modelos podran ser los siguientes:

    2

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Anlisis de la duracin media de varios tipos de lmparas. La variable dependiente indicara la duracin de una lmpara y el factor podra ser la potencia de la lmpara. Las poblaciones estaran formadas por lmparas con la misma potencia y habra tantas poblaciones como potencias distintas (stas seran los niveles del factor considerado). Se tratara de contrastar la igualdad de las duraciones medias de las lmparas de cada poblacin, para determinar si la potencia influye o no en dicha duracin media.

    Estudio del efecto de varios tipos de fertilizantes sobre un cultivo. La variable dependiente podra ser la produccin o el rendimiento de cada parcela; los factores seran, por ejemplo, el tipo de suelo de la parcela y el tipo de fertilizante utilizado. Cada poblacin estara formada por las parcelas que tienen un tipo concreto de suelo y en las que se utiliza un fertilizante determinado. El ANOVA se aplicara para analizar la posible existencia de diferencias en las producciones medias de las parcelas segn el tipo de suelo y el tipo de fertilizante utilizado.

    Aunque existen muchos y muy diferentes modelos de ANOVA, puede obtenerse una clasificacin bastante simple de los mismos atendiendo a tres criterios: el nmero de factores, el tipo de muestreo efectuado sobre los niveles de los factores y el tipo de aleatorizacin utilizada para seleccionar las muestras representativas de cada poblacin y agrupar sus elementos (o unidades experimentales) en los distintos grupos que se desea comparar. Veamos esto con ms detenimiento:

    Segn el nmero de factores, se llama ANOVA de un factor al modelo en el que existe una nica variable independiente; en cambio, si el modelo consta de ms de un factor se le denomina modelo factorial o se habla de Anlisis de Varianza Factorial.

    En cuanto al muestreo de niveles, se refiere a la forma de establecer los niveles de cada factor. Esto depende, normalmente, de los intereses del investigador. Si se fijan nicamente aquellos niveles del factor que realmente interesa estudiar, estamos ante un modelo de ANOVA de efectos fijos (tambin llamado modelo I) mientras que si los niveles se seleccionan aleatoriamente de entre todos los posibles, se trata de un modelo ANOVA de efectos aleatorios (o modelo II).

    Las distinciones basadas en el tipo de aleatorizacin son equivalentes a las que se establecen al hablar de muestras independientes y muestras relacionadas. Como en todo experimento estadstico en el que no resulta posible trabajar con la poblacin en su totalidad, se deben elegir muestras aleatorias y asignarse tambin aleatoriamente sus elementos a los diferentes niveles o tratamientos, para asegurar que no se cometan errores sistemticos. Si las unidades experimentales reaccionan o responden a los tratamientos de la misma manera, se dice que son homogneas. Por el contrario si responden de diferente manera a

    3

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    los tratamientos debido a sus diferencias intrnsecas, se dirn heterogneas. Por otra parte, el tamao de las muestras puede ser o no el mismo. Diremos que un diseo es equilibrado o balanceado si todas las muestras tienen el mismo tamao y no equilibrado o no balanceado en caso contrario.

    Como ya hemos indicado, el ANOVA trata de determinar si los niveles de factores pueden conllevar diferencias en la respuesta en los distintos grupos o poblaciones, contrastando la igualdad de medias de la variable dependiente en dichos grupos. Para ello, se basa en el estudio de la varianza.

    Si dos poblaciones tienen la misma media y la misma varianza, la unin de ambas tambin tendr la misma media y la misma varianza que las originales. Por tanto, es razonable pensar que, si se estimara la varianza poblacional a partir de muestras de las dos poblaciones iniciales, se obtendra un resultado similar al que se tendra si la estimacin se efectuara con la unin de ambas muestras.

    Sin embargo, si las dos poblaciones tienen distinta media (pero la misma varianza), al combinarlas cambiaran tanto la media de la nueva distribucin como su varianza. En este caso, si se estimara la varianza poblacional a partir de una muestra extrada de las poblaciones iniciales, el resultado sera sustancialmente diferente de una estimacin efectuada a partir de la muestra conjunta. Lo mismo ocurrira si estuviramos hablando de ms de dos poblaciones.

    Esta observacin es el punto de partida del ANOVA, que permite comparar las medias de varias poblaciones a partir del estudio de sus varianzas. En concreto, como se ver ms adelante, se analiza la relacin entre las llamadas medias cuadrticas inter-grupos y medias cuadrticas intra-grupos, que deben ser iguales si las medias de las poblaciones lo son.

    Para poder aplicar esta tcnica, es necesario que se verifiquen las siguientes condiciones previas:

    Independencia: los individuos estudiados han de ser independientes unos de otros.

    Aleatoriedad: las muestras o grupos objeto de estudio deben haberse obtenido de forma aleatoria.

    Normalidad: las muestras o grupos analizados deben seguir una distribucin Normal.

    Homocedasticidad: debe haber igualdad de varianzas en las muestras o grupos estudiados.

    Veremos a continuacin cmo se plantea un problema con la tcnica ANOVA, primero para el caso de un factor y luego para el caso factorial.

    4

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    1.3. ANOVA de un factor.- El anlisis de la varianza de un factor se utiliza para comparar el valor medio de una variable dependiente cuantitativa en varios grupos, que se diferencian por los niveles del factor considerado.

    En este apartado, se considerar un modelo de efectos fijos no equilibrado, en el que, por tanto, los tamaos muestrales no tienen por qu ser iguales.

    Si denotamos por Y a la variable dependiente; al nmero de muestras o grupos considerados (correspondientes cada uno a un nivel distinto del factor); a

    los tamaos de cada una de las muestras; al tamao muestral total; e al

    valor de la variable

    J

    jn1

    Jnnn ,,, 21

    ijY

    Jj

    n

    Y correspondiente a la observacin i de la muestra j (para e ), la tabla siguiente resumira los datos disponibles: Jj ,,2,1 jni ,,2,1

    Muestras Observaciones Total Medias

    1 112111 1ni YYYY 1T 1Y

    2 222212 2ni YYYY 2T 2Y

    j jnijjj jYYYY 21 jT jY

    J JniJJJ JYYYY 21 JT JY

    Jj

    jTT1

    nTY

    La aplicacin de la tcnica ANOVA se basa en un contraste de hiptesis. La hiptesis nula que se contrasta en el ANOVA de un factor es que las medias poblacionales son iguales:

    contrario casoEn ::

    1

    210

    HH J

    Si se acepta la hiptesis nula, significar que los grupos no difieren en el valor medio de la variable dependiente y que, en consecuencia, dicho valor medio se podr considerar independiente del factor.

    Para contrastar dicha hiptesis, introducimos los conceptos de media cuadrtica inter-grupos (CME) y de media cuadrtica intra-grupos (CMD), que vienen dados, respectivamente, por las expresiones:

    5

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    1J

    1

    2

    YYnCM

    J

    jjj

    E

    y

    Jn YY

    CM

    J

    j

    n

    ijij

    D

    j 1 1

    2

    .

    sum

    , los nomi ados grados de libertad asociados a dichas

    Los numeradores de cada una de estas medias cuadrticas se conocen como a de cuadrados entre grupos, ESC , y como suma de cuadrados dentro de grupos, DSC . Por su parte de nadores son los llamsumas: 1J y Jn , respectivamente. El estadstico de prueba que utiliza ANOVA para contrastar la hiptesis nula planteada se construye a partir de los conceptos anteriores; concretamente, viene dado por:

    Jn

    YY

    J

    YYn

    CMCMF

    J

    j

    n

    ijij

    J

    jjj

    D

    EJnJ j

    1 1

    2

    1

    2

    ,11 .

    n

    Suponiendo cierta 0H , este estadstico sigue una distribucin F de Snedecor con J-1 y

    n-J grados de libertad; por lo que dado un nivel de significaci ,

    la regvendr determinada por los valores tales que , siendo

    .

    in crtica

    1

    ,1 JnJFF

    1 ][ 1 ,1 JnJFFP

    Ejemplo:

    Consideremos cuatro compaas A, B, C y D, cuyas acciones cotizan en Bolsa y seleccionamos aleatoriamente las cotizaciones de esas acciones en diferentes instantes de tiempo. As, para la compaa A se observa aleatoriamente la cotizacin en 5 instantes de tiempo, en la B se observa en 4 instantes, en la C en 6 y, por ltimo, en la

    cotizacin en euros de las diferentes acciones en los instantes de tiempo seleccionados:

    Factor Observaciones Tama

    )

    Total Medias

    compaa D se observa la cotizacin de las acciones en 5 instantes de tiempo.

    En la tabla siguiente se muestra la

    o

    ( ni

    A 670 840 780 610 900 5 3.800 760

    B 600 800 690 650 4 2.740 685

    C 800 810 730 690 750 720 6 4.500 750

    D 970 840 9 790 920 5 4.450 890 30

    20n 490.15T 5,774Y

    6

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Suponiendo que se verifican las hiptesis de normalidad, aleatoriedad, independencia y homogeneidad de varianzas, se desea contrastar al nivel de significacin del 1% si la cotizacin media de las acciones de cada una de las cuatro compaas se pueden considerar iguales.

    Solucin:

    La hiptesis nula que se debe contrastar es:

    contrario casoEn ::

    1

    0

    HH DCBA

    La tabla ANOVA, en la que se indican las sumas de cuadrados, sus grados de libertad y las medias cuadrticas inter-grupos e intra-grupos, es en este ejemplo:

    Fuente de variacin

    Suma de cuadrados Grados de libertad

    Medias cuadrticas F

    Entre compaas

    395.103ESC 31 J 465.341 J

    SCCM EE 96,4

    D

    E

    CMCMF

    Dentro de las compaas

    100.111DSC 16 Jn 75,943.6 JnSC

    CM DD

    Total 495.214TSC 191 n

    La hiptesis nula se rechazar si . A partir de las tablas estadsticas de la

    distribucin F de Snedecor, determinamos que , por lo que aceptaramos la

    hiptesis nula, al ser 4,96

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Sin embargo, los mtodos grficos no son, en general, definitivos. Por tanto, para poder determinar si existen diferencias y, en caso afirmativo, entre qu grupos existen, ser necesario recurrir al anlisis de varianza. Para llegar a la tabla ANOVA, deberemos pulsar Analizar / Comparar medias / ANOVA de un factor y a continuacin indicamos la variable dependiente (cotizacin) y el factor (empresa). Podemos observar que el resultado, que se muestra en la Figura 2, coincide con el que se ha mostrado en la tabla de resultados anterior.

    Figura 1

    Figura 2

    Adems, la tabla ANOVA que proporciona PASW Statistics nos da el p-valor asociado al estadstico de prueba, lo que facilita la toma de decisin en relacin a la aceptacin o rechazo de la hiptesis nula. Como sabemos, al ser el p-valor superior al nivel de significacin elegido (0,013>0,01) aceptaramos la hiptesis nula con lo que la cotizacin media ser independiente de la empresa. Si embargo, si trabajramos con un nivel de significacin del 5%, la conclusin sera distinta, puesto que 0,013

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Una limitacin importante del mtodo que acabamos de desarrollar es que nicamente permite contrastar la hiptesis general de que los J promedios comparados son iguales. Sin embargo, en el caso de que se rechace esa hiptesis y por tanto las medias no sean iguales, no se podr precisar cules son las muestras que tienen medias distintas. Para resolver esta cuestin, se deben utilizar otros contrastes, conocidos como comparaciones mltiples post-hoc o comparaciones a posteriori. Los mtodos de este tipo que ofrece PASW Statistics son muy diversos y cada uno de ellos necesita de unas condiciones iniciales para su aplicacin. Desarrollaremos a continuacin el mtodo de Scheff, que tiene menos restricciones para su aplicacin que los dems.

    Mtodo de Scheff de comparaciones mltiples

    En general, este mtodo consiste en formular un contraste sobre una combinacin lineal de cualquier nmero de medias poblacionales. En el caso particular que nos interesa de comparacin de medias, las hiptesis que se formulan para los distintos valores de j son las siguientes:

    contrario casoEn :

    0:

    1

    0 21

    HH jj

    y, para ello, se utiliza el estadstico de prueba:

    21

    21

    111

    2

    ,1

    jj

    D

    jjJnJ

    nnJnSCJ

    YYF , que,

    suponiendo cierta , sigue una distribucin F de Snedecor con J-1 y n-J grados de

    libertad, por lo que dado un nivel de significacin 0H

    , la regin crtica vendr determinada por los valores tales que , siendo . 1 ,1 JnJFF 1]1 ,1 JnJFF[P

    Ejemplo:

    El departamento de marketing de una empresa desea estudiar la repercusin de sus campaas publicitarias en las cifras de ventas de uno de sus productos. Se realizaron tres campaas diferentes, cada una en una provincia de la misma Comunidad Autnoma.

    Las tres campaas tenan diferentes caractersticas en cuanto al medio de comunicacin utilizado. La campaa A se centraba en la prensa escrita, la B en las emisoras de radio y la C en anuncios en vallas publicitarias.

    Durante los tres primeros meses, las cifras de ventas (en cientos de unidades) en cinco tiendas fueron las siguientes:

    9

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Medio de comunicacin

    Ventas (en cientos de unidades)

    A (prensa) 30 20 35 42 60

    B (radio) 85 73 92 86 75

    C (vallas) 40 28 39 41 50

    Se desea contrastar, a un nivel de confianza del 95%, si existen diferencias significativas en cuanto a las cifras medias de ventas segn el tipo de campaa publicitaria utilizada y, si es as, determinar entre qu tipos de campaa se dan tales diferencias.

    Solucin:

    En este caso, el grfico de barras de error (Figura 3) parece indicar que existen diferencias significativas entre las ventas medias en cada nivel del factor, puesto que los intervalos de los 3 no se solapan. Adems, parece que las diferencias se darn cuando la campaa elegida es la radio, pues los otros casos s se solapan.

    Figura 3

    Antes de contrastar la hiptesis de igualdad de medias, comprobaremos si se verifican las hiptesis de aplicacin del ANOVA de un factor; en concreto, la normalidad y la

    10

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    homoscedasticidad, puesto que los otros dos supuestos (independencia y aleatoriedad) hacen referencia a la eleccin de las muestras.

    Normalidad. sta se puede estudiar a travs del test de Shapiro-Wilk (dado que el tamao muestral es inferior a 50), que se obtiene a travs de Analizar / Estadsticos descriptivos / Explorar, indicando la variable dependiente (ventas) y el factor (campaa publicitaria) y pulsando seguidamente en Grficos, donde se elige la opcin Grficos con prueba de normalidad1.

    Figura 4

    En este contraste, la hiptesis nula plantea que los datos proceden de poblaciones normales. En las tres muestras (correspondientes a los tres tipos de campaa publicitaria: prensa, radio y vallas publicitarias) se acepta la hiptesis nula, dado que los p-valores toman, respectivamente, los valores 0,881; 0,509 y 0,600 que son mayores que 0,05, que es el nivel de significacin con el que estamos trabajando.2

    Homoscedasticidad. En este caso, aplicamos el test de Levene, que establece como hiptesis nula la igualdad de varianzas en las distintas poblaciones. La forma de operar con PASW Statistics aqu es: Analizar / Estadsticos descriptivos / Explorar, indicando la variable dependiente (ventas) y el factor (campaa publicitaria) y pulsando seguidamente en Grficos, donde se elige, dentro del apartado Dispersin por nivel con prueba de Levene, la opcin Estimacin de potencia.

    Como muestra la Figura 5, la prueba de homogeneidad de la varianza arroja p-valores mayores que el nivel de significacin fijado del 5%, lo que lleva a aceptar la hiptesis nula y por tanto la igualdad de varianzas (generalmente se suele utilizar la prueba efectuada basndose en la media).

    1 Al elegir esta opcin, junto a una serie de grficos denominados Grficos Q-Q normales, PASW Statistics nos ofrece una tabla donde se recogen los resultados analticos de las pruebas de normalidad. Dado que esta tabla es la que fundamentalmente nos interesa, es lo nico que mostramos en la Figura 4, obviando los referidos grficos. 2 Obsrvese en la Figura 4 que al efectuar el contraste con PASW Statistics, tambin obtenemos el resultado del test de Kolmogorov-Smirnov, que se aplica para tamaos muestrales superiores a 50.

    11

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 5

    Una vez comprobadas las hiptesis necesarias para llevar a cabo el ANOVA, podemos aplicarlo. La Figura 6 nos muestra el resultado. Para un nivel de significacin del 5%, el p-valor resultante (0,000) nos lleva a rechazar la hiptesis nula de igualdad de medias. Concluimos, por tanto, que el tipo de campaa publicitaria utilizado repercute en las ventas medias.

    Figura 6

    Para saber entre qu tipos de campaas publicitarias se encuentran las diferencias, llevamos a cabo un contraste de comparaciones mltiples, pulsando Analizar / Comparar medias / ANOVA de un factor / Post hoc y eligiendo la opcin Scheff en el cuadro Asumiendo varianzas iguales.

    El resultado obtenido se muestra en la Figura 7, donde se ofrecen las distintas combinaciones de pares de tipos de campaas publicitarias, con el p-valor asociado al contraste que plantea, como hiptesis nula, la nulidad de diferencia de las medias correspondientes. Se observa que existen diferencias significativas de medias entre las campaas de radio y prensa y las de radio y vallas publicitarias; en ambos casos, el p-valor es de 0,000, esto es, menor que el nivel de significacin del 5% (adems, las diferencias significativas aparecen marcadas con * por PASW Statistics). Ntese, sin embargo, que no sucede as en el caso de la prensa y las vallas publicitarias.

    12

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 7

    Otro modo alternativo de llegar a esta conclusin es comprobar si el intervalo de confianza para la diferencia de medias contiene o no al cero. Si es as, se acepta la hiptesis nula y consecuentemente no hay diferencias significativas; por el contrario, si no, se rechaza la hiptesis nula y s se evidencian diferencias significativas.

    Adems, el programa PASW Statistics tambin proporciona una clasificacin de los grupos considerados en subconjuntos homogneos en cuanto a la media de la variable dependiente (Figura 8). As, en nuestro ejemplo se observa que las campaas de prensa y vallas publicitarias pertenecen al mismo subconjunto (sus medias pueden considerarse iguales al nivel de significacin del 5%), mientras que la campaa de radio forma un segundo subconjunto.

    Figura 8

    1.4. Anlisis de Varianza Factorial.- El Anlisis de Varianza Factorial permite estudiar la influencia de dos o ms factores sobre la variable dependiente. En estos experimentos factoriales se pueden considerar por separado los efectos individuales de los factores y adems se puede estudiar su interaccin, que se introduce en el modelo de forma multiplicativa. La existencia de

    13

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    interaccin indica por tanto que el efecto de los factores sobre la variable respuesta no es totalmente aditivo.

    En un anlisis de varianza factorial existe una hiptesis nula por cada factor y por cada posible combinacin de factores. La hiptesis nula referida a un factor individual afirma que las medias de las poblaciones definidas por los niveles del factor son iguales; la referida al efecto de una interaccin entre factores afirma que tal efecto es nulo.

    Para contrastar cada una de estas hiptesis, el ANOVA factorial se sirve de estadsticos basados en la lgica ya expuesta para el ANOVA de un factor, y que siguen distribuciones de probabilidad F de Snedecor.

    En un ANOVA factorial se trabaja con tantas poblaciones (que se suponen normales y homoscedsticas) como combinaciones haya de todos los niveles de los factores involucrados. Tambin se asume que las observaciones han sido aleatoriamente seleccionadas (una muestra en cada poblacin) y que, por tanto, son independientes entre s.

    Ejemplo:

    Una subdelegacin del Ministerio de Educacin y Ciencia est interesada en estudiar la cantidad anual pagada por los padres de alumnos de Enseanza Primaria en los colegios privados pertenecientes al territorio de su mbito de competencia. Para realizar el estudio se clasificaron los colegios privados de este territorio por bloques, segn su localizacin geogrfica y segn el nmero de alumnos por aula que los colegios afirmaban tener (considerando sta ltima variable como categrica: 25 alumnos o ms, o bien, menos de 25 alumnos). En cada una de las combinaciones obtenidas se seleccion una muestra aleatoria de 3 colegios y se recogi informacin correspondiente a la cantidad anual (en cientos de euros) que el colegio reciba por cada alumno de Enseanza Primaria. Los datos obtenidos se muestran en la tabla siguiente:

    Alumnos \ Zona Zona Norte Zona Centro Zona Sur

    Menos de 25 alumnos por

    aula

    32

    45,5

    28,95

    25,4

    37,2

    23

    50

    20,9

    27

    25 ms alumnos por

    aula

    21,6

    25

    19

    26,5

    17,2

    22

    15

    24

    18

    Suponiendo que se verifican las hiptesis de normalidad, independencia y homoscedasticidad, se desea saber si los colegios privados pertenecientes a esta subdelegacin presentan diferencias significativas en las cantidades cobradas a los alumnos de Enseanzas Primarias, segn su localizacin y nmero de alumnos por aula.

    14

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Solucin:

    En este caso, se trata de un modelo con 2 factores: localizacin y nmero de alumnos por aula (por tramos). El primero de estos factores tiene 3 niveles: zona norte, zona centro y zona sur; mientras que el segundo tiene 2 niveles: menos de 25 alumnos por aula y 25 ms alumnos por aula. De la combinacin de los niveles, se obtienen 6 poblaciones que vamos a suponer normales, independientes y homoscedsticas, con las que se trabajar.

    Para llevar a cabo un ANOVA factorial con PASW Statistics se utilizarn las especificaciones del procedimiento Univariante al que se llega a travs de: Analizar / Modelo Lineal General / Univariante.

    La primera de las tablas (Figura 9) ofrece datos generales del problema: nombre de las variables independientes (factores), sus niveles y el tamao de cada grupo resultante.

    Figura 9

    La tabla resumen del ANOVA (Figura 10) contiene informacin similar a la que proporcionaba la tabla del modelo de un nico factor: las fuentes de variacin, las sumas de cuadrados, los grados de libertad, las medias cuadrticas, los estadsticos de prueba y los p-valores asociados a cada uno de estos estadsticos, que nos permite finalmente obtener la conclusin del contraste llevado a cabo.

    Las filas correspondientes a Numalumnos (nmero de alumnos) y Zona recogen los efectos principales, es decir, los efectos individuales de los dos factores incluidos en el modelo: nmero de alumnos por aula y zona en la que se encuentra el colegio. Los p-valores indican que, mientras los grupos definidos por la variable nmero de alumnos pagan unas cantidades medias significativamente diferentes (el p-valor = 0,014 < 0,05 que aparece nos lleva a rechazar la hiptesis nula de igualdad de medias), las cantidades medias pagadas en los grupos definidos por la variable zona no parecen diferir (el p-valor = 0,753 > 0,05, por lo que se acepta la hiptesis nula de igualdad de medias).

    La siguiente fila (Numalumnos*zona) contiene informacin sobre el efecto interaccin entre ambas variables. El estadstico F correspondiente a este efecto tiene asociado un

    15

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    nivel crtico de 0,714 > 0,05, lo que indica que el efecto de la interaccin no es significativo.

    Figura 10

    Finalmente, es interesante observar el coeficiente que se ofrece en una nota al pie de la tabla: . Dicho coeficiente se obtiene dividiendo la suma de cuadrados del Modelo corregido entre la suma de cuadrados Total corregida, e indica que los tres efectos incluidos en el modelo (nmero de alumnos, zona y su interaccin, el producto de ambos: nmero de alumnos*zona) son capaces de predecir el 44% de la cantidad pagada.

    44,02 R

    16

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    En este tema se ofrecen las nociones fundamentales de dos tcnicas de Anlisis Multivariante que tienen un extenso nmero de aplicaciones en el mbito de la Economa y la Empresa. En concreto, se trata del Anlisis discriminante y del Anlisis cluster o de conglomerados. Ambos anlisis se utilizan para clasificar elementos en grupos o categoras. Sin embargo, mientras que el Anlisis discriminante parte ya de grupos existentes y proporciona un medio para realizar futuras asignaciones de nuevos casos a partir de los valores de un conjunto de variables independientes, el Anlisis cluster no tiene preestablecidos los grupos, sino que el anlisis de las variables es el que determina cmo agrupar en conglomerados a los elementos de la muestra.

    A continuacin, se introducirn brevemente los aspectos tericos ms importantes relativos a ambas tcnicas y se ver su aplicacin prctica, mediante distintos ejemplos, a travs del programa PASW Statistics.

    1.5. Anlisis discriminante.- El Anlisis discriminante es una tcnica de Anlisis Multivariante que pertenece al grupo de los mtodos de dependencia. Como todos stos, estudia la relacin entre varias variables que se clasifican unas como dependientes y otras como independientes.

    Partiendo de un conjunto de elementos que pertenecen a diferentes grupos previamente establecidos, se trata de analizar la informacin relativa a una serie de variables independientes con un doble fin:

    - Explicativo: Determinar la contribucin de cada variable independiente a la clasificacin correcta de cada elemento.

    - Predictivo: Determinar el grupo al que pertenece un nuevo elemento para el que se conocen los valores que toman las variables independientes.

    La pertenencia de los elementos objeto de estudio a un grupo u a otro se introduce en el anlisis a travs de una variable cualitativa que toma tantos valores como grupos existentes. Esta variable juega el papel de variable dependiente. Las variables independientes suelen llamarse en este anlisis, variables discriminantes o clasificadoras.

    De acuerdo con el razonamiento que se indicar seguidamente, la informacin inicialmente disponible se sintetiza en las llamadas funciones discriminantes, que no son ms que combinaciones lineales de las variables clasificadoras.

    Antes de ello, es importante sealar que el Anlisis discriminante, como todas las tcnicas estadsticas, tiene que cumplir unos requisitos para su aplicacin. En concreto, se trata de los siguientes:

    - Los grupos deben ser mutuamente excluyentes y deben existir al menos 2. Cuando hay ms de 2 grupos, se habla de Anlisis discriminante mltiple.

    17

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    - Para cada grupo, son necesarios ms de 2 elementos o casos.

    - El nmero de variables discriminantes a emplear no puede ser superior al nmero de casos menos 2.

    - La variable dependiente que define los grupos ha de ser nominal.

    - No puede haber relacionales lineales (multicolinealidad) entre las variables discriminantes.

    - El nmero de funciones discriminantes que se pueden obtener viene dado por el mnimo entre J-1 y m, siendo J el nmero de grupos y m el nmero de variables clasificadoras empleadas.

    - Las matrices de varianzas-covarianzas de cada grupo han de ser iguales (homoscedasticidad).

    - Las variables discriminantes han de seguir una distribucin normal multivariante.

    Hay autores que consideran que las tres ltimas hiptesis se deben contemplar de forma laxa; si no se verifican, los resultados pueden estar condicionados, pero no se invalida su calidad. Es decir, es preferible su verificacin, pero no imposibilitan la aplicacin del Anlisis discriminante.

    Existen varios procedimientos para calcular las funciones discriminantes y, a partir de ellas, asignar a los elementos entre los distintos grupos. Uno de los ms utilizados es el mtodo de Fisher, que describiremos brevemente para el caso de 2 grupos y m variables clasificadoras. Para el caso general, la idea subyacente es similar.

    Como ya se ha indicado, se trata de crear, a partir de m variables clasificadoras que denotaremos por , , , , 1X 2X mX una funcin , D que ser combinacin lineal de dichas variables:

    mm XaXaXaD 2211 El objetivo que se persigue es que los valores de esta funcin se diferencien lo ms posibles de un grupo a otro y sean muy parecidas para los elementos de un mismo grupo. Habr que encontrar entonces los valores de los coeficientes , , , 1a 2a ma para que esto se cumpla. De este modo, se pretende reducir la dimensionalidad de las m variables independientes a una nica dimensin, la de la combinacin lineal . D Una vez creada esta funcin discriminante, se calcular su valor para los nuevos elementos (puntuacin discriminante) y stos se clasificarn en el grupo que corresponda segn la puntuacin obtenida.

    El planteamiento del mtodo de Fisher para hallar los coeficientes de la funcin discriminante consiste en maximizar la variacin de la funcin entre grupos y, al mismo tiempo, para evitar errores, se deber tratar de que la variacin dentro de cada

    D

    18

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    grupo sea lo menor posible. Atendiendo a este razonamiento, se debe maximizar la ratio:

    grupos-intravariacin grupos-intervariacin .

    Las variaciones inter-grupos e intra-grupos se calculan a partir de las correspondientes sumas de los cuadrados de las desviaciones de las puntuaciones con respecto a las de los centroides, es decir a las puntuaciones discriminantes correspondientes a valores de las variables independientes iguales a las medias de cada grupo; esto es:

    )1()1(22

    )1(111 mm XaXaXaD ; )2()2(22)2(112 mm XaXaXaD .

    As, puede expresarse en funcin de los coeficientes desconocidos , , , ; se tratar entonces de maximizar esa funcin de dos variables para obtener los coeficientes de la funcin discriminante. La solucin resultante indica que , , , son las

    coordenadas de un autovector asociado al mayor autovalor

    1a

    2a

    2a ma

    1a ma

    de cierta matriz cuyos elementos dependen nicamente de los valores observados de las variables independientes , , , . 1X 2X mX

    Si existieran ms grupos, sera necesario definir r funciones discriminantes (siendo r el mnimo entre J-1 y el nmero de variables clasificadoras m). En tal caso, se elegiran los autovectores asociados a los r mayores autovalores de la matriz.

    Una vez definida la funcin discriminante, se debe fijar un criterio para clasificar a los nuevos elementos. Uno de ellos consiste en calcular el punto de corte discriminante (PCD) que no es ms que la media de las puntuaciones discriminantes medias de cada grupo:

    2

    )2()1( DDPCD .

    y aplicar el siguiente criterio para clasificar un elemento i:

    - Si PCD , se clasifica al elemento en el grupo 1. Di - Si PCD , se clasifica al elemento en el grupo 2. Di

    Cuando existen ms de 2 grupos y, por tanto, ms funciones discriminantes, el criterio para clasificar los nuevos elementos no resulta, desde el punto de vista terico, tan evidente. Sin embargo, el procedimiento que usa el programa PASW Statistics, que es el que utilizaremos para desarrollar este tipo de anlisis, es bastante sencillo: consiste en calcular una funcin de clasificacin para cada grupo y asignar los elementos al grupo para el que esta funcin tome el valor ms elevado. Estas funciones de clasificacin son

    19

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    combinaciones lineales de las variables clasificadoras y constan, adems, de un trmino independiente.

    Veremos este procedimiento a continuacin, resolviendo con PASW Statistics dos ejemplos: en el primero de ellos se considerarn dos grupos nicamente, mientras que en el segundo ejemplo se trabajar con tres grupos.

    Ejemplo:

    En un banco se tiene informacin acerca de 16 clientes que solicitaron prstamos instantneos por valor de 6.000 euros cada uno. Al cabo de 3 aos desde la concesin de dicho crdito haba 8 clientes, de ese grupo de 16, que fueron clasificados como fallidos, mientras que los otros 8 clientes resultaron no fallidos o cumplidores, ya que reintegraron el prstamo. Para cada uno de los clientes se dispone de informacin sobre su patrimonio neto y deuda pendiente correspondientes al momento de la solicitud, ambas variables medidas en miles de euros. Todo ello aparece recogido en la siguiente tabla:

    Fallidos No fallidos

    Cliente Patrimoni

    o neto Deuda

    pendiente Cliente

    Patrimonio neto

    Deuda pendiente

    1 7,80 24,60 9 31,20 6,00 2 22,20 41,40 10 58,80 25,20 3 30,00 18,00 11 54,00 28,80 4 35,40 39,00 12 72,00 12,00 5 42,60 32,40 13 37,80 31,20 6 24,00 16,20 14 52,20 6,60 7 47,40 45,60 15 66,60 24,60 8 30,60 22,80 16 59,40 9,60

    En la mesa del director del banco hay ahora dos nuevas solicitudes de prstamo instantneo. El primer solicitante dispone de un patrimonio neto de 60,6 (miles de euros), con deudas pendientes por valor de 40,8 (miles de euros). Para el segundo solicitante estos valores son de 58,2 y 13,2 (miles de euros) respectivamente

    Se pide, mediante la aplicacin del Anlisis discriminante, construir una funcin discriminante a partir de las variables patrimonio neto y deuda pendiente, que permita clasificar, con el menor error posible, a los nuevos clientes en el grupo de fallidos, o bien en el de no fallidos.

    Solucin:

    Partiendo de las variables clasificadoras patrimonio neto y deuda pendiente, se estimar 1 funcin discriminante.

    Junto a las dos variables citadas, en PASW Statistics se debe crear una variable ms que indique el grupo al que pertenece cada elemento. Esta variable la vamos a denominar

    20

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    aqu Grupo y le asignaremos el valor 1 para los clientes fallidos y el 2 para los no fallidos. Una vez introducidos todos los datos, si se pulsa Analizar / Clasificar / Discriminante, se obtendr el siguiente cuadro de dilogo, en el que se ha elegido como variable de agrupacin la variable Grupo, que es la que indica a qu grupo pertenece cada individuo:

    Figura 1

    Como puede verse en la Figura 1, tras el nombre de la variable de agrupacin aparecen, entre parntesis, dos signos de interrogacin. Se deber pulsar en Definir rango e indicar los valores mnimo y mximo de los grupos que deseamos analizar, que son 1 y 2, respectivamente. A continuacin, deberemos seleccionar las dos variables independientes e introducirlas en el cuadro en blanco habilitado para ellas (Independientes).

    Seguidamente pulsaremos Aceptar, dejando las opciones que vienen predeterminadas por PASW Statistics.3

    Las Figuras 2 a 5 muestran algunos de los cuadros que se obtienen en el visor de resultados y que resultan de inters para nuestro propsito.

    En primer lugar, se presentan algunos datos puramente descriptivos. En concreto, la Figura 2 contiene un resumen de los casos, clasificndolos en vlidos y perdidos. Por su parte, la Figura 3 recoge el nmero de casos existentes en cada grupo. Es importante observar si existe mucha diferencia en el tamao de los grupos, porque esto podra 3 En particular, se ha seleccionado Introducir independientes juntas, lo que significa que todas las variables independientes sern consideradas en el proceso discriminante. Si se hubiera elegido Usar mtodo de inclusin por pasos, se iran seleccionando las variables independientes de mayor a menor poder discriminante y siempre que tuvieran un mnimo de poder discriminante. En lo que respecta a las opciones que pueden elegirse en Estadsticos, Mtodo, Clasificar y Guardar, ms adelante se explorarn algunas de ellas.

    21

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    afectar a la clasificacin; si as fuera, PASW Statistics nos dar la opcin de tenerlo en cuenta.

    Figura 2

    Figura 3

    La tabla Coeficientes estandarizados de las funciones discriminantes cannicas (Figura 4) contiene la versin tipificada de los coeficientes de las funciones cannicas discriminantes. No se trata de la funcin discriminante que se utiliza para clasificar a los individuos en un grupo u otro (sta se conoce como funcin discriminante cannica no tipificada). Estos coeficientes, al estar tipificados, son independientes de la mtrica original de las variables independientes y permiten determinar el peso relativo de cada variable en la funcin discriminante (fijndonos en su valor absoluto), as como el sentido de su efecto (observando su signo).

    As, en este ejemplo puede concluirse que la variable patrimonio neto tiene mayor relevancia que la deuda pendiente a la hora de predecir el grupo de pertenencia de los individuos, puesto que su coeficiente en valor absoluto es ms elevado (0,922 frente a 0,686). Y en cuanto a la interpretacin exacta de los signos, es preciso conocer el signo de las puntuaciones de los centroides de cada grupo, es decir el signo de la funcin discriminante correspondiente a los valores medios de cada variable clasificadora

    22

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    (Figura 5). Segn esto, en el presente ejemplo los signos indican que el grupo de los clientes fallidos se encuentra localizado, en promedio, en las puntuaciones negativas de la funcin, mientras que los clientes no fallidos se hallan en las positivas.

    Figura 4

    Figura 5

    En general, se dir que si la variable clasificadora toma un valor por encima de la media, el individuo se clasificar en el grupo en el que el signo de la puntuacin del centroide coincida con el signo del coeficiente de la variable. De este modo, se puede afirmar que un patrimonio neto por encima de la media4 hace ms probable la obtencin de una puntuacin discriminante positiva (al ser positivo el coeficiente) y, de esta manera, se ajustar ms al patrn de los clientes no fallidos (ya que para stos la puntuacin del centroide es positiva). Por el contrario, una deuda pendiente por encima de la media propiciar una puntuacin discriminante negativa (puesto que el coeficiente asociado a esta variable es negativo) y esto llevar a clasificar al individuo entre los fallidos (cuyo centroide tiene puntuacin negativa).

    Seguidamente se van a mostrar algunas opciones de PASW Statistics que se pueden elegir dentro del Anlisis discriminante y que nos aportarn informacin determinante para clasificar nuevos individuos en los grupos existentes, as como para estudiar la fiabilidad de los resultados.

    4 Los valores medios de las variables pueden fcilmente conocerse en PASW Statistics llevando a cabo un anlisis descriptivo de las mismas.

    23

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Como se recordar, en el cuadro de dilogo que se obtena tras pulsar Analizar / Clasificar / Discriminante aparecan, entre otros, los botones Estadsticos y Clasificar (Figura 1).

    Si dentro de Estadsticos se eligen como estadsticos descriptivos ANOVAs univariados y M de Box y como coeficientes de la funcin De Fisher y No tipificados, se obtendrn, adems de los resultados ya descritos, los que se muestran en las Figuras 6 a 9.

    La Figura 6 proporciona los resultados de la aplicacin de ANOVA a cada variable clasificadora, de manera que se puede contrastar, para cada una de ellas, la igualdad de medias en los dos grupos. En lo que se refiere al patrimonio neto, su p-valor asociado nos lleva a rechazar la hiptesis nula, lo que significar que el patrimonio neto medio es distinto para fallidos y no fallidos; la conclusin sera la misma en lo que respecta a la deuda pendiente, para un nivel de significacin mnimo del 4,4%. Este hecho constituye un indicio de que las dos variables tienen poder discriminante y por tanto deben introducirse como tales en el anlisis. Por el contrario, si no se observaran diferencias de medias entre los grupos para alguna de las variables clasificadoras, quizs no sera necesario incluirla en el modelo.

    Figura 6

    En cuanto a la prueba M de Box, se utiliza para contrastar la hiptesis nula de igualdad de las matrices de varianzas-covarianzas de los grupos que, como ya se coment, es uno de los requisitos para la aplicacin del Anlisis discriminante. Dicho contraste se lleva a cabo utilizando el estadstico M de Box (0,951) que muestra la Figura 7. Su p-valor asociado vale 0,849, lo que lleva a aceptar la hiptesis nula de que las matrices de varianzas-covarianzas son iguales.

    Figura 7

    24

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    A continuacin, podemos observar los coeficientes de la funcin de clasificacin para cada grupo (Figura 8) que tambin se suelen denominar funciones discriminantes lineales de Fisher. Estos coeficientes se emplean nicamente para clasificar a los nuevos individuos en alguno de los grupos ya existentes. Para ello, se calcula el valor de las dos funciones (una por grupo) y el individuo se clasificar en el grupo para el que se obtenga una mayor puntuacin.

    Figura 8

    De acuerdo con todo lo expuesto hasta ahora, procedamos a clasificar a los nuevos solicitantes de prstamo. Recordemos que el primero dispona de un patrimonio neto de 60,6 (miles de euros) y tena deudas pendientes por valor de 40,8 (miles de euros); por su parte, para el segundo solicitante estos valores eran de 58,2 y 13,2 respectivamente.

    La funcin de clasificacin para el grupo de fallidos sera:

    5,876-pendiente Deuda*0,216 neto Patrimonio*130,0 . Segn esto, para el solicitante 1 esta funcin valdra: 10,8148; y para el solicitante 2 sera: 4,5412.

    En cuanto a la funcin de clasificacin para los no fallidos, sta vendra dada por:

    9,396-pendiente Deuda*0,61 neto Patrimonio*302,0 . La puntuacin del solicitante 1 en este caso sera: 11,394; y para el solicitante 2: 8,9856.

    Como podemos ver, ambos solicitantes obtienen mayores puntuaciones en la segunda funcin, por lo que los dos se clasificarn en el grupo de los clientes no fallidos.

    La ltima de las opciones elegidas en el cuadro Estadsticos nos da los coeficientes de la funcin cannica discriminante. stos son los coeficientes que el programa utiliza para clasificar a los individuos, calculando las puntuaciones y comparndolas con el punto medio de los centroides. Sin embargo, para nosotros no es relevante, puesto que no las utilizaremos para la clasificacin y, adems, al tratarse de coeficientes no tipificados, pueden estar afectados por las unidades de medidas de las variables independientes, lo que dificulta su interpretacin.

    25

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 9

    Para terminar, vamos a examinar algunas de las opciones disponibles en la opcin Clasificar del Anlisis discriminante; en concreto Probabilidades previas (donde marcaremos Todos los grupos iguales5) y Visualizacin (aqu elegiremos Resultados para cada caso y Tabla de resumen).

    La primera tabla resultante (Figura 10) indica simplemente el porcentaje de los casos totales que pertenecen al grupo fallidos y al grupo no fallidos, bajo la denominacin Probabilidades previas. Vendra a ser una referencia inicial, en el sentido de que si eligisemos un cliente al azar y lo clasificsemos sistemticamente como perteneciente al grupo de los fallidos, acertaramos en el 50% de los casos, ya que se es el porcentaje de clientes de la muestra inicial que se encuentran en ese grupo (lo mismo ocurrira, en este caso, con los no fallidos). La aplicacin del Anlisis discriminante resultar tanto mejor en cuanto se incremente el porcentaje de aciertos.

    Figura 10

    Los Resultados para cada caso se recogen en la Figura 11. Para cada cliente de la muestra inicial, se seala el grupo real al que pertenece, el pronosticado, si ha habido error en la prediccin (se indica con **) y la probabilidad de que cada caso pertenezca a cada grupo condicionada a la distancia existente al centroide de cada grupo. Como se puede observar, ha habido nicamente un cliente mal clasificado: el nmero 13.

    5 Marcamos esta opcin porque as es en nuestro ejemplo. Si las muestras tuvieran tamaos distintos, habra que elegir Calcular segn tamaos de grupos.

    26

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 11

    Por ltimo, la Tabla de resumen, tambin llamada Matriz de confusin se muestra en la Figura 12. En ella pueden apreciarse los aciertos y errores obtenidos en la clasificacin realizada con la funcin discriminante calculada. De los 8 clientes fallidos, los 8 se han pronosticado en ese grupo (100% de aciertos), mientras que 1 de los no fallidos se ha clasificado errneamente como fallido (87,5% de aciertos). En total, la clasificacin ha acertado en: 8 + 7 = 15 casos, lo que representa un 93,8% del total y significa que el poder discriminante de las variables independientes consideradas resulta muy alto.

    Figura 12

    A continuacin, se resolver un nuevo ejemplo de Anlisis discriminante con PASW Statistics, esta vez con tres grupos.

    Ejemplo:

    Un banco ordena un estudio que permita identificar con la mayor precisin posible aquellas solicitudes de prstamos que probablemente puedan llegar a convertirse en morosos o fallidos en el caso que se concedieran. Para ello, dispone de la informacin

    27

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    reflejada en la tabla ms abajo, relativa a 25 clientes y a las variables que se definen a continuacin:

    - Ingresos: ingresos anuales del cliente, en miles de euros.

    - Patrneto: patrimonio neto del cliente, en miles de euros.

    - Proviv: variable dicotmica que toma el valor 1 si el cliente es propietario de la vivienda que habita; 0 en caso contrario.

    - Casado: variable dicotmica que toma el valor 1 si el cliente est casado; 0 en caso contrario.

    - Salfij: variable dicotmica que toma el valor 1 si el cliente es asalariado con contrato fijo; 0 en caso contrario.

    - Categ: grado de cumplimiento del cliente en el reintegro del prstamo. Toma el valor 1 si el cliente es cumplidor; 2 si el cliente es moroso; 3 si el cliente es fallido.

    Cliente

    Categora

    Ingresos

    Patneto Provi

    v Casad

    o Salfij

    1 1 32,7 336 1 1 0 2 1 18,6 204 1 0 1 3 1 24,6 138 0 1 1 4 1 37,2 270 1 0 1 5 1 23,7 114 1 1 1 6 1 7,5 132 1 1 1 7 1 29,4 90 0 1 1 8 1 53,4 228 1 1 1 9 1 20,1 324 0 1 1

    10 1 31,2 480 1 1 0 11 1 17,1 108 1 1 1 12 1 39 132 1 1 1 13 1 45,6 216 1 1 1 14 2 26,1 234 1 1 0 15 2 8,1 48 0 1 1 16 2 12,6 114 0 0 1 17 2 8,7 150 1 0 1 18 2 38,4 24 0 1 1 19 2 22,8 114 1 1 0 20 2 14,7 60 0 1 1 21 3 19,8 42 0 1 0 22 3 5,1 72 0 1 0 23 3 7,2 30 1 1 1 24 3 11,1 36 1 0 0 25 3 15,9 150 0 0 0

    Solucin:

    En este caso, se trata de aplicar el Anlisis discriminante mltiple, ya que el banco ha clasificado a sus clientes en tres grupos.

    Habr que construir funciones de clasificacin que permitan clasificar, con los menores errores posibles, a los clientes en los diferentes grupos. Si se obtienen buenos

    28

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    resultados, estas funciones se podrn utilizar para analizar si se concede o no un prstamo a un futuro solicitante.

    Como ya sabemos, en Analizar / Clasificar / Discriminante se obtiene un cuadro de dilogo en el que tenemos que seleccionar la variable de agrupacin (cuyo rango es ahora 1 3) y las variables independientes. Asimismo podemos elegir las opciones adecuadas para los resultados que deseamos analizar.

    Para cada variable clasificadora contrastamos la igualdad de medias entre los grupos, para tratar de determinar si las variables sern realmente discriminantes. Los ANOVAs de la Figura 13 nos indican que no se observan diferencias significativas entre los cumplidores, morosos y fallidos, en cuanto al hecho de ser propietario o no de la vivienda que habitan (Proviv) y de estar o no casado (Casado). Por tanto estas variables no deberan tener una gran influencia a la hora de clasificar a los clientes en uno u otro grupo.

    Figura 13

    En este punto, podemos dar respuesta ya a la peticin del banco calculando las funciones de clasificacin para cada grupo. La Figura 14 muestra los coeficientes de cada una de ellas, para el grupo de clientes cumplidores, para los morosos y para los fallidos.

    Figura 14

    De acuerdo con los coeficientes estimados, se obtienen las siguientes funciones:

    29

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    - Clientes cumplidores:

    25,768-Salfij*19,210Casado*9,363Proviv*5,074Patrneto*0,076 Ingresos*201,0 - Clientes morosos:

    13,229-Salfij*13,563Casado*054,7Proviv*347,3Patrneto*0,050 Ingresos*131,0 - Clientes fallidos:

    5,467-Salfij*357,6Casado*873,4Proviv*562,2Patrneto*0,025 Ingresos*071,0 Cuando el banco reciba una nueva solicitud de prstamo, podr determinar a qu grupo puede pertenecer el cliente evaluando las tres funciones y asignndolo al grupo para el que se haya obtenido una mayor puntuacin.

    El poder predictivo de estas funciones de clasificacin se puede valorar a travs de la Tabla de resumen (Figura 15) que ofrece PASW Statistics. Como puede observarse, se han clasificado correctamente 12 + 6 + 4 clientes, o sea 22 de los 25 que conformaban la muestra inicial. Esto representa un 88,0% de aciertos, lo que nos lleva a afirmar que nuestro modelo es bastante bueno.

    Figura 15

    1.6. Anlisis cluster o de conglomerados.- A diferencia del Anlisis discriminante, el Anlisis cluster o de conglomerados es una tcnica de Anlisis multivariante de interdependencia. No distingue por tanto entre variables dependientes e independientes, sino que, dado un conjunto de variables (las variables de decisin), analizar la informacin contenida en ellas para clasificar a los elementos segn su similitud en conglomerados, los cuales deben ser entre s lo ms distintos posible. Aqu no se parte de grupos previamente establecidos para la muestra, como se hace en el Anlisis discriminante. Se trata de un anlisis meramente descriptivo, que no tiene bases estadsticas sobre las que se puedan deducir inferencias para la poblacin a partir de una muestra.

    30

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    El Anlisis cluster es ampliamente usado en diversas disciplinas. Por ejemplo, en el mbito del mundo empresarial esta tcnica es comnmente usada en Marketing para, por ejemplo, dividir el mercado potencial de un nuevo producto en grupos, cada uno de los cuales estara formado por consumidores homogneos en base a una serie de caractersticas, facilitando as el diseo de polticas comerciales.

    En la realizacin de un Anlisis cluster se suelen distinguir tres etapas:

    1) Eleccin de variables relevantes y su tratamiento.

    2) Eleccin de la medida de proximidad entre elementos.

    3) Criterio para agrupar elementos en conglomerados.

    Las decisiones que se tomen en estas etapas determinarn la clasificacin resultante, de forma que no es posible hablar de una clasificacin idnea. A continuacin, se describir brevemente la tarea a realizar en cada etapa.

    1) Eleccin de variables relevantes y su tratamiento.

    La clasificacin final depender de las variables de decisin que se introduzcan en el anlisis, por lo que su eleccin es de vital importancia para la obtencin de una correcta clasificacin. Ser necesario, por tanto, seleccionar las variables que sean tiles para el propsito planteado. En lo que se refiere al nmero de variables, si ste es excesivo, aumentarn los clculos necesarios y podra complicarse la interpretacin de los resultados. Para simplificar el nmero de variables existen distintas soluciones, como las tcnicas de reduccin de datos; es el caso, por ejemplo, del Anlisis de componentes principales, que selecciona nicamente los primeros factores (los que explican un mayor porcentaje de la varianza) para su introduccin como variables de entrada en el Anlisis cluster.

    La siguiente cuestin a abordar es la estandarizacin de los datos, proceso que consiste en transformar las unidades de medida de las variables para que stas pasen a estar expresadas en unidades adimensionales. As se contribuye a que el clculo de similitudes sea ms equilibrado. Sin embargo, esto no siempre es necesario, e incluso hay autores que son reacios a su utilizacin. El programa PASW Statistics ofrece distintas posibilidades de estandarizacin de los datos.

    2) Eleccin de la medida de proximidad entre elementos.

    El Anlisis cluster intenta que los conglomerados sean exhaustivos, mutuamente excluyentes y lo ms homogneos posible, de manera que los casos que pueden ser considerados similares sean asignados a un mismo grupo, mientras que los considerados distintos estarn en grupos diferentes. Es necesario por tanto dar una definicin de similitud de los casos o de distancia entre ellos.

    Existe una gran variedad de medidas de distancia, basadas en los valores de las variables de decisin, estando condicionada la eleccin de una u otra por la escala de

    31

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    medida que adoptan dichas variables. Si los datos estn estandarizados, en general una de las medidas ms utilizada es la distancia eucldea al cuadrado.

    Las medidas de distancia se recogern en la denominada matriz de semejanzas, proximidades o distancias. Se trata de una matriz simtrica en la que cada elemento determina la distancia entre los pares de individuos correspondientes a la fila y columna donde se ubica dicho elemento.

    3) Criterio para agrupar elementos en conglomerados.

    El siguiente paso consiste en elegir las reglas que determinan el modo de agrupar los individuos en conglomerados. Las posibilidades que se pueden plantear son muy diversas y ninguna es manifiestamente mejor que las dems, por lo que el analista se ver obligado a emplear distintos mtodos con el objeto de contrastar los resultados. En general, los mtodos de agrupamiento se suelen dividir en dos grandes grupos: mtodos jerrquicos y mtodos no-jerrquicos.

    Mtodos jerrquicos: contemplan todas las agrupaciones posibles, incluyendo las ms extremas de un solo conglomerado formado por todos los individuos y la de n conglomerados diferentes formados cada uno por un nico individuo.

    Existen dos tipos de tcnicas jerrquicas: las aglomerativas y las divisivas. Las primeras parten de la existencia de un conglomerado distinto para cada observacin, para posteriormente irlos fusionando hasta alcanzar a lo sumo un nico grupo. Por su parte, en las tcnicas divisivas la situacin de partida es un nico conglomerado que engloba a todas las observaciones y que progresivamente se va subdividiendo hasta que, a lo sumo, cada observacin pertenece a un cluster diferente. Los mtodos divisivos requieren demasiados clculos, lo que motiva que los autores se inclinen habitualmente por los mtodos aglomerativos. De hecho, el programa PASW Statistics incluye nicamente mtodos de este tipo.

    Mtodos no-jerrquicos: la caracterstica fundamental que los distingue de los mtodos jerrquicos es que solamente llevan a cabo agrupaciones de los individuos en un nmero concreto de conglomerados, que debe ser fijado de antemano con coherencia.

    Una posibilidad para esto es realizar en primer lugar un Anlisis cluster mediante procedimientos jerrquicos, que nos permite no slo determinar el nmero de grupos o conglomerados K ms adecuado, sino tambin la configuracin de stos que se tomarn como punto de partida.

    A partir de aqu, la mayora de los mtodos no-jerrquicos establecen K entidades (estadsticos que representan, de alguna forma, a los elementos que conforman dichos conglomerados de partida), que servirn para ir definiendo la clasificacin final de los elementos entre los distintos conglomerados fijados.

    Cada tipo de mtodo no-jerrquico proceder de un modo diferente para asignar los elementos a algn grupo. As, por ejemplo, el mtodo de K-medias implementado en

    32

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    PASW Statistics selecciona como entidades iniciales los centroides de cada uno de los K conglomerados conformados por el mtodo jerrquico aplicado. Posteriormente, va asignando el resto de elementos al grupo cuyo centroide se encuentre ms prximo. Se puede hacer una nueva estimacin de los centroides a medida que se van incorporando nuevos elementos, o bien, cuando todos hayan sido asignados a los distintos grupos. Tras esta clasificacin inicial, el mtodo o algoritmo utilizado busca reasignaciones de los elementos entre los grupos que den lugar a una mejora en el criterio de agrupacin considerado. De no poder realizar ningn cambio que mejore el resultado, el proceso se dar por concluido.

    Ejemplo:

    La Fundacin La Caixa ha llevado a cabo un estudio6 en el que caracteriza a las 50 provincias espaolas mediante los siguientes ndices sintticos, expresados en una escala del 1 al 10:

    ndice de renta

    ndice de salud

    ndice de servicios sanitarios

    ndice de nivel educativo y cultural

    ndice de oferta educativa, cultural y de ocio

    ndice de empleo

    ndice de condiciones de trabajo

    ndice de vivienda y equipamiento del hogar

    ndice de accesibilidad econmica y seguridad vial

    ndice de convivencia y participacin social

    ndice de seguridad ciudadana

    ndice de entorno natural y clima

    Se desea agrupar las provincias en una serie de conglomerados de acuerdo con su similitud en los ndices sealados.

    Solucin:

    Desarrollaremos este ejemplo utilizando algunas de las opciones que nos brinda PASW Statistics. En concreto, utilizaremos el mtodo no jerrquico de K-medias. Previamente, ser necesario fijar el nmero de grupos que se quiere obtener y los valores iniciales que se tomarn como centroides y constituirn las entidades de partida. Para ello, se puede aplicar primero un mtodo jerrquico, con el que se obtendr el nmero de grupos adecuados y el valor inicial de los centroides de cada grupo. Despus se podr ya aplicar 6 Datos del Anuario Social de Espaa 2004. Coleccin Estudios Sociales. Fundacin La Caixa.

    33

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    el mtodo de K-medias y se obtendr la clasificacin final en conglomerados. Hay que sealar que, en ocasiones, debido al gran tamao de algunas de las tablas de resultados obtenidas, no se incluir la totalidad de stas, aunque s se har mencin a ellas.

    En primer lugar, hay que tener en cuenta que, adems de las variables que recogen los distintos ndices sintticos que se van a considerar en el estudio, es necesario crear una variable nominal en la que se identifique a cada elemento de la muestra, para que una vez formados los conglomerados se tenga claro qu provincias se han agrupado. Con este fin, se crea una variable de tipo cadena denominada Provinci en la que se han incluido los nombres de las 50 provincias consideradas.

    Una vez incluidos todos los datos, a travs de Analizar / Clasificar / Conglomerados jerrquicos se obtiene un cuadro de dilogo en el que se deben indicar tanto las variables de decisin como la creada para etiquetar los casos (Figura 16).

    Figura 16

    A continuacin, se debe indicar la medida de proximidad entre casos con la que se desea trabajar, as como el mtodo elegido para la formacin de conglomerados. Esto se har a travs del botn Mtodo. Nos hemos decantado por las opciones ms habituales: la vinculacin inter-grupos7, como mtodo para clasificar a los elementos en conglomerados, y la distancia eucldea al cuadrado, como medida de proximidad. En ese mismo cuadro, se nos da la opcin de estandarizar las variables, pero en este caso no es necesario porque se trata de ndices sintticos que estn todos expresados en una escala del 1 al 10.

    7 Este mtodo se basa en valores medios. La distancia entre dos conglomerados se calcula tomando la media de las distancias entre cada elemento de uno y otro conglomerado. Los dos grupos que se encuentren a una menor distancia se fusionan para formar un nuevo cluster o conglomerado.

    34

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    En cuanto a los resultados que queremos que nos devuelva PASW Statistics, hemos seleccionado en el botn Estadsticos: el Historial de conglomeracin, la Matriz de distancias y un rango de soluciones de entre 3 y 5 conglomerados para el Conglomerado de pertenencia (con ello, le pedimos al programa que nos muestre el resultado que se obtendra si tuvisemos 3 conglomerados, 4 5, para a partir de ah decidir qu nos parece mejor; esto es ya decisin del investigador8).

    Asimismo, escogemos la opcin Dendograma en el botn Grficos.

    Adems, en Guardar tenemos la posibilidad de crear nuevas variables en las que se incluir el conglomerado asignado a cada provincia, para el nmero de conglomerados que fijemos. Para ello, se deber proceder como muestra la Figura 17. Al haber decidido formar entre 3 y 5 conglomerados, se crearn tres variables con los nombres CLU3_1, CLU4_1 y CLU5_1, donde se guardarn los resultados en cada caso.

    Figura 17

    Una vez seleccionadas todas las opciones anteriores, se obtienen los resultados que comentaremos a continuacin.

    En primer lugar, se muestra un resumen de los casos, distinguiendo entre vlidos y perdidos (Figura 18).

    Seguidamente, aparece la Matriz de distancias, que no reproduciremos por su tamao. Se trata de una tabla con 50 filas y 50 columnas (una por provincia), simtrica, en la que cada elemento indica la distancia (medida como el cuadrado de la distancia eucldea) entre las provincias correspondientes a la fila y la columna en la que se encuentra el elemento. Con esta medida de proximidad calculada a partir de los ndices sintticos, las provincias ms cercanas son A Corua y Pontevedra, cuya distancia es de 12.

    8 Igualmente, tambin es decisin del investigador decidir dichos nmeros de conglomerados iniciales, de 3 a 5, que desea tener a priori.

    35

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 18

    Teniendo en cuenta estas distancias entre provincias, se van formando los conglomerados uniendo las ms cercanas. El Historial de conglomeracin (Figura 19) muestra las distintas etapas del proceso, indicando en cada una de ellas los elementos combinados y la distancia (coeficientes) entre ellos. As, se observa que en la 1 etapa se han unido las provincias 40 (A Corua) y 43 (Pontevedra) que eran las ms prximas. A continuacin, se volvera a calcular la distancia entre todos los conglomerados existentes: el formado por A Corua y Pontevedra, y los formados individualmente por cada una de las provincias restantes. Las ms cercanas luego resultan ser las provincias 26 (Albacete) y 30 (Toledo), que se unen en un conglomerado en la 2 etapa. As se va procediendo sucesivamente hasta tener un nico conglomerado con todos los elementos.

    La tabla Conglomerado de pertenencia indica el conglomerado al que se ha asignado cada provincia, para cada nmero de conglomerados diferentes solicitado, es decir para los casos de 3 conglomerados, 4 5. Estos valores, que pueden verse en la Figura 20, son tambin los que se guardan en las variables CLU3_1, CLU4_1 y CLU5_1.

    El proceso iterativo de formacin de conglomerados suele representarse grficamente en el llamado dendograma, que puede verse en la Figura 21. Este grfico muestra cmo las provincias (sealadas en el eje vertical) se agrupan en los sucesivos pasos, as como los niveles de distancia para los que las agrupaciones tienen lugar (en el eje horizontal).

    La ventaja del dendograma es que nos permite ver de forma rpida a simple vista lo semejantes que son los elementos que constituyen un conglomerado, comparados con los elementos de otros conglomerados, por lo que nos ayuda en la tarea de determinar el nmero final de conglomerados ms adecuado, dependiendo de nuestro objetivo. Esto, generalmente, ser una decisin subjetiva del investigador, dependiendo del grado de proximidad que considere aceptable entre los elementos de un grupo. Normalmente se preferir un nmero de grupos no demasiado elevado, pero tambin hay que tener en cuenta que, a medida que disminuye el nmero de grupos, aumenta la falta de similitud entre los elementos que componen esos grupos.

    En el dendograma se observa que, en efecto, a medida que nos desplazamos hacia la derecha, disminuye el nmero de conglomerados, pero tambin aumenta la distancia entre sus elementos. En el caso de nuestro ejemplo, vamos a optar por los 5

    36

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    conglomerados que aparecen determinados por la lnea roja discontinua que hemos dibujado, aunque otras opciones podran ser igualmente aceptables.

    Figura 19

    37

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 20

    38

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 21

    39

  • INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    40

    Una vez que se ha definido el nmero de grupos, el siguiente paso para poder aplicar el mtodo no-jerrquico de K-medias consiste en calcular los centroides de los 5 grupos definidos. Estos centroides se tomarn como valores iniciales del proceso de iteracin en el mtodo de K-medias. Recordemos que el centroide de un grupo o conglomerado ser un vector cuyas componentes son los valores medios de cada una de las variables independientes, para las provincias pertenecientes a ese grupo.

    Para calcular estas medias, se pulsa Analizar / Comparar medias / Medias y, en el cuadro de dilogo resultante, se introducen todas las variables de las que se quiere calcular la media (en Lista de dependientes) y se indican asimismo los conglomerados que nos interesan (en Lista de independientes): los 5 con los que hemos decidido quedarnos. Estos conglomerados estn incluidos en una variable cuya etiqueta es Average Linkage (Between Groups). Pero debemos tener cuidado, porque hay tres variables con esa misma etiqueta, las correspondientes a los casos de 3, 4 y 5 conglomerados que queramos analizar. Movindonos sobre ellas, aparece el nombre de la variable correspondiente. Nos interesa CLU5_1, que es la que guardaba los resultados para 5 conglomerados.

    El informe resultante es el que se muestra en la Figura 22. Las 12 medias que aparecen en cada fila son las componentes del centroide de cada grupo. Estos valores se deben copiar en un archivo de PASW Statistics, del que el programa los importar luego para tomarlos como valores iniciales del proceso de iteracin del mtodo no-jerrquico de K-medias. Dicho archivo lo hemos nombrado en este ejemplo centroides.sav. Se deben cumplir dos requisitos: la variable que identifica a los conglomerados debe denominarse cluster_ y el resto de variables debe conservar el nombre del archivo inicial.

    Una vez creado el archivo que contiene a los centroides, estamos en condiciones de ejecutar el anlisis de conglomerados de K-medias. Para ello, en el archivo inicial pulsamos Analizar / Clasificar / Conglomerado de K medias, resultando el cuadro de la Figura 23. Deberemos introducir tanto las variables de decisin como la que usamos de etiqueta de las provincias. Indicaremos que el nmero de conglomerados es 5 y la ruta en la que se encuentra el archivo donde hemos guardado los centroides. Este se hace en Centros de los conglomerados / Leer iniciales / Archivo de datos externo / Archivo.

    En Iterar... se pueden modificar opciones de clculo, como el nmero mximo de iteraciones o el criterio de convergencia para detener el proceso iterativo en que se basa el mtodo de K-medias o la posibilidad de actualizar los centroides cada vez que se asigne una provincia a un conglomerado. Dejaremos las opciones que aparecen por defecto (10 iteraciones y que no se actualicen las medias (centroides)).

    Guardar permite crear dos variables que PASW Statistics denomina por defecto QCL_1 y QCL_2, en las que se almacenarn, respectivamente, el conglomerado al que estar asignada cada provincia una vez terminado el proceso de agrupacin y la distancia de cada provincia al centroide de su conglomerado. Marcaremos ambas opciones.

  • OTRAS TCNICAS DE ANLISIS MULTIVARIANTE APLICADAS A LA ECONOMA Y A LA EMPRESA Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figu

    ra 2

    2

    41

  • OTRAS TCNICAS DE ANLISIS MULTIVARIANTE APLICADAS A LA ECONOMA Y A LA EMPRESA Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 23

    Tambin marcaremos todos los estadsticos optativos en el botn Opciones: Centros de conglomerados iniciales, Tabla de ANOVA e Informacin del conglomerado para cada caso.

    A partir de los valores iniciales de los centroides, el proceso va asignando las provincias a aquel centroide que est a una menor distancia. Cuando todas las provincias se hayan asignado, se recalculan los centroides de los conglomerados (dado que no marcamos la opcin Usar medias actualizadas). Se sigue iterando hasta que ninguna reasignacin de una provincia a otro grupo permita reducir la distancia entre las provincias dentro de cada conglomerado ni aumentar la distancia entre conglomerados. Conviene recordar que, a diferencia de los mtodos jerrquicos, este procedimiento permite que un elemento asignado a un grupo en una iteracin previa, pueda ser asignado a otro grupo en una iteracin posterior.

    El resultado del estudio, en cuanto al conglomerado o cluster al que finalmente pertenece cada provincia, as como la distancia entre sta y el centroide de su cluster, puede verse en la Figura 24. Estos datos estn tambin incluidos en las variables QCL_1 y QCL_2 que se crearon al efecto. Como ejemplo, cabe sealar que Barcelona, Madrid, Navarra, lava, Guipzcoa y Vizcaya se han agrupado en un nico cluster.

    42

  • OTRAS TCNICAS DE ANLISIS MULTIVARIANTE APLICADAS A LA ECONOMA Y A LA EMPRESA Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Figura 24

    43

  • OTRAS TCNICAS DE ANLISIS MULTIVARIANTE APLICADAS A LA ECONOMA Y A LA EMPRESA Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    La asignacin resultante puede compararse con la obtenida mediante el procedimiento jerrquico; si se observa una elevada cantidad de reasignaciones, ser indicativo de que el mtodo jerrquico empleado no era el adecuado para los datos analizados.

    Las Figuras 25, 26 y 27 nos aportan datos complementarios del anlisis.

    As, la Figura 25 nos indica el tamao de cada conglomerado.

    La Figura 26 muestra los centros de los conglomerados finales, es decir, los valores medios de cada variable de decisin en cada uno de los grupos de provincias configurados.

    Figura 25

    Figura 26

    44

  • OTRAS TCNICAS DE ANLISIS MULTIVARIANTE APLICADAS A LA ECONOMA Y A LA EMPRESA Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    Por su parte, la Figura 27 seala la distancia entre los centros de los conglomerados, lo que puede servir para determinar la heterogeneidad entre grupos, aunque no para estudiar la homogeneidad interna de cada conglomerado. Recordemos que el objetivo del Anlisis cluster es establecer grupos lo ms homogneos posible internamente pero los ms heterogneos posible entre s.

    Figura 27

    Una forma de analizar si la variabilidad entre conglomerados es mayor que dentro de los conglomerados es a travs de la tabla ANOVA que se proporciona en la Figura 28.

    Figura 28

    45

  • OTRAS TCNICAS DE ANLISIS MULTIVARIANTE APLICADAS A LA ECONOMA Y A LA EMPRESA Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    46

    As, para cada variable de decisin, se contrasta la igualdad de medias entre conglomerados, a travs de un estadstico F que es el cociente de las medias cuadrticas inter-grupos e intra-grupos. Como es sabido, valores elevados del estadstico F reflejarn que la variabilidad entre los grupos es mucho mayor que la variabilidad dentro de cada grupo, por lo que preferiremos aquellas soluciones que lleven a mayores valores de F. De esta forma, los conglomerados o clusters elaborados son homogneos especialmente en el factor ndice de Renta (para el que la F alcanza el valor ms elevado). En la ltima columna de la tabla aparecen los p-valores asociados a cada contraste, pudindose observar que en todos los factores salvo en dos (ndice de condiciones de trabajo e ndice de entorno natural y clima) la variabilidad entre grupos supera a la variabilidad intra-grupos (en estos dos casos se acepta la hiptesis nula de igualdad de medias en los 5 conglomerados). No obstante, hay que ser prudente a la hora de extraer conclusiones en este sentido, puesto que como el mismo programa seala en una nota al pie de la tabla, este test debe usarse solamente con una finalidad descriptiva. En cualquier caso, se puede emplear para valorar la relevancia de las variables empleadas y comparar las diferentes agrupaciones.

    Para terminar, una cuestin adicional que se podra plantear es determinar cules son los perfiles comunes de las provincias que constituyen cada uno de los 5 conglomerados construidos. Esto es lo que se denomina perfilar los segmentos, y puede hacerse mediante la tcnica multivariante del Anlisis discriminante. Lo lgico sera emplear para ello nuevas variables, distintas a las empleadas en el anterior proceso de agrupacin. Esta manera de proceder resulta muy habitual en este tipo de estudios.

  • EL MODELO CLSICO DE REGRESIN LINEAL: ESPECIFICACIN Y ESTIMACIN Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    TEMA 2

    El modelo clsico de regresin lineal: especificacin y estimacin

    La Econometra no es Estadstica econmica. Tampoco es lo que llamamos Teora Econmica (...). La Econometra tampoco debe ser considerada como sinnimo de aplicacin de las Matemticas a la Economa. La experiencia ha demostrado que cada uno de estos tres puntos de vista, el de la Estadstica, la Teora Econmica y las Matemticas, es necesario, pero por s mismo no son condicin suficiente para una comprensin real de las relaciones cuantitativas en la vida econmica moderna. Es la unin de los tres aspectos lo que constituye una herramienta de anlisis potente. Es esta unin lo que constituye la Econometra.9

    Comienza con este tema el anlisis del modelo economtrico, el eje central en torno al que se desarrollan los mtodos economtricos.

    En concreto, en el presente tema empezaremos viendo qu se entiende por un modelo economtrico. Despus, iremos desarrollando las principales etapas que lo configuran: especificacin, estimacin, inferencia y prediccin. Las dos primeras se vern en este mismo Tema, en tanto que las dos ltimas se analizarn en el Tema 4. Todo este estudio se har basndonos en el modelo clsico de regresin, caracterizado por cumplir una serie de supuestos y disfrutar con ello de un conjunto bien definido de propiedades.

    Una vez conocido este modelo perfecto, proseguiremos con el anlisis del modelo cuando no se cumplen todos los requisitos o propiedades descritas previamente, viendo cules son las consecuencias principales de ello y tomando las medidas ms oportunas para afrontarlas. ste es el objetivo que nos plantearemos en el Tema 5.

    Finalmente, en el Tema 6 abordaremos el estudio de un tipo de modelo muy importante en el mundo de la Empresa: los modelos de eleccin discreta. Estos modelos se caracterizan por ser su variable dependiente de tipo discreto y una de sus principales utilidades es su consideracin en procesos de toma de decisiones.

    3.1. Definicin del modelo economtrico.-

    Un modelo es una representacin simplificada de la realidad, que debe ser plausible y manejable. Teniendo presente cul es el objetivo de la Econometra, un modelo economtrico es un modelo que incluye las especificaciones necesarias para tratar de reflejar las relaciones empricas del mbito de la Economa.

    9 R. Frisch (Econometrica, vol. 1, n 1, 1933).

    47

  • EL MODELO CLSICO DE REGRESIN LINEAL: ESPECIFICACIN Y ESTIMACIN Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    La realidad econmica es absolutamente inalcanzable en trminos de modelizacin determinstica. En todo modelo econmico es preciso considerar un componente aleatorio que permita incluir:

    a) todas aquellas variables relevantes que pudieran no estar especificadas inicialmente en el modelo (ya sea por ignorancia o consideracin de teoras incompletas, por ausencia de datos disponibles o, simplemente, por sencillez en la definicin del modelo);

    b) variables de tipo cualitativo que por su naturaleza no sean cuantificables; c) la aleatoriedad del comportamiento humano; y d) posibles errores de medida en las variables utilizadas.

    As, el punto de partida de un modelo economtrico se fundamenta en dos componentes:

    el determinstico (formado por aquellas variables cuyas relaciones explcitamente deseamos considerar); y

    el aleatorio. Analticamente, pues, al tratar de estudiar el comportamiento de una cierta variable Y, tendramos que el mismo estara definido por una serie de variables conocidas

    consideradas de forma explcita (y que se relacionan con Y segn una determinada forma o funcin matemtica) y por un elemento aleatorio, que denominamos perturbacin, que comprendera todo lo dems:

    ),,,( 21 kXXX

    uXXXfY k ),,,( 21 . La definicin completa de un modelo economtrico comprende una serie de etapas o fases, que se muestran en la Figura 1:

    Estimacin

    Teora econmico-empresarial

    Especificacin

    Datos, informacin

    previa

    Prediccin / Explicacin / Toma de decisiones

    Figura 1

    48

  • EL MODELO CLSICO DE REGRESIN LINEAL: ESPECIFICACIN Y ESTIMACIN Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas Universidad Pablo de Olavide

    3.2. El modelo economtrico de regresin lineal: especificaciones simple y mltiple. Supuestos del modelo clsico.-

    El modelo clsico de regresin lineal: especificaciones simple y mltiple

    Como se acaba de ver, en trminos generales, el modelo economtrico plantea que la variable dependiente (o explicada) est relacionada funcionalmente con una o varias variables independientes (o explicativas), pero asumiendo que la relacin entre ambas partes no es exacta. Y para tener en cuenta la relacin inexacta entre todas ellas, se aade una variable aleatoria estocstica o perturbacin, que representa de alguna forma a todas las variables que no se tienen en cuenta de manera especifica en el modelo, los errores de medicin y otros factores aleatorios.

    La primera de las fases de definicin de un modelo economtrico consiste en su especificacin, esto es, en plantear qu variable econmica queremos estudiar y qu variable o variables pueden determinar su comportamiento, eligiendo adems la forma f