capiv.pdf

32
CAPÍTULO IV. Análisis BIVARIANTE de VARIABLES CUALITATIVAS El análisis del comportamiento de una variable casi siempre implica discutir sobre su relación con otras variables. A continuación se estudiarán dos tipos de relaciones bivariantes. El primer tipo comprende la relación entre dos variables de tipo cualitativo, incluyendo en ellas variables cuantitativas cuyo tratamiento efectivo la asimila una variable cualitativa ordinal. El segundo, en el próximo capítulo, se refiere a la relación entre dos variable cuantitativas. En ambos contextos se estudia la asociación entre dos variables, añadiendo a la cuestión de su detección y medición, la posible determinación de una relación de dependencia. La definición estadística de una relación de dependencia entre dos variables (sean éstas cualitativas o cuantitativas) intenta establecer cuál es la variable (independiente) que influye en la otra (dependiente). En el lenguaje estadístico también se habla de una variable explicativa y una variable explicada. La idea de causalidad supone algo más que la asociación entre ellas, puesto que impone una relación de dependencia entre las variables, debiendo plantear qué variable es dependiente y qué variable es independiente. Desde el punto de vista estadístico existen técnicas para establecer la dirección e importancia cuantitativa de la causalidad, pero su aplicación adquiere pleno sentido cuando se acompaña de algún tipo de hipótesis teórica, aunque sea al nivel puramente exploratorio de los datos. Distribución conjunta de variables. Tabla de contingencia Al tratar de describir la relación entre dos variables cualitativas, que denotaremos A y B, la principal herramienta de análisis es la tabla de frecuencias conjunta o tabla de contingencia. Se considera que cada una de las variables puede tomar una serie de valores mutuamente excluyentes, de manera que sobre cada individuo de la muestra puede observarse cuáles son las categorías a las que pertenece en cada una de las variables. Como en el caso de la estadística univariante, la primera manera de resumir la información es el puro cómputo. Empleando una tabla de doble entrada se muestran todas las posibles combinaciones de las categorías de las dos variable, anotando en cada una de las celdas resultantes el número de casos que pertenecen a las dos categorías. La presentación usual de este tipo de tablas, representando su distribución conjunta, se muestra en el cuadro 1. Cuadro 1

Upload: cesar-camacho

Post on 17-Dec-2015

216 views

Category:

Documents


0 download

TRANSCRIPT

  • CAPTULO IV. Anlisis BIVARIANTE de VARIABLES CUALITATIVAS

    El anlisis del comportamiento de una variable casi siempre implica discutir sobre su relacin con otras variables. A continuacin se estudiarn dos tipos de relaciones bivariantes. El primer tipo comprende la relacin entre dos variables de tipo cualitativo, incluyendo en ellas variables cuantitativas cuyo tratamiento efectivo la asimila una variable cualitativa ordinal. El segundo, en el prximo captulo, se refiere a la relacin entre dos variable cuantitativas. En ambos contextos se estudia la asociacin entre dos variables, aadiendo a la cuestin de su deteccin y medicin, la posible determinacin de una relacin de dependencia. La definicin estadstica de una relacin de dependencia entre dos variables (sean stas cualitativas o cuantitativas) intenta establecer cul es la variable (independiente) que influye en la otra (dependiente). En el lenguaje estadstico tambin se habla de una variable explicativa y una variable explicada. La idea de causalidad supone algo ms que la asociacin entre ellas, puesto que impone una relacin de dependencia entre las variables, debiendo plantear qu variable es dependiente y qu variable es independiente. Desde el punto de vista estadstico existen tcnicas para establecer la direccin e importancia cuantitativa de la causalidad, pero su aplicacin adquiere pleno sentido cuando se acompaa de algn tipo de hiptesis terica, aunque sea al nivel puramente exploratorio de los datos. Distribucin conjunta de variables. Tabla de contingencia Al tratar de describir la relacin entre dos variables cualitativas, que denotaremos A y B, la principal herramienta de anlisis es la tabla de frecuencias conjunta o tabla de contingencia. Se considera que cada una de las variables puede tomar una serie de valores mutuamente excluyentes, de manera que sobre cada individuo de la muestra puede observarse cules son las categoras a las que pertenece en cada una de las variables. Como en el caso de la estadstica univariante, la primera manera de resumir la informacin es el puro cmputo. Empleando una tabla de doble entrada se muestran todas las posibles combinaciones de las categoras de las dos variable, anotando en cada una de las celdas resultantes el nmero de casos que pertenecen a las dos categoras. La presentacin usual de este tipo de tablas, representando su distribucin conjunta, se muestra en el cuadro 1. Cuadro 1

  • Introduccin a la Estadstica Descriptiva para Economistas

    102

    B1 B2 BJ A1 n11 n12 n1J A2 n21 n22 n2J AI nI1 nI2 nIJ

    En la anterior tabla se relacionan las dos variables indicadas como A y B, cada una de ellas con un nmero de atributos o categoras igual a I y J, respectivamente (Ai, i=1,,I; Bj, j=1,, J); nij indica el nmero de observaciones que presentan simultneamente las caractersticas i y j de las variables A y B. El tratamiento ms elemental de esta informacin es la obtencin de las distintas frecuencias. En las tablas de contingencia se muestran las frecuencias (absolutas o relativas) en las que ocurren las categoras de filas y columnas. La notacin empleada no debe provocarle ninguna dificultad, aunque dado que la lectura de los subndices siempre resulta algo engorrosa piense que lo que se est definiendo como tratamientos de la tabla de distribucin conjunta es la formalizacin de una lectura natural de la tabla: como frecuencias absolutas, como frecuencias relativas respecto al total de observaciones y como frecuencias relativas respecto a cada uno de los lados de la tabla. (i) Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada

    una de las variables. Para ello es suficiente con sumar todas las celdas correspondientes a cada una de las filas o de las columnas. En el cuadro 2 se muestra la tabla de contingencia cuando se incluyen las distribuciones marginales. En la misma,

    n ni ijj

    J

    . ==

    1 , n nj ij

    i

    I

    . ==

    1

    Cuadro 2

    B1 B2 BJDistribucin marginal de

    A A1 n11 n12 n1J n1. A2 n21 n22 n2J n2. AI nI1 nI2 nIJ nI.

    Distribucin marginal de

    B n.1 n.2 n.J n

    (ii) Distribucin de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas respecto al total de observaciones (cuadro 3).

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    103

    Cuadro 3

    B1 B2 BJDistribucin

    marginal de A

    A1 nn11

    n

    n12

    K n

    n J1

    n

    n .1

    A2 nn21

    n

    n22

    K n

    n J2

    n

    n .2

    M M K M M

    AI nnI1

    n

    nI 2

    K n

    nIJ

    n

    nI .

    Distribucin marginal de B n

    n 1.

    n

    n 2.

    K n

    n J.

    1

    (iii) Perfiles fila. Corresponde a la tabla en la que aparecen las frecuencias

    relativas de cada una de las celdas con respecto al total de las filas (cuadro 4). Cuadro 4

    B1 B2 BJ

    A1 .1

    11

    nn

    .1

    12

    nn K

    .1

    1

    nn J 1

    A2 .2

    21

    nn

    .2

    22

    nn K

    .2

    21

    nn

    1

    M M K M M

    AI .

    1

    I

    I

    nn

    .

    2

    I

    I

    nn

    K.I

    IJ

    nn

    1

    Distribucin marginal de B n

    n 1.n

    n 2. Kn

    n J. 1

    (iv) Perfiles columna. Muestra las frecuencias relativas de cada una de las celdas con respecto al total de las columnas (cuadro 5).

    Cuadro 5

  • Introduccin a la Estadstica Descriptiva para Economistas

    104

    B1 B2 BJDistribucin

    marginal de A

    A1 1.

    11

    nn

    2.

    12

    nn K

    J

    J

    nn

    .

    1

    nn .1

    A2 1.

    21

    nn

    2.

    22

    nn K

    J

    J

    nn

    .

    2

    nn .2

    M M K M M

    AI 1.

    1

    nnI

    2.

    2

    nnI K

    J

    IJ

    nn

    . nnI .

    1 1 1 1 Ejemplo 1. Diferencias en el tamao de las empresas industriales. Para

    el sector industrial espaol se desea analizar si existe alguna relacin entre el tamao de las empresas y el sector concreto al que pertenecen. Empleando un ao de la Encuesta Industrial se ha recogido para 610 empresas, informacin consistente en el sector al que pertenece la empresa (Metal, Qumica, Alimentacin, Confeccin, Madera, Papel, Minerales no metlicos, Construccin) y su tamao, medido en tres intervalos: de 20 a 99 empleados, de 100 a 499 y de ms de 500. Los resultados del cruzamiento de estas dos variables (sector y tamao) se ofrecen en el cuadro 6 (frecuencias absolutas).

    Cuadro 6

    20/99 100/499 ms 500 TotalesMetal 50 73 90 213

    Qumica 13 31 15 59 Alimentacin 14 15 9 38 Confeccin 33 48 8 89

    Madera 20 3 1 24 Papel 9 10 4 23

    Minerales 11 9 5 25 Construccin 80 31 28 139

    Totales 230 220 160 610 En el cuadro 7 se muestran los porcentajes, respecto al total de

    empresas considerado en la muestra, de cada una de las celdas de la tabla. La tabla puede representarse en un espacio de tres dimensiones para facilitar su lectura. En la grfica 1 se ofrece esa representacin, indicndose con la serie numrica 1 a 8 los sectores productivos correspondientes.

    Cuadro 7

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    105

    20/99 100/499 ms 500 TotalesMetal 8,20 11,97 14,75 34,92

    Qumica 2,13 5,08 2,46 9,67 Alimentacin 2,30 2,46 1,48 6,23 Confeccin 5,41 7,87 1,31 14,59

    Madera 3,28 0,49 0,16 3,93 Papel 1,48 1,64 0,66 3,77

    Minerales 1,80 1,48 0,82 4,10 Construccin 13,11 5,08 4,59 22,79

    Totales 37,70 36,07 26,23 100,00

    Grfica 1

    1 2 3 4 5 6 7 8

    20 a 99100 a 499

    ms 5000,00

    5,00

    10,00

    15,00

    Sea a travs de la tabla de frecuencias conjunta o por medio de su

    representacin puede obtenerse una visin de la importancia de cada de los sectores y su distribucin en funcin del tamao de las empresas. En un problema como el planteado aqu, en el que interesa destacar la distribucin de cada sector segn el tamao, sera de ms ayuda la tabla de perfiles fila que se muestra en el cuadro 8. En la misma es fcil detectar que el sector del metal sera el representativo de las grandes empresas, mientras que los sectores de la madera, construccin y minerales no metlicos estaran caracterizados por un mayor nmero de empresas pequeas. El sector de la confeccin y el qumico se caracterizaran por tener empresas de tamao mediano, mientras que el sector del papel acumulara empresas pequeas y medianas. El sector de la alimentacin, por ltimo, sera el que mantendra un equilibrio mayor entre los tres tipos de tamao. La conclusin general es, por tanto, que efectivamente existen claras diferencias en el tamao de las empresas segn el sector productivo, habiendo ayudado la estructura de perfiles fila a describir la distribucin particular de cada uno de los sectores.

    Cuadro 8

  • Introduccin a la Estadstica Descriptiva para Economistas

    106

    20 a 99 100 a 499 ms 500 Totales Metal 23,47 34,27 42,25 100,00

    Qumica 22,03 52,54 25,42 100,00 Alimentacin 36,84 39,47 23,68 100,00 Confeccin 37,08 53,93 8,99 100,00

    Madera 83,33 12,50 4,17 100,00 Papel 39,13 43,48 17,39 100,00

    Minerales 44,00 36,00 20,00 100,00 Construccin 57,55 22,30 20,14 100,00

    Totales 37,70 36,07 26,23 100,00 Advierta, sin embargo, que la lectura de la tabla en trminos de los

    perfiles fila, no anula los comentarios que pueden realizarse cuando se toma la tabla en la direccin de las columnas. Aunque resulta obvio, el hecho de que el sector de la madera sea representativo de las empresas de pequeo tamao, su menor nmero en el total de la muestra hace que en trminos de la distribucin de las empresas de este tamao entre sectores (perfiles columna) su importancia sea pequea (vase cuadro 9). Si se quisiese incidir de manera global en este tipo de empresas los sectores de la construccin y el metal seran los de mayor peso. Una discusin similar podra realizarse para las restantes columnas.

    Cuadro 9

    20/99 100/499 ms 500 Totales Metal 21,74 33,18 56,25 34,92

    Qumica 5,65 14,09 9,38 9,67 Alimentacin 6,09 6,82 5,63 6,23 Confeccin 14,35 21,82 5,00 14,59

    Madera 8,70 1,36 0,63 3,93 Papel 3,91 4,55 2,50 3,77

    Minerales 4,78 4,09 3,13 4,10 Construccin 34,78 14,09 17,50 22,79

    Totales 100,00 100,00 100,00 100,00 La interpretacin de los resultados de una tabla de contingencia obliga a

    una lectura cuidadosa de los porcentajes de filas y columnas, al ofrecer diferentes perspectivas de la misma informacin.

    Ejemplo 2. Baleares como segunda residencia. Con el objetivo de

    conocer la evolucin y estructura del gasto turstico, el Govern Balear realiza anualmente una encuesta sobre el gasto turstico en las Islas Baleares. Entre la informacin que se publica para el ao 1990 aparece el deseo que los turistas

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    107

    tienen de seleccionar Baleares como una posible segunda residencia. Considerando que este deseo puede estar en funcin de la zona en donde se ha realizado la estancia, las respuestas a la cuestin deseara escoger Baleares como segunda residencia? se han cruzado con el lugar de estancia. Las posibles respuestas a la pregunta son: (i) no; (ii) s, en los prximos aos; (iii )s, cuando me jubile, (iv) no lo sabe. Los lugares de estancia se han clasificado en las siguientes zonas: (1) Palma; (2) Costa de Ponent; (3) Costa de Tramuntana; (4) Badia de Pollena; (5) Badia dAlcudia; (6) Costa de Llevant; (7) Platja de Palma-SArenal; (8) Menorca; (9) Eivissa-Formentera. La informacin correspondiente a los turistas llegados a la isla en temporada alta se recoge en el cuadro 10. La distribucin de porcentajes fila y columna se muestran en los cuadros 11 y 12, respectivamente. Cuadro 10

    zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales No 88 524 36 97 395 593 358 200 520 2812

    S, prx.aos 25 143 8 37 100 182 120 94 148 856 S, jubilacin 16 148 8 48 167 233 102 90 157 968

    NS/NC 34 211 19 39 212 249 118 115 181 1178 Totales 163 1026 71 221 874 1257 698 498 1006 5814

    Cuadro 11

    zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales No 3,13 18,63 1,28 3,45 14,05 21,09 12,73 7,11 18,49 100

    S, prx.aos 2,92 16,71 0,93 4,32 11,68 21,26 14,02 10,98 17,29 100 S, jubilacin 1,65 15,29 0,83 4,96 17,25 24,07 10,54 9,30 16,22 100

    NS/NC 2,89 17,91 1,61 3,31 18,00 21,14 10,02 9,76 15,37 100 Totales 2,80 17,65 1,22 3,80 15,03 21,62 12,01 8,57 17,30 100

    Cuadro 12

    zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales No 53,99 51,07 50,70 43,89 45,19 47,18 51,29 40,16 51,69 48,37

    S, prx.aos 15,34 13,94 11,27 16,74 11,44 14,48 17,19 18,88 14,71 14,72 S, jubilacin 9,82 14,42 11,27 21,72 19,11 18,54 14,61 18,07 15,61 16,65

    NS/NC 20,86 20,57 26,76 17,65 24,26 19,81 16,91 23,09 17,99 20,26 Totales 100 100 100 100 100 100 100 100 100 100

    En el cuadro 11 puede observarse la distinta afluencia de turistas

    segn las zonas, las que reciben mayor afluencia de visitantes son la zona 2 (Costa de Ponent, 18%) zona 5 (Badia dAlcudia, 15%), zona 6 (Costa de Llevant, 22%) y zona 9 (Eivissa-Formentera, 17%), mientras que la zona 3 (Costa de Tramuntana, 1%) y la zona 4 (Badia de Pollena, 4%) son las que menos turistas reciben. En el cuadro 12 pueden leerse los porcentajes totales de aceptacin: el 48% de los encuestados no elegiran las islas como segunda residencia, mientras que el 32% s lo hara, el 15% en los prximos aos y el

  • Introduccin a la Estadstica Descriptiva para Economistas

    108

    17% en la jubilacin. Los porcentajes segn el lugar de estancia no varan en exceso, aunque pueden observarse dos zonas en las que claramente se supera el valor medio de aceptacin: la zona 4 (Badia de Pollena, para la que el 39% de los turistas visitantes de la zona escogeran las Islas) y la zona 8 (Menorca, con el 37% de sus visitantes). Entre las zonas donde se observa un rechazo a esta seleccin destaca la ciudad de Palma (54% de respuestas negativas). En los siguientes apartados se tratan algunos estadsticos de asociacin para variables de tipo cualitativo. Los dos primeros se centran en algunos coeficientes de asociacin para variables nominales u ordinales (Chi-cuadrado, C de contingencia y lambda), mientras que en el tercero se explican algunas medidas de asociacin para cualitativas ordinales (gamma, tau-b y tau-c). Chi-Cuadrado y C de contingencia La lectura de los porcentajes de una tabla de frecuencias permite averiguar si existe algn tipo de asociacin entre las diversas categoras de las variables, verificando si el hecho de pertenecer a alguna de las categoras de una de las variables permite asegurar una frecuencia mayor o menor de la esperada respecto a las categoras de la otra variable. Retomemos el ejemplo anterior en el que se analiza las respuestas de los turistas de Baleares a la pregunta deseara escoger Baleares como segunda residencia?, teniendo en cuenta la zona en la que han pasado sus vacaciones en las islas. El total de turistas que contestan No a esta pregunta es aproximadamente del 48%. En el caso de que el lugar de estancia no tuviese una especial influencia en esta opinin, el porcentaje de noes esperado sera el mismo independientemente de la zona de vacaciones. Es decir, tanto en la zona 1 como en la zona 2, etctera, esperaramos un porcentaje de respuestas negativas muy cercano al 48%. Al observar una zona con un porcentaje distinto (sea mayor o menor) que el calculado sobre toda la muestra es cuando se detecta una asociacin entre las dos variables cualitativas. Si la distribucin de frecuencias se modifica en funcin de la zona de estancia podemos hablar de una asociacin entre las dos variables. Una medida sinttica del grado de asociacin se calcula a partir de la comparacin entre los valores observados y los valores que uno esperara encontrar en el caso de inexistencia de asociacin. Si no se esperase ninguna asociacin entre el lugar de estancia y la posible segunda residencia, la distribucin de frecuencias relativas en trminos de los perfiles columna sera la reproducida en el cuadro 13. Cuadro 13

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    109

    zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales No 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37

    S, prx.aos 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72 S, jubilacin 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65

    NS/NC 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26 Totales 100 100 100 100 100 100 100 100 100 100

    Es decir, todos los perfiles columna seran iguales a la distribucin marginal. En trminos de las frecuencias absolutas los resultados que esperaramos encontrar (frecuencias esperadas, eij) seran los del cuadro 14. Cuadro 14

    zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales No 79 496 34 107 423 608 338 241 487 2812

    S, prx.aos 24 151 10 33 129 185 103 73 148 856 S, jubilacin 27 171 12 37 145 209 116 83 167 968

    NS/NC 33 208 14 45 177 255 141 101 204 1178 Totales 163 1026 71 221 874 1257 698 498 1006 5814

    Cada una de las celdas de la tabla se obtiene aplicando el porcentaje de

    los totales de la ltima columna al nmero de personas que han estado en cada zona, por ejemplo:

    e e11 1228125814

    163 7928125814

    1026 496= = = =; ; ...

    e e21 22856

    5814163 24

    8565814

    1026 151= = = =; ; ... Si las cifras observadas son parecidas a las esperadas suponiendo independencia de las respuestas, las diferencias entre los valores observados nij y los esperados eij estaran prximas a cero. El estadstico de asociacin chi-cuadrado, 2 , resume esta posible discrepancia para el conjunto de las celdas de la tabla:

    ( ) 2 211

    = == n eeij ijijj

    J

    i

    I

  • Introduccin a la Estadstica Descriptiva para Economistas

    110

    Este estadstico suma para todas las celdas la discrepancia, elevada al cuadrado, entre la frecuencia observada y la esperada; normalizando esa cifra mediante el valor esperado. Si no existe ningn grado de asociacin entre las variables cualitativas los valores esperados seran iguales a los valores observados, con lo que el valor del estadstico en este caso sera igual a cero.

    Inexistencia de asociacin entre las variables ( ) 2 211

    0= == n eeij ijijj

    J

    i

    I

    En el cuadro 15 se leen las cifras correspondientes a las diferencias ( )n e

    eij ij

    ij

    2

    del ejemplo de segunda residencia. Cuadro 15

    zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 No 1,1 1,6 0,1 0,9 1,8 0,4 1,3 7 2,3

    S, prx.aos 0,0 0,4 0,6 0,6 6,4 0,1 2,9 5,7 0,0 S, jubilacin 4,6 3,1 1,2 3,4 3,1 2,6 1,8 0,6 0,7

    NS/NC 0,0 0,0 1,5 0,7 6,9 0,1 3,9 1,9 2,5 La suma de todas estas cantidades proporciona el valor del estadstico chi-cuadrado, que en este caso es igual a 71,87. Dado que este valor no est cercano a cero, puede afirmarse que existe algn tipo de asociacin entre las dos variables. Dicho de otra manera, puede afirmarse que lo que se opina sobre Baleares como segunda residencia tiene algn tipo de relacin con la zona de estancia de las vacaciones. El problema de este estadstico es que aunque tiene un lmite inferior con una interpretacin muy clara, tal como est definido no proporciona un lmite superior que permita referirnos al grado de asociacin existente. Como ya se ha comentado, muchos estadsticos tienen una mayor utilidad si definen lmites a los que tomar como referencia. En este caso, el lmite inferior es cero e indica la ausencia total de dependencia entre las dos variables, pero desconocemos el lmite superior que puede tomar y, por tanto, no podramos afirmar si la asociacin detectada es fuerte o dbil.

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    111

    Como una opcin al estadstico chi-cuadrado, K. Pearson propuso el coeficiente C de contingencia definido como:

    2

    2

    += nC

    El lmite superior de este estadstico no est, sin embargo, libre de problemas. El coeficiente C toma su valor mnimo cuando 2 es cero, es decir si entre las dos variables no existe asociacin. El valor mximo del coeficiente, que se da cuando existe una asociacin completa entre las variables, depende del nmero de modalidades de las variables. El mximo que puede alcanzar el coeficiente es uno (correspondiente a dos variables con infinitas modalidades), pero no siempre se alcanza. Por ejemplo, cuando se trata de una tabla cuadrada

    IxI (igual nmero de filas que de columnas), el lmite superior es igual a ( ) II 1 . En general, el lmite mximo del coeficiente es igual a:

    ( ) ( ) 2,,,11 JImn

    JImn

    El coeficiente C de contingencia toma valores entre 0 y 1. Valores de C cercanos a cero indican un grado de asociacin pequeo. Valores cercanos a uno seran sntoma de asociacin entre las variables. Ejemplo 3. Caractersticas de los hogares unipersonales. Se desea conocer si los hogares unipersonales son caractersticos de las zonas urbanas. Para ello y utilizando datos de la EPF-90 se cruza informacin sobre estas dos caractersticas del hogar. La variable denominada unipersonal toma dos posibles atributos segn el hogar sea o no sea unipersonal; la variable zona indica si el hogar pertenece al medio rural o al medio urbano. Los resultados del cruzamiento se ofrecen en los cuadros 16 (frecuencias observadas) y 17 (porcentajes de filas, columnas y sobre el total, en este orden). Puede observar que los hogares unipersonales representan el 10,2% de los hogares de la EPF-90, los porcentajes de este tipo de hogar segn se distinga entre su pertenencia a zona rural o urbana no son muy distintos (10,5% y 10%, respectivamente). Una informacin similar se obtiene analizando los perfiles fila. Los hogares urbanos representan el 51,9% del total de hogares, siendo el porcentaje igual a 50,6% cuando se consideran nicamente los

  • Introduccin a la Estadstica Descriptiva para Economistas

    112

    hogares unipersonales. La lectura de estos porcentajes, por lo tanto, no parece indicar una asociacin importante entre las variables tipo de hogar (unipersonal o no) y zona de residencia (rural o urbana). Cuadro 16

    Zona: Unipersonal: Rural Urbana Totales

    No 9070 9840 18910 S 1065 1091 2156

    Totales 10135 10931 21066 Cuadro 17

    Zona: Unipersonal: Rural Urbana Totales

    No

    48% 89,5% 43,1%

    52% 90%

    46,7%

    89,8%

    S

    49,4% 10,5% 5,1%

    50,6% 10% 5,2%

    10,2%

    Totales 48,1% 51,9% Cuadro 18

    Zona: Unipersonal: Rural Urbana Totales

    No 73,9097101352106618910 = 27,981210931

    2106618910 = 18910

    S 27,103710135210662156 = 7,111810931

    210662156 = 2156

    Totales 10135 10931 21066

    Para conocer el valor del estadstico de asociacin chi-cuadrado deben obtenerse los valores esperados de cada celda, calculados segn se muestra en el cuadro 18, siendo el valor del estadstico: ( ) ( ) ( ) ( )

    59,17,1118

    7,1118109127,1037

    27,1037106527,9812

    27,9812984073,9097

    73,90979070 22222 =+++=

    Y el valor del coeficiente C:

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    113

    0087,059,121066

    59,12

    2

    =+=+=

    nC

    El coeficiente C, al estar tan prximo a cero apunta la ausencia de

    asociacin entre las dos variables. Lambda Este coeficiente se define tomando como base el concepto de prediccin. Supongamos que queremos predecir la respuesta de un individuo a la pregunta de una encuesta. Si no sabemos nada de ese individuo, una prediccin razonable sera suponer que su respuesta coincidir con la opcin que ms gente haya contestado. Al adoptar este criterio interpretaramos como valor ms probable aquel que en la muestra se ha descubierto como el ms frecuente. As, por ejemplo, si tuviramos que asignar una familia espaola a la categora de hogar urbano o rural, empleando la informacin del cuadro 16, este criterio aconsejara asignarlo a la categora ms frecuente, en este caso el hogar urbano. Obviamente, existe la posibilidad de cometer un error. Puede medirse la importancia del error? Si aplicsemos este criterio a las 21066 familias de la muestra EPF-90 realizaramos una prediccin correcta en 10931 casos (las familias que efectivamente pertenecen a la opcin mayoritaria), mientras que cometeramos un error en las 10135 familias restantes (las familias que no pertenecen a la moda de la distribucin).

    En el caso de disponer de informacin adicional, la prediccin podra intentar mejorarse. Por ejemplo, si supiramos que la familia que queremos asignar como hogar rural o urbano tiene alguna otra caracterstica, podramos utilizar esa informacin en el proceso de asignacin. Supongamos que, efectivamente, se conoce si en ese hogar existen o no personas con ms de 60 aos. Podramos mejorar el nmero de aciertos si utilizsemos esta informacin?

    En los cuadros 19 (frecuencias absolutas) y 20 (porcentajes fila) se muestra el cruzamiento de las dos variables. Cuadro 19

  • Introduccin a la Estadstica Descriptiva para Economistas

    114

    Zona: mayores de 60 aos: Rural Urbana Totales

    No 5318 6726 12044 S 4817 4205 9022

    Totales 10135 10931 21066 Cuadro 20

    Zona: mayores de 60 aos: Rural Urbana Totales

    No 44,2% 55,8% 100% S 53,4% 46,6% 100%

    Totales 48,1% 51,9% 100% Si sabemos que en la familia hay miembros mayores de 60 aos modificaramos la prediccin. La distribucin de la fila correspondiente a este tipo de hogar entre rural y urbano es del 53,4% y 46,6%, respectivamente, cuando en el total el porcentaje era del 48,1% y 51,9%. La prediccin, si mantenemos el criterio de asignar la familia al atributo ms frecuente es distinta ahora, al ser la caracterstica de hogar rural la ms frecuente entre aquellos hogares con familias que tienen algn miembro mayor de 60 aos. Cul ser el error que se cometera si se aplica la prediccin a todas las familias de la muestra? Por un lado, si en la familia hay mayores de 60 aos, se asignaran errneamente a zonas rurales las 4205 familias que viven en zonas urbanas. Por otro lado, si sabemos que en la familia no existe ningn miembro de 60 aos, cualquier familia para la que hagamos la prediccin la situaramos en zona urbana, al tratarse de la categora ms frecuente (55,8% de los casos). El error que cometeramos en este caso sera de 5318 familias. En total, por tanto, el error global sera de 4205+5318 familias, igual a 9523.

    Al considerar dos variables puede utilizarse una de ellas para facilitar la prediccin de la otra. La prediccin de la variable dependiente se realiza condicionada a los valores de la variable independiente. Se ha mejorado la prediccin al tener en cuenta la variable mayores de 60 aos? Manteniendo siempre como criterio de prediccin la asignacin de un individuo a la caracterstica ms frecuente, cuando no se ha tenido en cuenta esta variable el error global era de 10135 familias y cuando se ha considerado, el error global ha sido de 9523. En consecuencia, se ha mejorado la prediccin en slo 612 familias que ahora se asignaran correctamente. Porcentualmente puede

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    115

    valorarse si se ha producido una mejora mediante la siguiente medida de reduccin proporcional del error:

    = =10135 952310135

    0 06038,

    Cmo debe leerse este estadstico? El valor obtenido indica que

    sabiendo que en la familia viven una o ms personas por encima de los 60 aos el error de la prediccin se reducira un 6,04%, en este caso una cifra pequea. En general, el estadstico lambda se define como:

    = error no condicionado - error condicionadoerror no condicionado

    donde:

    error no condicionado, es el error de prediccin cometido cuando las predicciones para los atributos de la variable dependiente no estn condicionadas a otra variable.

    error condicionado, es el error de prediccin cometido cuando las predicciones para los atributos de la variable dependiente se hacen condicionadas a los atributos de una variable independiente.

    El valor mnimo de lambda es cero y se dar cuando el error no

    condicionado = error condicionado, es decir, cuando el error de la prediccin no se mejora al tener informacin de la segunda variable. El valor mximo es igual a 1 y se da cuando el error condicionado se hace cero, es decir, cuando la prediccin condicionada reduce el error totalmente.

    El estadstico lambda toma valores entre cero y uno: 0 1 . Un

    valor de lambda igual a cero quiere decir que la variable independiente no ayuda a predecir la variable dependiente: no se reduce el error de prediccin cuando se usan los valores de una variable para predecir la otra; el valor de lambda igual a 1 indica una prediccin condicionada que reduce el error original en un 100%. Al cruzarse dos variables, el estadstico lambda puede calcularse de dos maneras distintas, alternando la definicin de cul de las dos variables se considera independiente. Es decir, que se obtiene un valor de lambda distinto segn se considere la prediccin de una u otra variable. En el ejemplo numrico al que estamos haciendo referencia hemos planteado la prediccin de las frecuencias de la variable urbano condicionadas a la variable mayores de ms de 60 aos. De una forma alternativa podramos haber planteado la prediccin de

  • Introduccin a la Estadstica Descriptiva para Economistas

    116

    mayores de 60 aos condicionada a los valores de la variable urbano. Como veremos a continuacin, el valor de lambda que se obtiene es distinto. La prediccin no condicionada nos llevara a un error (error no condicionado) igual a 9022. Al darse una mayor frecuencia de familias con ningn miembro de ms de 60 aos (12044 familias) frente a las que tienen uno o ms de uno (9022 familias) el criterio de prediccin que hemos definido nos conducira a asignar a una familia al grupo mayoritario, lo que supondra (en caso de aplicarse en la propia muestra) realizar una asignacin incorrecta en 9022 familias. El error que cometemos al predecir de manera condicionada es la suma de dos cantidades: si supisemos que el hogar est en una zona rural predeciramos para cualquier familia que no hay ningn individuo de ms de 60 aos, cometiendo un error en la muestra de 4817 familias; si consideramos que el hogar est en una zona urbana, la prediccin (al ser tambin la frecuencia mayoritaria) es la misma y el error igual a 4205 familias. El estadstico lambda ser por tanto:

    = + =9022 4817 42059022

    0( )

    En consecuencia, tener informacin sobre la variable mayores de 60 aos no mejora en nada la prediccin de la variable urbano. El estadstico lambda ofrece resultados distintos segn cul de las dos variables de la tabla de contingencia se utilice como variable dependiente. Una sntesis de los dos estadsticos lambda es el denominado lambda simtrico definido como una combinacin de los dos anteriores. En nuestro ejemplo tomara el siguiente valor:

    = + + =( ) ( )

    ,10135 9523 9022 9022

    10135 90220 03195

    El estadstico lambda simtrico se define como la combinacin de los lambdas simples y resume la reduccin del error de prediccin cuando no existe ninguna razn para considerar a una de las dos variables como dependiente.

    Ejemplo 4. Nivel de estudios y categora socioeconmica. El nivel de

    estudios alcanzado por un individuo puede entenderse como una inversin en capital humano que debe tener su recompensa en su nivel de ingresos o en la categora social en la que se inserta. Como una manera de valorar esta hiptesis se han cruzado dos variables de la EPF-90, la primera recoge el nivel de estudios del sustentador principal (SP), la segunda recoge su categora socioeconmica.

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    117

    Las categoras de las variables se recogen a continuacin:

    Nivel de estudios del SP:

    1. Analfabeto o sin estudios. 2. Primarios, EGB o FP-1. 3. BUP, COU, FP-2. 4. Diplomado universitario o equivalente. 5. Estudios superiores o equivalentes.

    Categora socioeconmica:

    1. Empresarios y directivos agrarios. 2. Resto de trabajadores y miembros de cooperativas agrarias. 3. Empresarios, profesionales y trabajadores independientes no

    agrarios. 4. Directores profesionales y jefes administrativos por cuenta ajena. 5. Resto del personal de servicios y profesionales de las Fuerzas

    Armadas. 6. Contramaestres, operarios cualificados y miembros de cooperativas

    no agrarias. 7. Operarios sin especializacin, no agrarios. 8. No clasificables.

    Los resultados del cruzamiento de estas dos variables se muestran en el cuadro 21 (frecuencias absolutas, porcentajes fila, columna y totales). El clculo de algunos de los estadsticos de asociacin de esta tabla son los siguientes: chi-cuadrado igual a 11231,389; coeficiente C de contingencia igual a 0,58970; lambda simtrica igual a 0,07016; lambda con categora socioeconmica como variable dependiente 0,04047; lambda con nivel de educacin como dependiente 0,09137. Qu conclusiones pueden obtenerse de estas cifras? El clculo de los estadsticos muestra que efectivamente existe una asociacin importante entre las dos variables, mostrando el coeficiente C de contingencia un valor alejado del cero y relativamente prximo al valor terico mximo del estadstico (igual a uno). Este grado de asociacin, sin embargo, no se ve reflejado en el estadstico lambda. En concreto, dado que la relacin de dependencia que nosotros hemos planteado a priori implica una dependencia de la categora socioeconmica del nivel de estudios del individuo, debemos leer la cifra correspondiente a lambda con la categora socioeconmica como variable dependiente, que es igual a 0,04047. El error de prediccin se reduce, por tanto, slo en un 4,05% cuando se emplea el nivel de estudios como variable dependiente.

  • Introduccin a la Estadstica Descriptiva para Economistas

    118

    Cuadro 21 Categora socioeconmica del sustentador principal (SP):

    Nivel de estudios del SP:

    1 2 3 4 5 6 7 8 9 Totales

    1

    259 4,8

    33,2 1,2

    383 7,0

    50,6 1,8

    247 4,5

    11,7 1,2

    3 0,1 0,2 0,0

    256 4,7 8,2 1,2

    645 11,8 14,8 3,1

    113 2,1

    30,9 0,5

    44 0,8

    26,3 0,2

    3500 64,2 44,8 16,6

    5450 25,9

    2

    489 4,2

    62,7 2,3

    345 3,0

    45,6 1,6

    1434 12,4 67,9 6,8

    228 2,0

    14,4 1,1

    1828 15,8 58,5 8,7

    3252 28,0 74,6 15,4

    235 2,0

    64,2 1,1

    98 0,8

    58,7 0,5

    3693 31,8 47,3 17,5

    11602 55,1

    3

    22 1,1 2,8 0,1

    22 1,1 2,9 0,1

    253 12,3 12,0 1,2

    276 13,5 17,4 1,3

    751 36,6 24,0 3,6

    402 19,6 9,2 1,9

    13 0,6 3,6 0,1

    16 0,8 9,6 0,1

    297 14,5 3,8 1,4

    2052 9,7

    4

    6 0,6 0,8 0,0

    6 0,6 0,8 0,0

    78 7,4 3,7 0,4

    506 48,1 31,9 2,4

    191 18,2 6,1 0,9

    51 4,9 1,2 0,2

    3 0,3 0,8 0,0

    7 0,7 4,2 0,0

    203 19,3 2,6 1,0

    1051 5,0

    5

    4 0,4 0,5 0,0

    1 0,1 0,1 0,0

    99 10,9 4,7 0,5

    573 62,9 36,1 2,7

    99 10,9 3,2 0,5

    12 1,3 0,3 0,1

    2 0,2 0,5 0,0

    2 0,2 1,2 0,0

    119 13,1 1,5 0,6

    911 4,3

    Totales 780 3,7 757 3,6

    2111 10,0

    1586 7,5

    3125 14,8

    4362 20,7

    366 1,7

    167 0,8

    7812 37,1 21066

    Estos resultados son llamativos puesto que mientras que, por un lado, se detecta una asociacin de dependencia mediante el estadstico chi-cuadrado, por otro, el estadstico lambda sugiere la ausencia de mejora en la prediccin cuando se utiliza una de las variables como dependiente. Si se invierte la relacin de dependencia tampoco mejorara el resultado, al calcularse lambda igual a 9,14%. La razn de esta aparente contradiccin es que ambos estadsticos miden el grado de asociacin con un objetivo diferente. Los valores observados y los valores esperados bajo la hiptesis de independencia pueden ser muy distintos, detectndose por ello un grado de asociacin alto mediante el estadstico chi-cuadrado, pero ello no tiene por qu suponer que el conocimiento de una de las variables mejore la prediccin de los valores de la otra, al menos bajo el criterio utilizado en el estadstico lambda. Para ilustrar esta circunstancia, Norusis (1991, pg. 320) presenta el ejemplo que reproducimos en el cuadro 22. Cuadro 22

    variable dependiente: variable independiente: 1 2 3 Totales

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    119

    1 19 20 1 40 2 10 20 10 40 3 1 20 19 40

    Totales 30 60 30 120 El valor del estadstico chi-cuadrado en esta tabla es igual a 32,4, con una C de contingencia igual a 0,46, lo que sugiere algn grado de asociacin. Para calcular el estadstico lambda con respecto a la variable dependiente observemos que la prediccin no condicionada llevara a un error global igual a 30+30=60, al ser la categora ms frecuente la 2. Para realizar la prediccin condicionada debemos considerar para cada uno de sus atributos cul es la categora ms frecuente. En los tres casos coincide que se trata de la 2. El error total que se cometera sera, por tanto, la suma de las frecuencias en las categoras menos frecuentes (19+1)+(10+10)+(1+19)=60. El estadstico lambda, por tanto, proporciona un valor igual a cero. Con ello se seala que el conocimiento de la variable independiente, bajo el criterio establecido de prediccin, no disminuira el error.

    Puede existir una asociacin entre dos variables (medido por el estadstico chi-cuadrado), sin que el conocimiento de la variable independiente disminuya el error en la prediccin (medido por el estadstico lambda). Gamma, Tau-b y Tau-c Se trata de estadsticos de asociacin para variables cualitativas de tipo ordinal. Cuando se trabaja con variables ordinales las categoras de las variables pueden ordenarse, en algn sentido, de menos a ms. Las medidas a las que se hace referencia aqu permiten detectar adems si la asociacin existente es positiva o negativa.

    Los estadsticos gamma, tau-b y tau-c se utilizan como medidas de asociacin de variables cualitativas ordinales. Pares concordantes y discordantes. Para definir los nuevos estadsticos se deben emplear los conceptos de par concordante y par discordante. Utilizaremos para ello un ejemplo con dos variables cualitativas de tipo nominal, que recogeran la edad y los ingresos de una muestra de individuos. Tanto la edad como los ingresos se pueden medir en escala continua o en escala ordinal, considerndose en este caso como variables cualitativas. Supongamos que la edad est definida en 9 intervalos (1, desde 20 a 25 aos; 2, de 25 a 30; 3, de 30 a

  • Introduccin a la Estadstica Descriptiva para Economistas

    120

    35; ; 8, de 55 a 60; 9, ms de 60), los ingresos en 10 intervalos (1, menos de un milln; 2, de uno a dos millones; ; 10, ms de 10 millones) y que disponemos de nueve observaciones, con los valores del cuadro 23. En el ejemplo aparecen nueve individuos, cada uno en un intervalo de edad distinto (desde 1 hasta 9) y distintos niveles de ingresos. La muestra se puede ordenar en funcin de los valores de una de las dos variables, por ejemplo la edad. El resultado sera el que se observa en el cuadro 24. Cuadro 23

    individuo edad ingresos 1 4 4 2 2 3 3 3 2 4 5 5 5 1 2 6 6 10 7 9 9 8 8 4 9 7 1

    Cuadro 24

    individuo edad ingresos 5 1 2 2 2 3 3 3 2 1 4 4 4 5 5 6 6 10 9 7 1 8 8 4 7 9 9

    Dos individuos de la muestra se definen como pares concordantes si los valores que toma uno de los individuos en las dos variables son mayores que los que toma el otro individuo. As el individuo 5 y el 2 forman un par concordante, al tomar el individuo nmero 2 en las variables edad e ingresos valores iguales a 2 y 3, mayores que 1 y 2, del individuo 5. El siguiente par que puede detectarse como concordante sera el correspondiente a los individuos 5 y 1, ya que los valores que toma este ltimo son superiores en ambas variables a los del individuo 5.

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    121

    Dos individuos definen un par discordante si los valores que toma uno de los individuos en una de las variables son mayores que los del otro, pero esa relacin se invierte en la segunda variable. As, el par formado por los casos 5 y 9 sera discordante, al tomar el individuo 9 un valor mayor en la variable edad, pero un valor menor en los ingresos. Los individuos 2 y 3, por ejemplo, seran tambin un par discordante al invertirse el orden de los valores en las dos variables. En el caso de que los valores de una o ambas variables coincidieran el par no se considerara ni concordante ni discordante. El par 5, 3, por ejemplo, sera un par igualado, ni concordante ni discordante, al tomar el mismo valor en la variable ingresos.

    Un par de observaciones se considera como un par concordante si los valores que toma una de las observaciones en las dos variables son mayores que los que toma la otra observacin. Un par de observaciones se considera como un par discordante si los valores que toma una de las observaciones en una de las variables son mayores que los de la otra observacin, pero esa relacin se invierte en la segunda variable. En el caso de que los valores de una o ambas variables coincidieran, el par se considerara como un par igualado. Al comparar dos casos pueden darse, por tanto, cinco posibilidades: concordancia, discordancia, igualdad en la primera variable, igualdad en la segunda variable o igualdad en ambas variables.

    Para todas las parejas de observaciones puede definirse el par como concordante, discordante o igualado. Si muchas de las parejas son concordantes la relacin entre las dos variables deber interpretarse como positiva, mientras que la abundancia de pares discordantes indicar que la asociacin es negativa. Si ninguno de estos dos tipos de pareja es preponderante supondremos que no existe asociacin entre ambas variables. Cuando se trabaja con una tabla de doble entrada es fcil controlar el nmero de pares concordantes o discordantes. Imaginemos una tabla como la que aparece en el cuadro 25, en la que A, B, , I simbolizan las frecuencias absolutas en cada celda. Cuadro 25

    Y X 1 2 3 1 A B C

  • Introduccin a la Estadstica Descriptiva para Economistas

    122

    2 D E F 3 G H I

    Los individuos cuyos valores son (X=1, Y=1) mostraran valores inferiores a aquellos individuos con valores (X=2, Y=2), (X=2, Y=3), (X=3, Y=2), (X=3, Y=3), segn se indica en el cuadro 26. Para todos los pares de individuos formados a partir de alguno perteneciente al conjunto con valores (X=1, Y=1) y otro con valores en el rango (X 2, Y 2) nos encontraremos pares concordantes. Cuadro 26

    Y X 1 2 3 1 2 3

    El nmero de pares concordantes detectados en este caso sera igual a:

    A E A F A H A I + + +

    Otros pares concordantes se darn para otros rangos de valores. Los individuos con valores (X=1, Y=2) tendran valores estrictamente inferiores a aquellos individuos con (X=2, Y=3) o (X=3, Y=3), segn se indica en el cuadro 27, formando tambin pares concordantes. Cuadro 27

    Y X 1 2 3 1 2 3

    Aqu el nmero de pares concordantes sera:

    B F B I +

    Para acabar contabilizando todos los pares concordantes deberamos adems contar los pares que se reflejan en los cuadros 28 y 29. Cuadro 28

    Y X 1 2 3 1

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    123

    2 3

    Cuadro 29

    Y X 1 2 3 1 2 3

    De igual manera pueden calcularse fcilmente los pares discordantes y los igualados. Medidas basadas en pares concordantes y discordantes. Hemos sealado cmo la deteccin de un nmero proporcionalmente elevado de pares concordantes ser indicativa de una asociacin positiva: cuando los valores de una variable crecen, tambin lo hacen los valores de la otra variable. Un razonamiento similar sirve para detectar una asociacin negativa o la ausencia de asociacin. Para obtener medidas de asociacin basadas en estos conceptos se consideran las diferencias entre el nmero de pares concordantes (C) y el nmero de pares discordantes (D). Gamma. El estadstico gamma (debido a Goodman y Kruskal) se define como:

    DCDC

    +=

    Si todas las parejas son concordantes ( 0=D ), el valor de gamma sera igual a 1, coincidiendo con el grado de asociacin positivo ms alto entre las dos variables. En el caso contrario, cuando todos los pares son discordantes ( 0=C ), el estadstico nos proporcionara un valor igual a -1, que coincidira por tanto con el grado de asociacin ms alto de tipo negativo. Si el nmero de parejas concordantes y discordantes estuviese igualado, el estadstico estara cercano a cero. El estadstico gamma proporciona valores entre -1 y 1. El grado ms alto de asociacin positiva entre dos variables se da cuando 1= . El grado ms alto de asociacin negativa se da cuando 1= . Finalmente, 0= se interpreta como la ausencia de asociacin.

  • Introduccin a la Estadstica Descriptiva para Economistas

    124

    Tau-b. Trata de normalizar el mismo numerador que el coeficiente gamma pero incluyendo en el denominador el nmero de pares igualados (ni concordantes ni discordantes) en una de las dos variables (no considera los pares en los que se da la igualdad en ambas variables). Su expresin es:

    )()( YXb TDCTDC

    DC++++

    = indicando TX , TY el nmero de pares igualados en las variable X o Y. Tau-b toma valores -1 o 1 slo en tablas cuadradas. Tau-c. Se define como:

    )1()(2

    2 =

    mnDCm

    c donde n es el tamao de la muestra y m es el nmero menor de las filas y columnas de la tabla. El estadstico puede alcanzar los valores lmites de -1 y 1 en tablas de cualquier tamao.

    Ejemplo 5. Existe relacin entre la rentabilidad y el riesgo empresarial? En una muestra de empresas se ha obtenido su rentabilidad media y la desviacin estndar de su rentabilidad en los ltimos diez aos (esta ltima como una medida de riesgo). Las empresas se han clasificado en cuatro grupos, segn los rendimientos y riesgo de la empresa sean inferiores o superiores a la mediana de toda la muestra. En el cuadro 30 se muestran la tabla de contingencia que se correspondera con la definicin de los cuatro grupos. Cuadro 30

    Riesgo inferior Riesgo superior Total Rendimiento inferior 66 68 134

    Rendimiento superior 68 65 133 Total 134 133 267

    La informacin de los cuatro grupos puede analizarse como el resultado del cruzamiento de dos variables cualitativas, rendimiento y riesgo, con dos categoras cada una de ellas. Aunque la informacin de la tabla muestra claramente la ausencia de relacin entre el rendimiento y el riesgo, calcularemos

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    125

    los estadsticos chi-cuadrado y gamma. Para obtener el estadstico chi-cuadrado en el cuadro 31 se calculan las frecuencias esperadas. Cuadro 31

    Riesgo inferior Riesgo superior Total

    Rendimiento inferior 2509,67267134134 = 749,66

    267134133 = 134

    Rendimiento superior 749,66267133134 = 2509,66

    267133133 = 133

    Total 134 133 267 Los estadsticos de asociacin Chi-cuadrado y C de contingencia se muestran a continuacin: ( ) ( ) ( ) 2 2

    11

    2 266 67 250967 2509

    68 66 74966 749

    = = + +== n eeij ijijj

    J

    i

    I ,,

    ,,

    ( ) ( )+ + =68 66 74966 749

    65 66 250966 2509

    0 093782 2,

    ,,

    ,,

    01874,009378,0267

    09378,02

    2

    =+=+=

    nC

    El estadstico gamma en esta tabla de orden 2x2 es muy rpido de calcular:

    03747,06868656668686566 =+=+

    =DCDC

    Cuadro 32

    Chi-cuadrado C de contingencia gamma 0,09378 0,01874 -0,03747

    Los resultados del cuadro 32 confirman la impresin de la tabla de contingencia, no detectndose en la muestra ninguna asociacin entre la rentabilidad y el riesgo empresarial.

  • Introduccin a la Estadstica Descriptiva para Economistas

    126

    Ejemplo 6. Beneficios empresariales y nivel de concentracin. En el campo de la economa industrial es objeto de discusin la relacin existente entre los beneficios empresariales y los niveles de concentracin sectorial. Segn algunos autores, los beneficios empresariales seran mayores en mercados con unos pocos productores responsables de las ventas, que podran ponerse de acuerdo al margen de los mecanismos del mercado (hiptesis de colusin), favoreciendo precios y beneficios ms altos.

    Con una muestra de empresas se intenta detectar la existencia de una asociacin entre los niveles de concentracin y los beneficios empresariales. Las empresas se clasifican en tres niveles de beneficios (bajo, medio y alto) y en tres niveles de concentracin de su mercado (bajo, medio y alto). Entre las dos variables se efecta un cruzamiento obtenindose la tabla de contingencia que se muestra en el cuadro 33. Cuadro 33

    Nivel de Beneficios Nivel de

    concentracin Bajo Medio Alto Total

    Bajo 120 114 46 280 Medio 64 74 88 226 Alto 68 44 137 249 Total 252 232 271 755

    Dado que las dos variables son de tipo ordinal puede calcularse el estadstico gamma, para ello deben obtenerse el nmero de pares concordantes y de pares discordantes:

    ( ) ( ) ( ) 8853213774137446413788114137448874120 =++++++++=C( ) ( ) ( ) 41436687444688868641144468746446 =++++++++=D

    Y, por tanto:

    3624,041436885324143688532 =+

    =+=

    DCDC

    El valor de gamma es igual a 0.36, al tratarse de un valor positivo se

    estara detectando un grado de asociacin positiva entre ambas variables. El valor mximo se da cuando gamma es igual a 1, por lo que puede aceptarse una asociacin positiva moderada.

    El estadstico lambda, tomando como variable dependiente el nivel de

    beneficios, sera:

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    127

    ==docondiciona no error

    docondiciona error-docondiciona no errorbeneficios

    [ ] ( ) ( ) ( )[ ][ ] 15,0484

    410484232252

    4468746446114232252 ==+++++++=

    Tambin puede calcularse el estadstico lambda invirtiendo la relacin de dependencia, es decir, planteando como variable dependiente el nivel de concentracin, que sera consecuencia de los niveles de beneficio alcanzado por algunas empresas:

    ==docondiciona no error

    docondiciona error-docondiciona no errorinconcentrac

    [ ] ( ) ( ) ( )[ ][ ] 19,0475

    384475249226

    884644746864249226 ==+++++++=

    Los valores de lambda indican que el error de prediccin del nivel de beneficios si se tiene informacin del nivel de concentracin del mercado, se reducira en un 15% e invirtiendo la relacin de dependencia el error de prediccin se reducira en un 19%. El estadstico lambda simtrico sera igual a:

    ( ) ( ) 172,0475484

    384475410484 =++=simtrico

    confirmando la existencia de una relacin de dependencia moderada entre las dos variables.

    Ejemplo 7. Satisfaccin y calidad del establecimiento hotelero. En una encuesta realizada a una muestra de turistas en un municipio turstico se les ha solicitado cul es el nivel de satisfaccin de su estancia. La respuesta poda establecerse en tres niveles: baja satisfaccin, media y alta. Se desea analizar el grado en el que la categora del hotel en el que se ha alojado ha podido influir en el nivel de satisfaccin. Para ello se realiza el cruzamiento de las dos variables, obtenindose las frecuencias que se muestran en el cuadro 34. Existe asociacin entre el nivel de satisfaccin y la categora del hotel? Para responder a esta pregunta se calculan los estadsticos de asociacin chi-cuadrado y gamma. Cuadro 34

    Categora Hotel Nivel de

    Satisfaccin * ** *** **** Totales

    Bajo 43 36 48 63 190

  • Introduccin a la Estadstica Descriptiva para Economistas

    128

    Medio 12 25 57 67 161 Alto 8 23 22 40 93

    Totales 63 84 127 170 444 Para calcular el estadstico chi-cuadrado deben obtenerse, en primer lugar, los valores esperados bajo la hiptesis de que no hay asociacin (vase el cuadro 35). Cuadro 35

    Categora Hotel Nivel de

    Satisfaccin * ** *** **** Totales

    Bajo

    96,2663444190 =

    95,3584444190 =

    35,54127

    444190 =

    75,72170

    444190 =

    190

    Medio

    84,2263444161 =

    46,3084444161 =

    05,46127

    444161 =

    64,61170

    444161 =

    161

    Alto

    20,136344493 =

    59,178444493 =

    60,26127

    44493 =

    61,35170

    44493 =

    93

    Totales 63 84 127 170 444

    Teniendo en cuenta estos valores, el estadstico chi-cuadrado se

    calcula: ( ) ( ) ( ) ( ) 83,25

    61,3561,3540

    60,2660,2622

    95,3595,3536

    96,2696,2643 22222 =++++= K

    Y el estadstico C de contingencia:

    234,083,25444

    83,252

    2

    =+=+=

    nC

    El valor mximo de este estadstico poda llegar a ser:

    ( ) 816,0311

    ,11 ==

    JImn

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    129

    por lo que C alcanza en este anlisis el 28,7% de su posible mximo, sealando con ello que existe una relacin moderada entre el nivel de satisfaccin y la categora del hotel de estancia. El clculo del estadstico gamma confirma que la asociacin es moderada y, adems, que es de tipo positivo:

    1754,018763267441876326744 =+

    =+=

    DCDC

    Finalmente, puede intentar establecerse la capacidad de prediccin que tiene la categora del hotel en el nivel de satisfaccin del turista:

    ==docondiciona no error

    docondiciona error-docondiciona no errornsatisfacci

    [ ] ( ) ( ) ( ) ( )[ ][ ] =+

    ++++++++=93161

    40632248232581293161

    0512,0254

    241254 == El bajo valor de lambda seala que la categora hotelera no ayuda a la

    prediccin del nivel de satisfaccin, puesto que el error de prediccin empleando esta informacin slo se reducira en un 5%.

    Ejemplo 8. Toma de decisiones familiares en la adquisicin de bienes de consumo. En un estudio se intenta determinar quin o quines son los responsables de las decisiones de consumo dentro de las familias. Se realiza, para ello, una encuesta a 557 matrimonios, preguntndoles a cada miembro de la pareja quin toma las decisiones sobre los productos que se compran. Las posibles respuestas a esta pregunta eran que las decisiones las toma el hombre, la mujer o ambos. En el cuadro 36 se cruzan el sexo del encuestado con la respuesta de quin influye ms en la compra de los automviles.

    Cuadro 36

    Las decisiones las toma: Miembro de la

    pareja: Hombre Ambos Mujer Total

    Hombre 179 356 22 557 Mujer 356 178 23 557

  • Introduccin a la Estadstica Descriptiva para Economistas

    130

    Total 535 534 45 1114

    Para el conjunto de encuestados, el 48% consideraba que las

    decisiones las tomaban los hombres, el 48% que la decisin era conjunta y slo un 4% afirmaba que la decisin la tomaba la mujer. Sin embargo, si se consideran separadamente las respuestas dadas por los hombres y las mujeres, estos porcentajes difieren radicalmente. Existe relacin entre la respuesta dada a la pregunta y el sexo del individuo que la contesta?

    El estadstico chi-cuadrado se basa en los valores esperados que se muestran en el cuadro 37. Cuadro 37

    Las decisiones las toma: Miembro de la

    pareja: Hombre Ambos Mujer Total

    Hombre

    5,267535

    1114557 =

    2675341114557 = 5,2245

    1114557 = 557

    Mujer

    5,267535

    1114557 =

    2675341114557 = 5,2245

    1114557 = 557

    Total 535 534 45 1114

    El valor del estadstico chi-cuadrado ser: ( ) ( ) ( ) ( ) 91,117

    5,225,2223

    267267178

    267267356

    5,2675,267179 22222 =++++= K

    Y el estadstico C de contingencia:

    31,091,1171114

    91,1172

    2

    =+=+=

    nC

    El mximo de C podra ser:

    ( ) 707,0211

    ,11 ==

    JImn

  • CAPTULO IV. Anlisis bivariante de variables cualitativas.

    131

    por lo que alcanza el 44% de su posible valor mximo, mostrando que la opinin sobre quin influye ms en la compra de un automvil es muy dependiente de cul es el sexo de la persona que responde. El clculo del estadstico lambda ser:

    ==docondiciona no error

    docondiciona error-docondiciona no errordecisin [ ] ( ) ( )[ ]

    [ ] 30,0579402579

    45534231782217945534 ==+

    ++++=

    El valor de lambda seala que el sexo del miembro de la pareja ayuda a la prediccin de la respuesta a quin toma la decisin, con una reduccin en el error de prediccin del 30%.

    Ejemplo 9. Especializacin de los tour operadores. Para valorar el grado de especializacin de tres tour operadores de una zona turstica, se han recogido las ofertas que realizan en sus catlogos en funcin de las distintas categoras hoteleras (una a cuatro estrellas). En el cuadro 38 se muestra la tabla de contingencia que cruza la informacin de estas dos variables cualitativas y entre parntesis los valores esperados bajo la hiptesis de inexistencia de asociacin. Cuadro 38

    Categora Hotel Tour

    Operador * ** *** **** Total

    A 21 (17,84)37

    (28,96)137

    (126,29)49

    (70,91) 244

    B 32 (27,49)52

    (44,63)179

    (194,61)113

    (109,26) 376

    C 24 (31,66)36

    (51,40)229

    (224,11)144

    (125,83) 433

    Total 77 125 545 306 1053

    Los resultados de aplicar el estadstico chi-cuadrado:

  • Introduccin a la Estadstica Descriptiva para Economistas

    132

    ( ) ( ) ( ) ( ) 997,2283,125

    83,12514411,224

    11,22422996,28

    96,283784,17

    84,1721 22222 =++++= K Lo que lleva a un estadstico C de contingencia:

    146,0997,221053

    997,222

    2

    =+=+=

    nC

    El mximo de C podra ser:

    ( ) 816,0311

    ,11 ==

    JImn

    alcanzando, por tanto, el 18% de su valor mximo. En consecuencia, no parece, existir asociacin entre los tour operadores y la categora de la oferta que realizan.