analisis datos cualitativos notas 03 2007

Upload: alberto-ignacio-riquelme-arriagada

Post on 13-Oct-2015

37 views

Category:

Documents


1 download

TRANSCRIPT

  • 1ANLISIS DE DATOS CUALITATIVOS:TABLAS DE CONTINGENCIA

    Notas

    ndice

    1. OBJETIVOS 22. TABLAS DE CONTINGENCIA BIDIMENSIONALES 22.1. Distribucin de frecuencias observadas 22.2. Modelos muestrales para las frecuencias observadas 22.3. Diseos muestrales apareado, longitudinal y de control nico 42.4. Independencia poblacional y muestral 42.5. Estimacin mximo verosmil de las frecuencias esperadas para los modelos muestrales usuales 53. INDEPENDENCIA EN TABLAS DE CONTINGENCIA BIDIMENSIONALES 53.1. Contrastes de independencia exactos 53.2. Contrastes de independencia asintticos 63.3. Contraste para una muestra multinomial de parmetros estimados 73.4. Correccin por continuidad: correccin de Yates 84. PARTICIN DE LOS ESTADSTICOS PARA DETECTAR FUENTES DE ASOCIACIN

    84.1. Particin de tablas I x J en tablas 2 x 2 independientes 84.2. Particin en tablas dependientes 95. ANLISIS DE RESIDUOS 96. CONTRASTE DE INDEPENDENCIA PARA VARIABLES ORDINALES 106.1. Test de linealidad para una tabla I x J 107. ANLISIS DE TABLAS CUADRADAS GENERADAS POR DATOS DEPENDIENTES 107.1. Test de McNemar 117.2. Test binomial exacto 117.3. Extensin del test de McNemar degn Bower para contrastar simetra en una tabla cuadrada 127.4. Extensin de Stwart y Maxwell para contrastar la hiptesis de homogeneidad de proporcionesmarginales en una tabla I x I generada por datos dependientes. 128. MEDIDAS DE ASOCIACIN EN TABLAS I X J 128.1. Introduccin 128.2. Medidas de asociacin en tablas 2 x 2 138.3. Medidas de asociacin en tablas I x J 178.4. Medidas de asociacin en tablas I x J 188.5. Inferencia en las medidas de asociacin 319. ANLISIS DE TABLAS DE CONTINGENCIA DE MAS DE DOS VARIABLESCUALITATIVAS 329.1. Modelos log-lineales para tablas de contingencia 339.2. Seleccin del modelo 359.3. Indice de discrepancia 369.4. Comparacin entre dos modelos 379.5. Criterio Bayesiano de Informacin 379.6. Otras alternativas para analizar tablas de contingencia de ms de dos variables 3810. BIBLIOGRAFA 39

  • 21. Objetivos

    Conocer la metodologa para el anlisis de tablas de contingencia bidimensionales, anlisis deindependencia y evaluacin del grado de asociacin entre los factores;

    Introduccin al anlisis de tablas de dimensin superior y las distintas estructuras de relacin entrefactores;

    Capacitar al alumno para interpretar los resultados de los mtodos aplicados y saber identificar yseleccionar el procedimiento apropiado para cada conjunto de datos.

    2. Tablas de contingencia bidimensionales

    En la investigacin biomdica se encuentran con frecuencia datos o variables de tipo cualitativo, mediantelos cuales un grupo de individuos se clasifican en dos o ms categoras mutuamente excluyentes. Lasproporciones son una forma habitual de expresar frecuencias cuando la variable objeto de estudio tiene dosposibles respuestas, como presentar o no un evento de inters (enfermedad, muerte, curacin, etc.).Cuando lo que se pretende es comparar dos o ms grupos de sujetos con respecto a una variablecategrica, los resultados se suelen presentar a modo de tablas de doble entrada que reciben el nombre detablas de contingencia. As, la situacin ms simple de comparacin entre dos variables cualitativas esaquella en la que ambas tienen slo dos posibles opciones de respuesta (es decir, variables dicotmicas).En esta situacin la tabla de contingencia se reduce a una tabla dos por dos.

    2.1. Distribucin de frecuencias observadasEl nico aspecto cuantificable en el anlisis cualitativo es el nmero de individuos que presenta unacombinacin los niveles de los factores. Estos valores se recogen en tablas de contingencia. (frecuenciasobservadas de cada combinacin).Ejemplo de tabla de contingencia:

    factores factor Bnivel 1 nivel 2 in i

    nivel 1 11n 12n1

    1J

    i jjn i

    = =

    factor Anivel 2 21n 22n

    12

    J

    i jjn i

    = =

    jni1

    1I

    i jin j

    = =

    1

    2I

    i jin j

    = =

    1 1

    I J

    i ji j

    n n= =

    = Los i jn representan el nmero de individuos observados en cada combinacin de los niveles de losfactores A , B y se consideran como la realizacin de una variable aleatoria con valores enteros ypositivos.

    2.2. Modelos muestrales para las frecuencias observadasEl objetivo principal es contrastar la independencia entre los factores en estudio. Para ello se tendr encuenta los modelos de muestreo utilizados para disear el experimento que depender de la fijacin o no dealgunos de los totales marginales. Los modelos muestrales ms utilizados son:

    2.2.1 Muestreo de Poisson

    En el muestreo de Poisson los totales marginales y el total muestral varan libremente.

  • 3Una tabla generada por este tipo de muestreo est compuesta por i jN variables aleatorias independientes

    asociadas a cada casilla y con distribucin de Poisson ( )i jP mLa distribucin de probabilidad conjunta para toda la tabla ser el producto de las I J distribuciones:

    1 1

    Pr , ,!

    i j i jm nI Ji j

    i j i ji j i j

    e mN n i j

    n

    = = = =

    2.2.2. Muestreo multinomial completo

    En el muestreo multinomial completo se fija de antemano el tamao de la muestra.La distribucin del vector asociado a la tabla es una distribucin multinomial{ }( ), , : 1, 2, , :1, 2,i jM n P i I j J :

    1 1

    1 1

    !Pr , ,!

    i jI J

    ni j i j i jI J

    i ji j

    i j

    nN n i j pn = =

    = =

    = = Adems i j i j i jm N n p = = ENota: si la distribucin de una tabla de tipo Poisson se condiciona a que

    1 1

    I J

    i ji j

    n n= =

    =el resultado es una tabla con distribucin multinomial:

    1 1

    , i ji j I Ji j

    i j

    mM n p

    m= =

    = 2.2.3. Muestreo multinomial independiente

    En el muestreo multinomial independiente estn fijados de antemano los totales marginales de uno de losfactores.Para generar una tabla de contingencia se seleccionan muestras aleatorias sencillas de tamaoscorrespondientes a los tamaos asignados a los niveles de uno de los factores y se clasifican a losindividuos en cada muestra segn los niveles del otro factor.

    ( ) { }( )|: :1, 2, , , , :1, 2, , ,i j i i jN j J M n P j J i i donde: |i jP es la probabilidad de clasificar a un individuo de la fila i-sima en la columna j-sima.La funcin de probabilidad conjunta para la tabla de contingencia es:

    |1 1

    1

    |

    !Pr , :1, 2, , , :1, 2, ,

    !

    i jI J

    nii j i j i jJ

    i ji j

    j

    i j i j i

    nN n j J i I P

    n

    m n P

    = ==

    = =

    =

    i

    i

  • 4Nota: si una tabla sigue la distribucin de Poisson con frecuencias esperadas i jm , o multinomial con

    probabilidades i ji jm

    Pn

    = , entonces la distribucin condicionada del vector ( ), :1, 2, ,i jN j J a que1

    J

    i j ijN n

    == i es multinomial con | i jj i

    i

    mP

    m=

    i

    2.2.4. Muestreo hipergeomtrico

    En el muestreo hipergeomtrico estn fijados los totales marginales de ambos factores.En este caso la distribucin de la tabla seria una distribucin hipergeomtrica multivariante.

    2.2.5. Muestreo binomial negativo

    En el muestreo binomial negativo estn fijadas las frecuencias de las casillas de un nivel de uno de losfactores.

    2.3. Diseos muestrales apareado, longitudinal y de control nico(a) Diseo apareado: consiste en seleccionar pares de individuos de caractersticas similares y clasificar a

    cada elemento del par segn una caracterstica.(b) Diseo longitudinal: se clasifica un conjunto de individuos segn un factor y en dos instantes diferentes

    de tiempo.(c) Mtodo de control nico: se clasifican a los individuos segn dos tratamientos diferentes del factor en

    estudio.Tanto en el caso (b) como en el (c) se considera que el individuo ms parecido a uno mismo es el propioindividuo.

    2.4. Independencia poblacional y muestralConsidrese una tabla de contingencia I J generada por un modelo multinomial completo (MMC) y seai jp la probabilidad poblacional de que un individuo sea elegido en la casilla ( ),i j . El conjunto de todas

    estas probabilidades para toda la tabla d como resultado una tabla similar a la de contingencia con susrespectivas propiedades marginales definidas.Para un modelo MMC la hiptesis de independencia entre factores es:

    i j i jP P P= i io

    i ji j

    m mm

    n= i i

    En el caso de un modelo multinomial incompleto (MMI) se estudiar la homogeneidad de proporcionesindependientes.

    |1 |2 | : 1, 2, ,j j j I jP P P P j J= = = = i o

    ji j i

    mm n

    m= ii

    i i

    donde:1 1

    I J

    i ji j

    m m= =

    = iiEn el caso de tablas cuadradas generadas por datos dependientes, las hiptesis a contrastar son la desimetra de proporciones marginales y la de homogeneidad de proporciones marginales, es decir:

  • 5, : 1, 2, ,

    , : 1, 2, ,i j j i

    i i

    P P i j IP P i j I

    ==i i

    respectivamente.

    2.5. Estimacin mximo verosmil de las frecuencias esperadas para los modelosmuestrales usuales

    Sea { }, :1, 2, , , : 1, 2, ,i jn i I j J el conjunto de frecuencias observadas. Considrese el modelomultinomial completo:La funcin de mxima verosimilitud ser:

    ( )1 1

    1 1

    !

    !

    i jI J

    ni j i jI J

    i ji j

    i j

    nP Pn = =

    = =

    = L

    Maximizando el segundo factor mediante el mtodo de Lagrange se obtienen las estimaciones:

    i ji j

    nP

    n=

    3. Independencia en tablas de contingencia bidimensionales

    Contraste de la hiptesis de independencia en una tabla de contingencia bidimensional.

    3.1. Contrastes de independencia exactosEn caso de muestras pequeas.Procedimiento:

    (a) Determinar el espacio muestral del diseo empleado en la tabla observada (las tablas);

    (b) Seleccionar de todas las tablas del apartado anterior las que se alejan tanto o ms de 0H que latabla observada en la direccin de 1H ;

    (c) Calcular las probabilidades de ocurrencia de dichas tablas bajo la 0H ;(d) Calcular el valor p del test, sumando las probabilidades de dichas tablas;(e) Comparar el valor p con el nivel de significacin prefijado.

    Si p > se acepta la 0H ;Si p se rechaza la 0H .Inconvenientes:

    (a) El clculo de la probabilidad exacta de las tablas puede depender de parmetros desconocidos. Sesoluciona estimando los;

    (b) Cuando aumenta la muestra o los niveles de los factores el clculo del valor p es muy laborioso.

    3.1.1. Contraste de independencia en el modelo muestral hipergeomtrico

    (a) Test exacto de Fisher de asociacin positiva de una cola

    Las hiptesis a contrastar son:

    SIMETRIA HOMOGENEIDAD

  • 60 1 |1 1 | 2

    1 1 |1 1 | 2

    :

    :

    H P P PH P P

    = =

    Se calcula el valor p del test sumando las probabilidades de las tablas cuyo 11n sea mayor o igual que elde la tabla observada. Se compara con .(b) Test exacto de Fisher de asociacin negativa de una cola

    Las hiptesis a contrastar son:

    0 1|1 1|2

    1 1|1 1|2

    :

    :

    H P P PH P P

    = =