Download - 02. Prueba Chi Cuadrado Tablas 2xn
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 1/13
______________________________________________________________________
1
Cuando se quiere establecer la relación entre variables cualitativas vamos a comparar la
frecuencia de presentación de un efecto en dos o más muestras, o grupos de estudio. En
estas situaciones debemos utilizar pruebas de contraste de hipótesis para la comparación
de proporciones.
Ejemplos:
- La frecuencia de aparición de cáncer de cuello uterino está asociada al nivel deestudios de las pacientes, de forma que la incidencia del proceso disminuye al
aumentar el nivel de estudios de las mujeres.
- La frecuencia de cáncer pancreático en varones está asociada a la edad del
paciente (medida como variable categórica, por intervalos de edad), de forma
que la incidencia del proceso aumenta al aumentar la edad de los pacientes.
Para la comparación de proporciones, entre dos o más muestras, los tests de contraste
de hipótesis más utilizados habitualmente en Ciencias de la salud son:
-
Test de ji-cuadrado de Pearson.- Test exacto de Fisher.
- Test de ji-cuadrado de Mc Nemar
- Test de ji-cuadrado de tendencia lineal.
En temas anteriores, en el análisis epidemiológico de datos, hemos utilizado la prueba
de ji-cuadrado y sus variantes (Mantell-Haenszael) para establecer si la relación causal
entre dos variables no era explicada exclusivamente por el azar, eran estadísticamente
significativas.
En este capítulo nos vamos a centrar en la prueba de Ji-cuadrado de Pearson, aplicable acualquier situación y tipo de estudio epidemiológico, en el que se comparen dos o más
proporciones; tanto para tablas de 2x2 como para tablas de NxM.
En la Universidad de Salamanca, vamos a considerar que la proporción de hombres y
mujeres entre los estudiantes, es la misma, es decir el 50% son hombres y el 50% son
mujeres.
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 2/13
______________________________________________________________________
2
En un estudio descriptivo, realizado en una muestra (A) de 30 alumnos de segundo de
medicina, que el 66,7% eran mujeres (20 mujeres) y el 33,3% varones (10
varones).
Los cálculos realizados para llegar a estos resultados han sido:
1) Proporción de mujeres = 20/30=0,667 (66,7%)2) Proporción de hombres= 10/30=0,333 (33,3%)
La frecuencia observada en los estudiantes de segundo de medicina, NO se corresponde
con la distribución teórica de la universidad de Salamanca: la proporción de mujeres es
mayor que la de hombres. Esta diferencia puede ser debida al azar (error
aleatorio debido al muestreo) y no a la existencia de una diferencia real entre el número
de hombres y mujeres en los estudiantes de segundo de medicina.
En los estudiantes de segundo de medicina,
: Si esta distribución fuera cierta, en nuestra muestra de 30
alumnos, el número de hombres sería de 15 y el de mujeres, también, de 15.
Los cálculos realizados para llegar a esta conclusión han sido:
1) Número de mujeres = 0,50*30= 152) Número de hombres = 0,50*30= 15
La entre los casos observados y los esperados han sido de 5 (20-15) para las
mujeres y de -5 (10-15) para los varones.
Los cálculos realizados para llegar a esta conclusión han sido:
1) Diferencia casos en mujeres = 20-15=5
2) Diferencia casos en hombres = 10-15=-5
Entre los estudiantes de segundo de medicina, seleccionamos otras dos muestras
representativas de tamaño igual a 30 y encontramos un porcentaje de mujeres del 53,3%
en la muestra B y del 96,7% en la muestra C. Las diferencias entre los casos observados
y esperados en cada una de ellas, se encuentran recogidos en la tabla siguiente:
Hombres Mujeres
(53,3% mujeres)
-1 1
(66,7% mujeres)
-5 5
(96,7% mujeres)
-13 13
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 3/13
______________________________________________________________________
3
Analicemos los resultados y contestemos a las siguientes preguntas:
- ¿
?.
Respuesta: la muestra B, ya que la proporción de mujeres (53,3%) es similar a la
teórica y la diferencia entre lo Observado y lo Esperado es pequeña (|1|).
- ¿
?.
Respuesta: la muestra C, ya que la proporción de mujeres (96,7%) es muy superior
a la teórica y la diferencia entre lo Observado y lo Esperado es grande (|13|).
:
- Al analizar las diferencias (bservado-sperado) de las tres muestras
aleatorias de alumnos de segundo de medicina, encontramos que las muestras
en las que la diferencia se alejan más de la hipótesis teórica de
igual distribución de los alumnos por sexo en la Universidad de Salamanca.
Las diferencias no pueden ser explicadas exclusivamente por el azar (la
variabilidad del muestreo), hay otra causa que explica esa mayor variabilidad,
en este caso el sexo de los alumnos de segundo de medicina que es diferente:
hay más mujeres que hombres.
- Al analizar las diferencias (bservado-sperado) de las tres muestras
aleatorias de alumnos de segundo de medicina, encontramos que las muestras,
en las que la , se aproximan más a la hipótesis teórica de
igual distribución de los alumnos por sexo en la Universidad de Salamanca.
Las diferencias pueden ser explicadas sólo por el azar (la variabilidad del
muestreo), no hay ninguna otra causa que explica esa variabilidad, en este caso
el sexo de los alumnos de segundo de medicina no es diferente: hay igual
proporción de mujeres que de hombres.
: La prueba de ji-cuadrado cuantifica esta diferencia y determina si es lo
suficientemente grande (o pequeña) como para ser explicada exclusivamente por el azar
(variabilidad propia del muestreo) o por la existencia de otro factor que determine la
existencia de una diferencia real.
: El cálculo del ji-cuadrado se realiza con la fórmula:
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 4/13
______________________________________________________________________
4
Dónde:
- Obs: es la frecuencia absoluta observada en cada una de las casillas.
- Esp: es la frecuencia absoluta esperada en cada una de las casillas.
Para explicar los pasos a seguir en el análisis vamos a tener en cuenta los datos
obtenidos en un estudio epidemiológico diseñado con el fin de determinar si la
incidencia de tuberculosis era mayor en pacientes VIH+ que en los VIH-. En el estudio
se analizaron los datos obtenidos en una muestra representativa de 40 usuarios a drogas
por vía parenteral (UDVP) que formaban parte de un programa de mantenimiento con
metadona.
Los resultados ervados se encuentran en la tabla siguiente:
OBSERVADOS Tuberculosis
Sí No Total
VIH Positivo 15 6 21
VIH Negativo 6 13 19
Total 21 19 40
En la muestra de estudio se registraron 21 casos de tuberculosis, es decir el 52,5%(21/40) de los UDVP presentaban tuberculosis. Observaron que la tuberculosis era más
frecuente en pacientes VIH+ (71.4%) que en los VIH- (31.6%).
Los cálculos han sido:
- La frecuencia de tuberculosis en los pacientes VIH(+) fue del 71.4% (15/21).
- La frecuencia de tuberculosis en los pacientes VIH(-) fue del 31.6% (6/19).
Los investigadores pretendían establecer si las diferencias eran debidas al azar o si
realmente los pacientes VIH+ tenían mayor frecuencia de tuberculosis que los VIH-.
Para contestar a la pregunta, realizaron una prueba de contraste de hipótesis para
variables cualitativas, la prueba del “chi-cuadrado”, siguiendo los pasos expuestos acontinuación:
1. Cálculo de las frecuencias eradas, para cada una de las casillas de la tabla de
contingencia, en el caso de que no hubiera diferencias, es decir que la frecuencia de
tuberculosis, en los dos grupos de pacientes, fuera similar a la de la población (52,5%),
tal y como recoge la tabla siguiente:
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 5/13
______________________________________________________________________
5
ESPERADOS Tuberculosis
Sí No Total
VIH Positivo (a)
[(21/40)*21]
(b)
[(19/40)*21]
21
VIH Negativo (c)
[(21/40)*19]
(d)
[(19/40)*19]
19
Total 21 19 40
Por ejemplo, en la casilla (a): En pacientes VIH (+), el número de casos de tuberculosis
erado, suponiendo que tienen la misma frecuencia de la enfermedad (0,525) que la
población, sería de 10.5 (=0,525*21).
En el resto de las casillas los efectivos Esperados se han calculado de la siguiente
forma:
Esperados (a) = 0.525*21= 11
Esperados (b) = 0.475*21= 10
Esperados (c) = 0.525*19= 10
Esperados (d) = 0.475*19= 9
En la mayoría de los libros de texto puede encontrar la siguiente fórmula para el cálculo
de los efectivos esperados de cada una de las casillas:
2. Cálculo de las diferencias entre ervados y erados, para cada una de las
casillas de la tabla de contingencia. En el ejemplo fueron:
ESPERADOS Tuberculosis
Sí No Total
VIH Positivo 4 -4
VIH Negativo -4 4
Total
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 6/13
______________________________________________________________________
6
3. Cálculo del ji-cuadrado experimental a partir de los datos de nuestro estudio,
siguiendo la fórmula de cálculo:
4 :
El valor experimental calculado se compara con el valor teórico tabulado para 1 grado
de libertad y un nivel de significación α del 5% o del 1%. Si el valor experimental es
mayor que el teórico, decimos que las diferencias observadas no son debidas al azar,las
diferencias son significativas, existe otro factor que explica esa diferencia.
El valor del χ2 tabulado para un nivel α=0.05 es de 3.8 y para un nivel de α=0.01 es de
6.6 (ver anexo sobre el manejo de las tablas de la distribución de chi-cuadrado).
En el ejemplo, 6.3520 es mayor que 3.8, por lo que podemos decir que el azar no
explica por sí solo la diferencia de casos de tuberculosis detectado en los grupos de
estudio, la frecuencia de tuberculosis es mayor en los pacientes VIH+ que en los VIH-,
con una probabilidad de error (p) menor de 0,01. Si lo obtenemos a partir de las tablas
podemos obtener el valor de p más preciso. Los programas de ordenador proporcionan
directamente el p-valor exacto (p=0,0117).
El fundamento y los cálculos realizados son similares. La diferencia es que ahoratenemos un factor de exposición con tres categorías. Para comprender los cálculos
vamos a tener en cuenta el siguiente estudio epidemiológico diseñado con el fin de
determinar si la tuberculosis es más frecuente en usuarios a drogas por vía parenteral
según su nivel de estudios. En la investigación se analizaron los datos recogidos en una
muestra representativa de 242 usuarios a drogas por vía parenteral (UDVP) que
formaban parte de un programa de mantenimiento con metadona.
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 7/13
______________________________________________________________________
7
Los resultados ervados se encuentran en la tabla siguiente:
OBSERVADOS Tuberculosis
Sí No TotalSin estudios 23 29 52
Estudios primarios 54 99 153
Estudios superiores 11 26 37
Total 88 154 242
En la muestra de estudio se registraron 88 casos de tuberculosis, es decir el 36.36%
(88/242) de los UDVP presentaban tuberculosis [el 63.64% no presentaron tuberculosis;
154/242]. Observaron que la tuberculosis era menor a medida que aumentaba el nivel de
estudios:
- La frecuencia de tuberculosis en los pacientes “sin estudios” fue del
44.23% (23/52).
- La frecuencia de tuberculosis en los pacientes con “estudios
primarios” fue del 35.29% (54/153).
- La frecuencia de tuberculosis en los pacientes con “estudios
superiores” fue del 29.73% (11/37).
Los investigadores pretendían establecer si las diferencias eran debidas al azar o si
realmente los pacientes con menor nivel de estudios tenían mayor frecuencia detuberculosis. Para contestar a la pregunta, realizaron una prueba de contraste de
hipótesis para variables cualitativas, la prueba del “chi-cuadrado”, siguiendo los
siguientes pasos:
1. Cálculo de las frecuencias eradas, para cada una de las casillas de la tabla de
contingencia, en el caso de que no hubiera diferencias, es decir que la frecuencia de
tuberculosis, en los tres grupos de pacientes, fuera similar a la de la población (36,36%),
tal y como recoge la tabla siguiente:
ESPERADOS Tuberculosis
Sí No TotalSin estudios (a)
[(88/242)*52]
(b)
[(154/242)*52]
52
Estudios primarios (c)
[(88/242)*153]
(d)
[(154/242)*153]
153
Estudios superiores (e)
[(88/242)*37]
(f)
[(154/242)*37]
37
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 8/13
______________________________________________________________________
8
Total 88 154 242
Los efectivos Esperados para cada una de las casillas se han calculado de la siguiente
forma:
Esperados (a) = 0.3636*52= 18.9Esperados (c) = 0.3636*153= 55.6
Esperados (e) = 0.3636*37= 13.5
Esperados (b) = 0.6364*52= 33.1
Esperados (d) = 0.6364*153= 97.4
Esperados (f) = 0.6364*37= 23.5
2. Cálculo de las diferencias entre ervados y erados, para cada una de las
casillas de la tabla de contingencia.
3. Cálculo del ji-cuadrado experimental a partir de los datos de nuestro estudio,siguiendo la fórmula de cálculo:
4 :
Comparamos los valores experimentales y teórico para unos grados de libertad y un
determinado nivel de significación (5% o 1%). Si el valor experimental es mayor que el
teórico decimos que las diferencias observadas no son debidas al azar.
Hay que tener en cuenta que, en las tablas de 2x3, los grados de libertad son y el valor
del ji-cuadrado es de 5,99, para un nivel de significación del 5%, y de 9,21, para un
nivel de significación del 1%.
En el ejemplo, el valor experimental es inferior que el valor teórico para un nivel de
significación del 5%, por lo tanto las diferencias en la frecuencia de presentación de
tuberculosis según el nivel de estudios de UDVP son debidos al azar (pueden ser
explicados exclusivamente por el azar).
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 9/13
______________________________________________________________________
9
La prueba de hipótesis de comparación de dos o más proporciones obtenidas en
muestras independientes requiere:
- Las variables analizadas sean variables cualitativas: MxN
.
Es necesario comprobar que se cumplen las condiciones de aplicación de la prueba. En
este sentido los programas de ordenador proporcionan, debajo de las tablas de
significación, el porcentaje de celdas que cumplen estas condiciones. En este sentido es
necesario tener en cuenta los siguientes aspectos:
1. En las tablas de 2x2, ninguna de las casillas de la tabla debe tener efectivos menoresde 5.
Si no se cumple este requisito, tendremos que determinar la significación estadística
mediante el Test Exacto de Fisher que realiza el cálculo exacto de la significación.
2. En las tablas de NxM, puede permitirse, como máximo, un 20% de casillas en las que
no se cumpla este requisito (los efectivos esperados sean menores de 5).
3. Hay que tener en cuenta que el número esperado depende del tamaño de la muestra
(del número de efectivos observado en cada uno de ellos). Cuando no se cumpla el
requisito, para poder aplicar la prueba tendremos que aumentar el número de casos de
las casilla; ¿cómo?: agrupando categorías.
Veamos un ejemplo, supongamos que en el caso anterior, los datos observados fueran
los recogidos en la tabla siguiente:
OBSERVADOS Tuberculosis
Sí No
Sin estudios 23 29
Estudios primarios 54 99
Estudios superiores 2 4
Observe que hay dos casillas con valores menores de 5. Es de suponer que los valores
esperados para estas casillas serán también menores de 5. No se cumplirían las
condiciones de aplicación de la prueba, para solucionarlo agrupamos las categorías
primarios y superiores en una única categoría de “con estudios”:
OBSERVADOS Tuberculosis
Sí No
Sin estudios 23 29
CON estudios 56 103
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 10/13
______________________________________________________________________
10
. En las unidades correspondientes al análisis de datos en losdiferentes diseños de estudios epidemiológicos hemos visto como obtener e interpretar
las pruebas de significación estadística chi-cuadrado con el programa SPSS. Estos pasos
están resumidos en la figura expuesta a continuación:
2. Programa permite calcular el chi-cuadrado de Pearson a partir de los datos
recogidos en una tabla NxM.
Además de las posibilidades de cálculo vistas en unidades anteriores (Análisis de tablas
de 2x2 y 2xN simples), el programa permite calcular el chi-cuadrado para todo tipo de
situaciones en las que se comparan dos variables cualitativas con K categorías cada una
de ellas (tablas de 3x3, 3x5, 5x4, etc…), independientemente del diseño de estudio
realizado (descriptivo, analítico o experimental). Los pasos a seguir en el análisis son
los siguientes:
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 11/13
______________________________________________________________________
11
Una vez abierto el programa, seleccionar el método de análisis de Tablas de
contingencia MxN.
En la ventana que aparece es necesario, antes de introducir los datos de la tabla
de contingencia, establecer las condiciones del análisis. Es importante indicar: el
tamaño de la tabla (número de filas y de columnas), la escala de medida de la variables
(nominal y ordinal) y la forma de presentación de los resultados (en números absolutoso porcentajes calculados según las filas o las columnas).
Solicitar la realización y visualización de los cálculos clicando en los iconos de
calculadora y de folio en blanco.
Analizar los resultados. El programa proporciona un amplio listado de
información. En este momento lo que nos interesa es determinar si las diferenciasobservadas en la frecuencia de presentación de las diferentes categorías de las variables
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 12/13
______________________________________________________________________
12
analizadas son estadísticamente significativas. Para ello nos fijamos en dos
informaciones:
1. Si se cumplen o no las condiciones de aplicación. El programa proporciona el
porcentaje de celdas con frecuencias esperadas menores de 5: [% de celdas con
frecuencia esperada <5: 0,0%].
Recuerde que, en las tablas de 2x2, la frecuencia esperada, en todas las casillas, debe ser
igual o superior a 5 y que, en las tablas de NxM, la frecuencia esperada debe ser igual o
superior a 5 en, al menos, el 80% de las casillas.
2. El valor del chi-cuadrado calculado y la significación exacta (valor de p) para un
número determinado de grados de libertad.
Para practicar, abra el programa y siga los pasos expuestos, utilice los datos de la figura
del paso 2 y compruebe los resultados proporcionados.
Se diseña un estudio epidemiológico para establecer la
asociación entre la aparición de crisis asmáticas y el consumo de tabaco. Los resultados
del estudio fueron:
Crisis asmáticas
Sí No Total
Fumador (a) 26 (b) 74 100
No fumador (c) 16 (d) 84 100Total 42 158 200
Determine si la frecuencia de crisis asmáticas es significativamente mayor en fumadores
que en no fumadores. Se recomienda que realice los cálculos manualmente y,
posteriormente los compruebe con el programa Epidat.
Compruebe con Epidat los resultados de los estudios
utilizados en esta unidad como ejemplo para explicar el procedimiento de cálculo del
chi-cuadrado para tablas de 2x2 y 2x3.
Prueba Ji-cuadrado de Pearson
Ji-cuadrado gl Valor p
----------- -------- --------
2,1701 2 0,3379
7/23/2019 02. Prueba Chi Cuadrado Tablas 2xn
http://slidepdf.com/reader/full/02-prueba-chi-cuadrado-tablas-2xn 13/13
______________________________________________________________________
13
Los grados de libertad de una tabla de contingencia se obtienen teniendo en cuenta el
número de categorías de las variables comparadas. La forma general de establecerlos es
teniendo en cuenta el diseño de la tabla de contingencia:
:
En una tabla de 2x2, hay 1 grado de libertad [(2-1)*(2-1) = 1]
En una tabla de 2x3, hay 2 grados de libertad [(3-1)*(2-1) = 2]
Nota: El contraste siempre es bilateral.
Grados de libertad (g.l.) = (número de filas - 1)*(número de columnas – 1)