analisis de la varianza

32
Análisis de la varianza clásico Juan R González 2002

Upload: sebastian-azocar

Post on 17-Nov-2015

33 views

Category:

Documents


0 download

DESCRIPTION

inferencia estadistica

TRANSCRIPT

  • Anlisis de la varianzaclsico

    Juan R Gonzlez2002

  • Anlisis de la varianza

    Comparacin de ms de dos mediasVariable dependiente Y variable independienteX con k categoras

    Hiptesis La variable cuantitativa se distribuye normalmente en todoslos grupos Las observaciones son independientes La variable cuantitativa tiene la misma variancia en todos losgrupos (homocedasticidad)

    Testar H0: 1=......= k

  • Anlisis de la varianzaIdea intuitiva

    Y es homocedastica(misma varianza)

    Medias iguales Variabilidad dentro de los grupos(intra-grupos)

    Medias diferentes Variabilidad entre los grupos(inter-grupos)

    ANOVA clsico: Descomposicin de la variabilidad

    Variabilidad total= Variabilidad entre grupos + Variabilidad intra grupos

    SC total= SC entre grupos + SC intra grupos

  • Anlisis de la varianza

    Notacin: Yij medida j-sima (j=1,,n) observada en elgrupo i-simo (i=1,,k)

    Grupo i obs. Media

    1 n1 2 3 . . k nk

    Total N N

    yy

    k

    i

    n

    jij

    k

    = == 1 1

    1

    1

    11

    1

    ny

    y jn

    j=

    =

    k

    kjn

    jk n

    yy

    k

    =

    =1

  • Anlisis de la varianza

    Variabilidad total (SC total): Mide las desviaciones de cada observacin ala media total

    Variabilidad entre grupos (SC entre grupos): Mide las desviaciones delas medias en cada grupo a la media total

    Variabilidad intra grupos (SC intra grupos): Mide las desviaciones decada observacin a la media del grupo correspondiente

    = =

    =k

    i

    n

    jijij

    i

    yySCTyy1 1

    2)(

    = =

    =k

    i

    n

    jiijiij

    i

    yySCIyy1 1

    2)(

    =

    =k

    iiii yynSCEyy

    1

    2)(

  • Anlisis de la varianza

    Tabla de la varianza

    Fuente de Suma de Grados de Media de Estadsticovariacin cuadrados libertad cuadrados F

    Entre grupos SCE k-1 MCE=SCE/k-1

    Intra grupos SCI n-k MCI=SCI/n-k

    Total SCT n-1

    MCIMCEF =

    Comparar con una Fk-1,n-k

  • Anlisis de la varianza

    Individuo Grupo A Grupo B Grupo C Grupo D1 49,5 59,8 62,8 622 62,8 58,5 55,8 48,83 46,8 55,5 69,5 45,54 57 56 55 44,2

    Media 54,03 57,45 60,78 50,13 55,59

    = == == =

    =+++==1 42 3

    1 14

    1 1321

    4

    1 1

    2 297595955595559555955n

    j

    n

    jj

    n

    j

    n

    jjjj

    i

    n

    jij yyyyyySCT

    i

    ,),(),(),(),()(

    63250595513505955786059554557595503544 22224

    1

    2 ,]),,(),,(),,(),,[(*)( =+++== =i

    ii yynSCE

    = = === =

    =+++==2 3 41

    1 1 1432

    1

    21

    1 1

    2 655081350786045570354n

    j

    n

    j

    n

    jjjj

    n

    jj

    k

    i

    n

    jiij yyyyyySCI

    i

    ,),(),(),(),()(

    Ejemplo

  • Anlisis de la varianza

    Fuente de Suma de Grados de Media de Estadsticovariacin cuadrados libertad cuadrados F

    Entre grupos 260,64 k-1=3 83,55

    Intra grupos 508,65 n-k=12 42,39

    Total 759,29 n-1=15

    971,

    Comprobar P(F3,12)>1,97=0,1722

  • Anlisis de la varianza

    EQUIPO

    6,005,004,003,002,001,00

    Med

    ia d

    e PU

    LSO

    62

    60

    58

    56

    54

    52

    50

    48

    Ejemplo: Comparamos el pulso en reposo entre loscorredores de 5 equipos de ciclistas profesionales. haydiferencias?

  • Anlisis de la varianza

    ANOVA

    PULSO

    343,295 5 68,659 2,318 ,086533,070 18 29,615876,365 23

    Inter-gruposIntra-gruposTotal

    Suma decuadrados gl

    Mediacuadrtica F Sig.

    Descriptivos

    PULSO

    4 54,0250 7,2693 3,6346 42,4579 65,5921 46,80 62,804 57,4500 2,0437 1,0218 54,1980 60,7020 55,50 59,804 60,7750 6,7904 3,3952 49,9700 71,5800 55,00 69,504 50,1250 8,1500 4,0750 37,1565 63,0935 44,20 62,004 50,5250 1,4863 ,7432 48,1599 52,8901 48,80 52,004 56,3500 2,4352 1,2176 52,4751 60,2249 53,20 59,00

    24 54,8750 6,1727 1,2600 52,2685 57,4815 44,20 69,50

    1,002,003,004,005,006,00Total

    N MediaDesviacin

    tpica Error tpico Lmite inferiorLmite

    superior

    Intervalo de confianza parala media al 95%

    Mnimo Mximo

  • Anlisis de la varianza

    Ejercicio: Con los datos de hipertensin, comprobarsi hay un descenso en la PAD y PAS segn elfrmaco utilizado

    Plantear la prueba de hiptesis

    Representar grficamente el efecto medio para cadafrmaco

    Obtener la tabla ANOVA

  • Anlisis de la varianza

    Efectos fijos y aleatorios

    Modelo de efectos fijos: Cuando los resultadosobtenidos slo son validos para esos determinadosvalores del factor (factores constantes) Sexo, edad, nivel de estudios,

    Modelo de efectos aleatorios: Cuando los resultadosobtenidos son vlidos, sean cual sean los niveles defactor empleado Da, familia, mdico

    Ambos: Dosis frmaco, test,

  • Anlisis de la varianzaHiptesis:

    Normalidad de los datos en todos los gruposSi no se cumple no afecta demasiado al clculo de laF (robustez)

    HomocedasticidadSi los tamaos muestrales son iguales, la presenciade varianzas heterogneas, produce un efectomnimo en el contraste-FSi los tamaos son diferentes y las varianzasheterogneas produce un gran efecto en elcontraste-F

  • Anlisis de la varianzaComprobar normalidad

    Mismos test que en regresin lineal

    Histograma

    QQ,PP plot

    Test de bondad de ajuste (Kolmogorov-Smirnov)

  • Anlisis de la varianzaComprobar heterogeneidad de varianzas

    Test de Levene que proporciona el SPSS

  • Anlisis de la varianza

    Para el ejemplo de pulso

    Prueba de homogeneidad de varianzas

    PULSO

    3,507 5 18 ,022

    Estadsticode Levene gl1 gl2 Sig.

  • Anlisis de la varianza

    Si no se cumple

    Generalmente una transformacin Box-Coxsoluciona el problema:

    Raz cuadrada de la variable: y1/2Raz cuadrada + de la variable: y1/2+ Logaritmo neperiano de la variable: ln(y)Logaritmo neperiano de la variable + 1: ln(y+1)Arcoseno de la raz cuadrada de la variable:arcsen(y1/2 )

  • Anlisis de la varianza

    cul escoger?

    CON SPSS: Analizar, Estadsticos descriptivos,Explorar

    Obtendremos un valor p que si es 0 latransformacin es logartmica y si es distinto de 0ser xp

    Ejercicio: Probar con los datos Cuadrticos

  • Anlisis de la varianza

    Con SPSS tras poner variables Y e X

  • Anlisis de la varianza

    Ejercicio: Con los datos de hipertensin, validar lashiptesis del modelo

    Normalidad

    Homocedasticidad

    En caso de necesitar una transformacin cul es laadecuada?

  • Anlisis de la varianza

    Comparaciones mltiples

    Se han detectado diferencias mediante un ANOVA.Pero, entre qu grupos hay diferencias?

    Problema del pescador de p-valores

    Problema de multiplicidad de contrastes

  • Anlisis de la varianza

    Comparaciones mltiples

    Mltiples contrastes aumentan el riesgo global:

    r = 1-(1-)k K r12510501001000

    0,050,080,140,190,320,370,53

  • Anlisis de la varianza

    Comparaciones mltiples. Soluciones

    Comparaciones simultneas (se utiliza el mismoestadstico para cada par de comparaciones)

    Procedimientos secuenciales (se comparan lasmedias dos a dos ordenadas crecientemente)

  • Anlisis de la varianza

    Mtodo de la menor diferencia significativa (LSD)

    Similar a construir el IC mediante la t de Student

    Necesita homogeneidad de varianzas (test deLevene significativo)

    El intervalo de confianza al nivel 1- para i-j seconstruye como:

    212 11

    /,/ ))//(( jirnji nnMCItyy +

  • Anlisis de la varianza

    Mtodo de Tukey (HSD)

    Se aplica cuando se quieren comparar todos lospares de posibles medias i j con ij

    Cuando todos los n son iguales globalmente setiene 1- de confianza. Si no es superior.

    Se calcula21 /

    )//()min(max nMCIyyq ji =

  • Anlisis de la varianza

    Mtodo de Tukey (HSD) (cont.)

    q es una cota entre la comparacin de cualquiermedia

    Procedimiento: Para comparar i j con ij, sedetermina la diferencia francamente ms significativa(Honesty Significant Difference, HSD) entre

    SPSS da los valores de HSD y se puede construirun IC como:

    e ji yy

    HSDyy ji

  • Anlisis de la varianza

    Mtodo de Bonferroni

    Correccin del total por el nmero de contrastes arealizarRecomendable con pocas comparaciones

    Otros:

    ScheffNewman-KeulsDuncan,

  • Anlisis de la varianza

    Con SPSS

  • Anlisis de la varianzaComparaciones mltiples

    Variable dependiente: PULSOBonferroni

    -3,4250 3,8481 1,000 -16,4328 9,5828-6,7500 3,8481 1,000 -19,7578 6,25783,9000 3,8481 1,000 -9,1078 16,90783,5000 3,8481 1,000 -9,5078 16,5078

    -2,3250 3,8481 1,000 -15,3328 10,68283,4250 3,8481 1,000 -9,5828 16,4328

    -3,3250 3,8481 1,000 -16,3328 9,68287,3250 3,8481 1,000 -5,6828 20,33286,9250 3,8481 1,000 -6,0828 19,93281,1000 3,8481 1,000 -11,9078 14,10786,7500 3,8481 1,000 -6,2578 19,75783,3250 3,8481 1,000 -9,6828 16,3328

    10,6500 3,8481 ,190 -2,3578 23,657810,2500 3,8481 ,237 -2,7578 23,25784,4250 3,8481 1,000 -8,5828 17,4328

    -3,9000 3,8481 1,000 -16,9078 9,1078-7,3250 3,8481 1,000 -20,3328 5,6828

    -10,6500 3,8481 ,190 -23,6578 2,3578-,4000 3,8481 1,000 -13,4078 12,6078

    -6,2250 3,8481 1,000 -19,2328 6,7828-3,5000 3,8481 1,000 -16,5078 9,5078-6,9250 3,8481 1,000 -19,9328 6,0828

    -10,2500 3,8481 ,237 -23,2578 2,7578,4000 3,8481 1,000 -12,6078 13,4078

    -5,8250 3,8481 1,000 -18,8328 7,18282,3250 3,8481 1,000 -10,6828 15,3328

    -1,1000 3,8481 1,000 -14,1078 11,9078-4,4250 3,8481 1,000 -17,4328 8,58286,2250 3,8481 1,000 -6,7828 19,23285,8250 3,8481 1,000 -7,1828 18,8328

    (J) EQUIPO2,003,004,005,006,001,003,004,005,006,001,002,004,005,006,001,002,003,005,006,001,002,003,004,006,001,002,003,004,005,00

    (I) EQUIPO1,00

    2,00

    3,00

    4,00

    5,00

    6,00

    Diferencia demedias (I-J) Error tpico Sig. Lmite inferior

    Lmitesuperior

    Intervalo de confianza al95%

  • Si no hay homogeneidad de varianzasComparaciones mltiples

    Variable dependiente: PULSOTamhane

    -3,4250 3,8481 1,000 -30,4128 23,5628-6,7500 3,8481 ,978 -30,0599 16,55993,9000 3,8481 1,000 -21,8060 29,60603,5000 3,8481 1,000 -25,0622 32,0622

    -2,3250 3,8481 1,000 -28,2142 23,56423,4250 3,8481 1,000 -23,5628 30,4128

    -3,3250 3,8481 1,000 -28,1511 21,50117,3250 3,8481 ,938 -23,6423 38,29236,9250* 3,8481 ,031 ,7055 13,14451,1000 3,8481 1,000 -6,4526 8,65266,7500 3,8481 ,978 -16,5599 30,05993,3250 3,8481 1,000 -21,5011 28,1511

    10,6500 3,8481 ,769 -14,5857 35,885710,2500 3,8481 ,563 -16,1621 36,66214,4250 3,8481 ,994 -19,3310 28,1810

    -3,9000 3,8481 1,000 -29,6060 21,8060-7,3250 3,8481 ,938 -38,2923 23,6423

    -10,6500 3,8481 ,769 -35,8857 14,5857-,4000 3,8481 1,000 -32,8980 32,0980

    -6,2250 3,8481 ,979 -36,0722 23,6222-3,5000 3,8481 1,000 -32,0622 25,0622-6,9250* 3,8481 ,031 -13,1445 -,7055

    -10,2500 3,8481 ,563 -36,6621 16,1621,4000 3,8481 1,000 -32,0980 32,8980

    -5,8250 3,8481 ,135 -13,3070 1,65702,3250 3,8481 1,000 -23,5642 28,2142

    -1,1000 3,8481 1,000 -8,6526 6,4526-4,4250 3,8481 ,994 -28,1810 19,33106,2250 3,8481 ,979 -23,6222 36,07225,8250 3,8481 ,135 -1,6570 13,3070

    (J) EQUIPO2,003,004,005,006,001,003,004,005,006,001,002,004,005,006,001,002,003,005,006,001,002,003,004,006,001,002,003,004,005,00

    (I) EQUIPO1,00

    2,00

    3,00

    4,00

    5,00

    6,00

    Diferencia demedias (I-J) Error tpico Sig. Lmite inferior

    Lmitesuperior

    Intervalo de confianza al95%

    La diferencia entre las medias es significativa al nivel .05.*.

  • Anlisis de la varianza

    Ejercicio: Con los datos de hipertensin,

    Entre qu frmacos existen diferencias?

  • Anlisis de la varianza

    Qu hacer si no podemos aplicar ANOVA?

    Pruebas no parametricas Kruskal-Wallis, Friedman,

    (Ver sesin 7 con Vctor Moreno)