análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión

Download Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión

If you can't read please download the document

Upload: hali

Post on 10-Jan-2016

58 views

Category:

Documents


4 download

DESCRIPTION

Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión. José Ríos. ¿Es cierto el bostezo inducido?. Hoy toca estadística. Por que claro… conociendo toda la información somos capaces de saber como se llega a los resultados. Pero antes hablemos de variables…. - PowerPoint PPT Presentation

TRANSCRIPT

  • Anlisis estadstico bsico: t-test, anova, pruebas no paramtricas, regresin... Jos Ros

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Es cierto el bostezo inducido?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Por que claro conociendo toda la informacin somos capaces de saber como se llega a los resultados

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pero antes hablemos de variables

    PresenciaOcurrenciaTiempoNo lo consideranObligan a determinarlo EnfermedadPrevalencia Exposicin

    -Estado opinin Encuestas

    No interesa la evolucin temporal Incidencia Densidad de (poblacin) incidencia

    Recurrencia (individuo)Estudiotransversallongitudinal

    IUSC - 2009

  • Jos Ros IUSC - 2009 * y de la importancia metodolgica del tamao de la muestra

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosTres tipos bsicosPosicin: tambin llamadas medidas de tendencia central.

    Dispersin: conocidas tambin como medidas de escala

    Forma: sirven para el estudio de la asimetra y apuntamiento comparado con la curva gaussiana

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinMedia aritmtica

    En el caso de datos agrupados en intervalos, la media se calcular con el valor medio de intervalo

    nicamente tiene sentido para variables cuantitativas

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinMediana

    Deja a ambos lados la misma poblacin.El valor de la mediana no tiene por que existir en la muestraPara su clculo slo se requiere que las clases sean ordenables, podemos, por tanto, calcularla tanto para variables cuantitativas como cualitativas ordinales

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinModa Es el valor ms frecuente en nuestros datosEn el caso de variables que tomen muchos valores, el clculo de la moda es preferible con los datos agrupados, obtendremos el intervalo modalSu clculo tiene sentido para cualquier tipo de variable. Slo usa el valor de las frecuencias

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinCuantiles.Son de orden (a). Dejan el a 100% de la poblacin por debajo.Los percentiles dividen la poblacin en porcentajes, los terciles, cuartiles y quintiles fracciones.

    El segundo cuartil coincide con la Mediana

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinPropiedades.La Media es sensible a los valores extremos, la Mediana no lo es.

    Especial atencin en estudios de anlisis de supervivencia

    Media 1Mediana 1Nuevo valor en la muestra

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pero entonces?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinAtencin, siempre es mejor visualizar los datos antes de trabajar con ellos.

    Es posible que ni la Media ni la Mediana representen bien el comportamiento central de la variable

    En este caso, Media y Mediana tienen el mismo valor, algn comentario?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)

    Dos Grandes Familias

    Recorridos

    Varianzas

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Rangos y amplitudes: valores pequeos en recorridos o rangos dan idea de poco dispersin, valores grandes indican mucha dispersin o presencia de valores extremos.El Rango (Mn Mx) se ve extremadamente afectado por valores extremos, no es, por tanto, una buena medida.El recorrido intercualtlico (1er Cuartil 3er Cuartil) tambin indica dispersin. Ambos valores combinados pueden dar buena idea de cmo son los datos

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Veamos un ejemplo de clculo

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Qu ocurre si sumamos todas las distancias?

    Las distancias negativas son compensadas con las positivas. La suma es siempre cero

    Def.: la media es el centro de gravedad de la distribucin muestral

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)La varianza es la media de la suma de las desviaciones respecto a la media elevadas al cuadrado.

    La Desviacin estandar es la raz del anterior

    El Coeficiente de variacin usa las medidas de posicin y escala

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Pregunta: Por qu si tenemos la varianza acabamos utilizando la DE? Complicamos los estadsticos intilmente los clculos?

    El problema de la varianza es que no se mide en las mismas unidades que los datos de la muestra, es por eso que se define la DE

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Bien.... Pero qu medida es la buena?

    Por si sola ninguna. Siempre es preferible ver todas ellas, visualizar los datos siempre ayuda mucho a detectar posibles problemas en los datos

    Nos podemos ayudar de Histogramas y Diagramas de cajas (Box-Plot)

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)El diagrama de caja (Box-Plot), interpretacin:Nos presenta el Rango y el recorrido intercuartlico (ojo con el programa utilizado)Valores fuera de lmites son representados con crculos se consideran normales Valores presentados como astersticos se podran estudiar como atpicosOJO CON DESCARTAR ALEGREMENTE VALORES ATPICOS

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)El diagrama de caja (Box-Plot)

    MximoMnimoMediana50% de la muestraAqu se espera encontrar la mayora de la muestra

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de formaMedida de asimetra

    Medida de apuntamiento o kurtosis

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Resumen de datosMedidas de formaMedida de asimetraSimtricaCoef.=0Asimtrica positivaCoef. > 0Asimtrica negativaCoef. < 0

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Descripcin grfica

    Se comparan el largo del sepalo de tres variedades de lirios: setosa, versicola y virginica

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Descripcin grficaGrfico de dispersin (Scatter Plot)

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pudiendo resultar tilsetosaversicolorvirginica

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Descripcin grficaUna posible evaluacin grfica de los Odds Ratio (OR)

    EventoBMINoSOddsOR=30970.781.37

    IUSC - 2009

  • Estadsitica inferencialP-valorIntervalo de confianzaParamtricas vs. No paramtricas

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Gnesis de las ideasKarl Raimund Popper (1902-1994)1934: La lgica de la investigacin cientfica. Cmo fundamentar el conocimiento cientfico, por definicin universal y necesario, en la experiencia emprica, por definicin particular? Hasta entonces Descartes confa en las leyes eternas de la raznHume en las leyes que se extraen de la experienciaEn contra del positivismo: Cmo realizar una ley universal a partir de un nmero particular de experimentos?A favor del falibilismo (o falsacin): el conocimiento cientfico no puede avanzar confirmando nuevas leyes, sino descartando leyes que contradicen la experiencia. POR TANTO: La labor del cientfico consiste en criticar leyes para ir reduciendo el nmero de teoras compatibles con observaciones experimentales.CONSECUENCIA:Una proposicin cientfica lo ser si es posible crear un experimento que la pudiese contradecir.

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pruebas de hiptesisUnilateral (una cola)

    Ho: E - C 0H1: E - C > 0

    Bilateral (dos colas)

    Ho: E - C = 0H1: E - C > 0 E - C < 0

    IUSC - 2009

  • Jos Ros IUSC - 2009 *p?Probabilidad de observar, por azar, una diferencia como la de la muestra o mayor, cuando H0 es cierta

    Es una medida de la evidencia en contra de la H0Es el azar una explicacin posible de las diferencias observadas?Supongamos que as es (H0).Con qu probabilidad observaramos unas diferencias de esa magnitud, o incluso mayor? P-valorSi P-valor pequeo, rechazamos H0.

    Difcil?... No, es como un juicio!

    IUSC - 2009

  • Jos Ros IUSC - 2009 *p?

    Se acepta un valor mximo de 5% (0,05).Si p0,05 diferencias estadsticamente significativas.

    Si p>0,05 diferencias estadsticamente NO significativas.

    NO implica importancia clnica.

    NO implica magnitud de efecto!!Influenciada por el tamao de la muestra. Si n p

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pero el mo es mejor.Para un mismo resultado cuantitativo el investigador avispado puede hacer SU interpretacin cualitativa simplemente inundando el artculo de valores de pMayor tamao de muestraMenor valor de p (habitualmente)Mayor relevancia clnicaMenor valor de p (habitualmente)Mayor relevancia clnica?Mayor relevancia clnica?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Y Arguiano nos dice:

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Y Arguiano nos dice:

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Y Arguiano nos dice:

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Intervalos de confianzaSi repetimos el intervalo de confianza a lo largo del tiempo sobre la misma poblacin, los intervalos de confianza al 95% calculados para cada muestra deberan incluir el verdadero valor de la poblacin en el 95% de las veces.

    Una persona normal es aquella que no ha sido lo suficientemente investigada.

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Amplitud del ICTambin depende de la informacin que la muestra proporciona sobre el verdadero valor poblacional

    Mayor tamao de muestra -> mayor precisin -> IC ms estrecho

    Mayor dispersin de la medida ->IC ms amplio

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Por ejemploFuente: Vies, R. Larumbe, M.T. Artzcoz, I. Gaminde, D. Guerrero, J.V. Ferrer Estudio epidemiolgico de la enfermedad de Parkinson en Navarra. Revista ANALES del Sistema Sanitario de Navarra, Vol. 22, Suplemento 3, 1999OR entre casos y controles de consumo de tabaco y EP. Intervalos de confianza del 90%.

    IUSC - 2009

  • Jos Ros IUSC - 2009 *EstimacinPero hemos de tener en cuenta que todo intervalo de confianza conlleva dos noticias, la buena y la malaLa buena: hemos usado una tcnica que en % alto de casos acierta.La mala: no sabemos si ha acertado en nuestro caso.

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pruebas paramtricas y no-paramtricasUna prueba paramtrica requiere la estimacin de uno o ms parmetros (estadsticos) de la poblacinEj.: Una estimacin de la diferencia entre la media antes y despus de una intervencinLas pruebas no-paramtricas no involucran ningn tipo de estimacin de parmetrosEj.: Facilitarnos la una estimacin de la P[X>Y], probabilidad de que, selecionando un paciente despus del tratamiento, su valor sea mayor que antes del tratamiento

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Ventajas de las pruebas no-paramtricasNo se asume nada sobre la distribucin de nuestros datos.Se pueden usar en multitud de tipos de variablesInconvenientesLas pruebas no-paramtricas acostumbran a tener un poder estadstico menor que su equivalente paramtrico. A propsito de los datosUtiliza rangos (ordenaciones), no da resultados en las unidades de las variables originales. El efecto de los valores extremos se diluye (buena noticia o mala)Se deberan utilizar cuando los requerimientos para las pruebas paramtricas no se cumplan.Pruebas paramtricas y no-paramtricas

    IUSC - 2009

  • Estadsitica inferencialRegresin y Supervivencia

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Regresin linealDescribe como un variable respuesta y cambia en funcin de otra (tpicamente diseada) factor x de forma estrictamente lineal

    Formalmente se asume que: X no es una variable aleatoria (no tiene por qu cumplirse siempre)Para cada valor xi de X existe una v.a. Y|xi cuya media me predice el modelo linealTodas las variables Y|xi son Normales, independientes y de igual varianza

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Ejemplos macabrosLos llamar macabros ya que son ilustrativos de que el abuso debido a su simplicidad de ejecucin e interpretacin puede tener resultados nefastos

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Ejemplos macabros

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Ejemplos macabrosY mucho cuidado con la correlacinLa proporcin de variabilidad explicada por la regresin es el r2 * 100

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Ejemplos macabrosPor que los abusos no son nada buenos

    IUSC - 2009

  • Jos Ros IUSC - 2009 *J Allergy Clin Immunol 2006;117:989-94.)

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Ejemplo sencilloEl hbito tabquico es un buen predictor lineal para los niveles de tiocianato?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Por tanto, la funcin que me indicara la prediccin lineal sera: Y = 202.84 70.46*X

    IUSC - 2009

  • Jos Ros IUSC - 2009 *A que pareca una buena opcin?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Otro ms para acabarLa TAS es un buen predictor lineal para la TAD?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Otro ejemploPor cada mmHg que aumenta la PAS, la PAD experimenta un aumento, en promedio, de 0.347 mmHg

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Qu conclusin real se puede obtener?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Anlisis de la supervivencia:Motivos para su usoEn ocasiones importa tanto el tiempo hasta que se produce el evento que su consecucin.Por ejemplo (por no ser ms morboso): Evaluar el tiempo que se tarda en la mejora o curacinEstudiar n individuosTi ser el tiempo que tarda el i-simo paciente en curarseEl problema viene cuando no se conoce Ti censuraPor tanto pueden existir variables que explican este tiempo.Muy til cuando el seguimiento es incompleto o muy variable

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Cuando usar estas tcnicasDeseamos un modelo para explicar tiempo hasta un eventoEvento es dicotmico (regresin lineal no sirve)Nos interesa el tiempo hasta evento (regresin logstica no sirve)Deseamos comparar supervivencia entre gruposPodremos evaluar la relacin entre covariables y el tiempo de supervivencia

    IUSC - 2009

  • Jos Ros IUSC - 2009 *No es efectivo ni tico esperar a que se presenten todos los eventos para finalizar el estudio.

    Los individuos entran en el estudio a tiempos diferentes.Cuando usar estas tcnicas (II)

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Por qu no otras?

    IUSC - 2009

    Tcnica

    Variables

    predictoras

    Variable

    respuesta

    Existen censuras?

    Regresin linear

    Categricas o continuas

    Normalmente distribuidas

    No

    Regresin Logstica

    Categricas o continuas

    Binaria (menos en regresin logstica politommica)

    No

    Anlisis de supervivencia

    Tiempo y categricas o continuas

    Binaria

    S

  • Jos Ros IUSC - 2009 *Qu estimamos?

    IUSC - 2009

    Tcnica

    Modelo Matemtico

    Evaluamos

    Regresin linear

    Y=B1X + Bo

    (linear)

    Evaluacin de pendiente (cambio lineal)

    Regresin Logstica

    Ln(P/1-P)=B1X+Bo

    (sigmoidal prob.)

    Odds ratios

    Anlisis de supervivencia

    h(t) = ho(t)exp(B1X+Bo)

    Hazard rates

  • Jos Ros IUSC - 2009 *Posibles ejemplos de diseo (o no)Evaluar la mortalidad en el post-operatorioReclutamos durante 5 aos a 350 pacientes y los seguimos durante un tiempo de seis mesesSe seleccionan a 100 pacientes y se aleatorizan a dos brazos de tratamiento. La aparicin del evento se evala en consecutivas visitas programadas durante tres aosMiramos la aparicin espontnea de un evento en el trascurso de un estudio de cohortes

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Yo os doy una de las solucionesMortalidad postoperatoriaAl no haber un seguimiento prolongado no tiene sentido hablar de censuras y se dispone de toda la informacin de los sujetos.Chi-Square = 0.04Degrees of Freedom = (2-1)(2-1) = 1p = 0.084

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Y las censuras?Existen de varios tipos, pero aqu hablaremos slo de las que se producen de forma aleatoria por la derechahttp://www.ms.uky.edu/~mai/java/stat/KapMei.html

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Por qu censuras?Se produce por la imposibilidad prctica de tener informacin precisa del momento del evento en la totalidad de los sujetos.El da de cierre no se ha presentado el eventoHemos perdido el seguimiento del sujetoMotivosAcontecimiento adversoCierre del estudio/seguimientoPrdida de seguimientoEvento por causa diferentes a la del estudio

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pero existe una clasificacinTipo I.Todos los individuos se siguen hasta una fecha fin de estudioPor la derecha:Pacientes vivos al finalizar el estudioPacientes perdidos o abandonosEn intervalo:Las visitas de control son espaciadasPor la izquierda:Se desconoce la fecha de inicio

    Tipo II.Los individuos se siguen hasta que han ocurrido r eventos

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Falta de seguimiento?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Qu pas con el ltimo paciente?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Por ejemplo

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Y si el evento es repetido?Los modelos generales de Cox se realizan contra un evento nicoEl seguimiento del paciente se trunca en el primer eventoEs suficiente para evaluar eventos no repetibles como la mortalidadEs este tipo de anlisis suficiente en todos los casos?

    IUSC - 2009

  • Jos Ros IUSC - 2009 *En EC quizs no muchoEl modelo general de Cox lo que pretende es ver como una caracterstica inicial modifica la presencia de un eventoEn EC, el tratamiento aleatorizado.Hay variables que se modifican a lo largo del seguimiento que pueden propiciar el evento Cox con covariables tiempo-dependiente

    IUSC - 2009

  • Jos Ros IUSC - 2009 *EsquemticamenteModelo AG

    Modelo PWP

    O mezclasEventoEventoEventoEventoNota: El grosor de la flecha indica el riesgo potencial de presentar el evento EventoEventoEventoEvento

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Pero hay muchos mtodos para analizar este tipo de datos

    IUSC - 2009

  • Jos Ros IUSC - 2009 *

    IUSC - 2009

  • Jos Ros IUSC - 2009 *Los mtodos estadsticos no son un sustituto del sentido comn y la objetividad. Nunca deberan estar dirigidos a confundir al lector, sino que deben ser una contribucin importante a la claridad de los argumentos cientficos

    SJ Pocock. Br J Psychiat 1980; 137:188-190

    IUSC - 2009

  • Jos Ros IUSC - 2009 *

    IUSC - 2009

    ********Si ambos son grandes podemos asegurar dispersin. Si Rango grande e intercualtlico pequeo, outliers

    *Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas*Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas*Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas*Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas