pruebas de hipótesis e inferencia estadística

1

INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA YY

PRUEBAS DE HIPÓTESIS PRUEBAS DE HIPÓTESIS

Paula Soto ParadaPaula Soto ParadaEnfermera, MScEnfermera, MSc

ChileChile

BioestadísticaBioestadística

2

ContenidosContenidos

Concepto de Inferencia EstadísticaConcepto de Inferencia EstadísticaAplicación de la Inferencia Estadística en SaludAplicación de la Inferencia Estadística en SaludFundamentos de las Pruebas de HipótesisFundamentos de las Pruebas de HipótesisNivel de SignificaciónNivel de SignificaciónIntervalos de Confianza (unilateral y bilateral)Intervalos de Confianza (unilateral y bilateral)Tipos de Pruebas de Hipótesis (nula, alterna)Tipos de Pruebas de Hipótesis (nula, alterna)Tipos de errores (I y II)Tipos de errores (I y II)

3

Concepto de Inferencia EstadísticaConcepto de Inferencia Estadística

Es aquella parte de la metodología estadística que, Es aquella parte de la metodología estadística que, a través de un razonamiento inductivo, extiende los a través de un razonamiento inductivo, extiende los resultados obtenidos en las muestras a su universo resultados obtenidos en las muestras a su universo de origen.de origen.

Objetivos de la Inferencia estadísticaObjetivos de la Inferencia estadística::- Estimar parámetrosEstimar parámetros- Realizar pruebas de hipótesis (prueba de Realizar pruebas de hipótesis (prueba de

significación estadística o docimasia de hipótesis)significación estadística o docimasia de hipótesis)

4

Otra definiciónOtra definición

Es aquella parte de la estadística que Es aquella parte de la estadística que provee de técnicas que permiten estimar provee de técnicas que permiten estimar parámetros y probar hipótesis que hacen parámetros y probar hipótesis que hacen referencia a toda la población objeto referencia a toda la población objeto (Inductiva).(Inductiva).

Por ejemplo: la eficacia de una droga.Por ejemplo: la eficacia de una droga.

5

Formas de caracterizar la poblaciónFormas de caracterizar la población(Objetivos de la Inferencia Estadística)(Objetivos de la Inferencia Estadística)

Estimación de parámetrosEstimación de parámetros Parámetro: medida que describe el universoParámetro: medida que describe el universo

Pruebas de HipótesisPruebas de Hipótesis Consiste en conocer la probabilidad de ocurrencia Consiste en conocer la probabilidad de ocurrencia

del resultado obtenido en la investigación, del resultado obtenido en la investigación, basándose en la distribución muestral del basándose en la distribución muestral del estadígrafo utilizado para medir el resultado.estadígrafo utilizado para medir el resultado.

6

ParámetroParámetro

Valor constante generalmente desconocido, que Valor constante generalmente desconocido, que permite describir el comportamiento de la población.permite describir el comportamiento de la población.

Por ejemplo: Por ejemplo: :: promedio de P/A en (mmHg) promedio de P/A en (mmHg)P : : prevalencia de obesidad en la décima región prevalencia de obesidad en la décima regiónI : : incidencia de HTA en mayores de 65 añosincidencia de HTA en mayores de 65 años

7

Distribuciones Muestrales

Tanto para la estimación de parámetros como para las pruebas Tanto para la estimación de parámetros como para las pruebas de hipótesis es importante conocer la distribución muestral.de hipótesis es importante conocer la distribución muestral.

La distribución muestral adopta diferentes formas según las La distribución muestral adopta diferentes formas según las variables investigadas.variables investigadas.

La distribución se describe con el promedio y la DS de los La distribución se describe con el promedio y la DS de los promedios muestrales.promedios muestrales.

La desviación estándar de los promedios muestrales recibe el La desviación estándar de los promedios muestrales recibe el nombre de nombre de error estándarerror estándar (ee), error muestral o error de (ee), error muestral o error de muestreo.muestreo.

8

Prueba de Hipótesis

Docimasia:Docimasia: consiste en conocer la consiste en conocer la probabilidad de ocurrencia del resultado probabilidad de ocurrencia del resultado obtenido en la investigación, basándose obtenido en la investigación, basándose en la distribución muestral del en la distribución muestral del estadígrafo utilizado para medir el estadígrafo utilizado para medir el resultado.resultado.

9

Aplicación de la Inferencia Aplicación de la Inferencia Estadística en SaludEstadística en Salud

Ejemplo 1:Ejemplo 1: Se conocen las estaturas de Se conocen las estaturas de todostodos los individuos de los individuos deun universo:un universo:

Si quisiéramos una medida que describa la posición central Si quisiéramos una medida que describa la posición central de este universo, calcularíamos el promedio de todas las de este universo, calcularíamos el promedio de todas las estaturas, lo que constituiría el parámetro .estaturas, lo que constituiría el parámetro .

10

Aplicación de la Inferencia Aplicación de la Inferencia Estadística en SaludEstadística en Salud

Ejemplo 2: Ejemplo 2: Se conocen las estaturas de Se conocen las estaturas de una muestrauna muestra extraída extraída del universo:del universo:

Si quisiéramos una medida que describa la Si quisiéramos una medida que describa la posición central de este universo, calcularíamos posición central de este universo, calcularíamos el promedio de todas las estaturas, lo que el promedio de todas las estaturas, lo que constituiría el estadígrafo . constituiría el estadígrafo . X

11

Si nos interesa la dispersión de los valores Si nos interesa la dispersión de los valores individuales en los mismos ejemplos……individuales en los mismos ejemplos……

Calcularíamos la Desviación estándar para ambos Calcularíamos la Desviación estándar para ambos ejemplos:ejemplos:

- Ejemplo 1: para el universo se simboliza como . Ejemplo 1: para el universo se simboliza como . - Ejemplo 2: para la muestra se simboliza como Ejemplo 2: para la muestra se simboliza como SS..

El procedimiento de cálculo del parámetro difiere en El procedimiento de cálculo del parámetro difiere en este caso del estadígrafo este caso del estadígrafo S S , ya que en éste último la suma , ya que en éste último la suma de las desviaciones se divide por (n-1) y no por n.de las desviaciones se divide por (n-1) y no por n.

12

Estimación de ParámetrosEstimación de Parámetros

Consiste en el cálculo de estadígrafos para las Consiste en el cálculo de estadígrafos para las muestras, con el fin de obtener información sobre el muestras, con el fin de obtener información sobre el valor de los parámetros del universo.valor de los parámetros del universo.

Esta inducción se basa en la teoría de Esta inducción se basa en la teoría de probabilidades y sólo es posible cuando se conoce probabilidades y sólo es posible cuando se conoce la conducta del estadígrafo o “distribución la conducta del estadígrafo o “distribución muestral”. muestral”.

Es decir se desean estimar los parámetros del Es decir se desean estimar los parámetros del universo a partir de cálculos muestrales. universo a partir de cálculos muestrales.

13

Estimación de Parámetros

Tipos de estimaciónTipos de estimación

PuntualPuntual Por intervaloPor intervalo

14

Estimación puntual

Puntual:Puntual: Se refiere a un punto en la escala de mediciónSe refiere a un punto en la escala de medición

Es cuando se dispone de una sola muestraEs cuando se dispone de una sola muestra

El estadígrafo de promedio muestral es la mejor El estadígrafo de promedio muestral es la mejor estimación del promedio poblacional. estimación del promedio poblacional.

Lamentablemente da una información Lamentablemente da una información incompleta, ya que no toma en cuenta la incompleta, ya que no toma en cuenta la dispersión de los datos.dispersión de los datos.

15

Estimación puntual

Es muy probable que dos diferentes muestras den como Es muy probable que dos diferentes muestras den como resultado medias muestrales diferentes y por lo tanto queda un resultado medias muestrales diferentes y por lo tanto queda un cierto grado de incertidumbre.cierto grado de incertidumbre.No proporciona información sobre la variabilidad inherente del No proporciona información sobre la variabilidad inherente del estimador.estimador.Ignoramos lo cerca que está el promedio muestral del promedio Ignoramos lo cerca que está el promedio muestral del promedio poblacional en una situación determinada.poblacional en una situación determinada.Mientras la muestra es más grande es más probable que el Mientras la muestra es más grande es más probable que el promedio muestral se acerque más a la verdadera media o promedio muestral se acerque más a la verdadera media o promedio poblacional.promedio poblacional.Una estimación puntual no proporciona información del tamaño Una estimación puntual no proporciona información del tamaño muestralmuestral

16

Estimación por intervalo

Por intervalo:Por intervalo:Afirmamos, por ejemplo, que la distribución de los Afirmamos, por ejemplo, que la distribución de los promedios muestrales es normal, entonces se promedios muestrales es normal, entonces se deduce que aproximadamente el 95% de los deduce que aproximadamente el 95% de los promedios de las muestras aleatorias promedios de las muestras aleatorias obtenidas o extraídas del universo no se alejan obtenidas o extraídas del universo no se alejan más de 1,96 errores estándar (ee) del promedio más de 1,96 errores estándar (ee) del promedio poblacional o del universo .poblacional o del universo .

X

17

Estimación por intervalo

Se puede afirmar también que el 95% de las veces que se Se puede afirmar también que el 95% de las veces que se obtiene una muestra del universo, su promedio poblacional obtiene una muestra del universo, su promedio poblacional

no quedará a una distancia mayor que 1,96 errores no quedará a una distancia mayor que 1,96 errores estándar del promedio muestral . estándar del promedio muestral . Existe por lo tanto una probabilidad de 0,95 de incluir a Existe por lo tanto una probabilidad de 0,95 de incluir a en el intervalo construido con ee y ee.en el intervalo construido con ee y ee.Entonces: Entonces:

X

96,1X 96,1X

95,0)96,196,1( xxP

18

95,0)96,196,1( xxP

En otras palabras, tenemos confianza que de cada 100En otras palabras, tenemos confianza que de cada 100predicciones que hagamos en esta forma, 95 de ellaspredicciones que hagamos en esta forma, 95 de ellasincluirán el verdadero valor del universo y sólo incluirán el verdadero valor del universo y sólo fracasaremos en 5.fracasaremos en 5.

Este procedimiento se llama estimación por intervaloEste procedimiento se llama estimación por intervaloy se habla de intervalo de confianza de 95%, de 99%, o de y se habla de intervalo de confianza de 95%, de 99%, o de otro porcentaje, dependiendo de la seguridad que seotro porcentaje, dependiendo de la seguridad que sequiera dar a la estimación.quiera dar a la estimación.

19

Intervalo de Confianza Intervalo de Confianza

La técnica de estimación ofrece un intervalo de valores La técnica de estimación ofrece un intervalo de valores razonables dentro del cual se pretende que esté el razonables dentro del cual se pretende que esté el parámetro de interés (como la media poblacional ) con parámetro de interés (como la media poblacional ) con cierto grado de confianza.cierto grado de confianza.

Rango de valores construido de modo que tenga una Rango de valores construido de modo que tenga una probabilidad especificada de incluir el verdadero valor del probabilidad especificada de incluir el verdadero valor del parámetro de interés. parámetro de interés.

Dicha probabilidad es llamada coeficiente de confianza y Dicha probabilidad es llamada coeficiente de confianza y es denotada por 1-αes denotada por 1-α..

20

Intervalo de Confianza

Los puntos terminales del intervalo son llamados límites de confianza.

En general un intervalo de confianza de 95% se construye sumando y restando del estimador 1.96 su error estándar.

Dentro del IC podemos considerar sostenible una hipótesis.

Los IC más comunes son 90, 95 y 99%.

Los IC son un complemento de las regiones críticas.

Mientras más pequeño sea el IC, menos confianza de que el promedio poblacional este contenido en él.

21

Para caracterizar la población

Estadígrafos Parámetros

desconocidos

Población

Muestra aleatoria:Muestra aleatoria:

(promedio)(promedio)

(Desviación estándar) (Desviación estándar) S p

P

X

22

Tipos de Intervalo de Confianza Tipos de Intervalo de Confianza

Tipos de IC:Tipos de IC: Bilaterales y Unilaterales Bilaterales y Unilaterales

Amplitud del IC:Amplitud del IC: lim sup – lim inf lim sup – lim inf

Factores que afectan la amplitudFactores que afectan la amplitud1.1. Tamaño muestral:Tamaño muestral: a ↓ a ↓ n n ↓↓ error estándar error estándar

2.2. Desviación estándar:Desviación estándar: a ↓ a ↓variabilidad de la población variabilidad de la población ↓↓ amplitud del IC. amplitud del IC.

3.3. Nivel de confianzaNivel de confianza (1-α (1-α ): a a ↑↑ nivel de confianza nivel de confianza ↑↑ amplitud amplitud ↓ precisión↓ precisión a ↓a ↓ nivel de confianza nivel de confianza ↓↓ amplitud amplitud ↑ precisión↑ precisión

23

Relación entre intervalo de confianza y prueba de hipótesis

Los IC y las PH nos conducen a las mismas conclusiones.Los IC y las PH nos conducen a las mismas conclusiones.

La información que entrega c/u es de alguna manera diferente.La información que entrega c/u es de alguna manera diferente.

El IC suministra un rango de valores razonables para el parámetro El IC suministra un rango de valores razonables para el parámetro y nos dice algo sobre la incertidumbre en una estimación puntual y nos dice algo sobre la incertidumbre en una estimación puntual X.X.

La PH nos ayuda a decidir si el valor propuesto de la media es La PH nos ayuda a decidir si el valor propuesto de la media es posiblemente correcto y proporciona un valor p específico.posiblemente correcto y proporciona un valor p específico.

24

Hipótesis EstadísticaHipótesis Estadística

Afirmación respecto a los parámetros Afirmación respecto a los parámetros generalmente desconocidos, que generalmente desconocidos, que permiten describir el comportamiento de permiten describir el comportamiento de la población.la población.

Afirmación posible de 1 hecho que esta Afirmación posible de 1 hecho que esta sucediendo.sucediendo.

25

Pruebas de Hipótesis

Se refiere generalmente a la comparación de los resultados obtenidos en 2 o más grupos sometidos a tratamientos diferentes.

En el caso de 2 grupos se conoce la distribución muestral de las diferencias de los promedios.

Según la distribución normal, se puede predecir que en estas distribuciones será raro encontrar diferencias muy alejadas de cero cuando las muestras provienen del mismo universo y que es posible adjudicar probabilidades a las magnitudes de diferencias, haciendo uso de la variable Z.

26

¿Cuál es el propósito ¿Cuál es el propósito de una prueba de Hipótesis?de una prueba de Hipótesis?

Una prueba de Hipótesis junto a la estimación Una prueba de Hipótesis junto a la estimación de parámetros constituyen los dos objetivos de parámetros constituyen los dos objetivos principales de la Inferencia Estadística.principales de la Inferencia Estadística.

Su propósito es permitir tomar una decisión, en Su propósito es permitir tomar una decisión, en la aceptación o rechazo de una hipótesis la aceptación o rechazo de una hipótesis estadística.estadística.

27

Tipos de HipótesisTipos de HipótesisBilateral: Bilateral: cuando indica diferencia entre ambas . cuando indica diferencia entre ambas .

Cuando no indica la dirección de la diferencia.Cuando no indica la dirección de la diferencia.

Unilateral: Unilateral: cuando indica dirección < o > .cuando indica dirección < o > . Cuando indica la dirección de la diferencia Cuando indica la dirección de la diferencia

La prueba de hipótesis consiste en rechazar o no la La prueba de hipótesis consiste en rechazar o no la hipótesis nula hipótesis nula a un nivel de error conocido y aceptado a un nivel de error conocido y aceptado llamado nivel de significación alpha ( ).llamado nivel de significación alpha ( ).

28

Tipos de Pruebas de Hipótesis (nula y alterna)

Las hipótesis siempre se dicen de a pares (Ho y Ha).Las hipótesis siempre se dicen de a pares (Ho y Ha).Hipótesis Nula (Ho):Hipótesis Nula (Ho): es la hipótesis que afirma que “no hay diferencias” es la hipótesis que afirma que “no hay diferencias” o “no hay efecto en los tratamientos” (contradice la hipótesis de o “no hay efecto en los tratamientos” (contradice la hipótesis de trabajo). Se plantea que las muestras provienen del mismo universo o trabajo). Se plantea que las muestras provienen del mismo universo o de universos con iguales parámetros y por lo tanto conocemos la de universos con iguales parámetros y por lo tanto conocemos la distribución del estadígrafo bajo este supuesto.distribución del estadígrafo bajo este supuesto.Hipótesis alterna (Ha o H1):Hipótesis alterna (Ha o H1): es la hipótesis que afirma que “hay es la hipótesis que afirma que “hay diferencias” o “si hay efecto en los tratamientos” (hipótesis de trabajo). diferencias” o “si hay efecto en los tratamientos” (hipótesis de trabajo). Se plantea que las muestras provienen de universos diferentes.Se plantea que las muestras provienen de universos diferentes.Cuando la diferencia observada es tan grande que bajo el supuesto de Cuando la diferencia observada es tan grande que bajo el supuesto de la hipótesis de nulidad este hecho es poco probable, se rechaza la Ho y la hipótesis de nulidad este hecho es poco probable, se rechaza la Ho y se acepta Ha.se acepta Ha.

29

Resultados de la Prueba de Hipótesisen función de Ha (Hipótesis de trabajo)

Rechazo de Ho Rechazo de Ho

No rechazo de Ho No rechazo de Ho

Con la información muestral Con la información muestral (más el diseño de investigación) (más el diseño de investigación)

se toma la decisión se toma la decisión

30

Ejemplos de hipótesis estadísticas

oH :1

oH :1

• v/s v/s

• v/s v/s

• v/s v/s

oH :1

oHo :

oHo :

oHo : Lo conocidoLo conocido

31

A un nivel de significación alpha se acepta la A un nivel de significación alpha se acepta la hipótesis alterna.hipótesis alterna.

Hay evidencias, en los datos muestrales, Hay evidencias, en los datos muestrales, significativas como para concluir Ha (hipótesis de significativas como para concluir Ha (hipótesis de trabajo).trabajo).

Rechazo de HoRechazo de Ho

32

No existen evidencias suficientes en el estudio No existen evidencias suficientes en el estudio para concluir Ha a un nivel de significación para concluir Ha a un nivel de significación alpha (a lo mejor el nivel de significación es muy alpha (a lo mejor el nivel de significación es muy estricto o puede que no sea verdad).estricto o puede que no sea verdad).

No hay evidencias suficientes en nuestra No hay evidencias suficientes en nuestra muestra como para concluir Ha, luego muestra como para concluir Ha, luego ….incertidumbre.….incertidumbre.

No rechazo de HoNo rechazo de Ho

33

Tipos de errores (I y II)

Constituyen los errores que se producen en la Constituyen los errores que se producen en la toma de decisión en la prueba de Hipótesis toma de decisión en la prueba de Hipótesis Estadística:Estadística:

Error tipo I =Error tipo I =

Error tipo II=Error tipo II=

34

Representación de Ho y Ha

Nivel de significaciónNivel de significación

35

ErroresDecisiónDecisión

ooCriterio EstadísticoCriterio Estadístico

RealidadRealidad

μ μ = = μμooHo:VHo:V

μμ = = μμooHa:VHa:V

Rechazar HoRechazar Ho Error Tipo I (Error Tipo I (α)α) AciertoAcierto

No rechazar HoNo rechazar Ho AciertoAcierto Error Error tipo II (β)P (Error tipo I):P (Error tipo I):P (Rechazar Ho/Ho es V)= P (Rechazar Ho/Ho es V)= α α nivel de significación. nivel de significación.

P (Error tipo II):P (Error tipo II):P (No rechazar Ho/Ha es V)= β P (No rechazar Ho/Ha es V)= β Tamaño del error Tamaño del error medido como probabilidad.medido como probabilidad.

36

Nivel de Significación (α)

Es la calificación de poco probable que por costumbre se refiere a una probabilidad de 5% o de 1%. A esto se le llama nivel de significación.

En las publicaciones científicas aparece con frecuencia la anotación al lado de una diferencia; “diferencia estadísticamente significativa, p<0,05 o bien p<0,01; lo cual se refiere al porcentaje de 5% ó 1% habitual para el nivel de significación.

37

Requisitos prueba de significación

Similitud: de los grupos que se comparan. Si los grupos difieren en otros atributos además del que es estudiado no se puede establecer cual de ellos es responsable de la diferencia observada. Efectos confundidos.

Otras semejanzas: definiciones, métodos de medición, condiciones de observación, etc.

38

Aleatorización: en general aceptamos la similitud de los grupos si los tratamientos (factores cuya acción se investiga por comparación de grupos) han sido adjudicados aleatoriamente a las unidades de observación y si son semejantes entre sí los grupos.

En algunas situaciones no es posible asignar tratamiento en forma aleatoria por lo tanto se busca un grupo control lo más parecido al grupo “tratado” como sea posible.

Requisitos prueba de significación

39

Aleatorización

Para poder adjudicar en forma aleatoria a las unidades de observación el tratamiento se puede utilizar una tabla de números aleatorios.

40

LIBRO:LIBRO: Erica Taucher, páginas 77 – 110, editorial universitaria.Erica Taucher, páginas 77 – 110, editorial universitaria.

Temas: Temas: Distribución normal, probabilidad, Distribución binomial, Distribución normal, probabilidad, Distribución binomial, Conceptos de inferencia estadística y distribuciones muestrales.Conceptos de inferencia estadística y distribuciones muestrales.

pruebas de hipótesis e inferencia estadística

Health & Medicine