1234 guadalupe ruiz merino – curso de estadística básica 56 curso de estadÍstica bÁsica

55
1 2 3 4 Guadalupe Ruiz Merino – Curso de Estadística Básica 5 6 CURSO DE CURSO DE ESTADÍSTICA BÁSICA ESTADÍSTICA BÁSICA

Upload: ana-carolus

Post on 27-Jan-2016

255 views

Category:

Documents


17 download

TRANSCRIPT

Page 1: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

CURSO DE CURSO DE ESTADÍSTICA BÁSICAESTADÍSTICA BÁSICA

Page 2: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

Guadalupe Ruiz Merino - Curso de Estadística Básica

1 2 3 4 5 6

ESQUEMA DEL CURSOESQUEMA DEL CURSOESQUEMA DEL CURSOESQUEMA DEL CURSOESTADÍSTICA BÁSICA

DISEÑO DE EXPERIMENTOS

ESTADÍSTICA DESCRIPTIVA

TIPOS DE VARIABLES

MEDIDAS DE POSICIÓN CENTRAL

Y DE DISPERSIÓN

INFERENCIA ESTADÍSTICA

TABLAS YGRÁFICAS

ESTIMACIÓN

PUNTUALPOR

INTERVALOSMÉTODOS

PARAMÉTRICOSMÉTODOS NO

PARAMÉTRICOS

T-STUDENT U-MANNWHITNEY

K-W

TABLAS DE CONTINGENCIA

CONTRASTE DE HIPÓTESIS

ANOVA

FISHER

PEARSON

Page 3: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

Guadalupe Ruiz Merino - Curso de Estadística Básica

1 2 3 4 5 6

V5.1 Tablas de contingencia5.1 Tablas de contingencia5.2 Contraste de hipótesis5.2 Contraste de hipótesis

5.3 Medidas de asociación 5.3 Medidas de asociación

5.1 Tablas de contingencia5.1 Tablas de contingencia5.2 Contraste de hipótesis5.2 Contraste de hipótesis

5.3 Medidas de asociación 5.3 Medidas de asociación

5

SESIÓN 5SESIÓN 5

INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA IIII

SESIÓN 5SESIÓN 5

INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA IIII

Page 4: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

EN LA SESIÓN ANTERIOR VIMOS…EN LA SESIÓN ANTERIOR VIMOS…

Denominamos variables cualitativasvariables cualitativas a aquellas cuyo resultado es un valor o categoría de entre un conjunto finito de respuestas

POREJEMPLO

El sexo, el estado civil o el grupo sanguíneo son variables cualitativas

Page 5: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

Guadalupe Ruiz Merino - Curso de Estadística Básica

1 2 3 4 5 6

V5.1 TABLAS DE

CONTINGENCIA5.2 CONTRASTE

DE HIPÓTESIS5.3 MEDIDAS DE

ASOCIACIÓN

Para analizar la relación de dependencia o independencia entre dos variables cualitativas es necesario estudiar su distribución conjunta o tabla de contingencia

Tabla de contingencia: Tabla de doble entrada donde en cada casilla figura el número de individuos que posee esas características

5

Page 6: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V El sexo y el hábito de fumar El grupo sanguíneo y la posibilidad

de rechazar un trasplante La práctica de ejercicio y el riesgo de

infarto

EJEMPLOSEJEMPLOS

Estudiar la relación entre…

5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

Page 7: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V1.- Organizar la información, cuando está referida a factores

OBJETIVOSOBJETIVOS

Las tablas de contingencia tienen dos objetivos fundamentales:

2.- Analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables objeto de estudio

El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la otra

5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

Page 8: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VHOMBRE MUJER MARGINAL

SI n11 n12 n1.

NO n21 n22 N2.

MARGINAL n.1 n.2 n..

5

¿CÓMO SE CONSTRUYE UNA TABLA DE CONTINGENCIA?¿CÓMO SE CONSTRUYE UNA TABLA DE CONTINGENCIA?

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

Una tabla de contingencia se presenta de la siguiente forma

Frecuencia: Número de veces que se presenta un valor dado de una observación

nij=nº observaciones de la fila i y la columna j

Page 9: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VHOMBRE MUJER MARGINAL

SI 65 58 123

NO 43 67 110

MARGINAL 108 125 233

5

EJEMPLOEJEMPLO

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

Para contrastar la hipótesis “El sexo influye en el hábito de fumar”, podemos construir la siguiente tabla de contingencia

Page 10: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

Para identificar relaciones entre variables cualitativas se utiliza el test estadístico de la Chi-cuadradotest estadístico de la Chi-cuadrado

Para las tablas 2x2 se utiliza el test de Fishertest de Fisher

TIPOS DE TEST UTILIZADOSTIPOS DE TEST UTILIZADOS

Page 11: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

TIPOS DE TEST UTILIZADOSTIPOS DE TEST UTILIZADOS

En los ejemplos anteriores…

¿Influye el sexo en el hábito de fumar?

¿Tienen más posibilidades los de un cierto grupo sanguíneo de rechazar un trasplante?

La hipótesis que plantearemos será:

H0: independencia H1: dependencia

El resultado nos permitirá afirmar con un nivel de confianza que nosotros determinaremos si los niveles de una variable influyen en los niveles de la otra

Page 12: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

RAZONAMIENTORAZONAMIENTO

El razonamiento para contrastar si existe o no asociación entre dos variables cualitativas se basa en:

calcularcalcular cuál serían los valores de frecuencia esperados para cada una de las celdas en el caso de que efectivamente las variables fuesen independientes y compararloscompararlos con los valores realmente observados

Page 13: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

¿QUÉ CONCLUSIONES SE OBTIENEN?¿QUÉ CONCLUSIONES SE OBTIENEN?

Si no existe mucha diferencia entre ambos valores…

no hay razones para dudar de que las variables sean independientes

Page 14: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

¿QUÉ CONCLUSIONES SE OBTIENEN?¿QUÉ CONCLUSIONES SE OBTIENEN?

Una vez que hayamos hecho los cálculos, obtendremos un nivel de significaciónnivel de significación

probabilidad de equivocarnos si rechazamos la hipótesis nula

Si es p<0.05p<0.05 rechazamos la hipótesis nula y decimos que las variables son dependientes

Si es p>0.05p>0.05 no podríamos rechazar H0 porque la probabilidad de equivocarnos sería muy alta

Page 15: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VLa Chi-cuadrado está influenciada por el tamaño muestral

5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

PROBLEMASPROBLEMAS

A mayor número de casos analizados el valor de la Chi-cuadrado tiende a aumentar

Si la muestra es excesivamente grande será más fácil que rechacemos la hipótesis nula de independencia cuando a lo mejor podrían ser independientes

Page 16: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

PROBLEMASPROBLEMAS

En cada celda de la tabla deberá existir un mínimo de 5 observaciones esperadas

Si no fuera así…

Se agrupan filas o columnas (excepto tablas 2x2)

Se elimina la fila que da la frecuencia <5

Page 17: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VHOMBRE MUJER MARGINAL

SI 12 32 44

NO 18 10 28

OCASIONALMENTE 3 4 7

5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

PROBLEMASPROBLEMAS

Para el ejemplo anterior “El sexo influye en el hábito de fumar”…

Page 18: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

PROBLEMASPROBLEMAS

¿Y si la tabla es de 2x2?

Se aplica la corrección de Yatescorrección de Yates

Page 19: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

PROBLEMASPROBLEMAS

La Chi-cuadrado permite contrastar la hipótesis de independencia pero…

en el caso de que se rechace dicha hipótesis no dice nada sobre la fuerza de la asociación entre las variables estudiadas

Page 20: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

Las MEDIDAS DE ASOCIACIÓN distinguen entre que las variables sean ordinales o nominales

Las MEDIDAS DE ASOCIACIÓN NOMINALES sólo informan del grado de asociación existente pero no de la dirección

Las MEDIDAS DE ASOCIACIÓN ORDINALES aportan información sobre la dirección de la relación, pudiendo tomar tanto valores positivos como negativos

Page 21: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

Se pueden encontrar los intervalos de confianza para los riesgos relativos, lo cual alcanza la misma finalidad que la prueba de significancia, según contenga el 1 o no

Los intervalos de confianza para riesgos relativos cada vez son más utilizados para las publicaciones en revistas médicas

Page 22: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

MEDIDAS DE ASOCIACIÓN ORDINALESMEDIDAS DE ASOCIACIÓN ORDINALES

VALORES POSITIVOS

Existe una relación directa entre las variables

Valores altos de una se corresponden con valores altos de la otra y al contrario

VALORES NEGATIVOS

Existe una relación inversa entre las variables

Valores altos de una se corresponden con valores bajos de la otra y al contrario

Page 23: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

RESIDUOSRESIDUOS

¿CÓMO SE CALCULAN?

Diferencia entre la frecuencia observada y esperada en cada casilla

¿PARA QUÉ SIRVEN?

Son muy útiles para interpretar las relaciones que se observan en la tabla

¿QUÉ INFORMACIÓN

DAN?

Indican que la diferencia entre las frecuencias es elevada cuando su valor es superior a 1.96 ó inferior a -1.96

Page 24: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

RESIDUOSRESIDUOS

Mayor a 1.96 en valor absoluto

Hay más casos (si es positivo) o menos (si es negativo) de los que debería haber en esa casilla si las variables fueran independientes, por lo que las variables son dependientes

Un valor del residuo tipificado en una casilla…

Comprendido entre ± 1.96

La diferencia es pequeña por lo que las variables son independientes

Page 25: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

USO EXCESIVOUSO EXCESIVO

Debido a que la prueba Chi-cuadrado es fácil de entender y calcular, en ocasiones se utiliza cuando es más apropiado otro método

POREJEMPLO

Cuando se analizan dos grupos y las características de interés se miden en escala numérica

Convertir la escala numérica en una ordinal o incluso binaria

Aplicar la prueba t-StudentLO CORRECTO

LO INCORRECTO

Page 26: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

USO EXCESIVO - EJEMPLOUSO EXCESIVO - EJEMPLO

“ Se desea conocer los pacientes de una intervención que tienen mayor probabilidad de padecer complicaciones que otros”

Los investigadores querían saber si existe relación entre la edad y la probabilidad de tener complicaciones

Page 27: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

USO EXCESIVO - EJEMPLOUSO EXCESIVO - EJEMPLO

Se recogen datos de pacientes que sufrieron complicaciones y de otros pacientes que no las sufrieron

MÉTODO DE TRABAJO:

1

Los investigadores formaron una tabla de contingencia 2x2 y agruparon la edad en ≤45 o >45

2

Emplearon la prueba de chi-cuadrado para la independencia y los resultados indicaron que no había relación entre la edad y la presencia de complicaciones

3

¡MAL!

Page 28: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

USO EXCESIVO - EJEMPLOUSO EXCESIVO - EJEMPLO

¿DÓNDE ESTÁ EL ERROR?

En la selección arbitraria de los 45 años como punto de corte para la edad

Y en usar una prueba de forma incorrecta

Page 29: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

USO EXCESIVOUSO EXCESIVO

Cuando las variables numéricas se analizan con métodos diseñados para variables categóricas u ordinales, se pierde la mayor especificidad de las mediciones numéricas

Antes de hacerlo hay que investigar si las categorías son correctas

Page 30: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

McNEMARMcNEMAR

Una variante de las tablas longitudinales es medir una misma variable dicotómica (tratamiento-no tratamiento, rechazo-no rechazo) en dos momentos temporales distintos

Resulta especialmente útil para medir el cambioCONSEJO

Page 31: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

V5

5.1 TABLAS DE CONTINGENCIA

5.2 CONTRASTE DE HIPÓTESIS

5.3 MEDIDAS DE ASOCIACIÓN

McNEMARMcNEMAR

¿CÓMO SE TRABAJA?

Se toma una medida de una variable dicotómica, se aplica el tratamiento (o se deja pasar el tiempo) y se vuelve a tomar una medida de la misma variable en los mismos sujetos

Se contrasta la hipótesis de igualdad de proporciones antes y después

Page 32: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

Guadalupe Ruiz Merino - Curso de Estadística Básica

1 2 3 4 5 6

VI6.1 Correlación6.1 Correlación6.2 Regresión Lineal Simple6.2 Regresión Lineal Simple

6.1 Correlación6.1 Correlación6.2 Regresión Lineal Simple6.2 Regresión Lineal Simple

6

SESIÓN 6SESIÓN 6

REGRESIÓNREGRESIÓN

SESIÓN 6SESIÓN 6

REGRESIÓNREGRESIÓN

Page 33: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

DEFINICIÓN DE CORRELACIÓNDEFINICIÓN DE CORRELACIÓN

Se considera que dos variables Se considera que dos variables cuantitativas están relacionadas entre sí cuantitativas están relacionadas entre sí cuando los valores de una de ellas varían cuando los valores de una de ellas varían de forma sistemática conforme a los de forma sistemática conforme a los valores de la otra.valores de la otra.

6

Page 34: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

EL COEFICIENTE DE CORRELACIÓN DE PEARSONEL COEFICIENTE DE CORRELACIÓN DE PEARSON

El coeficiente de correlación de Pearson es un índice estadístico que permite definir de forma más concisa la relación entre las variables

Es una medida de la relación lineal entre dos variables medidas con escala numérica

6

Page 35: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

EL COEFICIENTE DE CORRELACIÓN DE PEARSONEL COEFICIENTE DE CORRELACIÓN DE PEARSON

Su resultado es un valor que fluctúa entre -1 y +1…

+1

-1

0

Relación perfecta en sentido negativo

Relación perfecta en sentido positivo

Cuanto más cercanos a 0 sean los valores significará una relación más débil o incluso ausencia de relación

6

Page 36: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

El valor del coeficiente de correlación está muy influenciado por los valores extremos, igual que la desviación estándar.

Por tanto la correlación no describe bien la relación entre dos variables cuando cada una de ellas tiene valores extremos

En estos casos debe hacerse una transformación de los datos o usarse la correlación de Spearman

6

Page 37: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

Finalmente, correlación no es igual a causa

El juicio de que una característica causa otra debe justificarse con argumentos, no sólo con el coeficiente de correlación

Correlación = Causa

6

Page 38: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

EL COEFICIENTE DE CORRELACIÓN DE PEARSONEL COEFICIENTE DE CORRELACIÓN DE PEARSON

Según su valor la relación entre las variables será:

1 Perfecta

0,5

0,9

0,8

Excelente

Buena

Regular

Mala

6

Page 39: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

DIAGRAMAS DE DISPERSIÓNDIAGRAMAS DE DISPERSIÓN

Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables

Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como una forma de cuantificar el grado de relación lineal existente entre dos variables

Page 40: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

Page 41: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

Page 42: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

Page 43: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICACOEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA

Page 44: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

DIAGRAMAS DE DISPERSIÓNDIAGRAMAS DE DISPERSIÓN

El DIAGRAMA DE DISPERSIÓN permite formarse una primera impresión sobre el tipo de relación existente entre variables

Intentar cuantificar esa relación tiene inconvenientes porque la relación entre dos variables no siempre es perfecta o nula

Normalmente ni lo uno ni lo otro

Page 45: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

Una vez que sabemos que dos variables están relacionadas…

¿Cómo averiguar qué tipo de relación tienen?

Para esto utilizamos los modelos de regresión

6

MODELOS DE REGRESIÓNMODELOS DE REGRESIÓN

Page 46: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

6

¿QUÉ ES?La regresión como técnica estadística analizala relación de dos o más variables contínuas

¿PARA QUÉ SIRVE?

La regresión se utiliza para inferir datosa partir de otros y hallar una respuesta a lo que pueda suceder

CONCEPTO DE REGRESIÓNCONCEPTO DE REGRESIÓN

Page 47: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VIDIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN:

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

La correlación es independiente de la escala pero no la regresión

EJEMPLOLa correlación entre estatura y peso es la misma sin importar que la estatura se mida en metros o centímetros

SIN EMBARGO…La ecuación de regresión entre el peso y la estatura depende de las unidades que utilicemos

6

Page 48: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VISIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN:

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

La pendiente de la línea de regresión tiene el mismo signo que el coeficiente de correlación

La correlación y la regresión sólo describen relaciones lineales. Si los coeficientes de correlación y las ecuaciones de regresión se calculan a ciegas, sin examinar las gráficas, los investigadores pasarán por alto relaciones muy estrechas pero no lineales

¡OJO!

6

Page 49: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

6

VARIABLES DE LA REGRESIÓNVARIABLES DE LA REGRESIÓN

Las variables del modelo de regresión deben ser cuantitativas

Dada la robustez de la regresión es frecuente encontrar incluidas como variable independiente variables nominales transformadas

La variable dependiente debe ser siempre cuantitativa

Robustez: un estadístico se dice que es robusto cuando es válido aunque no se cumpla alguno de sus supuestos

Page 50: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

TIPOS DE REGRESIÓNTIPOS DE REGRESIÓN

Se pueden encontrar distintos tipos de regresión

Regresión Lineal1

Regresión Múltiple2

Regresión Logística3

Page 51: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEALREGRESIÓN LINEAL

Consideremos una variable aleatoria respuesta Y, relacionada con otra variable que llamaremos explicativa X

Supongamos una muestra de n individuos para los que se conocen los valores de ambas variables

Hacemos una representación gráfica:

en el eje X la variable explicativa en el Y la respuesta

Y Variable aleatoria

X Variable explicativa

n Muestra

Page 52: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEALREGRESIÓN LINEAL

OBJETIVO Encontrar una recta que se ajuste a la nube de puntos

A partir de esa recta podemos usar los valores de X para predecir los de Y

Normalmente se utiliza el “método de los mínimos cuadrados”“método de los mínimos cuadrados” que minimiza la distancia de las observaciones a la recta

Page 53: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VIUna recta tiene una ecuación muy simple:

a

b

Y=a+bX

b

a

es la pendiente de la recta

es el punto en que la recta corta el eje vertical

Habría que calcular los coeficientes a,b.

6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

REPRESENTACIÓN GRÁFICAREPRESENTACIÓN GRÁFICA

Page 54: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

Conociendo los valores de estos dos coeficientes podríamos reproducir la recta y describir con ella la relación entre las variables

Además de representar la recta con su fórmula también es útil disponer de alguna información sobre el grado en que la recta se ajusta a la nube de puntos

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEALREGRESIÓN LINEAL

Page 55: 1234 Guadalupe Ruiz Merino – Curso de Estadística Básica 56 CURSO DE ESTADÍSTICA BÁSICA

1 2 3 4

Guadalupe Ruiz Merino – Curso de Estadística Básica

5 6

VI6

6.1 CORRELACIÓN 6.2 REGRESIÓN LINEAL SIMPLE

BONDAD DEL AJUSTEBONDAD DEL AJUSTE

Una medida de ajuste muy aceptada es el coeficiente coeficiente de determinación Rde determinación R22

Se trata de una medida estandarizada que toma valores entre 0 y 1

Cuadrado del coeficiente de correlación lineal

R2=0.86La recta explica un 86% de la variabilidad de Y en función de X