análisis descriptivo y presentación de datos en dos variables · características del coeficiente...

29
Análisis Descriptivo y Presentación de Datos en Dos Variables Análisis de Correlación Lineal y Regresión Lineal SPSS & Excel Prof. Gaspar Torres Rivera Math. 298

Upload: others

Post on 06-Sep-2019

12 views

Category:

Documents


0 download

TRANSCRIPT

Análisis Descriptivo y Presentación de Datos en Dos Variables

Análisis de Correlación Lineal y Regresión LinealSPSS & Excel

Prof. Gaspar Torres RiveraMath. 298

Supuestos:

� La muestra de datos bivariados (x, y) representa una muestra aleatoria� Los pares ordenados provienen de una Distribución Binomial Bivariable, para

cualquier valor fijo de x, los valores correspondientes de y tengan una distribuciónen forma de campana, y que para cualquier valor fijo de y los valores de x tenganuna distribución en forma de campana).

Coeficiente de correlación lineal producto momento de Pearson (Karl Pearson 1857-1936)(rxy) mide la intensidad de la relación lineal entre los valores x y y de una muestra.El valor de “r” siempre está entre -1 y +1. El valor de “r” no cambia si todos los El valor de “r” siempre está entre -1 y +1. El valor de “r” no cambia si todos los valores de cualquier de las variables se convierten a una escala diferente. No es un problema de causa-efecto. Existen modelos de correlación no lineal:

� Cuadráticas� Exponencial� Logarítmicas� Trigonométricas, entre otras

Tipo de correlación� Negativa� Positiva� Cero

Magnitud de la correlación (+/-)

� Alta 0.85-0.99� Moderada 0.50-0.84� Baja 0.00-0.49

( ) ( )[ ] ( ) ( )[ ]))(()(∑ ∑∑−

=yxxyn

r( ) ( )[ ] ( ) ( )[ ]2222

∑∑∑∑

∑ ∑∑

−−=

yynxxnrxy

Propiedades del coeficiente de correlación lineal r

� El valor de r está entre -1 y +1. Incluye a los valores -1 y +1.

� La relación de las variables es directa y lineal.

� Las variables tienen que estar en términos de intervalo/razón.

� El valor de r no cambia si todos los valores de cualquiera de las variablesse convierten a una escala diferente.

� El valor de r no cambia si escogemos x o y.

yxxy rr =� El valor de r no cambia si escogemos x o y.

� Concepto de normalidad

Errores comunes respecto a la correlación

� Debemos tener cuidado de evitar concluir que la correlación implica causalidad.

� Otra fuente de error potencial son los datos basados en tasas o promedios.

� Un tercer error tiene que ver con la propiedad linear (Otras correlaciones)

Características del coeficiente de correlación line al r

� En las variables correlacionadas, éstas no son identificadas como independiente o dependiente porque el investigador mide una relación entre dos variables.

� La causalidad no implica correlación. Ex. Núm. nacimiento de bebés y el número de cigüeñas.

� El coeficiente de correlación lineal es medido en relaciones lineales.� La correlación tiene dos componentes: fortaleza y dirección.� Una correlación de cero (0) no es un indicador de no relación.

yxxy rr = yxxy

Ejemplos de casos de correlación:

� Si la dosis de Heparin aumenta, entonces el “Partial Thronboplain Time (PTT)” aumenta.

� Si el nivel de oxígeno atmosférico disminuye, entonces el nivel de hemoglobina de la sangre aumenta.

� Si el nivel de concentración de aspirina aumenta, entonces la agregación de “platolet” disminuye.

� Al aumentar la dosis de “Dopamine Hydrochloride”, tiende aumentar el nivel de presión sanguínea del paciente.

Ejemplo #1

Los datos que siguen pertenecen al residuo de Cl (partes por millón) que hay en una piscina en diversos momentos después de que se ha tratado con sustancias químicas.El tiempo de tratamiento se mide en términos de horas.

Observación X (horas) Y Residuo Cl (ppm)

X2 Y2 X Y

1 2 1.8

2 4 1.52 4 1.5

3 6 1.4

4 8 1.1

5 10 0.9

Σ x = Σ y = Σ x2 = Σ y2 = Σ x y =

Conteste las siguientes:

� Calcular

∑ ∑

∑ ∑

==⋅

=

=

22

nyx

yx

yx

∑ ∑

==

==⋅

22 )()( yx

nyx

� Calcular el coeficiente de correlación lineal de Pearson ( )xyr

� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.

� Calcular los promedios y las desviaciones estándar yx ssyx ,,,

Magnitud de la correlación (+/-)

� Alta 0.85-0.99� Moderada 0.50-0.84� Baja 0.00-0.49

( ) ( )[ ] ( ) ( )[ ]2222

))(()(

∑∑∑∑

∑ ∑∑

−−

−=

yynxxn

yxxynrxy

99.09918.0 −≈−=xyr

( ) ( )[ ] ( ) ( )[ ]∑∑∑∑ −− yynxxn

Correlations

1.000 -.992**

. .001

5 5

-.992** 1.000

.001 .

5 5

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

tiempo de tratamiento

residuo de Cloro

tiempo detratamiento

residuode Cloro

Correlation is significant at the 0.01 level (2-tailed).**.

Diagrama de Dispersión

Es una gráfica de datos (x ,y) pareados con un eje de x (horizontal) y un eje de y vertical.

Nota:

00.1+== yyxx rr

EjemploSuponer que los siguientes datos representan a pacientes con “emphysema” conlas variables: núm. de años que el paciente está fumando e inhalando y el el porcentaje de disminución en la capacidad pulmonar (%).

Paciente Tiempo fumando (años)

Disminución Capacidad

Pulmonar (%) 1 25 55 2 36 60 3 22 50 4 15 30 4 15 30 5 48 75 6 39 70 7 42 70 8 31 55 9 28 30 10 33 35

Conteste las siguientes:

� Calcular

∑ ∑

∑ ∑

==⋅

=

=

22

nyx

yx

yx

∑ ∑

==

==⋅

22 )()( yx

nyx

� Calcular el coeficiente de correlación lineal de Pearson ( )xyr

� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.

� Calcular los promedios y las desviaciones estándar yx ssyx ,,,

( ) ( )[ ] ( ) ( )[ ]( ) ( )( )

( ) ( )[ ] ( ) ( )[ ]

[ ][ ] [ ][ ]114801148011480

53030600103191105310

5303191805510

))(())(

22

2222

===

=−−

=−−

−=

∑∑∑∑

∑ ∑∑

yynxxn

yxxynrxy

[ ][ ] [ ][ ]

774.083.14835

11480

22010190011480

25100876911480

28090030600010176111053011480

≈=

===−−

Por lo tanto existe correlación lineal moderada positiva entre el tiempo que lleva Fumando y la disminución de la capacidad pulmonar de los pacientes con“emphysema”

Ejemplo

En el artículo “A Multistate Analysis of Active Life Expectancy”, dos de las variables estudiadas fueron la edad actual de un paciente y su expectativade vida (tiempo restante por vivir).

Paciente Edad (años) Expectativa de vida (años)

1 83 6.2 2 65 16.4 2 65 16.4 3 67 15.2 4 69 13.6 5 71 12.2 6 73 11.2 7 75 10.2 8 77 9.1 9 79 8.4 10 81 7.2

( ) ( )[ ] ( ) ( )[ ]( ) ( )( )

( ) ( )[ ] ( ) ( )[ ]7.10994.1306107405509010

7.1097407.793310

))(())(

22

2222

=−−

=−−

−=

∑∑∑∑

∑ ∑∑

yynxxn

yxxynrxy

( ) ( )[ ] ( ) ( )[ ]

[ ][ ] 996.038.1848

18413416523

184131.10353300

1841

7.10994.1306107405509010

−=−=−=−

−−

Por lo tanto existe correlación lineal alta negativa entre la edad y la expectativa dede vida de los pacientes.

Conteste las siguientes:

� Calcular

∑ ∑

∑ ∑

==⋅

=

=

22

nyx

yx

yx

∑ ∑

==

==⋅

22 )()( yx

nyx

� Calcular el coeficiente de correlación lineal de Pearson ( )xyr

� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.

� Calcular los promedios y las desviaciones estándar yx ssyx ,,,

Caso Calidad Educación

Calidad de Vida

A 10 10 B 13 12 C 18 15 D 20 18 E 15 10 F 11 9

Ejemplo:

F 11 9 G 12 11 H 6 8 I 9 13 J 8 5

Calidad Educativa (1=Bajo a 20=Alto)Calidad de Vida (Escala que incluye salud, tasa de desempleo, entre otras)

Conteste las siguientes:

� Calcular

∑ ∑

∑ ∑

==⋅

=

=

22

nyx

yx

yx

∑ ∑

==

==⋅

22 )()( yx

nyx

� Calcular el coeficiente de correlación lineal de Pearson ( )xyr

� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.

� Calcular los promedios y las desviaciones estándar yx ssyx ,,,

Caso Edad (años) Núm. de respuestas irrelevantes

A 2 12 B 4 13 C 5 9 D 6 7

Ejemplo: Un psicólogo experimental asevera que mientras más grande(cronológicamente) sea un niño, las respuestas de éste en un experimentocontrolado son menos irrelevantes. Para investigar su afirmación se reunieronlos siguientes datos:

D 6 7 E 6 12 F 7 8 G 9 6 H 9 9 I 10 7 J 12 5

Conteste las siguientes:

� Calcular

∑ ∑

∑ ∑

==⋅

=

=

22

nyx

yx

yx

∑ ∑

==

==⋅

22 )()( yx

nyx

� Calcular el coeficiente de correlación lineal de Pearson ( )xyr

� ¿Existe correlación lineal entre las variables independiente y dependiente?Explique el modelo de predicción.

� Calcular los promedios y las desviaciones estándar yx ssyx ,,,

Regresión Lineal

El análisis de regresión lineal busca la ecuación de la recta que describe mejor la relación entre las dos variables. Una aplicación de esta ecuación es hacer predicciones. � Predecir el éxito que tendrá un estudiante en la universidad a base de los resultados que obtuvo en los estudios secundarios.

La relación entre estas dos variables es una expresión algebraica que describe la relación matemática entre las dos variables. la relación matemática entre las dos variables.

Ejemplos de Modelos o Ecuaciones de Predicción:� Lineal� Cuadrática� Exponencial� Logarítmica� Otras

Si un modelo de línea recta parece idóneo, entonces la recta de mejor ajuste se encuentra aplicando el Método de Mínimo de Cuadrados.

La ecuación de la recta de mejor ajuste es determinada por su pendiente (B) y su ordenada (A).

( ) ( )( )( ) ( )

( )n

xByA

xxn

yxxynBdondexBAy

∑∑

∑∑

∑∑∑

−=

−=⋅+=

∧,22

B es la pendiente de la recta de regresión lineal y A es el intercepto de “y” o B es la pendiente de la recta de regresión lineal y A es el intercepto de “y” o corte del eje de “y” por la recta.

Al hacer predicciones a base de la recta de mejor ajuste, es necesario observar las siguientes propiedades:� La ecuación debe usarse para hacer predicciones sólo acerca de la población de la cual se extrajo la muestra.� La ecuación debe usarse sólo dentro del dominio muestral de la variable de entrada. � Si la muestra fue medida en el año 1994, no espere que los resultados sean válidos para 1929 o 2040.

OLS: Método de los Mínimos Cuadrados

� En los modelos siguientes los errores describen los efectos de todos los factores no considerados.

� Tienen una media de 0 y varianza constante.� Normalidad, independencia y linealidad (supuestos matemáticos y significancia

de la regresión.� Residuales son las discrepancias entre el modelo y los datos empíricos que

pretenden ajustar al mismo.

"outliers"deDetección

� es el porcentaje de varianza de la variable dependiente que es explicado (contexto experimental) o compartido por las variables. No es causa-efecto.

xBAajustemejordectaRe

exBAyMuestra

xyPoblación

y +=

++=++=

εβα

( )100R2

( )( )

x

2i

i

2i

'ii

sxx

D:)SPSS(sMahalanobideciatanDis

,0N~EdondeyyE

"outliers"deDetección

−=

=−= σµ

OLS: Método de los Mínimos Cuadrados

� ( )( )( )∑

∑−−

= 2

2/2

2

yy

yyR

totaliaciónvaralicadaexpiaciónvarderazónlaes100R

Ejemplos

� Construir la ecuación de regresión lineal para cada ejemplo dado en clase.

� Construir el Diagrama de Dispersión para cada ejemplo dado en clase.

� Trazar la recta de mejor ajuste sobre el Diagrama de Dispersión para cada ejemplo dado en clase. Utiliza el programa de computadoras Excel.

Intercepto de “y” (Corte en el eje de y)

( )ppm

n

xByA 2=

−= ∑∑

Pendiente de la recta de mejor ajuste

( ) ( )( )( ) ( ) 11.022

−=−

−=

∑∑

∑∑∑xxn

yxxynB ( ) ( )2 − ∑∑ xxn

Ecuación de Regresión Lineal

( )xy

xy

xBAy

11.02

11.02

−=

−+=

⋅+=

( )

( ) ppmxy

ppmxy

90.01011.0211.02

78.1211.0211.02

=−=−=

=−=−=

Valores Esperados o Teóricos (y)

( )( )90.0,10

78.1,2

Pares ordenados

Model Summary

.992a .984 .978 5.164E-02Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), tiempo de tratamientoa.

Coefficients a

Unstandardized

Standardized

Coefficien

ANOVAb

.484 1 .484 181.500 .001a

8.000E-03 3 2.667E-03

.492 4

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), tiempo de tratamientoa.

Dependent Variable: residuo de Clorob.

2.000 .054 36.927 .000

-.110 .008 -.992 -13.472 .001

(Constant)

tiempo de tratamiento

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Coefficients

t Sig.

Dependent Variable: residuo de Cloroa.

Relación entre el tiempo de tratamiento de la pisci na y el residuo de Cl después de diversos momentos

y = -0.11x + 21.0

1.2

1.4

1.6

1.8

2.0

Res

iduo

de

Cl

y = -0.11x + 2

R 2 = 0.9837

0.0

0.2

0.4

0.6

0.8

1.0

0 2 4 6 8 10 12

Tiempo (horas)

Res

iduo

de

Cl

Residuo de Cl Lineal (Residuo de Cl)

¿Qué significa B?

Ex. Un análisis de regresión lineal relaciona el peso en libras y la estatura en pulgadas muestra la ecuación:

xy 50.130 +−=∧

Esto indica que si la estatura de un paciente es aumentadapor 1 pulgada, el peso promedio esperado es aumentado por5 libras o sea la razón 1:5.

¿Qué significa A?

)Md(Incomexand)average(Tuition

;Income0719.00.119

y

y

==

∗+=∧