laboratorio de estadÍstica sesión 4 contingencia, anova y correlación

49
LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Upload: paulino-chica

Post on 23-Jan-2016

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

LABORATORIO DE ESTADÍSTICA

Sesión 4

Contingencia, Anova y correlación

Page 2: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

EXPERIENCIA 1

Estudio de una tabla de contingencia

Page 3: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

¿En qué se parecen estas interrogantes?

¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?

¿Depende del colegio de egreso el puntaje obtenido en la PSU?

¿Depende del sexo la marca de cigarrillo escogida?

Page 4: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Las preguntas involucran

Una variable

2 variables

Más de dos variables

Para seleccionar su repuesta identifique las variables y la o las poblaciones estudiadas.

Page 5: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA Hay dos variables en cada problema

¿Depende de la carrera estudiada el nivel de ingreso ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?percibido por los profesionales? El ingreso y la carrera profesional

¿Depende del colegio de egreso el puntaje obtenido ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?en la prueba de aptitud? El puntaje de la PSU y el colegio

¿Depende del sexo la marca de cigarrillo escogida?¿Depende del sexo la marca de cigarrillo escogida? La marca de cigarrillo y el sexo

Page 6: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

La La preguntapregunta que se quiere que se quiere contestar en cada caso escontestar en cada caso es

¿Las variables siguen una distribución normal?

¿La muestra es representativa de la población? ¿Las variables son independientes ó

dependientes?

Para seleccionar su repuesta identifique el tipo y el número de variables de interés.

Page 7: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA Se busca saber si hay o hay una relación entre las dos

variables en cada problema ¿Depende de la carrera estudiada el nivel de ingreso percibido por

los profesionales? ¿El ingreso depende de la carrera profesional?

¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud? ¿El puntaje de la PSU depende del colegio donde se estudio?

¿Depende del sexo la marca de cigarrillo escogida? ¿Los hombres o las mujeres tienen una preferencia para una marca de

cigarrillo?

Page 8: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Una empresa que realiza estudios de mercado decide realizar un estudio que le permitirá decidir el nombre de marca a unos nuevos cigarrillos que serán comercializados.

En la encuesta realizada sobre una muestra aleatoria se pide a los encuestados que clasifica cada uno de los 5 nombres:

Alezan; Corsario; Fontenoy; Icaro y Zodiaco.

con una de las 8 categorías

Cuico; Sobrio; Ridículo; Con clase; Distinguido; Vulgar; Masculino; Femenino.

Page 9: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Pregunta a responder en esta experiencia:

¿Depende del nombre propuesto a la nueva marca de cigarrillos la característica asociada

por los posibles consumidores?

Page 10: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Tabla de Contingencia

Aquí tenemos dos variables X e Y nominales.

Construiremos la tabla de contingencia

asociada a los datos muestrales, que es la distribución conjunta de frecuencias absolutas

no acumuladas

Page 11: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Tabla de datos muestrales

2 variables nominales

X : p categorías (A1,A2,...,Ap)

Y : q categorías (B1,B2,...,Bq)

Las respuestas (Xk,Yk) del

encuestado k son del tipo (Ai ,Bj )

Encuestado X Y

1 A3 B5

2 A1 B4

... ... ...

... ... ...

n A2 B1

Tabla 1

Page 12: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Tabla de contingencia

Mij :CANTIDAD DE RESPUESTAS (Ai ,Bj)

p Categorías

q Categor

Í

a

s

A1 A2 . . . Aj . . . . . ApTotal

B1 M11 M12 M1.

B2 M2.

.

.

Mij

Bi

Bq Mq1 Mq.

Total M.1 n

Page 13: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

¿Qué sucede al pasar de la Tabla 1 de los datos a la tabla de contingencia?

Se pierde solamente la identificación de cada encuestado

Se distorsiona la relación entre las dos variables

Se supone un tipo de distribución sobre las dos variables

Elige una de las 3 repuestas

Page 14: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

Se pierde solamente la identificación de cada encuestado

En efecto como el número de alternativas de repuestas de X o Y es finito podríamos reconstruir la Tabla 1 a partir de la tabla de contingencia. Lo que no podemos recuperar es el nombre del encuestado para cada repuesta.

Page 15: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

La tabla de contingencia permite estimar la distribución de probabilidad de:

X+Y X (X,Y)

Elige una de las 3 repuestas

Page 16: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es

La distribución conjunta de (X,Y) En efecto las proporciones Mij/n, que son las

frecuencias relativas de encuestados que contestaron (Ai, Bj), estiman las probabilidades de la distribución conjunta

)( jiij yYxXPP

Page 17: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

¿Cómo podemos concluir sobre la independencia de X e Y a partir de las frecuencias observadas Mij?

Si X e Y son independientes, las probabilidades Pij cumplen:

• 1

• 2 las probabilidades Pij son todas iguales

)()( jiij yYPxXPP

Page 18: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es

En efecto la distribución conjunta es el producto de las distribuciones marginales cuando hay independencia

)()( jiij yYPxXPP

Page 19: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Tenemos entonces que estimar las

probabilidades Pij bajo la hipótesis nula Ho de independencia:

con

)y(YP)x(XPP jiHij

o ˆˆˆ

n

MyYP

n

MxXP

jj

ii

)(ˆ

)(ˆ

Page 20: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

¿Cuantos parámetros se tienen que estimar para obtener las probabilidades ?

p*q parámetros

p+q-2 parámetros

p+q parámetros

oHijP̂

Page 21: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta esp+q-2 parámetros

En efecto hay p parámetros para las categorías de X, pero basta estimar P(X=A1), P(X=A2), ..., P(X=Ap-1) y deducir la estimación de P(X=Ap) de manera que las probabilidades suman 1. Es decir son p-1 estimaciones y q-1 para la variable Y.

Page 22: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

TEST

Consideramos las dos hipótesis: H0: X e Y son independientes

H1: X e Y tienen algún grado de dependencia

El estadístico del Test es:

2

2)1q)(1p(

ji

2

jiij

~

n

MMn

MMM

Q

Page 23: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Si Qo es el valor observado en la muestra, se rechaza Ho si

1

2

3

500211 .)( ))(( oqp QP

010211 .)( ))(( oqp QP

01211 .)( ))(( oqp QP

Page 24: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es 2

En efecto si el valor Qo encontrado en la muestra es muy improbable cuando X e Y son independientes, podemos esperar que las variables tengan algún tendencia a relacionarse.

010211 .)( ))(( oqp QP

Page 25: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Comandos StatitTrabajaremos con el archivo: "Cigarros.wrk”, el cual contiene la encuesta de mercado la cual recolectó 698 opiniones.

Realiza el test de tabla de contingencia con Statit:Statistics:

Enumerative Data

Contingency Data

Analyse of Independence

Raw variable: ”Percepcion”;

Column variable: “Marca”

Layout of Table: Display Column Percentage

Page 26: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Concluye si tenemos suficiente evidencia para rechazar que la marca es independiente de la percepción

Se rechaza la independencia

Se acepta la independencia

Page 27: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es

Se rechaza la independencia

En efecto el p-valor se obtiene de la tabla

Statistic DF Value Prob

Chi-Square 28 394.706 0.000

0000796394247 .).( xP

Page 28: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Veamos ahora si podemos definir una relación entre la marca y su percepción:

Examine la tabla de contingencia, y

responda la pregunta 1 del test

Page 29: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

EXPERIENCIA 2

Anova de un factor

Page 30: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Búsqueda de una droga para controlar el pulso de pacientes

Ahora estamos interesados en comparar tratamientos para bajar el pulso

Se mide el pulso de pacientes después del tratamiento A, B o C

Paciente A B C1 76 81 772 73 83 743 73 82 75 . . . . . . . . . . . . . . . .

Tratamiento

Page 31: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Procedimientos

Se calcularán algunos estadísticos para comparar las distribuciones del pulso de los 3 tratamientos

Las medias y varianzas por grupo

Se graficará un Box plot para comparar las distribuciones del pulso de los 3 tratamientos

Page 32: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Comandos Statit

Abra el archivo “pulso1.wkr”

StatisticsStatisticsDescriptive toolsDescriptive tools

Multi-way Univariate Statistics:Multi-way Univariate Statistics:Analysis Variable: “pulso”; Analysis Variable: “pulso”;

Class Variable: “Tratamiento”Class Variable: “Tratamiento”

Statistics: Statistics: Mean y Mean y Standard Desviation Standard Desviation

Layout of Table: Layout of Table: Display a summary Display a summary tabletable......

Page 33: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Comandos Statit

Para la realizacion del gráfico: En Statit con el archivo “pulso1.wkr”:

GraphicsDistribution Plots

Box Plot: Variables: “pulso”; DisplayBox: “By group”;

Group variable: “Tratamiento”

Examine los estadísticos y el gráfico. Responde a la pregunta 2 del test

Page 34: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

• Para confirmar las conclusiones anteriores se propone hacer un test para rechazar la hipótesis:

Las varianzas del pulso en los 3 grupos son iguales

Las medias del pulso en los 3 grupos son

iguales La media del tratamiento C es el promedio de las

medias de los tratamientos A y B

Elige una de las 3 repuestas

Page 35: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es

Las medias del pulso en los 3 grupos son

iguales

En efecto es lo primero que se pregunta. Después se puede ver las otras preguntas..

Page 36: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

ANOVAANOVA

Consideramos las dos hipótesis H0: μ1=μ2=μ3

H1: las medias no son iguales

Para probar una u otra hipótesis vamos a comparar las varianzas de las medias con las varianzas de los 3 grupos

Page 37: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Varianza para el tratamiento j:

Varianza promedio de los 3 grupos:

Varianza de las 3 medias:

Varianza Total:

1,2,3)(j s2j

jn

ijij

j

xxn 1

21)(

3

1

2

jj

j sn

nw

3

1

2

jj

j xxn

nb )(

3

1 1

2

j

n

iij

j

xx )(T

Page 38: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

03

02

01

1

T

w

b

Ho

32

)(

)(

)(

:

Entonces, elige una de las 3 repuestas

Page 39: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es (1) b=0

Además T=w+b Si q es el numero de grupos, el estadístico

del test es::

qn,1qF~)qn/(w

)1q/(bF

Page 40: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Para rechazar la hipótesis nula, se espera

un estadístico F

Grande Chico

Page 41: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es Grande

Ya que si la hipótesis nula es cierta b=0. Un valor de F grande aleja de la hipótesis nula. .

Page 42: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Comandos Statit

En Statit:En Statit:Statistics Statistics ANOVAANOVA

OneWayOneWayDependente Variable: ”Pulso”; Dependente Variable: ”Pulso”; Classification Variable: Classification Variable:

“Tratamiento”“Tratamiento” Examine los resultados y concluya sobre la

hipótesis nula de igualdad de la medias.

Page 43: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

LA RAZÓN DE CORRELACIÓNLA RAZÓN DE CORRELACIÓN

Utilizando el hecho que T=b+w, se construye Un índice llamado razón de correlación

2=b/T

Que vale 1 cuando w=0 0 cuando b=0

Utilizando la tabla ANOVA calcule este índice y responda el test

Page 44: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

EXPERIENCIA 3

Coeficiente de correlación

Page 45: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Se busca estudiar la relación Se busca estudiar la relación entre el peso y la talla de un entre el peso y la talla de un grupo de niñasgrupo de niñas Queremos estudiar el

efecto de la edad sobre la relación entre el peso y la talla de las niñas

Niña Edad Peso Talla1 4 1456 10252 5 1635 10823 6 1800 1132 . . . . . . . . . . . . . . . .

Variables

Page 46: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Si {(xi, yi)|i=1,2,...,n} son los pesos y tallas de las niñas, el coeficiente de correlación lineal se escribe:

Si r=1 X e Y son independientes X e Y son linealmente dependientes

n

1i

2i

n

1i

2i

n

1iii

)yy()xx(

)yy)(xx(r

Page 47: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

RESPUESTA INCORRECTA

La repuesta es X e Y son linealmente dependientes

En efecto, utilizando la desigualdad de Schwarz, se tiene r=1 cuando se alcanza la igualdad, lo que corresponde a la colinealidad de los n puntos

Además si r=-1, se tiene colinealidad también pero de signo negativo. Es decir que en este caso, si X crece, Y decrece.

Page 48: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Con los datos “Sempe1.wkr”, calcule el coeficiente de correlación entre el peso y la talla

En Statit:En Statit: StatisticsStatistics Regresion and CorrelationRegresion and Correlation

Correlation coefficienteCorrelation coefficiente

Variables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Observe el valor y el signo del Coeficiente de

correlación

Page 49: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

El calculo anterior fue considerando todas las edades juntas

Repetimos el calculo del coeficiente para una edad dada: por ejemplo 10 u otra

En Statit:En Statit: Statistics Statistics Regresion and CorrelationRegresion and Correlation

Correlation coefficientesCorrelation coefficientesVariables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Local selection: edad==10Local selection: edad==10

Responda el test