laboratorio sesión 3 comparaciÓn de dos poblaciones

44
LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Upload: ernesto-castellanos-nunez

Post on 23-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

LABORATORIOSesión 3

COMPARACIÓN DE DOS

POBLACIONES

Page 2: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Motivación

¿Hombres y mujeres tienen el mismo sueldo para el mismo trabajo?

¿Tienen el mismo rendimiento estos autos?

¿Baja la presión arterial con cierto tratamiento ?

Page 3: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

En esta sesión se trabajará con los siguientes datos

La empresa blagapar tiene 48 empleados con un trabajo similar y los sueldos son:

Genero Sueldo Genero Sueldo Genero Sueldo

H 343000 H 315000 M 242000

H 310000 H 336000 M 265000

H 305000 H 324000 M 233000

H 308000 H 290000 M 238000

H 261000 H 363000 M 339000

H 311000 H 280000 M 282000

H 325000 M 242000 M 231000

H 333000 M 311000 M 278000

H 378000 M 303000 M 235000

H 306000 M 247000 M 226000

H 345000 M 269000 M 255000

H 352000 M 232000 M 258000

H 358000 M 192000 M 281000

H 282000 M 319000 M 240000

H 328000 M 259000 M 298000

H 330000 M 293000 M 289000

Page 4: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¿El tratamiento ACME es más eficaz que el otro tratamiento para disminuir la presión arterial?

Presión diastolica

TratamientoPresión

diastolicaTratamiento

Presión diastolica

Tratamiento

10.7 acme 7.6 acme 11.3 otro

10.5 acme 9.1 acme 10.4 otro

9.7 acme 11.7 acme 9.5 otro

10.9 acme 9.7 acme 11.5 otro

10.5 acme 9.2 acme 10.6 otro

10.4 acme 9.4 acme 8.7 otro

8.5 acme 8.0 acme 9.8 otro

9.7 acme 10.3 acme 10.5 otro

8.9 acme 9.0 acme 11.2 otro

9.4 acme 9.7 acme 9.6 otro

9.4 acme 10.8 acme 10.5 otro

10.6 acme 11.1 acme 8.7 otro

9.9 acme 8.2 acme 10.0 otro

10.6 acme 9.5 otro 10.6 otro

10.0 acme 11.5 otro 10.0 otro

9.9 acme 10.6 otro 10.1 otro

Page 5: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

• Si los datos se refieren a toda la población

¿qué proponen hacer para comparar los sueldos de los hombres con los sueldos de las mujeres?

(1) Calcular las medias(1) Calcular las medias

(2) Graficar el boxplot según el (2) Graficar el boxplot según el género y calcular las mediasgénero y calcular las medias

(3)(3) Calcular las varianzasCalcular las varianzas

Elige una de las 3 repuestasElige una de las 3 repuestas

Page 6: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

(2) Graficar el boxplot según el (2) Graficar el boxplot según el género y calcular las medias.género y calcular las medias.

Queremos estudiar las posiciones de las dos Queremos estudiar las posiciones de las dos distribuciones para poder compararlasdistribuciones para poder compararlas

Page 7: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

El Boxplot permite comparar las distribuciones de dos poblaciones

OBSERVAMOS QUE MUCHOS DE LOS SUELDOS DE LOS OBSERVAMOS QUE MUCHOS DE LOS SUELDOS DE LOS HOMBRES ES SUPERIOR A LOS DE LAS MUJERES.HOMBRES ES SUPERIOR A LOS DE LAS MUJERES.

Page 8: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

OTRA MANERA CONSISTE EN:

DESPUES DE ORDENAR LOS SUELDOS DE MENOR A MAYOR OBSERVE COMO SE DISTRIBUYEN LAS POSICIONES (O RANGOS) DE LOS SUELDOS DE LOS HOMBRES Y LOS DE LAS MUJERES

Piense, ¿Cómo deberían encontrarse los rangos de

los hombres con respecto a los de las mujeres, si los sueldos de los hombres no fueran mayores que los de las mujeres?

Page 9: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

• Los rangos deberían

(1) Alternarse entre hombres y mujeres(1) Alternarse entre hombres y mujeres

(2) Repartirse de manera equilibrada(2) Repartirse de manera equilibrada

entre hombres y mujeresentre hombres y mujeres

Elige una de las 2 repuestasElige una de las 2 repuestas

Page 10: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

(2) Repartirse de manera equilibrada(2) Repartirse de manera equilibrada

entre hombres y mujeresentre hombres y mujeres

Ya que, si no hay diferencia notable de sueldos Ya que, si no hay diferencia notable de sueldos entre hombres y mujeres, en un rango cualquiera entre hombres y mujeres, en un rango cualquiera se puede encontrar un hombre o bien una mujer.se puede encontrar un hombre o bien una mujer.

Page 11: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¿Qué les parece la tabla siguiente?Sueldo Genero Sueldo Genero Sueldo Genero

1 192000 M 17 269000 M 33 311000 M 2 226000 M 18 278000 M 34 315000 H 3 231000 M 19 280000 H 35 319000 M 4 232000 M 20 282000 H 36 324000 H 5 233000 M 21 281000 M 37 325000 H 6 235000 M 22 282000 M 38 328000 H 7 238000 M 23 289000 M 39 330000 H 8 240000 M 24 290000 H 40 333000 H 9 242000 M 25 293000 M 41 336000 H

10 242000 M 26 298000 M 42 339000 M 11 247000 M 27 303000 M 43 343000 H 12 255000 M 28 305000 H 44 345000 H 13 258000 M 29 306000 H 45 352000 H 14 259000 M 30 308000 H 46 358000 H 15 261000 H 31 310000 H 47 363000 H 16 265000 M 32 311000 H 48 378000 H

Page 12: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Para simplificar, si tomamos un ejemplo con solo 7 datos:

3 hombres y 4 mujeres dónde los sueldos y los rangos de cada dato vienen dados a continuación:

HombresHombres

265265

310310

330330

MujeresMujeres

220220

240240

260260

300300

RangosRangos

44

66

77

RangosRangos

11

22

33

55

Si los sueldos son similares para los hombres Si los sueldos son similares para los hombres y las mujeres, ¿qué esperarían de los rangos ?y las mujeres, ¿qué esperarían de los rangos ?

Page 13: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

RepuestaRepuesta::

Sacando un rango al azar (entre 1 Sacando un rango al azar (entre 1 y 7), tendría la misma y 7), tendría la misma probabilidad de encontrar un probabilidad de encontrar un hombre o una mujer.hombre o una mujer.

Para ilustrar esto, vamos a considerar los rangos de los Para ilustrar esto, vamos a considerar los rangos de los hombres, ya que son 3 solamente. hombres, ya que son 3 solamente.

Suponiendo que todo los rangos son igualmente posibles Suponiendo que todo los rangos son igualmente posibles construye manualmente la distribución de todas las sumas construye manualmente la distribución de todas las sumas de los rangos para los tres hombres usando todas las de los rangos para los tres hombres usando todas las permutaciones posibles, manualmente o con una planilla permutaciones posibles, manualmente o con una planilla excelexcel

Page 14: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

rangosSum

a rangos Suma

1 2 3 6 2 3 7 12

1 2 4 7 2 4 5 11

1 2 5 8 2 4 6 12

1 2 6 9 2 4 7 13

1 2 7 10 2 5 6 13

1 3 4 8 2 5 7 14

1 3 5 9 2 6 7 15

1 3 6 10 3 4 5 12

1 3 7 11 3 4 6 13

1 4 5 10 3 4 7 14

1 4 6 11 3 5 6 14

1 4 7 12 3 5 7 15

1 5 6 12 3 6 7 16

1 5 7 13 4 5 6 15

1 6 7 14 4 5 7 16

2 3 4 9 4 6 7 17

2 3 5 10 5 6 7 18

2 3 6 11        

NOTAR QUE:Los 3 datos de los hombres pueden

caer en los rangos 1, 2, 3, 4, 5, 6 ó 7.

Cuando un rango es ocupado por un hombre no puede ser ocupado por otro.

En la tabla se observan TODAS las combinaciones

posibles para los rangos y se calcula la suma de ellos.

Page 15: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Podemos observar la distribución de las sumas

de rangos según la tabla anterior con

un histograma

Page 16: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Recordemos el ejemplo que estamos analizando

HombresHombres 265265 310310 330330

RangosRangos 44 66 77

¿Cuál es la suma de los rangos encontrada en ¿Cuál es la suma de los rangos encontrada en el ejemplo y la probabilidad de haber el ejemplo y la probabilidad de haber

encontrado este valor?encontrado este valor?

Page 17: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

La suma de los rangos aquí es 4+6+7 = 17La suma de los rangos aquí es 4+6+7 = 17

Hay =35 permutaciones posibles de 3 rangos Hay =35 permutaciones posibles de 3 rangos

entre los 7. entre los 7.

La probabilidad de obtener un valor al menos igual La probabilidad de obtener un valor al menos igual

a 17 ( ) es entonces 2/35 = 5,7% que representa a 17 ( ) es entonces 2/35 = 5,7% que representa la probabilidad de obtener una suma igual a 17 bajo la probabilidad de obtener una suma igual a 17 bajo la hipótesis de que los sueldos son iguales.la hipótesis de que los sueldos son iguales.

7

3

Piense ¿a qué conclusión lleva este Piense ¿a qué conclusión lleva este resultado?resultado?

17

Page 18: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

• Los resultados para estos 7 datos Los resultados para estos 7 datos muestran suficiente evidencia para muestran suficiente evidencia para decir que:decir que:

1. Los sueldos de las mujeres son 1. Los sueldos de las mujeres son mayores que los de los hombres.mayores que los de los hombres.

2. No hay diferencia entre los sueldos2. No hay diferencia entre los sueldosde hombres y los de mujeres.de hombres y los de mujeres.

3. Los sueldos de los hombres son 3. Los sueldos de los hombres son mayores que los de las mujeres.mayores que los de las mujeres.

Page 19: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

3. Los sueldos de los hombres son 3. Los sueldos de los hombres son mayores que los de las mujeres.mayores que los de las mujeres.

Es poco probable (p=0.057) de obtener esta suma de los Es poco probable (p=0.057) de obtener esta suma de los rangos de los hombres si los sueldos de los hombres y rangos de los hombres si los sueldos de los hombres y de las mujeres fueran distribuidos al azar y además se de las mujeres fueran distribuidos al azar y además se observo que los rangos de los hombres se ven observo que los rangos de los hombres se ven mayores que los de las mujeres.mayores que los de las mujeres.

Page 20: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Test de rangos de Wilcoxon

En la práctica no se puede usar este En la práctica no se puede usar este procedimiento en forma manual.procedimiento en forma manual.

El test de Wilcoxon nos proporciona esta El test de Wilcoxon nos proporciona esta probabilidad en los programas computacionalesprobabilidad en los programas computacionales..

Page 21: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Hipótesis estadísticas y p-valor

El problema de comparación de dos grupos puede formalizarse de la siguiente manera:

1. Se tienen dos hipótesis:

Ho : Los dos grupos son iguales

H1: Los hombres tienen en general mayor sueldo que las mujeres

2. Se define un estadístico para medir la diferencia entre los dos grupos: aquí la suma de los rangos de un grupo (los hombres, por ejemplo).

Page 22: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Hipótesis estadísticas y p-valor

3. Se calcula la probabilidad de obtener la suma de los rangos de los hombres que se obtuvo (17 aquí) si los dos grupos no fueran diferentes (vale 0,057 aquí).

Esta probabilidad se llama p-valor.

4. Se concluye a favor de una hipótesis u otra según el p-valor.– Si el p-valor es pequeño (<5% o 10%) se concluye que la hipótesis H1 es

más plausible.– Si el p-valor es elevado se concluye que no hay evidencia para decir que los

dos grupos son distintos.

5. Veremos más adelante como influye el tamaño de la muestra sobre este resultado.

Page 23: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

• Usaremos ahora los 48 datos de los sueldos

Tome el archivo “sueldos.wrk” y efectue un test de rangos de Wilcoxon.

(1) Los sueldos de los hombres son (1) Los sueldos de los hombres son similares a los de las mujeressimilares a los de las mujeres

(2) Los sueldos de los hombres (2) Los sueldos de los hombres y los de las mujeres son y los de las mujeres son

diferentesdiferentes

Page 24: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

LA CONCLUSIÓN ES:LA CONCLUSIÓN ES:

La suma de los rangos de los sueldos de los hombres La suma de los rangos de los sueldos de los hombres es:es:

T = 768T = 768

El p-valor para hipótesis unilateral es El p-valor para hipótesis unilateral es 0.0000.000

Se concluye que hay suficiente evidencia Se concluye que hay suficiente evidencia para para decir que los hombres tienen, en general, decir que los hombres tienen, en general,

sueldos mayores que las mujeres sueldos mayores que las mujeres

Page 25: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Trabajamos con los rangos de los sueldos en Trabajamos con los rangos de los sueldos en vez de los valores de los sueldos. Esto vez de los valores de los sueldos. Esto

presenta inconvenientes y ventajaspresenta inconvenientes y ventajas

• INCONVENIENTES

(1) Se pierde precisión en el valor del dato

(2) Se pierde la variabilidad de los datos

Elige una de las 2 repuestas

Page 26: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

(1) Se pierde precisión en el valor del dato

Además se pierde la noción de distancia entre dos datos

Datos originalesDatos originales

H: 265; 310; 330H: 265; 310; 330M: 220; 240; 260; 300M: 220; 240; 260; 300

dist(220,240) dist(220,240) ≠dist(260,265)dist(260,265)

RangosRangos

H:H: 4 6 7 M: 1 2 3 5

dist(1,2)= dist(3,4)=1

Page 27: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

VENTAJAS

(1) Los rangos se distribuye normalmente

(2) Los rangos son menos sensibles a los datos atípicos que los datos originales

Elige una de las 2 repuestasElige una de las 2 repuestas

Page 28: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

(2) Los rangos son menos sensibles a los datos atípicos que los datos originales

Por ejemplo, las dos series de datos

18 22 24 25 32 36 39 42y

18 22 24 25 32 36 39 72

producen los mismos rangos

Page 29: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Valores iniciales en vez de los rangos

Sean X el sueldo de una mujer e Y el sueldo de un hombre.

Supongamos que:

),(N~Y

),(N~X222

211

)n/,(N~Y

)n/,(N~X

2222

1211

Page 30: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES
Page 31: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Ahora necesitamos un estadístico para comparar las medias de distribuciones normales

¿Cuál de estos estadísticos nos sirve?

2

21222

211

21

21~

)2/()(

11/)(

nntnnsnsn

nnyx

1,121

22

1

222

21

211

1~

nnFn

n

s

s

)n

σ

n

σ,μ(μN~yx

2

22

1

21

21 (1)

(2)

(3)

Page 32: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Mide cuanto alejados son los centros de las dos distribuciones

NOTA: Proponiendo este estadístico se supone que las varianzas y son iguales

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

(2)(2) 2nn

21222

211

21

21t~

)2nn/()snsn(

n1

n1

/)yx(

Page 33: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Suponiendo las varianzas iguales

Page 34: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Regla de Decisión• Para comparar los sueldos de los hombres y mujeres

tomaremos la hipótesis nula Ho: μ1 - μ2 = 0

• ¿cuál es la hipótesis alternativa que conviene?

(1) H1: μ1 - μ2 > 0

(2) H1: μ1 - μ2 0

(3) H1: μ1 - μ2 < 0

Page 35: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¡¡¡REPUESTA INCORRECTA!!!La repuesta es:

(1) H1: μ1 - μ2 > 0

Los sueldos de los hombres son mayores que los de las mujeres.

Page 36: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

¿Cómo decidir?

Si se cumpleSi se cumple Ho: μ1- μ2=0 Ho: μ1- μ2=0 , se espera tener , se espera tener

pequeñopequeño

y si H1: y si H1: μ1- μ2>0μ1- μ2>0 , ,

no pequeño

El problema es definir cuando podemos decirque la diferencia es pequeña o no

21 xx

021 xx

Page 37: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

O bien

Page 38: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Utilizando el p-valor

Aquí el sueldo promedio de los hombres es 321954 y el de las mujeres es 263730. La diferencia es

58224

El p-valor es la probabilidad que la diferencia de las dos medias sea mayor que 58224 si fuera cierto que la diferencia se debe a fluctuaciones muestrales. O sea,

)0|58224( 2 1 yxprob

Page 39: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Comandos Statit

• Test wilcoxon:

Statisitics=>one and two sample inference

=>rank methods=>wilcoxon test

Variable: sueldos

Test against: by group, variable:género

Page 40: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Comandos Statit

• Test t-student:

Statisitics=>one and two sample inference

=>general=>student’s t

Variable: sueldos

Test: By group variable, variable:género

Page 41: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Otro experimento...

• Un laboratorio farmacéutico elige al azar una muestra de pacientes hipertensos.

• Divide la muestra en dos grupos de manera aleatoria(1 y 2).

• Al grupo 1 le administra el remedio "acme" y al grupo 2 le administra un remedio tradicional.

Page 42: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

La pregunta

¿Es más eficaz el remedio ACME o el remedio tradicional?

En los archivos presion50.xls, presion100.xls y presion1000.xls se encuentran los datos de presión diastólica, grupo y código de grupo para muestras de tamaño 50, 100 y 1000 respectivamente.

Page 43: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

Dependiendo de la muestra encontrada se tendrán diferentes valores de medias para cada grupo, por lo que la diferencia de medias irá cambiando.

Compare con sus compañeros los resultados y responda LA PREGUNTA 2

Page 44: LABORATORIO Sesión 3 COMPARACIÓN DE DOS POBLACIONES

• Envíe su trabajo a :

[email protected],

con X 1, 2, 3 ó 4 según sea su módulo

No olvide ponerle nombre y guardar su archivo con su login (e.g. ajulio.doc)No olvide ponerle nombre y guardar su archivo con su login (e.g. ajulio.doc)