estimaciÓn y decisiÓn. comparaciÓn de un ...sites.google.com/site/vararey/trabajo3dad1sol.pdf1994...

14
1 DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA I ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN VALOR OBSERVADO Y OTRO TEÓRICO. Problema 1.- Los datos del fichero migración hacen referencia a una investigación realizada en 1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables hemos entresacado las visualizadas en el fichero. 1.- Deseamos hacer una estimación del valor poblacional de la depresión. ¿Entre qué niveles se encuentran el 95% de los sujetos en la población?¿Y entre el 99%?¿Qué diferencia existen entre operar al 95% y el 99%? Ventajas e inconvenientes. 2.- ¿Si nos preguntaran si la media en depresión en la población está en 17 puntos, qué diríamos? ¿Y si nos preguntaran si está en 20 puntos? Hacerlo mediante el intervalo de confianza y mediante la prueba del contraste de hipótesis. 3.- A partir de esta muestra realizar una estimación de la proporción de mujeres emigrantes. Estimar igualmente la proporción de hombres emigrantes. Trabajar para un nivel de confianza del 95%. 4.- Queremos hacer una estimación de los valores poblacionales en depresión pero para las distintas nacionalidades. ¿En base a estos datos, podemos considerar que todas las nacionalidades son igualmente depresivas? Qué diferencias observas?. Compruébalo también gráficamente.

Upload: others

Post on 18-Apr-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

1

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA I

ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN VALOR OBSERVADO Y OTRO TEÓRICO.

Problema 1.- Los datos del fichero migración hacen referencia a una investigación realizada en 1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables hemos entresacado las visualizadas en el fichero. 1.- Deseamos hacer una estimación del valor poblacional de la depresión. ¿Entre qué niveles se encuentran el 95% de los sujetos en la población?¿Y entre el 99%?¿Qué diferencia existen entre operar al 95% y el 99%? Ventajas e inconvenientes. 2.- ¿Si nos preguntaran si la media en depresión en la población está en 17 puntos, qué diríamos? ¿Y si nos preguntaran si está en 20 puntos? Hacerlo mediante el intervalo de confianza y mediante la prueba del contraste de hipótesis. 3.- A partir de esta muestra realizar una estimación de la proporción de mujeres emigrantes. Estimar igualmente la proporción de hombres emigrantes. Trabajar para un nivel de confianza del 95%. 4.- Queremos hacer una estimación de los valores poblacionales en depresión pero para las distintas nacionalidades. ¿En base a estos datos, podemos considerar que todas las nacionalidades son igualmente depresivas? Qué diferencias observas?. Compruébalo también gráficamente.

Page 2: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

2

1.- Deseamos hacer una estimación del valor poblacional de la depresión. ¿Entre qué niveles se encuentran el 95% de los sujetos en la población?¿Y entre el 99%?¿Qué diferencia existen entre operar al 95% y el 99%? Ventajas e inconvenientes. SOL: Vayamos a Descriptivos/Explorar:

Introducimos la variable depresión:

Damos a Aceptar. Ya, sin más, seleccionamos en los resultados la parte descriptiva:

Page 3: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

3

Por defecto el programa nos ofrece el intervalo de confianza del 95%. Tenemos pues, una probabilidad de 0.95 que la media en depresión en la población oscile entre 16.39 y 19.14 puntos. Si nos interesa al 99%, entonces en Estadísticos, le indicamos al 99%:

El resultado:

Page 4: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

4

Se observa que en este caso el intervalo es más amplio. Tenemos menos precisión en la estimación, pero a cambio sólo nos equivocamos un 1%, mientras que en caso anterior era del 5%, pero la precisión era mejor. Esa es la cuestión, si quieres precisión (ventaja) aumentas tu posible error (desventaja), y si quieres cometer menos errores (ventaja) aumentarás tu intervalo (desventaja). Por ejemplo, si quisiéramos acertar al 100%, el intervalo sería infinito (en términos estrictamente matemáticos), ya que la curva es asintótica, con lo cual no llegaríamos a ninguna parte. Estaríamos totalmente seguros que la depresión podría tener cualquier valor. ¡Obviamente!. 2.- ¿Si nos preguntaran si la media en depresión en la población está en 17 puntos, qué diríamos? ¿Y si nos preguntaran si está en 20 puntos? Hacerlo mediante el intervalo de confianza y mediante la prueba del contraste de hipótesis. SOL: De forma indirecta ya hemos respondido a esta cuestión en la pregunta anterior, puesto que hemos operado con los intervalos de confianza. En relación al valor 17, se encuentra dentro, tanto en el intervalo del 95% como en el del 99%, así que para ese caso podemos afirmar a esos niveles que el valor poblacional podría ser 17 puntos. En relación a 20 puntos, no se encuentra en el interior de ninguno de los intervalos, luego a esos niveles podemos afirmar que no se encuentra, es decir, es poco probable (menor del 1%) que el valor poblacional en depresión sea de 20 puntos o más. Diremos que la media obtenida de 17.76 no procede de una población con media de 20, con un riesgo de equivocarnos menor del 1%, porque esa probabilidad es la que tendríamos que ocurriera por azar. En lo que hace referencia al contraste de hipótesis, se trata de comprobar la probabilidad de que una media de 17.76 proceda de una población de media 17 puntos. A este respecto, calculamos el número de desviaciones tipo que se encuentra 17.76 de 17 y calculamos su probabilidad asociada. Para ello:

Page 5: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

5

Los resultados:

Se observa que 17.76 se encuentra a 1.094 desviaciones tipo de 17 y que la probabilidad asociada es de 0.276. Como esta probabilidad es mayor de 0.05, aceptamos la hipótesis que una muestra con una media de 17.76 proceda de una población con media 17. Para verlo más claramente lo podemos hacer a mano:

𝑍 =𝑋� − 𝜇𝜎𝑋�

=𝑋� − 𝜇𝜎𝑋√𝑁

=17.763 − 17

9.17443√173

= 1.094

Buscamos el área en la tabla de Z. Redondeamos para 1.1, y el valor es 0.3643. Como se trata del área de esa puntuación a la media, la parte que queda por encima será: 0.5 - 0.3643 = 0.1357. Como

Page 6: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

6

se trata de una prueba bilateral: 2*0.1357 = 0.2714. Aproximadamente, el valor que ofrece el SPSS. También podemos hacerlo recurriendo a las tablas on-line. Marcamos en el círculo que nos indican las áreas fuera de ±Z:

Casi el valor que hemos obtenido en SPSS. Si queremos ser más precisos hemos de recurrir a las tablas de la t de Student, cuyo significado es exactamente el mismo que el de Z (número de desviaciones tipo de un valor a la media), pero que sirve para cualquier tamaño de muestras, grandes y chicas, mientras que el valor de Z se refiere a muestras grandes, que es cuando la distribución es exactamente normal. En nuestro caso es prácticamente normal, porque se suele considerar (más o menos) normal a partir de 30 observaciones. Con las nuevas tablas de t de Student, para N-1 =172 grados de libertad (d.f.: degree of freedom)

El valor de probabilidad ya coincide con el del SPSS. Hacemos doble clic en el valor de probabilidad (Sig. (bilateral)):

Page 7: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

7

En relación a la cuestión si el valor de depresión en la población puede ser 20 puntos:

El resultado:

En este caso, la probabilidad asociada al valor de t = -3.207 es 0.002 < 0.05, luego concluimos que 17.76 no procede de una población con una media de 20 puntos. En este caso, la probabilidad de equivocarnos al tomar tal decisión es 0.002. Si la queremos más exactamente:

Page 8: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

8

A efectos de comprobación, hacemos los cálculos a mano:

𝑍 =𝑋� − 𝜇𝜎𝑋�

=𝑋� − 𝜇𝜎𝑋√𝑁

=17.763 − 20

9.17443√173

= −3.207

Vamos a las tablas de Z para un valor de 3.2 y la probabilidad correspondientes es 0.4993, luego la parte de la derecha valdrá 0.5 - 0.4993 = 0.0007. Como es bilateral: 2*0.0007 = 0.0014. Sale cercano, aunque no exactamente igual porque la distribución es la t de Student. Lo hacemos on-line:

Valor exacto. 3.- A partir de esta muestra realizar una estimación de la proporción de mujeres emigrantes. Estimar igualmente la proporción de hombres emigrantes. Trabajar para un nivel de confianza del 95%. SOL: Se demuestra que las proporciones son un caso particular de las medias cuando la codificación es dummy (0 y 1). En concreto, es la proporción de “unos”. En este caso, sólo tenemos que ir a Descriptivos/Explorar y selecciona el género:

Page 9: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

9

Los resultados:

La proporción de mujeres en esta muestra es de 0.474 y podemos afirmar con una probabilidad de 0.95 que a nivel poblacional se encontrará entre 0.3988 y 0.5491.

Page 10: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

10

Si lo queremos hacer con hombres, trabajamos con el complementario, entonces afirmaremos que la proporción es 0.520 y que oscilará a nivel poblacional entre 0.4509 y 0.6012. También cambiando la codificación de los datos y asignando 1 a los hombres y 0 a las mujeres:

Y ahora, el resultado:

Page 11: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

11

4.- Queremos hacer una estimación de los valores poblacionales en depresión pero para las distintas nacionalidades. ¿En base a estos datos, podemos considerar que todas las nacionalidades son igualmente depresivas? ¿Qué diferencias observas? Compruébalo también gráficamente. SOL: Vayamos a Explorar y calculemos los intervalos de confianza para las distintas nacionalidades. Aquellas nacionalidades que tengan valores solapados en sus intervalos podrían compartir el mismo valor poblacional, por el contrario, para intervalos mutuamente excluyentes, que no comparten ningún valor podremos considerarlos como poblaciones diferentes.

Page 12: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

12

El resultado:

Senegaleses y filipinos comparten valores, luego pueden tener un común parámetro poblacional, mientras que los valores de los marroquíes están fuera de senegaleses y filipinos, luego su posible población de referencia es distinta. Podemos verlo gráficamente:

Page 13: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

13

Page 14: ESTIMACIÓN Y DECISIÓN. COMPARACIÓN DE UN ...sites.google.com/site/vararey/trabajo3DAD1sol.pdf1994 sobre una población de inmigrantes. De entre un conjunto muy amplio de variables

14

Vemos gráficamente los distintos intervalos de confianza y cómo la parte superior de los senegaleses se solapa con la inferior de los filipinos, mientras que los marroquíes quedan a margen.