estadística i curso 2014/2015 guión de la práctica 2 probabilidad … · 2015. 1. 15. · 1...

9
1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística 1. Simulación de las variables aleatorias En Excel podemos simular valores de variables aleatorias, sean discretas o continuas. La herramienta para simulación aparece en el complemento de análisis de datos que instalamos en el primer laboratorio. Los pasos para simular valores de variables aleatorias son iguales para todo tipos de variables. Primero, abrimos el Excel y arriba seleccionamos menú Datos, donde buscamos el complemento ya instalado Análisis de Datos: Allí buscamos a una función que se llama Generación de números aleatorios. Al seleccionar esta función aparece la siguiente ventana: Número de variables: nos pide el número de variables que queremos simular. Normalmente será 1. Cantidad de números aleatorios: aquí pregunta por el tamaño de la muestra. Distribución: tenemos que seleccionar una de las distribuciones para nuestra variable aleatoria: o bien discreta (Bernoulli, Binomial), o bien continua (Uniforme, Normal). Parámetros: introducir los parámetros de la distribución. Iniciar con: dejamos en blanco. Opciones de salida: podemos seleccionar el rango de salida en la hoja actual o en una hoja nueva y le damos algún nombre, según la distribución que seleccionamos.

Upload: others

Post on 04-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

1

Estadística I

Curso 2014/2015 Guión de la Práctica 2

Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

1. Simulación de las variables aleatorias

En Excel podemos simular valores de variables aleatorias, sean discretas o continuas. La herramienta para

simulación aparece en el complemento de análisis de datos que instalamos en el primer laboratorio. Los

pasos para simular valores de variables aleatorias son iguales para todo tipos de variables.

Primero, abrimos el Excel y arriba seleccionamos menú Datos, donde buscamos el complemento ya instalado

Análisis de Datos:

Allí buscamos a una función que se llama Generación de números aleatorios. Al seleccionar esta función

aparece la siguiente ventana:

Número de variables: nos pide el número de variables que queremos simular. Normalmente será 1.

Cantidad de números aleatorios: aquí pregunta por el tamaño de la muestra.

Distribución: tenemos que seleccionar una de las distribuciones para nuestra variable aleatoria: o

bien discreta (Bernoulli, Binomial), o bien continua (Uniforme, Normal).

Parámetros: introducir los parámetros de la distribución.

Iniciar con: dejamos en blanco.

Opciones de salida: podemos seleccionar el rango de salida en la hoja actual o en una hoja nueva y

le damos algún nombre, según la distribución que seleccionamos.

Page 2: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

2

1.1. Variables aleatorias discretas: Bernoulli y Binomial

1.1.1. En primer lugar, simulamos una muestra de n = 50 observaciones de una distribución Bernoulli:

𝑋 ∼ 𝐵𝑒𝑟 (0.4). Abrimos la ventana de simulación de una variable aleatoria, como hemos visto

antes, rellenamos los siguientes campos y pulsamos Aceptar:

En la columna A tenemos una muestra aleatoria simple de una distribución Bernoulli con parámetro p =

0.4. Sabemos, que 𝐸[𝑋] = 𝑝 y 𝑉[𝑋] = 𝑝(1 − 𝑝), entonces 𝐸[𝑋] = 0.4 y 𝑉[𝑋] = 0.4(1 − 0.4) = 0.24.

Calculamos la media y varianza muestrales usando las funciones de Excel PROMEDIO y VAR,

comparamos con los valores verdaderos:

Importante: cada alumno tendrá resultados diferentes porque los valores simulados son aleatorios.

1.1.2. Siguiendo los mismos pasos simulamos una muestra de n = 100 de una distribución Binomial:

𝑋 ∼ 𝐵 (80, 0.95).

Page 3: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

3

Calculamos la media y varianza verdaderos y comparamos con la media y varianza muestrales:

1.2. Variables aleatorias continuas: Normal

Queremos generar una muestra de n = 20 de una Normal: 𝑋 ∼ 𝑁(2, 3), donde 𝜇 = 2 y 𝜎 = 3. Seguimos

los mismos pasos que antes, calculamos la media y desviación típica muestrales:

¿Están los valores estimados cerca de los valores verdaderos? ¿Qué pasaría si en vez de n = 20,

tuviéramos n = 1000?

2. Gráfica Cuantil – Cuantil (QQ - plot)

2.1. QQ – plot para una distribución Normal

Usamos los mismos datos que hemos generado antes de una Normal 𝑋 ∼ 𝑁(2, 3). Primero, insertamos

una fila arriba del todo para los nombres de las columnas. Después, seleccionamos todos los datos y

ordenamos de menor a mayor a través del menú Datos y obtenemos la siguiente vista:

El siguiente paso sería calcular los cuantiles muestrales con las observaciones, pero antes tenemos que

asignar el rango a cada observación. Nos posicionamos en la celda B2 y escribimos 1, eso significa que el

número en A2 es la primera observación. En B3 introducimos la formula =B2+1 y copiamos la formula

hasta el final. Finalmente, podemos calcular los cuantiles muestrales en la tercera columna. Nos

posicionamos en la celda C2 e introducimos la formula =(B2-0.5)/20 (recordad que 20 es el tamaño

muestral). Copiamos esta fórmula hasta el final. Para comprobar si los cuantiles están bien, podemos

Page 4: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

4

calcular que la mediana debería ocupar la posición (20+1)/2=10.5, entre 10 y 11. Como podemos ver, el

Q50% aparece justo entre las posiciones 10 y 11.

Finalmente, tenemos que calcular los valores de nuestra distribución Normal estimada, asociados con

cada cuantil: 𝑁 (�̅�, �̂�), donde �̅� y �̂� se corresponden a la media y desviación típica muestrales. Antes de

hacerlo, calculamos los z-scores, que son los valores de una distribución Normal estándar, asociados con

cada cuantil. Nos posicionamos en la celda D2, introducimos la siguiente función de Excel

=DISTR.NORM.ESTAND.INV(C2), y copiamos la formula hasta el final. Para convertir estos z-scores a los

valores asociados con la muestra original, hay que hacer la operación inversa, es decir la estandarización

inversa: multiplicar cada z-score por la desviación típica muestral y sumar la media estimada de X (lo

vamos a llamar x-scores):

Tenemos toda la información necesaria para dibujar un QQ – plot. Antes de hacerlo, hay que copiar la

columna A de datos originales a la derecha de la columna E de x-scores, porque así Excel reconoce mejor

qué datos son del eje x, y cuáles son del eje y.

Seleccionamos las dos columnas y vamos al menú Insertar, Dispersión, donde seleccionamos el tipo de

gráfico que queremos (sólo puntos):

Page 5: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

5

Para cambiar el tamaño o estilo de los puntos, hay que posicionarse encima de los puntos, botón

derecho, Dar formato a serie de datos…, Opciones de marcador.

Si los datos han sido realmente generados por la distribución considerada, entonces los puntos del

gráfico deben disponerse a lo largo de una línea recta. Para introducir esta línea, copiamos en la

columna G los X-scores, seleccionamos las tres columnas y hacemos otra vez: Insertar, Dispersión… Así

Excel dibuja no solo los puntos de nuestra distribución generada, sino, también los puntos que

corresponden a la línea recta 𝑦 = 𝑥 (ojo: al copiar y pegar la columna X-scores, se copian las formulas,

así que en el Pegado Especial…, que aparece pulsando botón derecho del ratón, tenemos que elegir Sólo

Valores).

Cuando aparece el siguiente gráfico, cambiamos el estilo de los puntos de X-score para que aparezca una

línea recta: nos posicionamos encima de los puntos, botón derecho, Dar formato a series de datos…,

Opciones de marcador: ninguno, Color de línea: Línea Sólida.

-6

-4

-2

0

2

4

6

8

10

-5 0 5 10

N(2,3)

Page 6: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

6

Finalmente obtenemos el siguiente gráfico:

Como podemos ver, los puntos del gráfico se disponen a lo largo de la línea recta. Eso significa que la distribución se

ajusta muy bien.

2.2. QQ – plot para data Binomial

Hemos visto como una variable aleatoria de distribución Binomial 𝑋 ∼ 𝐵 (𝑛, 𝑝) se puede aproximar con

una Normal 𝑋 ∼ 𝑁 (𝑛𝑝, √𝑛𝑝(1 − 𝑝)) dado que n es suficientemente grande.

2.2.1. Vamos a ver qué pasa cuando una variable aleatoria Binomial NO debería ser aproximada por

una distribución Normal. En una nueva hoja, generamos una muestra de tamaño 500 de una

Binomial 𝑋 ∼ 𝐵 (6, 0.08). La media y desviación típica muestrales y verdaderas son las

siguientes:

-6

-4

-2

0

2

4

6

8

10

-5 0 5 10

Page 7: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

7

Después, seguimos los pasos para dibujar el QQ – plot:

Columna A: Ordenar los datos (de menor a mayor).

Columna B: Introducir el rango (de 1 a 500).

Columna C: Calcular los cuantiles (=(B2-0.5)/500).

Columna D: Calcular los z-scores (=DISTR.NORM.ESTAND.INV(C2)).

Columna E: Convertir los z-scores a x-scores usando la media y desviación típica de la

muestra Binomial para aproximar una Normal introduciendo la formula en la celda E2:

=D2*DESVEST(A$2:A$501)+PROMEDIO(A$2:A$501)

Columna F: Copiar columna A.

Columna G: Copiar columna E (¡sólo valores!).

Seleccionar columnas E, F y G, menú Insertar, Dispersión.

Hacemos cambios para los marcadores de la segunda serie, para que sea una línea.

Podemos ver que muchos puntos están bastante lejos de la línea y el ajuste es malo, por tanto, la Binomial

𝑋 ∼ 𝐵 (6, 0.08) NO se puede aproximar con una Normal.

-2

-1

0

1

2

3

4

-2 -1 0 1 2 3

-2

-1

0

1

2

3

4

-2 -1 0 1 2 3

Page 8: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

8

3. Ejercicio para entregar al final de clase.

3.1. Simula una variable aleatoria de tamaño n = 150 de la distribución Uniforme 𝑿 ∼ 𝑼(𝟑, 𝟏𝟐) , calcula la

media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en la Tabla 1.

3.2. Simula una variable aleatoria de tamaño n = 50 de la distribución Binomial 𝑿 ∼ 𝑩(𝟗𝟎, 𝟎. 𝟔).

a. Calcula la media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en

la Tabla 2.

b. Aproxima esta Binomial con una Normal y escribe la media y desviación típica de esta Normal.

Dibuja el QQ – plot (sólo en Excel) de esta aproximación y comenta los resultados.

Page 9: Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad … · 2015. 1. 15. · 1 Estadística I Curso 2014/2015 Guión de la Práctica 2 Probabilidad y modelos probabilísticos;

9

Respuestas del apartado 3. Nombre y Apellidos:____________________________________________________________ NIU:_____________________Grado:___________________________________Grupo______

Tabla 1. Resultados de n = 150, 𝑿 ∼ 𝑼(𝟑, 𝟏𝟐)

X Estimada Verdadera

Media

Varianza

Desviación típica

Tabla 2. Resultados de n = 50, 𝑿 ∼ 𝑩(𝟗𝟎, 𝟎. 𝟔)

X Estimada Verdadera

Media

Varianza

Desviación típica

¿Cuáles son los parámetros de la Normal, con cual aproximamos la Binomial anterior?

𝝁 =

𝝈 =

Comenta los resultados del QQ – plot:

_______________________________________________________________________________________________

______________________________________________________________________________________________

_______________________________________________________________________________________________

_______________________________________________________________________________________________