estadística i guión de la práctica 2 probabilidad y …...1 estadística i guión de la práctica...

12
1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística 1. Simulación de las variables aleatorias En Excel podemos simular valores de variables aleatorias, sean discretas o continuas. La herramienta para simulación aparece en el complemento de análisis de datos que instalamos en el primer laboratorio. Los pasos para simular valores de variables aleatorias son iguales para todo tipo de variables. Primero, abrimos el Excel y arriba seleccionamos menú Datos, donde buscamos el complemento ya instalado Análisis de Datos: Allí buscamos a una función que se llama Generación de números aleatorios. Al seleccionar esta función aparece la siguiente ventana: Número de variables: nos pide el número de variables que queremos simular. Normalmente será 1. Cantidad de números aleatorios: aquí pregunta por el tamaño de la muestra. Distribución: tenemos que seleccionar una de las distribuciones para nuestra variable aleatoria: o bien discreta (Bernoulli, Binomial), o bien continua (Uniforme, Normal). Parámetros: introducir los parámetros de la distribución. Iniciar con: dejamos en blanco. Opciones de salida: podemos seleccionar el rango de salida en la hoja actual o en una hoja nueva y le damos algún nombre, según la distribución que seleccionamos.

Upload: others

Post on 28-Jul-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

1

Estadística I

Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

1. Simulación de las variables aleatorias

En Excel podemos simular valores de variables aleatorias, sean discretas o continuas. La herramienta para

simulación aparece en el complemento de análisis de datos que instalamos en el primer laboratorio. Los

pasos para simular valores de variables aleatorias son iguales para todo tipo de variables.

Primero, abrimos el Excel y arriba seleccionamos menú Datos, donde buscamos el complemento ya instalado

Análisis de Datos:

Allí buscamos a una función que se llama Generación de números aleatorios. Al seleccionar esta función

aparece la siguiente ventana:

Número de variables: nos pide el número de variables que queremos simular. Normalmente será 1.

Cantidad de números aleatorios: aquí pregunta por el tamaño de la muestra.

Distribución: tenemos que seleccionar una de las distribuciones para nuestra variable aleatoria: o

bien discreta (Bernoulli, Binomial), o bien continua (Uniforme, Normal).

Parámetros: introducir los parámetros de la distribución.

Iniciar con: dejamos en blanco.

Opciones de salida: podemos seleccionar el rango de salida en la hoja actual o en una hoja nueva y

le damos algún nombre, según la distribución que seleccionamos.

Page 2: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

2

1.1. Variables aleatorias discretas: Bernoulli y Binomial

1.1.1. En primer lugar, simulamos una muestra de n = 50 observaciones de una distribución Bernoulli:

. Abrimos la ventana de simulación de una variable aleatoria, como hemos visto

antes, rellenamos los siguientes campos y pulsamos Aceptar:

En la columna A tenemos una muestra aleatoria simple de una distribución Bernoulli con parámetro p =

0.4. Sabemos, que y , entonces y .

Calculamos la media y varianza muestrales usando las funciones de Excel PROMEDIO y VAR,

comparamos con los valores verdaderos:

Importante: cada alumno tendrá resultados diferentes porque los valores simulados son aleatorios.

1.1.2. Siguiendo los mismos pasos simulamos una muestra de n = 100 de una distribución Binomial:

.

Page 3: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

3

Calculamos la media y varianza verdaderos y comparamos con la media y varianza muestrales:

1.2. Variables aleatorias continuas: Normal

Queremos generar una muestra de n = 20 de una Normal: , donde y . Seguimos

los mismos pasos que antes, calculamos la media y desviación típica muestrales:

¿Están los valores estimados cerca de los valores verdaderos? ¿Qué pasaría si en vez de n = 20,

tuviéramos n = 1000?

2. Estimación puntual y ajuste

2.1. Gráfica Cuantil – Cuantil (QQ - plot) para una distribución Normal

Usamos los mismos datos que hemos generado antes de una Normal . Primero, insertamos

una fila arriba del todo para los nombres de las columnas. Después, seleccionamos todos los datos y

ordenamos de menor a mayor a través del menú Datos y obtenemos la siguiente vista:

El siguiente paso sería calcular los cuantiles muestrales con las observaciones, pero antes tenemos que

asignar el rango a cada observación. Nos posicionamos en la celda B2 y escribimos 1, eso significa que el

número en A2 es la primera observación. En B3 introducimos la formula =B2+1 y copiamos la formula

hasta el final. Finalmente, podemos calcular los cuantiles muestrales en la tercera columna. Nos

posicionamos en la celda C2 e introducimos la formula =(B2-0.5)/20 (recordad que 20 es el tamaño

Page 4: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

4

muestral). Copiamos esta fórmula hasta el final. Para comprobar si los cuantiles están bien, podemos

calcular que la mediana debería ocupar la posición (20+1)/2=10.5, entre 10 y 11. Como podemos ver, el

Q50% aparece justo entre las posiciones 10 y 11.

Finalmente, tenemos que calcular los valores de nuestra distribución Normal estimada, asociados con

cada cuantil: , donde y se corresponden a la media y desviación típica muestrales. Antes de

hacerlo, calculamos los z-scores, que son los valores de una distribución Normal estándar, asociados con

cada cuantil. Nos posicionamos en la celda D2, introducimos la siguiente función de Excel

=DISTR.NORM.ESTAND.INV(C2), y copiamos la formula hasta el final. Para convertir estos z-scores a los

valores asociados con la muestra original, hay que hacer la operación inversa, es decir la estandarización

inversa: multiplicar cada z-score por la desviación típica muestral y sumar la media estimada de X (lo

vamos a llamar x-scores):

Tenemos toda la información necesaria para dibujar un QQ – plot. Antes de hacerlo, hay que copiar la

columna A de datos originales a la derecha de la columna E de x-scores, porque así Excel reconoce mejor

qué datos son del eje x, y cuáles son del eje y.

Seleccionamos las dos columnas y vamos al menú Insertar, Dispersión, donde seleccionamos el tipo de

gráfico que queremos (sólo puntos):

Page 5: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

5

Para cambiar el tamaño o estilo de los puntos, hay que posicionarse encima de los puntos, botón

derecho, Dar formato a serie de datos…, Opciones de marcador.

Si los datos han sido realmente generados por la distribución considerada, entonces los puntos del

gráfico deben disponerse a lo largo de una línea recta. Para introducir esta línea, copiamos en la

columna G los X-scores, seleccionamos las tres columnas y hacemos otra vez: Insertar, Dispersión… Así

Excel dibuja no solo los puntos de nuestra distribución generada, sino, también los puntos que

corresponden a la línea recta (ojo: al copiar y pegar la columna X-scores, se copian las formulas,

así que en el Pegado Especial, que aparece pulsando botón derecho del ratón, tenemos que elegir Sólo

Valores).

Cuando aparece el siguiente gráfico, cambiamos el estilo de los puntos de X-score para que aparezca una

línea recta: nos posicionamos encima de los puntos, botón derecho, Dar formato a series de datos,

Opciones de marcador: ninguno, Color de línea: Línea Sólida.

Page 6: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

6

Finalmente obtenemos el siguiente gráfico:

Como podemos ver, los puntos del gráfico se disponen a lo largo de la línea recta. Eso significa que la distribución se

ajusta muy bien.

2.2. Ajuste gráfico: histograma de área unitaria y curva de densidad

Usamos los mismos datos anteriores (generación de una Normal ). Para la ilustración del

ejemplo se generan de nuevo 20 observaciones de una Normal . Para construir el

histograma, tal y como se explicó en el laboratorio 1, se necesita disponer de los siguientes datos:

Número de observaciones (n): 20

Valor mínimo: -3,470255928 _ Considerar -3,4

Valor máximo: 3,70535465 _ Considerar 3,8

Rango: 7,2

Número de clases: 20^(1/2)= 4,472135955 _ 4 ó 5 clases.

Los pasos a seguir serían los siguientes:

1.- Supongamos que se van a utilizar 5 clases. Siguiendo los pasos explicados en el laboratorio 1, se establece la longitud de los intervalos (rango / número de clases = 1,44) y los límites superiores de las clases empezando por el valor mínimo y luego sumando al límite anterior la amplitud.

2.- Una vez obtenidos los límites superiores de las clases hacemos el histograma seleccionando Análisis de datos en la pestaña Datos; Histograma y pulsando Aceptar. De esta manera obtenemos la frecuencia absoluta de cada intervalo.

Page 7: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

7

3.- Se calculan las frecuencias relativas asociadas a cada intervalo (frecuencia relativa -fi- = frecuencia absoluta / n).

4.- Para lograr un histograma de área unitaria (o histograma de área 1), es decir, un histograma que encierra un área total igual a 1, es necesario dividir las frecuencias relativas por la amplitud de los intervalos (fi/ai) obteniéndose así la altura de las barras.

De esta forma se grafica el histograma de área unitaria. Para ello, se cambian los datos de la columna de frecuencias absolutas por las alturas para conseguir un histograma de área unitaria. También quitamos el espacio entre barras.

Page 8: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

8

5.- Una vez obtenido el histograma de área unitaria se puede añadir la curva de densidad de la normal.

Para realizar la gráfica de la N(,), los valores del eje OX se obtienen como el punto central entre un valor y el siguiente (es decir, se calculan como el límite inferior más la mitad de la amplitud).

6.- Sobre estos valores se calcula el valor de la densidad de la normal y se añade al gráfico. Es necesario calcular la media y desviación típica de los valores simulados. Para ello se pueden utilizar, por ejemplo, las funciones estadísticas PROMEDIO y DESVEST.

La densidad se calcularía utilizando la función DISTR.NORM

DISTR.NORM(“punto central”;PROMEDIO(A$2:A$21);DESVEST(A$2:A$21);0)

Para añadir la curva al gráfica, hay que posicionarse encima del gráfico, botón derecho, Seleccionar datos, Agregar, nombre de la serie (por ejemplo, curva) y valores de la serie (seleccionamos la probabilidad –densidad- de la normal). De esta forma añade las barras correspondientes a las densidades en otro color.

Con el fin de que se dibuje como una curva, hay que posicionarse encima de las barras de las densidades, botón derecho, Cambiar tipo de gráfico, Líneas (seleccionamos un tipo de línea sin puntos).

Page 9: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

9

3. Intervalos de confianza

Para calcular un intervalo de confianza puede utilizarse la función INTERVALO.CONFIANZA

INTERVALO.CONFIANZA

Devuelve el intervalo de confianza para la media μ de una población con distribución normal.

Alfa: es el nivel de significación usado para calcular el nivel de confianza. El nivel de confianza es

igual a 100*(1 - alfa)%, es decir, un alfa de 0,05 indica un nivel de confianza del 95%.

Desv_estándar: desviación estándar de la población para el rango de datos. Se presupone conocida.

Tamaño: es el tamaño de la muestra.

El intervalo de confianza para la media poblacional, dado el nivel de significación, se calcula sumándole a

la media muestral el valor calculado con esta fórmula obteniendo así el límite superior del intervalo y

restándole el mismo valor para obtener el límite inferior del intervalo.

Page 10: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

10

Ejemplo

Para estimar la calificación media de una determinada asignatura en una Universidad se ha obtenido una

muestra de 35 expedientes de alumnos que la han cursado. Se sabe por otros cursos que la calificación

de dicha asignatura puede aproximarse mediante una distribución Normal, N(,), y que, además, la

desviación típica de las calificaciones de dicha asignatura en esa Universidad es de 2,41 puntos. Sabiendo

que la calificación media de la muestra obtenida ha sido de 5,02, se pide calcular:

a) El intervalo de confianza para la media con un nivel del 90% de confianza

INTERVALO.CONFIANZA(0.1;2,41;35) = 0,67005473

Por tanto, el intervalo será: 5,02 – 0,67005473 ; 5,02 + 0,67005473

(4,34994527; 5,69005473)

b) El intervalo de confianza para la media con un nivel del 95% de confianza

INTERVALO.CONFIANZA(0.05;2,41;35) = 0,67005473

Por tanto, el intervalo será: 5,02 – 0,787905522 ; 5,02 + 0,787905522

(4,232094478; 5,807905522)

Page 11: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

11

4. Ejercicio para entregar al final de clase.

4.1. Simula una variable aleatoria de tamaño n = 150 de la distribución Uniforme X U(3,12) , calcula la

media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en la Tabla 1.

4.2. Simula una variable aleatoria de tamaño n = 50 de la distribución Normal X N(4,2) .

a. Calcula la media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en

la Tabla 2.

b. Dibuja el QQ – plot (sólo en Excel) de estos datos y comenta los resultados.

c. Dibuja el histograma de área uno y ajústalo a la curva de densidad

d. Calcula el intervalo de confianza para la media con un nivel del 98% considerando una muestra

aleatoria de tamaño = 250.

Page 12: Estadística I Guión de la Práctica 2 Probabilidad y …...1 Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

12

Respuestas del apartado 4. Nombre y Apellidos:____________________________________________________________ NIU:_____________________Grado:___________________________________Grupo______

Tabla 1. Resultados de n = 150, X U(3,12)

X Estimada Verdadera

Media

Varianza

Desviación típica

Tabla 2. Resultados de n = 50, X N(4,2)

X Estimada Verdadera

Media

Varianza

Desviación típica

Comenta los resultados del QQ – plot:

_______________________________________________________________________________________________

______________________________________________________________________________________________

_______________________________________________________________________________________________

_______________________________________________________________________________________________

Intervalo de confianza para con un nivel del 98% considerando un tamaño muestral de 250.

Escribe la función de Excel y el resultado:

INTERVALO.CONFIANZA( ; ; ; ) = Por tanto, el intervalo de confianza será ( , ).