5 teoría de la estimación - alumnos teoria de...ejemplo: se dispone de 100 notas seleccionadas...

26
Teoría de la Estimación Estadística Francisco Marzal Baró Curso 2016/17 Fundamentos Estadísticos Versión 1

Upload: others

Post on 11-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Teoría de la Estimación Estadística

Francisco Marzal Baró Curso 2016/17

Fundamentos Estadísticos

Versión 1

2

� Conceptos básicos.� Distribución muestral.� Teorema central del límite.

� Teoría de la Estimación:� Estimación puntual� Error cuadrático medio� Criterios de Evaluación de estimadores

� Estimación por intervalos� Intervalo de probabilidad.� Intervalo de confianza.� ¿Desviación estándar, error estándar, intervalo de normalidad o de

confianza?� Cálculo del tamaño de muestra.

Índice

Tª de la Estimación

NOTA: Algunos gráficos y tablas están sacados del libro: Métodos Estadísticos. J.M. Doménech Massons.

3

� Población: Todos los individuos.

� Parámetro : Cualquier índice medido en una población. Su valor es único. Ej: �, ��, �.

� Estimador : Es la regla o procedimiento expresado por medio de unafórmula que se utiliza en una muestra para deducir la estimación.

Ejemplo → �̂ ∑ �

�����

� Estimación puntual : Valor específico que toma el estimador parauna muestra determinada.

Ejemplo → �̅ 25; �� 4.8

Conceptos básicos.

Tª de la Estimación

4

� Distribución muestral : Es la distribución de frecuenciasde los valores que puede tomar el estadístico a lo largo detodas las posibles muestras de un mismo tamaño n,extraídas aleatoriamente de la población.

� El azar hace fluctuar las medias alrededor de la media poblacional.

� La media de la distribución muestral coincide con la media de lapoblación.

� Al aumentar el tamaño n de las muestras se obtienen medias másparecidas a μ y disminuye la variabilidad de la distribución muestral. (Laprecisión aumenta con el tamaño de la muestra).

� Si las muestras son grandes, las gráficas son simétricas respecto al ejevertical.

� Error estándar (EE ó SE): Se denomina así a la desviaciónestándar de la distribución muestral. El responsable es el erroraleatorio, debido al azar, es imposible de controlar.� Mide la desviación absoluta del valor verdadero desconocido.

Distribución muestral.

Tª de la Estimación

n=40

n=10

n=20

5

� “Aunque las muestras procedan de unadistribución NO normal, la distribución de lavariable media, cuando es el promedio de unnúmero suficiente grande de observacionesindependientes xi, se aproxima de formasatisfactoria a una ley normal”.

� Condiciones:� Var. Cuantitativas: A efectos prácticos, muchos

autores consideran el promedio muestralcomo normalmente distribuido a partir den=30, (solo es válido para asimetrías moderadas).

� Var. Categóricas: nπ ≥ 5 y n(1-π) ≥ 5.

Teorema central del límite.

Tª de la Estimación

siendo: n: nº de sujetos.π: proporción de una variable.

6

� La distribución muestral va a depender de la distribución de probabilidad de la población.

� Variables categóricas:� Binarias : la distribución muestral sigue la ley Binomial.

� Variables cuantitativas:� Puede seguir innumerables distribuciones.� Si la población sigue una ley Normal, la distribución muestral también sigue la

ley Normal.

Tª de la Estimación

Caso de muestras pequeñas

7

� Consiste en hallar con determinada precisión el valor de un parámetro a partirde la información contenida en una muestra representativa de la población.

� Los valores que puede tomar el parámetro desconocido son infinitos.

� El error es inherente al proceso de medida.� Por el azar.� Defectos del instrumento de medida.� Imposible tener datos exactos con una muestra.

¿Cómo hacer la estimación?

� Estimación puntual : Estimación del parámetro mediante un único valor. Ej: Mediamuestral. Es improbable que el valor calculado coincida con el verdadero valor delparámetro.

� Estimación por intervalos : Es la estimación del parámetro por dos números entre loscuales se puede considerar que se encuentra el valor verdadero. Se conoce comoprecisión (e) , y refleja el error de muestreo.

Tª de la Estimación

Teoría de la Estimación Estadística

8

� Una estimación puntual de un parámetro poblacional desconocido (µ ,σ ,…), es unnúmero que se utiliza para aproximar el verdadero valor de dicho parámetropoblacional.

� Si la muestra es representativa de la población, podemos esperar que losestadísticos calculados en las muestras tengan valores semejantes a los parámetrospoblacionales. La estimación consiste en asignar los valores de los estadísticosmuestrales a los parámetros poblacionales.

� Los estadísticos con que obtenemos las estimaciones se denominan estimadores.

� Ejemplo:� Se dispone de 100 notas seleccionadas aleatoriamente. Se desea estimar la Media de las

notas del curso. La Media de la muestra (el estimador), es igual a 5.6 y atribuimos este valor(la estimación) a la Media del colegio.

Tª de la Estimación

Estimación puntual

9

� Sirve para evaluar la variación existente entre un estimador y elparámetro que se quiere calcular.

� Uso: Se utiliza para comparar estimadores y para modelado estadístico.

� Interpretación: ��� 0, tiene precisión perfecta → ��� !"#$% &���'"#$

Sí (� ) (� → (���*%�+�% ,-�"(�.

� Fórmula:

./0 ( � ( 1 2 � 3 4 5 . 4 1 6 7 8 ( 5 ���'$�9(:

Tª de la Estimación

Error cuadrático medio (ECM – MSE)

2: Parámetro desconocido.(: Estimador de 2.E: Esperanza de T. V: Variancia de T.

El tamaño del error vendrá determinado: • Por la variancia del estimador, es decir, por su precisión.• Por la diferencia entre el valor medio que tome el estimador y el parámetro

desconocido. Si la media del estimador coincide con θ habremos obtenido un buen estimador.

10

� NO todos los estimadores son apropiados. Los estimadores deben satisfacer ciertosrequisitos, y por esta razón, interesa conocer algunos criterios a fin de utilizar los quesean adecuados según las circunstancias de la estimación.

� Criterios de evaluación de los estimadores:� Sin sesgo: Cuando el valor de la media de la distribución muestral coincide con el verdadero

valor del parámetro.Ej: La Media es un estimador insesgado ; La Variancia es un estimador sesgado.

� Eficiente: Entre varios estimadores sin sesgo de un mismo parámetro, el más eficiente es elque tiene el error estándar más pequeño (mínima variancia).

� Consistente: A medida que aumenta el tamaño de la muestra, el valor del estimador tiendehacia el verdadero valor del parámetro.

Ej: La �̅?-"�� son estimadores consistentes. � Suficiente: Ningún otro estimador puede suministrar más información sobre el parámetro.

� Ej: Estimador (proporción observada): * @

@AB→ es un estimador sin sesgo, consistente, eficiente

y suficiente del parámetro π:

Tª de la Estimación

Criterios de evaluación de los estimadores: (Fischer, 1970)

11

� (IP 1-α), permite predecir, con un riego α de equivocación, elintervalo en el cual estará contenida la media (o proporción)observada en una muestra de tamaño n extraída al azar de unapoblación normal.

� Riesgo de error α (valor arbitrario). Consenso: 5% (α=0.05)

� CD/�: Constante correspondiente a la ley Normal estandarizada.

� Desvío: Representado por épsilon (ε). Indica la magnitud del error de muestreo.

F CD/� ∙ ��

� Intervalo: Es simétrico. Cuanto más estrecho más informativo, peromayor probabilidad de error.

HI1 1 K: � L F

� Unidades: las mismas que la variable X.

� Condiciones de aplicación: � Población distribuida según la ley normal, o� Condición de Muestra grande.

Tª de la Estimación

Intervalo de probabilidad (IP 1-α)(intervalo de predicción)

α/21-α

0.2550%

0.1080%

0.0590%

0.02595%

0.00599%

0.000599.9%

Zα/2 0.674 1.282 1.645 1.96 2.576 3.291

12

� La distribución de la riqueza de la población activa en Angola sigue una ley Normal conuna media de 50 €/mes, y una desviación estándar (σ) de 4.5 €/mes. Si extraemos al azaruna muestra de 100 personas trabajadoras, ¿cuál es el intervalo que contendría la mediacon una probabilidad del 95%?

Datos: �̅ 50€/!�� ⋯σ 4.5€/!�� ⋯n 100�%","Q"#$%��

1-α = 0.95 α= 0.05 α/2= 0.025 CD/� 1.96

�� �

&

4.5

100 0.45

Desvío: F CD/� ∙ �� 1.96 ∙ 0.45 0.882IP 95% de �̅: 50 L 0.882 → 49.12"50.88T/!��

� Interpretación : El IP 49.12"50.88T/!��tiene una probabilidad del 95% de contener lasmedias observadas en muestras de tamaño n=100 extraídas al azar de una poblaciónnormal con media � 50T/!�� y variancia �� 20.259T/!��:�.

Tª de la Estimación

Ejercicio: Intervalo de probabilidad

13Tª de la Estimación

Intervalo de confianza (IC 1-α)

14

Para poblaciones infinitas9U ≫ W:

Para poblaciones finitas (muestreo sin reposición)

De una media 9�:

�̅$ L �& 1 1; K/2

�$

√&Condición:- Distrib. Normal en la población.- Muestra grande & Y 30 .

�̅$ L �& 1 1; K/2�$

2

&∙[ 1 &

[ 1 1

De una proporción

9�:*$ L \K/2

*$91 1 *$:

&Condición:

*$ ) 0.5&*� Y 5?& 1 1 *� Y 5*$ ] 0.5&*^ Y 5?&91 1 *^: Y 5

*$ L \K/2

*$91 1 *$:

&∙[ 1 &

[ 1 1

De una mediana9��$�#:

(para distribuciones asimétricas)

1º Ordenar los valores.2º Calcular el nº de orden de los límites superior e inferior. Se realiza aproximando el resultado conseguido con las siguientes fórmulas:

%_` &

21 \K/2 ∙

&

2��a 1 5

&

25 \K/2 ∙

&

2

Tª de la Estimación

Intervalo de confianza H�1 1 K.

15Tª de la Estimación

Ejemplo. Intervalo de Confianza

16Tª de la Estimación

Ejercicio Intervalo de Confianza.

α/21-α

0.2550%

0.1080%

0.0590%

0.02595%

0.00599%

0.000599.9%

Zα/2 0.674 1.282 1.645 1.96 2.576 3.291

� La Dirección de la empresa anterior quiere que calculéis la estimación del IC al 95% y al 99%. Datos: n 344;*b 0.759

� IC 95%:

� IC 99%:

� Comparar los tres intervalos calculados:IC 90% 0.759 ± 0.038 0.721 a 0.797

IC 95%

IC 99%

17

� α es un valor arbitrario.

� Una vez establecido el riesgo α que asumimos, no conviene cambiarlodurante el estudio. Si se cambia las conclusiones no serán homogéneas.

� Si el riesgo α es excesivamente pequeño, incluyendo casos extremos pocoprobables, provoca un aumento de la amplitud del intervalo, perdiendopotencia del estudio.

� Aumentando el número de la muestra, aumentala precisión del IC.

� La amplitud del IC también depende del nivel de confianza asumido. Sidisminuimos el nivel de confianza, disminuye el intervalo (es una falsa imagende mayor precisión).

Tª de la Estimación

Puntualizaciones

18

Que representa ExplicaciónMedia �̅ y Desviación

estándar (�̅)

10.2"ñ$�9e� 0.5"ñ$�:

Cuando se quiere realizar unadescripción de una variable, indicadispersión de los datos .

Debe evitarse: �̅ L e� (Representación confusa)

Intervalo de normalidad

�̅ L CD/� ∙ e�

8.5"ñ$� → 7.8"9.2"ñ$�

Cuando se desea representar lavariabilidad de las observaciones .

Es la zona donde se encuentran losvalores de edad del 95% central de lossujetos.Si no siguiese la ley normal, el intervalovendría dado por los percentiles 2.5 y 97.5

Media y Error Estándar

34años9�� 1.4:

El EE es la desviación estándar dela distribución muestral.

Es difícil de entender, carece deinterpretación práctica. Evitar dar el datoen una publicación.

Intervalo de confianza

�̅$ L �& 1 1; K/2 ∙�i

&

6.5"ñ$�9H�95%: 5.1"7.9"ñ$�:

Si se desea representar la precisióncon que la media kl estima la mediaµµµµ de la población origen de lamuestra.

Interpretación: El procedimiento de construcción asegura que el 95% de losIC así construidos contienen el valor del parámetro�̅.No puede ser interpretado como la probabilidad de que un intervalo concreto contenga �̅.

Tª de la Estimación

¿Desviación estándar, error estándar, intervalo de normalidad o de confianza?

19

� Son procedimientos para elegir una parte de la población.� Para poder realizar la inferencia estadística, la muestra elegida debe ser

representativa de la población.

� Requisitos:� Basadas en el azar.� Calcular la magnitud del error estándar producido por el muestreo.� Obtención de muestras representativas de la población.

� La precisión aumenta, incrementando el números de sujetos en lamuestra.

Tª de la Estimación

Técnicas de muestreo

20

� Cuando se diseña un estudio, se trata de calcular el tamaño n que tiene quetener la muestra para estimar el estadístico buscado con la precisión ε deseada.

� La variancia ��y la proporción �de la población suelen ser desconocidas, sesustituyen por información obtenida de estudios previos o del estudio piloto.

� Error absoluto o precisión 9F:. Se debe considerar:� El rango de variación de la variable. ε debe ser pequeño respecto al intervalo que contiene la

mayor parte de los datos ( desviación estándar,…).

� El propósito del estudio.

Tª de la Estimación

Cálculo del tamaño de muestra(para un diseño de encuesta basado en una muestra aleatoria simple)

Estimación para poblaciones infinitas

Media& \�

D/� ∙��

F�

Proporción& \�

D/� ∙�91 1 �:

F�

21

� Calcular el tamaño de muestra necesario para estimar la altura media de lapoblación activa española con una confianza del 95%. Estudios anteriores lasitúan en 176 cm con una desviación estándar de 20 cm.

� Error absoluto de ± 2 cm:

& \D/�� ∙

��

F� 1.96� ∙20�

2� 384

� Error absoluto de ± 3 cm:

& 1.96� ∙20�

3� 171

Tª de la Estimación

Ejemplo tamaño de muestra

22

� Calcular con un error absoluto del 3% y una confianza del 99% eltamaño de muestra necesario para estimar la prevalencia de utilizaciónde internet en los hogares españoles. Estudios previos indican el valorde prevalencia de internet en España en un 75%.

� ¿y si la confianza fuese del 95%?

Tª de la Estimación

Ejercicio

23

� El muestreo debe ser exhaustivo (sin reemplazamiento).

� Corrección a partir del valor de n calculado para poblaciones infinitas:

&∗ &

1 5&[

Tª de la Estimación

Tamaño de muestra para poblaciones finitas

Leyenda:&: &º#��tQ��$�#�-"!t���%"*"%"*$,-"u $&�� &+ & �"�.&∗: &º#��tQ��$�#�-"!t���%"*"%"*$,-"u $&��+ & �"�.N:Sujetosdelapoblaciónfinita.

24

� Calcular el tamaño de muestra del ejercicio anterior, si realizamos el estudio en un municipio de 2000 habitantes.

� Con una confianza del 99%: 9& 1382:

� Con una confianza del 95%: 9& 800:

Tª de la Estimación

Ejercicio

25

� El muestreo aleatorio simple no es adecuado si queremos estu diar objetos concaracterísticas poco frecuentes . En estos casos debemos acudir a otrosprocedimientos:

� Muestreo estratificado:� Segmentar a la población en grandes grupos homogéneos, y extraer una submuestra de cada

estrato con un muestreo aleatorio simple.� Ej: segmentar por edad, por sexo, religión, nivel de estudios.

� Muestreo por conglomerados:� Conglomerados: Existe una organización de pequeños grupos naturales. Ej: clases, fábricas,

centros de salud, ciudades,…� Consiste en elegir al azar conglomerados y se encuesta a todos los sujetos del conglomerado.� Es necesario que en cada conglomerado exista heterogeneidad en la variable a estudiar.

� Elección:

Tª de la Estimación

Estimación de porcentajes pequeños.

VariabilidadIntra grupos

VariabilidadInter grupos

M. Estratificado pequeña Grande

M. conglomerados grande pequeña

26Tª de la Estimación

MUCHAS GRACIAS POR VUESTRA

ATENCIÓN.