05 conceptosestimadores parte-ii

3
Universidad Nacional Agraria La Molina Departamento de Manejo Forestal FR2010 SEMINARIO EN ESTADISTICA FORESTAL Página 1 ConceptosEstimadores Parte-II.doc CONCEPTOS SOBRE ESTIMACIONES Y ESTIMADORES – Segunda Parte 1 La media de todas las posibles muestras es idéntica al parámetro µ de la población. Esta media de k posibles medias muestrales x j es llamada el valor esperado, y es expresado en forma de fórmula como De ello se desprende que x sea un estimador consistente e insesgado de µ, y que sea cierta la siguiente expresión: El símbolo significa “es un estimador de”. La diferencia entre el estimador y el parámetro poblacional es el error del estimador. Así, x - µ es el ‘error de la media muestral’, y s 2 - σ 2 es el ‘error de la varianza muestral’. Estos errores se originan de varias fuentes. Existen errores cuando se cometen equivocaciones en la medición, observación o registro de los datos de las parcelas de muestreo. También pueden haber errores como resultado del empleo de métodos defectuosos de cómputo o por equivocaciones en los cálculos. El verdadero error de muestreo se debe al hecho de que la muestra comprende sólo una parte de la población y consecuentemente los estimados no pueden ser idénticos a los parámetros correspondientes. Dado nuestro desconocimiento de los parámetros poblacionales de un bosque, nosotros no somos capaces de determinar el verdadero valor del error de muestreo en un inventario forestal. Como alternativa, tenemos que usar los datos de la muestra para obtener una medida del error de muestreo que llene la condición de consistencia. El error estándar es esa medida de la magnitud del error de muestreo. El error estándar es una medida de los límites de confianza de una media muestral. Él determina el rango alrededor de la media muestral ( x ) dentro del cual puede esperarse con cierta probabilidad que se encuentre la media poblacional (µ). El error estándar expresado como fórmula es: Generalmente el objeto de un inventario forestal es obtener un estimado del valor promedio µ para cada una de las diferentes poblaciones comprendidas. La determinación exacta de la media µ no es posible pero si podemos establecer los límites del rango dentro del cual puede esperarse que se encuentre aquella, con un cierto grado de probabilidad. La media µ puede ser mayor o menor que el estimado x . Nosotros debemos entonces escribir: donde | | significa que el signo es ignorado. Entonces, tS x = | x - µ| y µ = x ± tS x . 1 Responsable: Ing.For. Carlos R. Vargas Salas Fuentes: Loetsch, F. – Haller, K. 1964, Forest Inventory. Vol. I. BLV, Munich. Freese, F. 1978. Métodos Estadísticos Elementales para Técnicos Forestales. Manual de Agricultura No.317. Dep. de Agricultura de los EEUU de América. k x x E k j = = = 1 1 ) ( µ µ = = n x x n i i 1 n s S x = x S x t µ =

Upload: romina-alvarez-lozano

Post on 23-Jan-2016

1 views

Category:

Documents


0 download

DESCRIPTION

Estimadores

TRANSCRIPT

Universidad Nacional Agraria La Molina Departamento de Manejo Forestal FR2010 SEMINARIO EN ESTADISTICA FORESTAL

Página 1 ConceptosEstimadores Parte-II.doc

CONCEPTOS SOBRE ESTIMACIONES Y ESTIMADORES – Segunda Parte1

La media de todas las posibles muestras es idéntica al parámetro µ de la población. Esta media de k posibles medias muestrales x j es llamada el valor esperado, y es expresado en forma de fórmula como

De ello se desprende que x sea un estimador consistente e insesgado de µ, y que sea cierta la siguiente expresión:

El símbolo → significa “es un estimador de”.

La diferencia entre el estimador y el parámetro poblacional es el error del estimador. Así, x - µ es el ‘error de la media muestral’, y s2 - σ2 es el ‘error de la varianza muestral’.

Estos errores se originan de varias fuentes. Existen errores cuando se cometen equivocaciones en la medición, observación o registro de los datos de las parcelas de muestreo. También pueden haber errores como resultado del empleo de métodos defectuosos de cómputo o por equivocaciones en los cálculos.

El verdadero error de muestreo se debe al hecho de que la muestra comprende sólo una parte de la población y consecuentemente los estimados no pueden ser idénticos a los parámetros correspondientes.

Dado nuestro desconocimiento de los parámetros poblacionales de un bosque, nosotros no somos capaces de determinar el verdadero valor del error de muestreo en un inventario forestal. Como alternativa, tenemos que usar los datos de la muestra para obtener una medida del error de muestreo que llene la condición de consistencia. El error estándar es esa medida de la magnitud del error de muestreo.

El error estándar es una medida de los límites de confianza de una media muestral. Él determina el rango alrededor de la media muestral ( x ) dentro del cual puede esperarse con cierta probabilidad que se encuentre la media poblacional (µ). El error estándar expresado como fórmula es:

Generalmente el objeto de un inventario forestal es obtener un estimado del valor promedio µ para cada una de las diferentes poblaciones comprendidas. La determinación exacta de la media µ no es posible pero si podemos establecer los límites del rango dentro del cual puede esperarse que se encuentre aquella, con un cierto grado de probabilidad. La media µ puede ser mayor o menor que el estimado x . Nosotros debemos entonces escribir:

donde | | significa que el signo es ignorado.

Entonces, tS x = | x - µ| y µ = x ± tS x .

1 Responsable: Ing.For. Carlos R. Vargas Salas Fuentes: Loetsch, F. – Haller, K. 1964, Forest Inventory. Vol. I. BLV, Munich. Freese, F. 1978. Métodos Estadísticos Elementales para Técnicos Forestales. Manual de Agricultura No.317. Dep. de Agricultura de los EEUU de América.

k

xxE

k

j∑=== 11)(µ

µ→=∑=

n

xx

n

ii

1

nsSx =

xSx

tµ−

=

Universidad Nacional Agraria La Molina Departamento de Manejo Forestal FR2010 SEMINARIO EN ESTADISTICA FORESTAL

Página 2 ConceptosEstimadores Parte-II.doc

De ello se desprende que cualquier estimado de la media µ consiste de tres componentes:

1. la media muestral x

2. el error estándar S x , y

3. el valor de t para una cierta probabilidad de la discrepancia | x - µ|

La selección del nivel de probabilidad dependerá de las circunstancias. Altos niveles, tales como p<0.01, serán necesarios al realizar tests de drogas, pero niveles más bajos pueden ser apropiados para otros propósitos. Una probabilidad de discrepancia de p=0.05 se ha convertido en la acostumbrada para inventarios forestales. El riesgo aceptado de que la verdadera media de la población caiga fuera del intervalo de confianza calculado es entonces de uno en veinte. El valor de t es 1.96 para p=0.05 y una distribución normal, o en otras palabras, para un número infinito de grados de libertad. Anteriormente ya hemos establecido que s es sólo un estimado de σ y por lo tanto está también sujeto al error de muestreo, el cual también afecta al valor de S x . Además, debemos recordar que la distribución de las medias x de muestras pequeñas sólo tienden a la normalidad, de la cual difieren en alguna medida. Como un ejemplo, hemos usado los datos de muestras de tamaño n=2, n=4 y n=8 en la población I⊗ y calculado el número y porcentaje de muestras que caen fuera del rango µ ± σ x y µ ± 1.96σ x Tamaño de

muestra

k

σ x =σ/√n El rango µ ± σ x

Número y porcentaje de muestras con medias fuera del

rango µ ± σ x

El rango µ ± 1.96σ x

Número y porcentaje de muestras con medias fuera del

rango µ ± 1.96σ x

Número Porcentaje

de k

Número Porcentaje

de k

n = 2 200 5.767 7.876—19.410 65 32.5 2.340—24.946 5 2.5

n = 4 100 4.021 9.622—17.664 30 30.0 5.762—21.524 6 6.0

n = 8 50 2.885 10.758—16.528 17 34.0 7.988—19.298 1 2.0

Valor esperado 31.8 Valor esperado 5.0

Donde µ =13.643 σ = ±8.181 k = número de muestras

Las diferencias entre las proporciones observadas de excedentes y los valores esperados son relativamente pequeñas. Este resultado es de hecho más favorable de lo que cabría esperar para tan pequeñas muestras. La población IVΦ no habría producido una distribución normal de las medias de tales muestras de tamaño n=2 y aún n=8 por el gran número de cero-plots (75 por ciento). Una distribución normal podría en este caso esperarse sólo con mayores tamaños de muestra, como n=30 o más grande.

W.S.Gosset, bajo el seudónimo de “Student”, publicó en 1908 un artículo acerca de “El Error Probable de la Media” en el cual establecía la distribución teórica de t. La distribución t hace posible realizar afirmaciones ajustadas de la precisión aún de muestras pequeñas. La curva de la distribución t es también simétrica a ambos lados de la media pero tiene un mayor grado de kurtosis y colas que descienden con menos pendiente que la curva de distribución normal.

Para muestras de tamaño n>30 la distribución t puede considerarse como prácticamente normal con media µ = 0 y desviación estándar σ = 1.

⊗ El autor Loetsch desarrolla su obra con ayuda de ejemplos prácticos y cuatro poblaciones de valores conocidos a nivel de parcelas individuales. La población I está constituida por los volúmenes de 400 plots de 0.1 ha cada uno. φ La población IV tiene 1600 plots de la misma área pero con muchos plots vacíos y mostrando agrupamiento entre los plots conteniendo algún volumen.

Universidad Nacional Agraria La Molina Departamento de Manejo Forestal FR2010 SEMINARIO EN ESTADISTICA FORESTAL

Página 3 ConceptosEstimadores Parte-II.doc

La figura que sigue permite visualizar la diferencia entre las dos distribuciones con respecto a las probabilidades de discrepancia. El eje Y da el valor de t, mientras que el eje X representa la probabilidad de discrepancia p.

La curva de más abajo corresponde a la distribución normal, encontrándose por encima de ella las

curvas de distribución t para 1, 3, 7 y 30 grados de libertad (correspondientes a muestras de tamaños n = 2, n = 4, n = 8 y n = 30), pudiéndose apreciar cómo la distribución se aproxima a la normalidad con tamaños de muestra grandes. Las intersecciones de las dos líneas rectas verticales, levantadas perpendicularmente al eje X, con las curvas dan los valores de t necesarios en cada caso para obtener las probabilidades de p = 0.05 y p = 0.32, las cuales son:

p=0.05 p=0.32

Distribución Normal 1.96 1.00 Distribución t, g.l. = 30 2.042 1.03 Distribución t, g.l. = 7 2.365 1.12 Distribución t, g.l. = 3 3.182 1.22 Distribución t, g.l. = 1 12.706 1.85

Las diferencias entre los valores t para los distintos grados de libertad son menores a la probabilidad de

p=0.32 que a p=0.05. Para muestras grandes de n>30 usualmente será suficiente aplicar para t el valor promedio de 2, lo cual a p=0.05 significa que existe 95 por ciento de probabilidad de que la media de la población esté comprendida dentro del rango x ± 2S x , pero para muestras más pequeñas deben emplearse los valores especificados en la tabla de t.

Expuesto lo anterior, queda pasar al terreno práctico, de averiguar el tamaño que debería tener la muestra para lograr una estimación con un grado de precisión aceptable. Es decir, que el error de muestreo tS x fuera igual o menor a un valor E a menos que ocurriera una rara eventualidad que sólo se da una vez cada veinte veces que obtenemos una muestra aleatoria. Es decir, queremos que tS x =E, o, puesto que S x =s/√n, queremos que t (s/√n) = E.

Despejando n, obtenemos el tamaño de muestra deseado:

-------

2

22

Estn =

Valor de t necesario para obtener diversos valores de probabilidad con muestras de tres tamaños

02468

101214161820

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.03 0.01

Probabilidad p

valo

r t

Distrib.NormalDistrib.-t 30 glDistrib.-t 7 glDistrib.-t 3 glDistrib.-t 1 gl