introducción a rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · web view(un...

23
hjv Muestreo. Sistemas Ambientales, Dpto. de Sistemas, División de CBI, Universidad Autónoma Metropolitana 1. - Objetivos 2. - Principales Tipos de Muestreo. 3. – Intervalos de Confianza En caso de que usted le interese más conocer sobre el tema consultar el documento Gran parte de la información que se presenta a continuación se tomo del siguiente documento TÉCNICAS DE MUESTREO PARA MANEJADORES DE RECURSOS NATURALES FRANCISCO BAUTISTA ZÚÑIGA Editor General HUGO DELFÍN GONZÁLEZ Editor Asociado JOSÉ LUIS PALACIO PRIETO Editor Asociado MARÍA DEL CARMEN DELGADO CARRANZA Asistencia Técnica UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO UNIVERSIDAD AUTÓNOMA DE YUCATÁN CONSEJO NACIONAL DE CIENCIA Y TECNOLOGÍA INSTITUTO NACIONAL DE ECOLOGÍA 2004 1.Objetivos Una vez que el problema, los objetivos y las hipótesis de una investigación han sido planteados, la etapa siguiente que debe ser atendida es el diseño del muestreo. La parte estadística del muestreo es indispensable en la obtención de datos, es la piedra angular de la investigación. Una muestra que no tenga representación de la población de estudio imposibilita la obtención de datos. Se pretende en esta práctica responder a tres grandes preguntas: ¿cómo debo tomar las muestras?, ¿dónde debo muestrear? y, cuántas muestras debo tomar? Para que mis datos sean representativos de la población que pretendo estudiar. Esto debido a que no es posible estudiar toda la población. 2. - Principales Tipos de Muestreo. 1

Upload: others

Post on 11-Jan-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

Muestreo.Sistemas Ambientales, Dpto. de Sistemas, División de CBI, Universidad Autónoma Metropolitana1. - Objetivos2. - Principales Tipos de Muestreo. 3. – Intervalos de Confianza

En caso de que usted le interese más conocer sobre el tema consultar el documentoGran parte de la información que se presenta a continuación se tomo del siguiente documento

TÉCNICAS DE MUESTREO PARA MANEJADORES DE RECURSOS NATURALESFRANCISCO BAUTISTA ZÚÑIGA

Editor GeneralHUGO DELFÍN GONZÁLEZ

Editor AsociadoJOSÉ LUIS PALACIO PRIETO

Editor AsociadoMARÍA DEL CARMEN DELGADO CARRANZA

Asistencia Técnica

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICOUNIVERSIDAD AUTÓNOMA DE YUCATÁN

CONSEJO NACIONAL DE CIENCIA Y TECNOLOGÍAINSTITUTO NACIONAL DE ECOLOGÍA

2004

1.Objetivos

Una vez que el problema, los objetivos y las hipótesis de una investigación han sido planteados, la etapa siguiente que debe ser atendida es el diseño del muestreo. La parte estadística del muestreo es indispensable en la obtención de datos, es la piedra angular de la investigación. Una muestra que no tenga representación de la población de estudio imposibilita la obtención de datos. Se pretende en esta práctica responder a tres grandes preguntas: ¿cómo debo tomar las muestras?, ¿dónde debo muestrear? y, cuántas muestras debo tomar? Para que mis datos sean representativos de la población que pretendo estudiar. Esto debido a que no es posible estudiar toda la población.

2. - Principales Tipos de Muestreo.

Elementos del problema de muestreoConsideraremos el problema particular del muestreo de poblaciones finitas, aunque ocasionalmente nos referiremos a poblaciones infinitas. La cantidad de información obtenida en la muestra para hacer inferencias acerca de la población depende del número de elementos muestreados y de la cantidad de variación de los datos.El diseño de la encuesta por muestreo es el método de selección de la muestra dirigido a controlar la variación de los datos que pudiera afectar la inferencia. El diseño de la encuesta y el tamaño de la muestra determinan la cantidad de información pertinente a un parámetro poblacional, siempre y cuando se obtengan mediciones exactas en cada elemento muestreado. Como siempre estaremos sujetos a errores, la manera de controlar la exactitud de las mediciones sería mediante métodos adecuados de recolección de datos y por una buena elaboración del instrumento de muestreo (o cuestionario o plan de muestreo).

Ejemplo. En una ciudad se tomó una muestra de agua en las tomas de agua con el fin de evaluar las características y calidad de esta

1

Page 2: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

Un ítem o unidad experimental última es un objeto en el cual se toman las mediciones. En el ejemplo anterior, una unidad experimental es la medición.

Una población es una colección de elementos acerca de los cuales deseamos hacer una inferencia. La población consiste en todas las tomas de agua

Consideraciones importantesUno debe definir cuidadosa y completamente la población antes de recolectar la muestra. Así, debemos distinguir entre la población muestreada y la población

objetivo, puesto que algunas partes de la población objetivo pueden ser imposibles de alcanzar (p.e. los “niños de la calle” o los “mendigos” en ciudades grandes no están en listas y no tienen residencias permanentes). Sin embargo, ellos son aún parte de la población de la ciudad. De manera similar, al considerar la población de pacientes potenciales con una enfermedad, no hay manera de muestrear a aquellos que no han nacido aun. Los estudios deberán ser diseñados de modo que la correspondencia entre la población objetivo y la población muestreada sea lo más estrecha posible. Las unidades de muestreo son colecciones no solapadas de elementos de la población que cubren la población completa.

Una muestra es una colección de unidades seleccionadas de un marco o varios marcos.

• Por qué tomar muestras?

Hay tres razones principales por las que en una población se deben tomar muestrasen lugar de realizar censos:

1. Puede ser impráctico un censo completo debido al costo y el esfuerzo involucrados (p.e. un botánico puede no tener suficiente tiempo para muestrear cada planta en un área).

2. El muestreo es más rápido que un conteo completo (p.e. una administración gubernamental puede decidir tomar una muestra del 10% de la población porque los resultados de un censo completo pueden estar parcialmente obsoletos en el momento en que sean procesados).

3. Las muestras pueden ser más exactas que los censos completos. La tercera razón puede ser sorprendente. Esto sucede porque a menudo los errores más grandes en la encuesta no son los errores de muestreo (debidos a los efectos casuales al seleccionar las unidades experimentales). Más bien, son los errores de no-muestreo que se deben a cosas como un muestreo sesgado, datos mal registrados, preguntas no entendidas correctamente, registros perdidos, etc. Una muestra relativamente pequeña pero bien organizada puede dar mejores resultados que una encuesta completa o una muestra grande que no puede ser administrada debido a la falta de recursos.

2

Page 3: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

res de una comunidad campesina entonces se podría notar que pareciera contener demasiadas mujeres jóvenes. Esto no invalida la muestra puesto que la mayoría de las muestras pequeñas tienen alguna apariencia de no ser representativas.

¿Cómo seleccionar una muestra irrestricta aleatoria? Con la ayuda de tablas de números aleatorios (o calculadoras con números aleatorios, con Excel, o con R). La selección de números corresponderá al número de elementos de la muestra, de entre un total de N elementos de la población. Con base en esta selección, se procede al muestreomismo.

¿Cómo se analizan los datos generados por un muestreo irrestricto aleatorio?

El análisis de los datos generados dependerá del parámetro-objetivo. En las Cajas 1 y 2, se describen los estimadores para la media y el total poblacionales, respectivamente. En estos casos, se supone que la variable medida en cada unidad muestral es continua. Así, yi representa la variable medida en la i-ésima unidad demuestreo seleccionada por el m.i.a., i = 1, 2,…, n.

3

Page 4: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv 4

Page 5: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

Ver el documento en Excel para ver cálculo del tamaño de la muestra

Este es un ejemplo

X o y es lo mismo

El 2 es el valor que resulta del cuantíl suponiendo una distribución Normal o t student.

Usted debe corregir esta formula

5

Page 6: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

El 2 es el valor que resulta del cuantíl suponiendo una distribución Normal o t student.

Usted debe corregir esta formula al entregar su práctica

Si N es muy grande respecto al tamaño de la muestra las formulas anteriores se simplifican a lo visto en clase.

6

Page 7: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

La pregunta que nos hacemos es como elegir n1, n2, etc, nL ¿

Hay varios métodos

7

Page 8: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv 8

Page 9: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv 9

Page 10: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv 10

Page 11: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

En la siguiente caja hay ERRORes

En la siguiente caja hay ERRORes

11

Page 12: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv 12

Page 13: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv 13

Page 14: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv 14

Page 15: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

GUIA

(un punto) Mapa conceptual integrando todos los distintos métodos de muestreo. (un punto) mapa conceptual integrando la metodología de toma de muestras (manual,

aleatorio, estratíficado y sistemático) (un punto) Edición de todas las ecuaciones con el editor Word (un punto) (un punto) Estructura de la práctica (introducción, interés y aplicaciones de los métodos de

muestreo en Ingeniería Ambiental (2 puntos) Realizar un muestreo manual y encontrar los estimadores de acuerdo al muestreo

aleatorio simple (N muy grande y n pequeño) (2 puntos) Realizar un muestreo aleatorio simple en computadora y encontrar los

estimadores (ver formulas en cajas) (3 puntos) Realizar un muestreo estratificado en computadora y encontrar los estimadores

(ver formulas en cajas) (2 puntos) Realizar un muestreo sistemático en computadora y encontrar los estimadores

(ver formulas en cajas) (1 punto) Comparar con el estudio completo de la población (un punto) Realizar un estudio comparativo de los resultados, conclusiones (un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación de

balance inicial (un punto) programas en R toma de muestras (si necesario hacer un programa, considerar el

máximo de argumentos en la función, o bien hacer varias funciones) (un punto) Aplicar la metodología de Muestreo a una situación real (defina las variables, la

oblación, la muestra, el método de muestreo)

La suma de los puntos equivale a la calificación máxima de 10.

Por supuesto que una práctica mal organizada o difícil de seguir o con los puntos mal explicados también se reducen puntos.

No olvidar indicar bibliografía. Si indica paginas web indicar dirección completa y la fecha e consultaChecar formulas con el docente o con el libro

Suerte

15

Page 16: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

Ejemplo en R

La instrucción n R para tomar muestreas es sample(x, size, replace = TRUE, prob = NULL)replace = FALSE sin remplazo

Primera etapa identificar la población de todos sus elementos

En este caso la población puede ser representada por sus datos

1 2 32 32 32 3

3

y<-c(1,2,2,2,2,3,3,3,3,3)xbar2<-c(rep(0,9))for (i in 1:9) {x<-sample(y,2,replace=TRUE)xbar2[i]<-mean(x)}

o

o bien mediante su función de probabilidad

x p(X= x) 1 0.1 xbar2<-c(rep(0,9))2 0.4 for (i in 1:9) {3 0.5 x<-sample(c(1,2,3),2,replace=TRUE, prob=c(0.1,0.4,0.5))

xbar2[i]<-mean(x)}

> x = c(.314,.289,.282,.279,.275,.267,.266,.265,.256,.250,.249,.211,.161)> tmp = hist(x) # store the results> lines(c(min(tmp$breaks),tmp$mids,max(tmp$breaks)),c(0,tmp$counts,0),type="l")

> x=runif(100) # get the random numbers> hist(x,probability=TRUE,col=gray(.9),main="uniform on [0,1]")> curve(dunif(x,0,1),add=T)

> x=rnorm(100)> hist(x,probability=TRUE,col=gray(.9),main="normal mu=0,sigma=1")> curve(dnorm(x),add=T

> n=5;p=.25 # change as appropriate> x=rbinom(100,n,p) # 100 random numbers> hist(x,probability=TRUE,)## use points, not curve as dbinom wants integers only for x

16

Page 17: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

> xvals=0:n;points(xvals,dbinom(xvals,n,p),type="h",lwd=3)> points(xvals,dbinom(xvals,n,p),type="p",lwd=3)

Discrete Random Variables in RStat 542, Fall 2006, Tuesday September 19, 2006M. Larsen, Iowa State University===============================================

====================help(Binomial)====================

dbinom(x, size, prob, log = FALSE) pbinom(q, size, prob, lower.tail = TRUE, log.p = FALSE) qbinom(p, size, prob, lower.tail = TRUE, log.p = FALSE) rbinom(n, size, prob)

Bernoulli has size=1

====================help(NegBinomial)====================

dnbinom(x, size, prob, mu, log = FALSE) pnbinom(q, size, prob, mu, lower.tail = TRUE, log.p = FALSE) qnbinom(p, size, prob, mu, lower.tail = TRUE, log.p = FALSE) rnbinom(n, size, prob, mu)

Geometric has size=1

The negative binomial distribution with 'size' = n and 'prob' = p has density p(x) = Gamma(x+n)/(Gamma(n) x!) p^n (1-p)^x for x = 0, 1, 2, ...

SO ADD r IF YOU WANT TO COUNT ALL TRIALS

The alternative parametrization (often used in ecology) is by the _mean_ 'mu', and 'size', the _dispersion parameter_, where 'prob' = 'size/(size+mu)'. The variance is 'mu + mu^2/size' in this parametrization or n (1-p)/p^2 in the first one.

====================help(Poisson)====================

dpois(x, lambda, log = FALSE) ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) rpois(n, lambda)

17

Page 18: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

====================help(Hypergeometric)====================

dhyper(x, m, n, k, log = FALSE) phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE) qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE) rhyper(nn, m, n, k)

Arguments: x,q: vector of quantiles representing the number of white balls drawn without replacement from an urn which contains both black and white balls. m: the number of white balls in the urn. n: the number of black balls in the urn. k: the number of balls drawn from the urn. p: probability, it must be between 0 and 1. nn: number of observations. If 'length(nn) > 1', the length is taken to be the number required.

N = m+n; M = m; K=k number of random deviates = nn

====================Other Discrete, including Discrete Uniform====================

help(sample)

sample(x, size, replace = FALSE, prob = NULL)

Arguments: x: Either a (numeric, complex, character or logical) vector of more than one element from which to choose, or a positive integer. size: non-negative integer giving the number of items to choose. replace: Should sampling be with replacement? (TRUE/FALSE; T/F) prob: A vector of probability weights for obtaining the elements of the vector being sampled.

--------------------Discrete Uniform--------------------

generate a random value

sample(1:N, 1, replace=FALSE) generate 'size' random values (size>N produces an error)

sample(1:N, 1, replace=FALSE)

--------------------Unfair die--------------------

sample(1:6, 1, prob=c(1/5,4/25,4/25,4/25,4/25,4/25)) sample(1:6, 1, prob=c(1/5,rep(4/25,5)))

18

Page 19: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

multiple draws

sample(1:6, 100000, prob=c(1/5,rep(4/25,5)), replace=T) table(sample(1:6, 100000, prob=c(1/5,rep(4/25,5)), replace=T))

--------------------Probability proportional to size sampling--------------------

If y is a vector of length N containing size measures,

sample(1:N, 1, prob=y)

multiple draws

sample(1:N, 100000, prob=y, replace=T) table(sample(1:N, 100000, prob=y, replace=T))

Pueden leer datos desde mi sitio

t3var <- read.table("http://ce.azc.uam.mx/profesores/hjv/datos/t3var.txt",h = T)> t3var sexe poi tai1 h 60 1702 f 57 1693 f 51 1724 f 55 1745 f 50 1686 f 50 1617 f 48 1628 h 72 1899 f 52 16010 h 64 17511 f 53 16512 h 72 16413 h 61 17514 h 78 18415 h 68 17816 f 51 15817 f 53 16418 h 79 17919 h 74 18220 h 62 17421 f 49 15822 f 50 16323 h 74 17224 h 80 18525 f 53 17026 h 73 178

19

Page 20: Introducción a Rmodelosysistemas.azc.uam.mx/texts/sa/practica3/practica3.doc  · Web view(un punto) obtener la solución analítica de la ecuación diferencial a partir de la ecuación

hjv

27 h 70 18028 h 72 18929 f 70 17230 f 62 17431 h 77 20032 h 70 17833 h 76 17834 f 51 16835 f 52 17036 f 57 16037 f 53 16338 f 55 16839 f 66 17240 h 65 17541 h 75 18042 f 50 16243 f 53 17744 h 55 16945 h 55 17346 h 72 18247 h 75 18348 h 73 18449 h 71 18150 h 66 18051 h 71 17852 h 79 17853 h 62 16854 f 47 16155 h 73 17156 h 72 18057 h 60 17458 h 67 17559 h 85 18260 h 73 18161 h 82 18862 h 86 18263 h 85 18964 h 65 17865 f 47 15066 h 74 186

plot(t3var$tai, t3var$poi, pch = ifelse(t3var$poi ==50, 1, 19))plot(t3var$tai, t3var$poi, pch = ifelse(t3var$sex == "f", 1, 19), col= "blue")

20