clave laboratorio 2: manejo de datos – gráficos...

15
Revisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 1 CLAVE - Laboratorio 2: Manejo de datos – Gráficos I Planes de muestreo Repaso de métodos de muestreo: Muestreo Aleatorio Estratificado: -requiere información sobre otra variable en la población (aparte de la variable bajo estudio) para dividir la población en estratos o subpoblaciones (p. ej. por edad, sexo, ingreso, región, tamaño de finca, etc.) Muestreo Aleatorio Conglomerado: -Se divide la población en grupos o conglomerados. Se toma una muestra aleatoria de los grupos y se toman datos dentro de los grupos seleccionados. Ejemplo de muestreo estratificado vs. conglomerado #1 - Se dividen los municipios de la isla (la población) en 3 estratos (subpoblaciones): área este, central y oeste y se recogen datos dentro de cada estrato. Esto sería un ejemplo de un muestreo estratificado. #2 - Se seleccionan (al azar) 15 de los 78 municipios en la isla y se recolectan datos dentro de los 15 municipios seleccionados. Esto sería un ejemplo de muestreo conglomerado (los municipios son los conglomerados). Para cada uno de los siguientes planes de muestreo, identifique el nombre del plan de muestreo que se está usando e indique cuál es la unidad (o unidades) de muestreo. 1. Se desea estimar el daño por roya (una enfermedad) de café en una finca. Para ello se lleva a cabo el siguiente plan de muestreo: Caminando a lo largo de la primera hilera en la finca, se elige aleatoriamente un árbol entre los primeros 20 árboles. Luego de realizar esta evaluación se continúa caminando y se evalúa cada árbol ubicado en la posición número 20 (es decir, se cuentan los árboles a partir del que se ha evaluado y se evalúa cada 20 árboles). Como hay aproximadamente 600 árboles en la finca, se espera muestrear alrededor de 30 árboles. A cada árbol se le realiza una evaluación visual del daño por roya en las hojas (escala 1 a 5, con 1 representando “sin daño” y 5 representando “mayoría de hojas completamente dañadas”). Éste es un plan de muestreo sistemático con arranque aleatorio. La unidad de muestreo es el árbol 2. Para estudiar la prevalencia de mastitis en Puerto Rico (definida aproximadamente como el porcentaje de animales enfermos) se eligen 15 vaquerías aleatoriamente de la lista de vaquerías registradas en el Departamento de Agricultura. En cada vaquería se examinan 12 vacas aleatoriamente elegidas.

Upload: dangthuan

Post on 22-Mar-2018

213 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 1

CLAVE - Laboratorio 2: Manejo de datos – Gráficos I

Planes de muestreo

Repaso de métodos de muestreo:

Muestreo Aleatorio Estratificado:

-requiere información sobre otra variable en la población (aparte de la variable bajo

estudio) para dividir la población en estratos o subpoblaciones (p. ej. por edad, sexo,

ingreso, región, tamaño de finca, etc.)

Muestreo Aleatorio Conglomerado:

-Se divide la población en grupos o conglomerados. Se toma una muestra aleatoria de los

grupos y se toman datos dentro de los grupos seleccionados.

Ejemplo de muestreo estratificado vs. conglomerado

#1 - Se dividen los municipios de la isla (la población) en 3 estratos (subpoblaciones): área

este, central y oeste y se recogen datos dentro de cada estrato. Esto sería un ejemplo de un

muestreo estratificado.

#2 - Se seleccionan (al azar) 15 de los 78 municipios en la isla y se recolectan datos dentro

de los 15 municipios seleccionados. Esto sería un ejemplo de muestreo conglomerado (los

municipios son los conglomerados).

Para cada uno de los siguientes planes de muestreo, identifique el nombre del plan de muestreo

que se está usando e indique cuál es la unidad (o unidades) de muestreo.

1. Se desea estimar el daño por roya (una enfermedad) de café en una finca. Para ello se lleva a

cabo el siguiente plan de muestreo: Caminando a lo largo de la primera hilera en la finca, se

elige aleatoriamente un árbol entre los primeros 20 árboles. Luego de realizar esta

evaluación se continúa caminando y se evalúa cada árbol ubicado en la posición número 20

(es decir, se cuentan los árboles a partir del que se ha evaluado y se evalúa cada 20 árboles).

Como hay aproximadamente 600 árboles en la finca, se espera muestrear alrededor de 30

árboles. A cada árbol se le realiza una evaluación visual del daño por roya en las hojas

(escala 1 a 5, con 1 representando “sin daño” y 5 representando “mayoría de hojas

completamente dañadas”).

Éste es un plan de muestreo sistemático con arranque aleatorio. La unidad de muestreo es

el árbol

2. Para estudiar la prevalencia de mastitis en Puerto Rico (definida aproximadamente como el

porcentaje de animales enfermos) se eligen 15 vaquerías aleatoriamente de la lista de

vaquerías registradas en el Departamento de Agricultura. En cada vaquería se examinan 12

vacas aleatoriamente elegidas.

Page 2: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 2

Éste es un plan de muestreo por conglomerado (o en dos etapas). En la primera etapa se

muestraron 15 vaquerías de la lista de vaquerías (=grupos o conglomerados) registradas en

el Dept. de Agric.). En la 2nda etapa, se seleccionaron 12 vacas de cada vaquería

muestreada. La unidad primaria es una vaquería y la unidad secundaria (sobre la que

efectuamos nuestra observación) es una vaca.

3. Se interesa realizar un estudio de capacidad de secuestro de carbono por bosques

secundarios del área central de Puerto Rico. La región de interés consiste de tres zonas

ecológicas: (1) zona 1 que cubre el área más extensiva (70% del área total), (2) zona 2 que

cubre menos área (20% del área total), y (3) zona 3 que cubre un área limitado (10% del área

total). En cada una de las tres zonas identificadas se elegirán al azar varias parcelas de 0.5

hectáreas, y se registrarán las variables de interés: altura y diámetro de todos los árboles de

la parcela. La cantidad de parcelas a elegir en cada zona ecológica es proporcional al área

que esa zona representa respecto al área total de la zona central de Puerto Rico.

Éste es un plan de muestreo aleatorio estratificado. La unidad de muestreo es la parcela.

(Observe que estudiamos todos los árboles en la parcela elegida, por lo que el árbol no es la

unidad de muestreo.) Si hay n=100 parcelas en total, se escogerían 70 parcelas de zona 1,

20 parcelas de zona 2 y 10 parcelas de zona 3.

Manejo de datos en Infostat

Para manejar datos en Infostat se puede trabajar con el menú Datos. Este menú permite crear

nuevas filas, insertar o eliminar filas, activar/desactivar casos (filas), crear/insertar/eliminar

columnas, poner etiquetas (nombres a las columnas), definir el tipo de datos en una columna, la

cantidad de decimales a mostrar, ordenar, crear categorías, transformar y aplicar fórmulas. En

este laboratorio vamos a trabajar con los datos de café entrados en la última clase y con otros

conjuntos de datos que ya están en Infostat. Los archivos que ya están en Infostat se acceden con

el menú “Archivo, abrir datos de prueba”.

Para usar el menú de gráficos debemos tener la tabla de datos abierta. Hay dos ventanas

relacionadas: Herramientas gráficas y Gráficos. Vamos a preparar distintos gráficos con los datos

provistos y aprenderemos las herramientas básicas sobre los ejemplos. Es muy importante que

practiquen distintas alternativas, opciones, etc. hasta lograr el gráfico deseado. Una vez que está

el gráfico completo podemos hacer copia del mismo para ponerlo, por ejemplo, en Word o

PowerPoint. En el manual de Infostat (menú Ayuda>Manual) se describen todas las opciones

gráficas disponibles.

Es importante recordar que Infostat solamente guarda los cambios efectuados en la tabla de datos

abierta, es decir, no guarda ni gráficos ni la salida mostrada en la ventana “Resultados”. Si

queremos guardar los gráficos tenemos dos opciones: o los copiamos en un documento (por

ejemplo en Word), o los guardamos como gráficos de Infostat. La última opción nos permitirá

cambiarlos en el futuro, mientras que si queremos cambiar un gráfico que ya está pegado en

Word debemos rehacerlo en Infostat.

Page 3: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 3

4. Realice un gráfico de barras para ver la altura promedio de árboles sanos y enfermos (datos

de café usados en el laboratorio 1). Use como variable a graficar la altura (en metros), y

como criterio de clasificación la variable enfermo. Las opciones que puede usar son “media,

medidas de confianza, ninguna”.

a. Considere la salida original (sin arreglar las escales, etc.,):

i. ¿Qué estadística está representada por la altura de las barras?

La media

ii. ¿Parece haber una diferencia en la altura promedio de árboles enfermos y

no enfermos?

Usando la salida original, las barras parecen tener alturas muy

distintas. La razón es porque se está comparando solamente una

pequeña parte de la escala (la escala esta amplificada)

b. Cambie la escala de Y a un mínimo de 0 y un máximo de 3.5. Arregle los “ticks”

(divisiones en la escala) y los decimales. Haga los otros arreglos necesarios para

que se pueda apreciar bien lo que se quiere mostrar.

i. Después de realizar los cambios, ¿Parece haber una diferencia en la altura

promedio de árboles enfermos y no enfermos?

Ahora, se nota que las alturas de las dos barras son casi iguales.

Árboles enfermos y no enfermos tienen más o menos la misma altura.

Aquí se entra la variable del eje Y:

Típicamente una cantidad, %, total,

etc.

Aquí entramos el nombre de la variable

categórica (cualitativa). Los datos de una

variable categórica son categorías o clases (en

este ejemplo los datos son “si” o “no”)

Page 4: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 4

Salida que inicialmente sale en InfoStat: Salida modificada (mejorada):

Si no se modifica el gráfico, da la impresión de que hay mucha diferencia de altura entre

los árboles enfermos y no enfermos. A cambiar la escala, se ve que los promedios son muy

parecidos.

5. Grafique los siguientes datos, referidos a la distribución porcentual del gasto de alimento

anual en distintas categorías. (% = porcentaje de los gastos anuales en alimentos). Realice un

gráfico de barras y luego un gráfico de sectores. Para el gráfico de barras, la “variable a

graficar” es “%” y el “criterio de clasificación” es “alimento” (las categorías en el eje X).

Para el gráfico de sectores entramos “alimento” en la ventanilla de “clases (sectores de la

torta)” y “%” en “frecuencia”. Haga los otros arreglos necesarios para que se pueda apreciar

bien lo que se quiere mostrar. Para arreglar las barras en orden de mayor a menor: en el eje X

selecciona la categoría que desea mover, y utilice “Ctrl + flecha” para mover la categoría al

lugar deseado. ¿Qué gráfico le gusta más? (ambas opciones son válidas)

Categoría %

Productos lácteos 13.4

Cereal y panificados 12.6

Bebidas sin alcohol 8.9

Pescados y aves 7.5

Frutas y vegetales 15.6

Carne 24.5

Otras 17.5

no si

enfermo

2.92

2.95

2.97

3.00

3.03

altu

ra

Título

no si

árbol enfermo?

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Altu

ra (

m)

Altura promedio de árboles de cafe enfermos y no enfermos

El propósito del grafico es informar el lector sobre como compara el número de árboles de café

que están enfermos versos los que están sanos.

Page 5: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 5

OPCIÓN A

Aquí, no se permite que se entra una variable categórica (porque corresponde al eje Y, que

tiene que ser una variable cuantitativa)

Page 6: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 6

OPCION B (gráfico de sectores donde los % ya están calculados)

Si se entran los datos como en la tabla abajo, las categorías están en diferentes FILAS (no

columnas).

pro

du

cto

s lá

cte

os

ce

rea

l y

pa

nif

ica

do

s

be

bid

as

sin

alc

oh

ol

pe

sc

ad

os

y a

ve

s

fru

tas

y v

eg

eta

ble

s

ca

rne

otr

os

Alimento

0

5

10

15

20

25

30

% d

el g

asto

an

ua

l e

n a

lim

en

tos

Distribución de gastos de alimento

Page 7: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 7

6. Los siguientes datos representan los gastos (en dólares/mes) de familias urbanas y rurales en

distintos rubros.

Familia alimentación serv. e imp. educación otros

Urbana 300 90 120 100 Rural 500 50 50 100

a. Para las familias rurales y urbanas, calcule (a mano) el porcentaje de los gastos

mensuales (totales) por categoría de gastos.

Familia alimentación serv. e imp. educación otros

GASTOS TOTALES

(por tipo de familia)

Urbana 300 (49.2%) 90 (14.8%) 120 (19.6%) 100 (16.4%) 610

Rural 500 (71.4%) 50 (7.1%) 50 (7.1%) 100 (14.3%) 700

b. A mano y en Infostat, haga un gráfico de sectores para las familias urbanas

mostrando los gastos proporcionales en las distintas categorías. Haga otro gráfico

para familias rurales. Compare sus gráficos con gráficos de sectores hechos con

productos lácteos (13%)

cereal y panificados (13%)

bebidas sin alcohol (9%)

pescados y aves (7%)

frutas y vegetables (16%)

carne (24%)

otros (17%)

Distribución porcentual de gastos de alimento

Page 8: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 8

InfoStat (ayuda: las categorías están en columnas, “familia” en “criterios de

clasificación”)

Los archivos para los siguientes ejercicios se encuentran en el menú “Archivo, abrir datos

de prueba”:

Ejercicio 6.

OPCIÓN A

Si se entran los datos en la misma forma como la tabla original, entonces cada categoría

tiene sus datos en una columna aparte. Por esta razón, se selecciona la opción de

“categorías en columnas”

Los distintos rubros son las clases de los sectores de la torta, e InfoStat genera una torta

aparte para cada tipo de familia (urbana y rural)

Page 9: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 9

En estos gráficos de torta, se nota claramente que las familias urbanas gastan

proporcionalmente menos en la compra de alimentos comparadas con familias rurales (casi

50% vs. aprox. 70%), y dedican más de sus recursos a la educación (casi 20% vs. 7%).

Pero un gráfico de torta no nos dice nada sobre la cantidad de dinero gastado.

OPCIÓN B

Otra opción es usar un gráfico de barras adyacentes. ESTA OPCION NO ES LA

PREFERIBLE si el objetivo es comparar PORCENTAJES O PORCIONES DE UN

TOTAL!! Pero al contrario de la opción A (gráfico de torta), aquí se nota la cantidad de

dinero gastado en cada categoría (si esto fuera un manuscrito, uno utilizaría la tabla de

datos o el gráfico, no ambos – dan exactamente la misma información).

Familia Urbana

Familia Rural

Alimentacion

Alimentacion

Serv. e imp.

Serv. e imp.

Educacion

Educacion

Otros

Otros

Gastos de familias urbanas y rurales en distintos rubros

Page 10: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 10

a. Realice un gráfico de barras apiladas (con familia en “criterios de clasificación”),

seleccionando la opción de “apilar proporciones”. Como compara la información

presentada en este gráfico con la de la parte b?

Una tercera opción para graficar estos datos es la de barras apiladas, con totales ($/mes) o

con proporciones, dependiendo lo que el investigador le interesa presentar (objetivo del

estudio)

Alimentacion Serv. e imp. Educacion Otros

Urbana Rural

Familia

0

100

200

300

400

500

600

Ga

sto

s e

n d

istin

tos r

ub

ros (

$/m

es)

Gastos de Familias Urbanas vs. Rural en Distintos Rubros

Alimentacion Serv. e imp. Educacion Otros

Hay opciones en InfoStat para

modificar la tipografía – p. ej. Para

hacer este título con letras más

grandes – un “click” derecho

generalmente abre opciones en

InfoStat

Page 11: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 11

Page 12: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 12

NOTA: en el caso donde el eje Y representa proporciones (como aquí), un gráfico de

barras apiladas es en realidad un tipo de gráfico de torta.

7. Con el objetivo de estudiar la relación entre el peso (Y) y el perímetro (X) de cabezas de ajo,

prepare los diagramas de dispersión indicados utilizando los datos de Ajoblanc (datos del

perímetro (cm) y el peso (g) de la cabeza de 1600 ajos de cosechas de 1998 y 1999 [Fuente:

Software InfoStat]).

a. Haga un gráfico con ambos años juntos. ¿Hay una relación entre el perímetro y el

peso? Si su respuesta es sí, describa la relación.

b. Utilizando la opción de “particiones”, haga un gráfico que identifique el año con

colores diferentes. ¿Hay diferencias entre años?

Alimentacion Serv. e imp. Educacion Otros

Urbana Rural

Familia

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

Ga

sto

s e

n d

istin

tos r

ub

ros (

Pro

po

rcio

ne

s a

cu

mu

lad

as)

Gastos de familias urbanas y rurales en distintos rubros

Alimentacion Serv. e imp. Educacion Otros

0 5 10 15 20 25 30

perímetro (cm)

0

20

40

60

80

100

120

140

160

pe

so

(g

)

Relación entre perímetro y peso en cabezas de ajo

Page 13: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 13

Para hacer un gráfico con los años separados, entra “año” en particiones y asegure que

“particiones en el mismo gráfico” esta seleccionado

En esta salida, vemos una de las “particularidades” de Infostat. Al pedir la leyenda, la

rotulación que sale dice “peso-1998” y “peso-1999” en vez de simplemente “1998” o “1999”

(que sería preferible). Utilizando “herramientos gráficas”, se puede modificar estas

rotulaciones (en “series” – haciendo un doble click sobre las etiquetas)

8. Utilizando el conjunto de datos CapacidadRespiratoria (un estudio realizado por una

compañía farmacéutica para examinar los efectos de tres drogas sobre la capacidad

respiratoria de pacientes de asma [Fuente: Software InfoStat]), prepare un gráfico de barras

de manera que pueda comparar cómo cambia con el tiempo la capacidad respiratoria

promedio bajo los distintas drogas. “Hora” = número de horas después de administrar la

droga [Ayuda: Querremos “hora” en el eje X (“criterios de clasificación”), y droga en

“particiones” (para tener barras adyacentes). Luego de “aceptar” por 1era vez, seleccione la

opción de “particiones en el mismo gráfico” y “medidas de confianza, ninguna”, seguido por

“aceptar” de nuevo).

peso-1998 peso-1999

0 8 15 23 30

perímetro (cm)

0

40

80

120

160

pe

so

(g

)

Título

peso-1998 peso-1999

Page 14: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 14

Page 15: CLAVE Laboratorio 2: Manejo de datos – Gráficos Iacademic.uprm.edu/rmacchia/agro5005/lab2clave.pdfRevisado_agosto 2017_LWB/RS AGRO 5005 – CLAVE Lab 2 Page 2 Éste es un plan de

Revisado_agosto 2017_LWB/RS

AGRO 5005 – CLAVE Lab 2 Page 15

En “series”, se puede modificar los nombres de las etiquetas en la leyenda (para mejorar la

apariencia de gráfico)

Cap_Respirat-A Cap_Respirat-B Cap_Respirat-P

1 2 3 4 5 6 7 8

Hora

0.00

1.00

2.00

3.00

4.00

Ca

p_

Re

sp

ira

t-P

Título

Cap_Respirat-A Cap_Respirat-B Cap_Respirat-P

Droga A Droga B Droga P

1 2 3 4 5 6 7 8

Hora

0.00

1.00

2.00

3.00

4.00

Ca

p_

Re

sp

ira

t-P

Título

Droga A Droga B Droga P