principios de estadística

24
Principios de Estad´ ıstica Histogramas Comparar distribuciones Comparar cuantiles Principios de Estad´ ıstica Leonardo Collado Torres y Mar´ ıa Guti´ errez Arcelus Licenciatura en Ciencias Gen´ omicas, UNAM www.lcg.unam.mx/~lcollado/index.php www.lcg.unam.mx/~mgutierr/index.php Cuernavaca, M´ exico Febrero - Junio, 2009 1 / 24

Upload: others

Post on 22-Nov-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Principios de Estadıstica

Leonardo Collado Torres y Marıa Gutierrez ArcelusLicenciatura en Ciencias Genomicas, UNAMwww.lcg.unam.mx/~lcollado/index.phpwww.lcg.unam.mx/~mgutierr/index.php

Cuernavaca, MexicoFebrero - Junio, 2009

1 / 24

Page 2: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Histogramas

1 Histogramas

2 Comparar distribuciones

3 Comparar cuantiles

2 / 24

Page 3: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Objetivos

Vamos a aprender aplastar los datos de las anterioresgraficas, osea, hacer histogramas.

Ademas, revisaremos unas graficas utiles para comparardistribuciones visualmente.

3 / 24

Page 4: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Data!!

Primero que nada, obtengamos unos datos aleatorios.

> set1 <- rnorm(1000)

> set2 <- runif(1000)

Si se acuerdan, en la clase pasada usamos plot paravisualizar nuestros datos. El problema es que querıamosaplastarlos hacia el eje Y , ya que el eje X representaba laposicion del numero azaroso. Osea, iba desde 1 hasta1000 en este caso.

4 / 24

Page 5: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

plot clase pasada

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

0 200 400 600 800 1000

−3

−2

−1

01

2

Index

set1

5 / 24

Page 6: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

hist

La forma de hacer este aplastamiento es con una lınearepresentando la densidad o con un histograma usando lafuncion hist. Si tienen curiosidad, hay funcionesalternativas cuando su set de datos es pequeno.

1 stripchart2 dotchart

Tengan cuidado, ya que un histograma es sensible altamano de cada barra que uses. En R el tamano lo escogeautomaticamente, aunque pueden utilizar el argumentobreaks para hacerlo de forma manual.

> `?`(hist)

> hist(set1)

6 / 24

Page 7: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Ejemplo con set1

Histogram of set1

set1

Fre

quen

cy

−3 −2 −1 0 1 2 3

050

100

150

200

7 / 24

Page 8: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Frecuencia o prob

En el modo default obtenemos un histograma defrecuencias. Podemos obtener un histograma deprobabilidades usando el argumento prob=TRUE

Al igual que con otras funciones de graficas puedencambiar el color, tıtulo, etc.

El siguiente ejemplo es con datos de R y es unadistribucion bimodal.

> hist(faithful$waiting, col = "light blue",

+ main = "Histograma de faithful$waiting",

+ xlab = "Tiempo de espera entre erupciones",

+ ylab = "Probabilidad", prob = T)

8 / 24

Page 9: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Otro ejemplo

Histograma de faithful$waiting

Tiempo de espera entre erupciones

Pro

babi

lidad

40 50 60 70 80 90 100

0.00

0.01

0.02

0.03

0.04

9 / 24

Page 10: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Usando par y mfrow

Usando histogramas, una forma sencilla de comparardistribuciones es hacer 2 graficas pegadas usando par.Claro, tengan cuidado porque diferentes distribuciones sepueden parecer mucho bajo ciertos parametros.

> par(mfrow = c(1, 2))

> hist(set1, prob = T)

> hist(set2, prob = T)

> par(mfrow = c(1, 1))

10 / 24

Page 11: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Set1 vs Set2

Histogram of set1

set1

Den

sity

−3 −1 1 2 3

0.0

0.1

0.2

0.3

0.4

Histogram of set2

set2

Den

sity

0.0 0.4 0.8

0.0

0.2

0.4

0.6

0.8

1.0

11 / 24

Page 12: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Density con Hist

Lamentablemente no se pueden poner 2 histogramas enuna sola grafica, aunque en teorıa podemos utilizar lasfunciones lines junto con density para esquivar esteproblema.

Primero les muestro una donde la lınea es de la mismadistribucion y luego otra donde no

> hist(faithful$waiting, prob = TRUE,

+ ylab = "Prob", col = "light blue")

> lines(density(faithful$waiting),

+ col = "red")

> set3 <- runif(100, 40, 70)

> hist(faithful$waiting, prob = TRUE,

+ ylab = "Prob", col = "light blue")

> lines(density(set3), col = "red")

12 / 24

Page 13: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Iguales

Histogram of faithful$waiting

faithful$waiting

Pro

b

40 50 60 70 80 90 100

0.00

0.01

0.02

0.03

0.04

13 / 24

Page 14: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

faithful vs set3

Histogram of faithful$waiting

faithful$waiting

Pro

b

40 50 60 70 80 90 100

0.00

0.01

0.02

0.03

0.04

14 / 24

Page 15: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Con 2 lıneas

Como se han de imaginar, otra forma es usar un espacioen blanco con dos lıneas.

> plot(0, 0, ylim = c(0, 1), xlim = c(min(set1),

+ max(set1)))

> lines(density(set1), col = "red")

> lines(density(set2), col = "blue")

15 / 24

Page 16: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Set1 vs Set2

−3 −2 −1 0 1 2

0.0

0.2

0.4

0.6

0.8

1.0

0

0

16 / 24

Page 17: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Q-Q plot

La forma pro usando graficas para comparar dosdistribuciones es con la llamada ”Q-Q plot”. Este tipo degraficas usa como informacion los cuantiles de las dosdistribuciones que vas a comparar.Puede que estescomparando una muestra contra una distribucion teorica,dos muestras o dos distribuciones teoricas. Ademas, tienela ventaja de que el tamano de tus 2 poblaciones noimporta.

En R la funcion que hace este tipo de graficas es qqplot.

Veamos como se ve set1 vs set1 y set1 vs set2.

> qqplot(set1, set1)

> qqplot(set1, set2)

17 / 24

Page 18: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Set1 vs Set1

●●

●●●

●●●●●●●●

●●●●●●●

●●●●●●●●●●●●

●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●

●●●●●●●●●

●●●●●●

−3 −2 −1 0 1 2

−3

−2

−1

01

2

set1

set1

18 / 24

Page 19: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Set1 vs Set2

● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●● ●

−3 −2 −1 0 1 2

0.0

0.2

0.4

0.6

0.8

1.0

set1

set2

19 / 24

Page 20: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Q-Q Norm

Como ya vieron, si obtenemos una diagonal esta nos indicaque las dos distribuciones son parecidas o iguales si nos dauna diagonal perfecta.

Ahora, digamos que tienen un set de datos y quieren sabersi se distribuyen como normal.

Para este caso existe la funcion qqnorm la cual comparalos cuantiles de tu muestra contra los cuantiles de lanormal teorica.

Chequemos los siguientes ejemplos:

> set4 <- rchisq(100, 3)

> qqnorm(set4)

> qqnorm(set1)

20 / 24

Page 21: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

QQnorm set4

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

05

1015

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

21 / 24

Page 22: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

QQnorm set1

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

−3 −2 −1 0 1 2 3

−3

−2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

22 / 24

Page 23: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Terminando

Recuerden que nuestro set1 son datos que obtuvimos conrnorm mas no obtenemos una diagonal perfecta conqqnorm.

Si se fijan, en el centro si existe nuestra diagonal pero enlos bordes se curvea. Esto es por que tenemos valoresextremos y es muy difıcil que estos correspondan a losvalores extremos teoricos :P

23 / 24

Page 24: Principios de Estadística

Principios deEstadıstica

Histogramas

Comparardistribuciones

Compararcuantiles

Tarea

Asistir al evento de manana jueves :)

Hacer un reporte estadıstico donde comparen la cantidadde ”lıquido” ingerido por la poblacion de la LCG en esteevento vs un evento promedio.

Suerte!!!

24 / 24