1.introducción a la estadística 2.descripción de los conjuntos de datos 3.uso de la estadística...

Post on 24-Jan-2016

215 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1. Introducción a la Estadística

2. Descripción de los conjuntos de datos

3. Uso de la Estadística para sintetizar conjuntos de datos

4. Probabilidad

5. Variables aleatorias discretas

6. Variables aleatorias normales

2.1 Introducción

2.2 Tablas y gráficas de frecuencias

2.3 Datos agrupados e histogramas

2.4 Gráficas de tallos y hojas

2.5 Conjuntos de datos apareados

Es muy importante que los

resultados numéricos de cualquier

estudio se presenten en forma clara

y concisa, de modo que

rápidamente se pueda tener una

idea de las características

esenciales de los datos.

Esto es particularmente necesario

cuando se trata de un gran

conjunto de datos, como

frecuentemente ocurre en las

encuestas o en los experimentos

controlados.

Realmente, una presentación efectiva de los datos a menudo revela con rapidez elementos tales como su categoría, su grado de simetría, lo concentrados o dispersos que están, dónde se concentran, etcétera.

2.1 Introducción

2.2 Tablas y gráficas de frecuencias

2.3 Datos agrupados e histogramas

2.4 Gráficas de tallos y hojas

2.5 Conjuntos de datos apareados

La frecuencia es el

número de veces que un

dato aparece en el

conjunto total de datos.

Cuando se tiene un conjunto de

datos que contiene un número

relativamente pequeño de valores

diferentes, conviene representarlo en

una tabla de frecuencias, la cual

incluye cada valor distinto junto con

su frecuencia de ocurrencia.

En dicha tabla, la columna

de frecuencias representa el

número de ocurrencias de

cada valor distinto del

conjunto de datos.

El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.

La tabla muestra los resultados obtenidos:

# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1

1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2

La tabla muestra los resultados obtenidos ordenados en orden creciente:

# # # # # # # # # #1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 6

1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 6

# # # # # # # # # #1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 6

1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 6

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

Total 200

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

Total 200

Esta es la tabla de frecuencias:

En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:

Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2

10 1TOTAL 75

Esta es la tabla de frecuencias:

En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3

1 1 11 2 32 3 33 3 24 2 23 2 22 1 22 1 22 2 12 2 21 2 21 2 21 2 22 2 22 1 1    3

Menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.

1 1 11 2 32 3 33 3 24 2 23 2 22 1 22 1 22 2 12 2 21 2 21 2 21 2 22 2 22 1 1    3

Ordenandode menora mayor

1 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 31 2 31 2 31 2 32 2 32 2 32 2 3    4

Contandola

apariciónde cadanúmero

1 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 31 2 31 2 31 2 32 2 32 2 32 2 3    4

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

Esta es la tabla de frecuencias:

Se pueden mostrar gráficamente los datos de una tabla de frecuencias mediante un gráfico de líneas, en el que los valores sucesivos se representan sobre el eje horizontal y sus correspondientes frecuencias se representan mediante la altura de una línea vertical.

Gráfico de una tabla de frecuencias.La abscisa especifica el valor de un dato, y la frecuencia de ocurrencia de tal valor se identifica con la altura de una línea vertical.

El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.

La tabla muestra los resultados obtenidos:

# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1

1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

Total 200

Número obtenido Frecuencia

1 352 453 304 305 246 36

1. Determina uno el área rectangular del

papel en la cual quiere uno hacer la gráfica.

En este ejemplo use 20 cm horizontal

por 14 cm vertical.

20 cm

14 cm

2. Traza uno los ejes perpendiculares,

uno horizontal y otro vertical,

las abscisas y las ordenadas,

respectivamente.

Mide uno sus respectivas longitudes.

En este ejemplo use 18 cm en el eje X

y 12 cm en el eje Y.

18 cm

12 cm

3. En el eje horizontal, el de las abscisas,

marca uno los valores. Para ello, mide uno

la longitud horizontal del área de la gráfica,

y divide uno dicha longitud entre el número

de marcas que se van a colocar en el eje.

Se colocan las marcas.

En este caso son 6, así que cada marca está a

3 cm.

3 cm

12 cm

4. En el eje vertical, mide uno la longitud del

eje y para determinar la altura de cada línea

utiliza uno una proporción directa.

En este ejemplo la primera linea es 35, así que

35 35 12 7 6 42

50 12 50 5

xx

8.4

5

3 cm

8.4 cm

4. En el eje vertical, mide uno la longitud del

eje y para determinar la altura de cada línea

utiliza uno una proporción directa.

La segunda línea es 45, así que

45 45 12 9 6 5410.8

50 12 50 5 5

xx

3 cm

8.4 cm

10.8 cm

En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

En ocasiones, las frecuencias no se representan mediante líneas sino mediante barras de una cierta anchura. Estas gráficas, llamadas gráficas de barras, se utilizan muy a menudo.

La abscisa especifica el valor de un dato, y la frecuencia de ocurrencia de tal valor se identifica con la altura de una barra vertical.

Causa de muerte Número

Coche 30,500

Otros accidentes 27,500

Suicidio 20,234

Homicidio 8,342

Las principales causas de muerte no natural en Inglaterra están resumidas en la siguiente tabla:

Causa de muerte Número

Coche 30,500

Otros accidentes 27,500

Suicidio 20,234

Homicidio 8,342

Causa de muerte Número

Coche 30,500

Otros accidentes 27,500

Suicidio 20,234

Homicidio 8,342

Coche Otros accidentes Suicidio Homicidio -

5,000

10,000

15,000

20,000

25,000

30,000

35,000

Coche Otros accidentes Suicidio Homicidio

30,500 27,500

20,234

8,342

El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.

La tabla muestra los resultados obtenidos:

# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1

1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

Total 200

1 2 3 4 5 60

5

10

15

20

25

30

35

40

45

50Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

1 2 3 4 5 6

35

45

30 30

24

36

En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:

Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2

10 1TOTAL 75

CalificaciónNúmero de

alumnos

0 1

1 2

2 4

3 7

4 12

5 23

6 12

7 7

8 4

9 2

10 1

TOTAL 75

0 1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

0 1 2 3 4 5 6 7 8 9 10

12

4

7

12

23

12

7

4

21

En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

1 2 3 40

5

10

15

20

25

30

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

1 2 3 4

12

26

7

1

Agua

scal

ient

esBa

ja C

alifo

rnia

Baja

Cal

iforn

ia S

urCa

mpe

che

Coah

uila

Colim

aCh

iapa

sCh

ihua

hua

Dist

rito

Fede

ral

Dur

ango

Gua

naju

ato

Gue

rrer

oH

idal

goJa

lisco

Méx

ico

Mic

hoac

ánM

orel

osN

ayar

itN

uevo

Leó

nO

axac

aPu

ebla

Que

réta

ro

Qui

ntan

a Ro

oSa

n Lu

is Po

tosí

Sina

loa

Sono

raTa

basc

oTa

mau

lipas

Tlax

cala

Vera

cruz

Yuca

tán

Zaca

teca

s0

2,000,000

4,000,000

6,000,000

8,000,000

10,000,000

12,000,000

14,000,000

16,000,000

Población por estado (Censo 2005)

Agua

scal

ient

esBa

ja C

alifo

rnia

Baja

Cal

iforn

ia S

urCa

mpe

che

Coah

uila

Colim

aCh

iapa

sCh

ihua

hua

Dist

rito

Fede

ral

Dur

ango

Gua

naju

ato

Gue

rrer

oH

idal

goJa

lisco

Méx

ico

Mic

hoac

ánM

orel

osN

ayar

itN

uevo

Leó

nO

axac

aPu

ebla

Que

réta

ro

Qui

ntan

a Ro

oSa

n Lu

is Po

tosí

Sina

loa

Sono

raTa

basc

oTa

mau

lipas

Tlax

cala

Vera

cruz

Yuca

tán

Zaca

teca

s

0

2,000,000

4,000,000

6,000,000

8,000,000

10,000,000

12,000,000

14,000,000

16,000,000

Población por estado (Censo 2005)

Aguascalie

ntes

Baja Californ

ia Sur

Coahuila

Chiapas

Distrit

o Federal

Guanajuato

Hidalgo

México

Morelos

Nuevo León

Puebla

Quintana Roo

Sinaloa

Tabasco

Tlaxcala

Yucatán

0

2,000,000

4,000,000

6,000,000

8,000,000

10,000,000

12,000,000

14,000,000

16,000,000 Comparación de la población

20002005

Agua

scal

ie...

Baja

Cal

ifo...

Baja

Cal

ifo...

Cam

pech

eCo

ahui

laCo

lima

Chia

pas

Chih

uahu

aD

istr

ito F

e...

Dur

ango

Gua

naju

ato

Gue

rrer

oH

idal

goJa

lisco

Méx

ico

Mic

hoac

ánM

orel

osN

ayar

itN

uevo

Leó

nO

axac

aPu

ebla

Que

réta

ro

Qui

ntan

a...

San

Luis

Po.

..Si

nalo

aSo

nora

Taba

sco

Tam

aulip

asTl

axca

laVe

racr

uzYu

catá

nZa

cate

cas0

1000

2000

3000

4000

5000

6000

7000 Densidad de población por entidad federativa

Otro tipo de gráfica utilizada para

representar una tabla de frecuencias es

el polígono de frecuencias, en el que se

muestran gráficamente las frecuencias

de los diferentes valores de los datos y

luego se conectan los puntos de la

gráfica mediante líneas rectas.

El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

Total 200

1 2 3 4 5 60

5

10

15

20

25

30

35

40

45

50Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

1 2 3 4 5 6

35

45

30

30

24

36

En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:

Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2

10 1TOTAL 75

CalificaciónNúmero de

alumnos

0 1

1 2

2 4

3 7

4 12

5 23

6 12

7 7

8 4

9 2

10 1

TOTAL 75

0 1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

0 1 2 3 4 5 6 7 8 9 10

12

4

7

12

23

12

7

42

1

En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

1 2 3 40

5

10

15

20

25

30

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

1 2 3 4

12

26

7

1

0

0 0

Se dice que un conjunto de datos

es simétrico con respecto al

valor , si las frecuencias de los

valores   y   son

iguales para todo .

x

x c x c

c

0

0

Es decir, para cada constante ,

existe el mismo número de datos

con un valor igual a unidades

por debajo de que con un valor

igual a unidades por encima de .

c

e

x

e x

En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:

Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2

10 1TOTAL 75

0 1 2 3 4 5 6 7 8 9 10

12

4

7

12

23

12

7

4

21

0 1 2 3 4 5 6 7 8 9 101

24

7

12

23

12

7

42

1

Los datos "próximos" a ser

simétricos se dice que son

aproximadamente

simétricos.

Los datos "próximos" a ser simétricos se dice que son aproximadamente simétricos.

La forma más fácil de determinar si

un conjunto de datos es

aproximadamente simétrico consiste

en representarlos gráficamente.

Simétrico Aproximadametesimétrico

Asimétrico

Frecuencia de un valor dividida entre el número total de datos del conjunto.

Si representa la frecuencia de

ocurrencia del valor , y representa

el número total de observaciones del

conjunto de datos, se define la

frecuencia relativa como

f

x n

fn

En ocasiones, es más

conveniente considerar y

representar gráficamente las

frecuencias relativas que las

frecuencias absolutas de los

datos.

Si representa la frecuencia de ocurrencia

del valor , se puede mostrar gráficamente

la frecuencia relativa frente a ,

donde representa el número total de

observaciones del conjunto de datos.

f

x

fx

nn

Una gráfica de frecuencias relativas

tiene la misma apariencia que la

gráfica análoga de frecuencias

absolutas, aunque los valores del eje

vertical se han dividido entre el

número total de observaciones del

conjunto de datos.

1. Ordene el conjunto de datos

en forma creciente en valores.

2. Determine los valores distintos

y sus frecuencias de ocurrencia.

3. Liste los citados valores distintos

junto con sus frecuencias y sus

frecuenciasrelativas , donde

es el número total de observaciones

del conjunto de datos.

f

fn

n

1. Ordene el conjunto de datos

en forma creciente en valores.

2. Determine los valores distintos

y sus frecuencias de ocurrencia.

3. Liste los citados valores distintos junto

con sus frecuencias y sus frf ecuencias

relativas , donde es el número total

de observaciones del conjunto de datos.

fn

n

El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.

La tabla muestra los resultados obtenidos:

# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1

1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

Total 200

Número obtenido Frecuencia

1 352 453 304 305 246 36

1 2 3 4 5 60

5

10

15

20

25

30

35

40

45

50

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 36

Número obtenido Frecuencia

1 35

2 45

3 30

4 30

5 24

6 361 2 3 4 5 60

5

10

15

20

25

30

35

40

45

50

Número obtenido Frecuencia

Frecuencia relativa

1 35 0.175

2 45 0.225

3 30 0.150

4 30 0.150

5 24 0.120

6 36 0.180

Total 200 1.000

Número obtenido Frecuencia

Frecuencia relativa

1 35 0.175

2 45 0.225

3 30 0.150

4 30 0.150

5 24 0.120

6 36 0.180

Total 200 1.0001 2 3 4 5 60.000

0.050

0.100

0.150

0.200

0.250

1 2 3 4 5 6

0.175

0.225

0.150 0.150

0.120

0.180

Número obtenido Frecuencia

Frecuencia relativa

1 35 0.175

2 45 0.225

3 30 0.150

4 30 0.150

5 24 0.120

6 36 0.180

Total 200 1.0001 2 3 4 5 60.000

0.050

0.100

0.150

0.200

0.250

1 2 3 4 5 6

0.175

0.225

0.150 0.150

0.120

0.180

En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:

Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2

10 1TOTAL 75

CalificaciónNúmero de

alumnos

0 1

1 2

2 4

3 7

4 12

5 23

6 12

7 7

8 4

9 2

10 1

TOTAL 75

0 1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

CalificaciónNúmero de

alumnos

0 1

1 2

2 4

3 7

4 12

5 23

6 12

7 7

8 4

9 2

10 1

TOTAL 750 1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

Calificación Número de alumnos Frecuencia relativa0 1 0.0131 2 0.0272 4 0.0533 7 0.0934 12 0.1605 23 0.3076 12 0.1607 7 0.0938 4 0.0539 2 0.027

10 1 0.013TOTAL 75 1.000

0 1 2 3 4 5 6 7 8 9 100.000

0.050

0.100

0.150

0.200

0.250

0.300

0.350

CalificaciónNúmero de

alumnosFrecuencia

relativa

0 1 0.013

1 2 0.027

2 4 0.053

3 7 0.093

4 12 0.160

5 23 0.307

6 12 0.160

7 7 0.093

8 4 0.053

9 2 0.027

10 1 0.013

TOTAL 75 1.000

0 1 2 3 4 5 6 7 8 9 10

0.0130.027

0.053

0.093

0.160

0.307

0.160

0.093

0.053

0.0270.013

0 1 2 3 4 5 6 7 8 9 100.000

0.050

0.100

0.150

0.200

0.250

0.300

0.350

CalificaciónNúmero de

alumnosFrecuencia

relativa

0 1 0.013

1 2 0.027

2 4 0.053

3 7 0.093

4 12 0.160

5 23 0.307

6 12 0.160

7 7 0.093

8 4 0.053

9 2 0.027

10 1 0.013

TOTAL 75 1.000

0 1 2 3 4 5 6 7 8 9 10

0.0130.027

0.053

0.093

0.160

0.307

0.160

0.093

0.053

0.0270.013

En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3

EscolaridadNúmero de personas

1 12

2 26

3 7

4 1

Total 46

EscolaridadNúmero de personas

1 122 263 74 1

Total 46

1 2 3 4

12

26

7

1

1 2 3 4

12

26

7

1

EscolaridadNúmero de personas Frecuencia relativa

1 12 0.261

2 26 0.565

3 7 0.152

4 1 0.022

Total 46 1.000

1 2 3 40.000

0.100

0.200

0.300

0.400

0.500

0.600 EscolaridadNúmero de personas

Frecuencia relativa

1 12 0.2612 26 0.5653 7 0.1524 1 0.022

Total 46 1.000

1 2 3 4

0.261

0.565

0.152

0.022

1 2 3 40.000

0.100

0.200

0.300

0.400

0.500

0.600 EscolaridadNúmero de personas

Frecuencia relativa

1 12 0.2612 26 0.5653 7 0.1524 1 0.022

Total 46 1.000

1 2 3 4

0.261

0.565

0.152

0.022

Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes:6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7

6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7

Meses Meses Meses6 7 85 5 9

37 4 410 8 1022 2 3

9 7 22 13 7

16 16 63 15 93 9 3

11 4 59 4 45 2 6

14 3 411 9 143 5 31 11 124 3 66 7 82 5 127 9 73 3

Meses Meses Meses6 7 85 5 9

37 4 410 8 1022 2 3

9 7 22 13 7

16 16 63 15 93 9 3

11 4 59 4 45 2 6

14 3 411 9 143 5 31 11 124 3 66 7 82 5 127 9 73 3

Meses Meses Meses1 4 92 5 92 5 92 5 92 5 92 5 93 5 103 6 103 6 113 6 113 6 113 6 123 7 123 7 133 7 143 7 144 7 154 7 164 8 164 8 224 8 374 9

Meses Meses Meses1 4 92 5 92 5 92 5 92 5 92 5 93 5 103 6 103 6 113 6 113 6 113 6 123 7 123 7 133 7 143 7 144 7 154 7 164 8 164 8 224 8 374 9

Meses Pacientes Frecuencia relativa

1 1 0.015

2 5 0.077

3 10 0.154

4 7 0.108

5 6 0.092

6 5 0.077

7 6 0.092

8 3 0.046

9 7 0.108

10 2 0.031

11 3 0.046

12 2 0.031

13 1 0.015

14 2 0.031

15 1 0.015

16 2 0.031

22 1 0.015

37 1 0.015

Total 65 1.000

Meses Pacientes Frecuencia relativa

1 1 0.015

2 5 0.077

3 10 0.154

4 7 0.108

5 6 0.092

6 5 0.077

7 6 0.092

8 3 0.046

9 7 0.108

10 2 0.031

11 3 0.046

12 2 0.031

13 1 0.015

14 2 0.031

15 1 0.015

16 2 0.031

22 1 0.015

37 1 0.015

Total 65 1.000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370

2

4

6

8

10

12Meses Pacientes

1 12 53 104 75 66 57 68 39 7

10 211 312 213 114 215 116 222 137 1

Total 65

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370

2

4

6

8

10

12

Meses Pacientes1 12 53 104 75 66 57 68 39 7

10 211 312 213 114 215 116 222 137 1

Total 65

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000

0.020

0.040

0.060

0.080

0.100

0.120

0.140

0.160

0.180

Meses PacientesFrecuencia

relativa1 1 0.0152 5 0.0773 10 0.1544 7 0.1085 6 0.0926 5 0.0777 6 0.0928 3 0.0469 7 0.108

10 2 0.03111 3 0.04612 2 0.03113 1 0.01514 2 0.03115 1 0.01516 2 0.03122 1 0.01537 1 0.015

Total 65 1.000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000

0.020

0.040

0.060

0.080

0.100

0.120

0.140

0.160

0.180

Meses PacientesFrecuencia

relativa1 1 0.0152 5 0.0773 10 0.1544 7 0.1085 6 0.0926 5 0.0777 6 0.0928 3 0.0469 7 0.108

10 2 0.03111 3 0.04612 2 0.03113 1 0.01514 2 0.03115 1 0.01516 2 0.03122 1 0.01537 1 0.015

Total 65 1.000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000

0.020

0.040

0.060

0.080

0.100

0.120

0.140

0.160

0.180 Frecuencia relativa

Frecuencia absoluta

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000

0.020

0.040

0.060

0.080

0.100

0.120

0.140

0.160

0.180 Frecuencia relativa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370

2

4

6

8

10

12Frecuencia absoluta

Es una gráfica que representa las frecuencias relativas mediante la división deun círculo en sectores.

Las gráficas de pastel

suelen utilizarse para

representar las frecuencias

relativas cuando los datos

no son numéricos.

Se construye un círculo

que luego se divide en

sectores, uno por cada

valor diferente de los

datos.

El área de cada sector, con la que se pretende

representar la frecuencia relativa de un valor,

se determina como sigue:

Si la frecuencia relativa del valor es ,

el área de su sector debe coincidir con l

f

na

fracción del área total del círculo.f

n

Si un determinado valor tiene una

frecuencia relativa , su sector

correspondiente puede obtenerse

con la selección de un ángulo

igual a 360 grados.

f

n

f

n

La tabla siguiente muestra el número de muertes que hubo en las carreteras británicas durante 1987 distribuidas por clases:

Clases Número de muertes

Peatones 1699

Ciclistas 280

Motociclistas 650

Automovilistas 1327

Clases Número de muertes % Grados

Peatones 1699 0.43 155

Ciclistas 280 0.07 25

Motoristas 650 0.16 59

Automovilistas 1327 0.34 121

Total 3956 1.00 360

PeatonesCiclistasMotoristasAutomovilistas

Clases Número de muertes

Peatones 1699

Ciclistas 280

Motoristas 650

Automovilistas 1327

Total 3956

1699

280650

1327

PeatonesCiclistasMotoristasAutomovilistas

La tabla siguiente muestra la composición de la actual cámara de diputados en nuestro país:

Partido Total

PRI 237

PAN 143

PRD 71

PVEM 21

PT 13

NA 9

CONV 6

TOTAL 500

Partido Total % Grados

PRI 237 0.47 171

PAN 143 0.29 103

PRD

71 0.14 51

PVEM

21 0.04 15

PT

13 0.03 9

NA

9 0.02 6

CONV

6 0.01 4

TOTAL 500 1.00 360

PRIPANPRDPVEMPTNACONV

Partido Total

PRI 237

PAN 143

PRD

71

PVEM

21

PT

13

NA

9

CONV

6

TOTAL 500

237

143

71

21

13 9

6

PRIPANPRDPVEMPTNACONV

47%

29%

14%

4%

3% 2% 1%

PRIPANPRDPVEMPTNACONV

Partido Total

PRI 237

PAN 143

PRD

71

PVEM

21

PT

13

NA

9

CONV

6

TOTAL 500

Causa de muerte Número

Coche 30,500

Otros accidentes 27,500

Suicidio 20,234

Homicidio 8,342

Las principales causas de muerte no natural en Inglaterra están resumidas en la siguiente tabla:

Causa de muerte Número % Grados

Coche 30,500 0.35 127

Otros accidentes 27,500 0.32 114

Suicidio 20,234 0.23 84

Homicidio 8,342 0.10 35

Total 86,576 1.00 360

Causa de muerte NúmeroCoche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342

CocheOtros accidentesSuicidioHomicidio

30,500

27,500

20,234

8,342

CocheOtros accidentesSuicidioHomicidio

Coche35%

Otros accidentes32%

Suicidio23%

Homicidio10%

Población cuya lengua materna es el inglés

2.1 Introducción

2.2 Tablas y gráficas de frecuencias

2.3 Datos agrupados e histogramas

2.4 Gráficas de tallos y hojas

2.5 Conjuntos de datos apareados

Como hemos visto, el uso de gráficas de barras o líneas es una forma bastante efectiva de representar las frecuencias de los diferentes valores.

Sin embargo, en algunos conjuntos de datos el número de valores distintos es demasiado grande para que se puedan utilizar los gráficas citados.

En su lugar, es posible clasificar dichos valores en grupos o intervalos de clase, para luego representar gráficamente el número de datos que corresponden a cada clase.

En la elección del número de intervalos de clase se debe ponderar entre:

(i) elegir pocos a costa de perder mucha información sobre los datos reales de cada intervalo de clase,o

(ii) elegir muchos, con lo que las frecuencias resultantes de cada intervalo de clase pueden ser demasiado pequeñas para que se reconozcan los patrones de forma.

Aunque lo más habitual suele ser entre 5 y 10 intervalos de clase, el número apropiado es una elección subjetiva, y uno puede, como es natural, probar distintos números de intervalos de clase para ver cuál de las gráficas resultantes revela más información sobre los datos.

Es corriente, aunque no esencial, elegir intervalos de clase de igual longitud.

Los puntos inicial y final de cada intervalo de clase se llaman extremos o límites del mismo, extremo inferior y extremo superior respectivamente.

Nosotros utilizaremos el convenio de inclusión por la izquierda, lo que significa que el intervalo de clase incluye el extremo de la izquierda pero no el de la derecha.

Es la diferencia entre los extremos de clase que la forman.

La marca de clase es el punto medio del intervalo de clase, y se obtiene sumando los extremos inferior y superior de la clase y dividiendo entre 2.

Los siguientes datos (en miles de pesos) representan las rentas netas anuales de una muestra de contribuyentes:47,55,18,24,27,41,50,38,33,29,15,77,64,22,19,35,39,41,67,55,121,77,80,34,41,48,60,30,22,28,84,55,26,105,62,30,17,23,31,28,56,64,88,104,115,39,25,18,21,30,57,4038,29,19,46,40,49,72,70,37,39,18,22,29,52,94,86,23,36

Ingreso Ingreso Ingreso Ingreso Ingreso47 19 22 88 4055 35 28 104 4918 39 84 115 7224 41 55 39 7027 67 26 25 3741 55 105 18 3950 121 62 21 1838 77 30 30 2233 80 17 57 2929 34 23 40 5215 41 31 38 9477 48 28 29 8664 60 56 19 2322 30 64 46 36

Ingreso Ingreso Ingreso Ingreso Ingreso15 25 35 47 6717 26 36 48 7018 27 37 49 7218 28 38 50 7718 28 38 52 7719 29 39 55 8019 29 39 55 8421 29 39 55 8622 30 40 56 8822 30 40 57 9422 30 41 60 10423 31 41 62 10523 33 41 64 11524 34 46 64 121

Si queremos 5

intervalos, hacemos

121 1521.1

5

Así que el tamaño

de cada intervalo

lo tomamos de 22.

Ingreso Ingreso Ingreso Ingreso Ingreso

15 25 35 47 67

17 26 36 48 70

18 27 37 49 72

18 28 38 50 77

18 28 38 52 77

19 29 39 55 80

19 29 39 55 84

21 29 39 55 86

22 30 40 56 88

22 30 40 57 94

22 30 41 60 104

23 31 41 62 105

23 33 41 64 115

24 34 46 64 121

Ingreso Ingreso Ingreso Ingreso Ingreso

15 25 35 47 67

17 26 36 48 70

18 27 37 49 72

18 28 38 50 77

18 28 38 52 77

19 29 39 55 80

19 29 39 55 84

21 29 39 55 86

22 30 40 56 88

22 30 40 57 94

22 30 41 60 104

23 31 41 62 105

23 33 41 64 115

24 34 46 64 121

Intervalo Frecuencia

15-37 30

37-59 22

59-81 10

81-103 4

103-125 4

Ingreso Ingreso Ingreso Ingreso Ingreso

15 25 35 47 67

17 26 36 48 70

18 27 37 49 72

18 28 38 50 77

18 28 38 52 77

19 29 39 55 80

19 29 39 55 84

21 29 39 55 86

22 30 40 56 88

22 30 40 57 94

22 30 41 60 104

23 31 41 62 105

23 33 41 64 115

24 34 46 64 121

Si queremos 10

intervalos, hacemos

121 1510.6

10

Así que el tamaño

de cada intervalo

lo tomamos de 11.

Ingreso Ingreso Ingreso Ingreso Ingreso

15 25 35 47 67

17 26 36 48 70

18 27 37 49 72

18 28 38 50 77

18 28 38 52 77

19 29 39 55 80

19 29 39 55 84

21 29 39 55 86

22 30 40 56 88

22 30 40 57 94

22 30 41 60 104

23 31 41 62 105

23 33 41 64 115

24 34 46 64 121

Intervalo Frecuencia

15-26 15

26-37 15

37-48 13

48-59 9

59-70 5

70-81 5

81-92 3

92-103 1

103-114 2

114-125 2

Intervalo Ancho Cantidad (miles)

0 5 4,1805 5 13,687

10 5 18,61815 5 19,63420 5 17,98125 5 7,19030 5 16,36935 5 3,21240 5 4,12245 15 9,20060 30 6,46190 60 3,435

Tiempo que tardan 124,089,000 gringos en ir al trabajo (Encuesta realizada por la Oficina de censos en el año 2000):

Una gráfica de barras en la que las barras sean adyacentes se llama histograma.

Gráfica en la que los datos se dividen en intervalos de clase, cuyas frecuenciasse muestran en una gráfica de barras.

El eje vertical de un histograma puede representar, bien las frecuencias de los intervalos de clase o bien sus frecuencias relativas. En el primer caso, el histograma se llama histograma de frecuencias; en el segundo, se trata de un histograma de frecuencias relativas.

Es importante notar, que una tabla de frecuencias de intervalos de clase o un histograma basado en tal tabla, no contiene toda la información del conjunto de datos originales.

Ambas representaciones utilizan sólo el número de valores dentro de cada intervalo de clase, y no los valores reales de los datos. Así pues, aunque las tablas y los gráficas citados son un útil reflejo de los datos, el conjunto de datos originales se debe mantener siempre.

1. Ordene los datos en forma creciente.

2. Elija los intervalos de clase de manera que todos los datos aparezcan en alguno de ellos.

3. Construya una tabla de frecuencias.

4. Dibuje las barras adyacentes con alturas iguales a las frecuencias del paso 3.

Los siguientes datos (en miles de pesos)

representan las rentas netas anuales de una

muestra de contribuyentes:

47,55,18,24,27,41,50,38,33,29,15,77,64,22,19,

35,39,41,67,55,121,77,80,34,41,48,60,30,22,2

8,84,55,26,105,62,30,17,23,31,28,56,64,88,10

4,115,39,25,18,21,30,57,40,38,29,19,46,40,49,

72,70,37,39,18,22,29,52,94,86,23,36

Ingreso Ingreso Ingreso Ingreso Ingreso47 19 22 88 4055 35 28 104 4918 39 84 115 7224 41 55 39 7027 67 26 25 3741 55 105 18 3950 121 62 21 1838 77 30 30 2233 80 17 57 2929 34 23 40 5215 41 31 38 9477 48 28 29 8664 60 56 19 2322 30 64 46 36

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69

0

20

40

60

80

100

120

140

Ingreso Ingreso Ingreso Ingreso Ingreso15 25 35 47 6717 26 36 48 7018 27 37 49 7218 28 38 50 7718 28 38 52 7719 29 39 55 8019 29 39 55 8421 29 39 55 8622 30 40 56 8822 30 40 57 9422 30 41 60 10423 31 41 62 10523 33 41 64 11524 34 46 64 121

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

0

20

40

60

80

100

120

140

Ingreso Ingreso Ingreso Ingreso Ingreso

15 25 35 47 67

17 26 36 48 70

18 27 37 49 72

18 28 38 50 77

18 28 38 52 77

19 29 39 55 80

19 29 39 55 84

21 29 39 55 86

22 30 40 56 88

22 30 40 57 94

22 30 41 60 104

23 31 41 62 105

23 33 41 64 115

24 34 46 64 121

Intervalo Frecuencia

15-37 30

37-59 22

59-81 10

81-103 4

103-125 4

15-37 37-59 59-81 81-103 103-1250

5

10

15

20

25

30

35

Intervalo Frecuencia

15-37 30

37-59 22

59-81 10

81-103 4

103-125 4

15-37 37-59 59-81 81-103 103-125

30

22

10

4 4

Ingreso Ingreso Ingreso Ingreso Ingreso

15 25 35 47 67

17 26 36 48 70

18 27 37 49 72

18 28 38 50 77

18 28 38 52 77

19 29 39 55 80

19 29 39 55 84

21 29 39 55 86

22 30 40 56 88

22 30 40 57 94

22 30 41 60 104

23 31 41 62 105

23 33 41 64 115

24 34 46 64 121

Intervalo Frecuencia

15-26 15

26-37 15

37-48 13

48-59 9

59-70 5

70-81 5

81-92 3

92-103 1

103-114 2

114-125 2

15-26 26-37 37-48 48-59 59-70 70-81 81-92 92-103 103-114 114-1250

2

4

6

8

10

12

14

16 Intervalo Frecuencia

15-26 15

26-37 15

37-48 13

48-59 9

59-70 5

70-81 5

81-92 3

92-103 1

103-114 2

114-125 2

15-26 26-37 37-48 48-59 59-70 70-81 81-92 92-103 103-114 114-125

15 15

13

9

5 5

3

1

2 2

15-2

6

26-3

7

37-4

8

48-5

9

59-7

0

70-8

1

81-9

2 92 103

114

15 15

13

9

5 5

3

12 2

15-37 37-59 59-81 81-103 103-125

30

22

10

4 4

Tiempo que tardan 124,089,000 gringos en ir al trabajo (Encuesta realizada por la Oficina de censos en el año 2000):

Intervalo Ancho Cantidad (miles)

0 5 4,1805 5 13,687

10 5 18,61815 5 19,63420 5 17,98125 5 7,19030 5 16,36935 5 3,21240 5 4,12245 15 9,20060 30 6,46190 60 3,435

La importancia de un histograma estriba en que permite organizar y presentar los datos gráficamente para que se pueda prestar atención a determinadas características importantes de los datos.

Un histograma puede indicar:

1. La simetría de los datos

2. La dispersión de éstos.

3. Si existen intervalos que tienen un alto nivel de concentración de datos.

4. Si existen brechas entre los datos.

5. Si algunos valores de datos están muy separados de otros.

Simétrico

Asimétrico

Disperso

Concentrado

Con una brecha

Con datos separados unos de otros

Un histograma es, en esencia, un diagrama de barras que muestra gráficamente las frecuencias o las frecuencias relativas de los datos que aparecen dentro de los distintos intervalos de clase.

Dichas frecuencias de clase también se pueden representar gráficamente mediante polígonos de frecuencias absolutas o de frecuencias relativas.

Cada intervalo de clase es identificado por un valor, que generalmente coincide con el punto medio del intervalo.

Después, estos valores se representan gráficamente frente a las frecuencias de los intervalos de clase que representan y los puntos de la gráfica se conectan mediante líneas rectas para conseguir el polígono de frecuencias.

Estas gráficas son especialmente útiles para comparar conjuntos de datos, puesto que en una misma gráfica se pueden mostrar varios polígonos de frecuencias.

Intervalo Europa México1821–1830 98,797 4,817 1831–1840 495,681 6,599 1831–1850 1,597,442 3,271 1851–1860 2,452,577 3,078 1861–1870 2,064,141 2,191 1871–1880 2,271,925 5,162 1881–1890 4,735,484 1,913 1891–1900 3,555,352 971 1901–1910 8,056,040 49,642 1911–1920 4,321,887 219,004 1921–1930 2,463,194 459,287 1931–1940 347,566 22,319 1941–1950 621,147 60,589 1951–1960 1,325,727 299,811 1961–1970 1,123,492 453,937 1971–1980 800,368 640,294 1981–1990 761,550 1,655,843 1991–2000 1,359,737 2,249,421

Migración a los Estados Unidos

1821

–183

0

1831

–184

0

1831

–185

0

1851

–186

0

1861

–187

0

1871

–188

0

1881

–189

0

1891

–190

0

1901

–191

0

1911

–192

0

1921

–193

0

1931

–194

0

1941

–195

0

1951

–196

0

1961

–197

0

1971

–198

0

1981

–199

0

1991

–200

0

-

1,000,000

2,000,000

3,000,000

4,000,000

5,000,000

6,000,000

7,000,000

8,000,000

9,000,000

Migración de Europa a los USA

1821

–183

0

1831

–184

0

1831

–185

0

1851

–186

0

1861

–187

0

1871

–188

0

1881

–189

0

1891

–190

0

1901

–191

0

1911

–192

0

1921

–193

0

1931

–194

0

1941

–195

0

1951

–196

0

1961

–197

0

1971

–198

0

1981

–199

0

1991

–200

0

-

1,000,000

2,000,000

3,000,000

4,000,000

5,000,000

6,000,000

7,000,000

8,000,000

9,000,000

Migración de Europa a los USA

1821

–183

0

1831

–184

0

1831

–185

0

1851

–186

0

1861

–187

0

1871

–188

0

1881

–189

0

1891

–190

0

1901

–191

0

1911

–192

0

1921

–193

0

1931

–194

0

1941

–195

0

1951

–196

0

1961

–197

0

1971

–198

0

1981

–199

0

1991

–200

0

-

500,000

1,000,000

1,500,000

2,000,000

2,500,000

Migración de México a los USA

1821

–183

0

1831

–184

0

1831

–185

0

1851

–186

0

1861

–187

0

1871

–188

0

1881

–189

0

1891

–190

0

1901

–191

0

1911

–192

0

1921

–193

0

1931

–194

0

1941

–195

0

1951

–196

0

1961

–197

0

1971

–198

0

1981

–199

0

1991

–200

0

-

500,000

1,000,000

1,500,000

2,000,000

2,500,000

Migración de México a los USA

1821

–183

0

1831

–184

0

1831

–185

0

1851

–186

0

1861

–187

0

1871

–188

0

1881

–189

0

1891

–190

0

1901

–191

0

1911

–192

0

1921

–193

0

1931

–194

0

1941

–195

0

1951

–196

0

1961

–197

0

1971

–198

0

1981

–199

0

1991

–200

0

-

1,000,000

2,000,000

3,000,000

4,000,000

5,000,000

6,000,000

7,000,000

8,000,000

9,000,000

EuropaMéxico

2.1 Introducción

2.2 Tablas y gráficas de frecuencias

2.3 Datos agrupados e histogramas

2.4 Gráficas de tallos y hojas

2.5 Conjuntos de datos apareados

En ocasiones, los conjuntos de datos consisten en pares de valores con algún tipo de relación entre ellos.

En ocasiones, los conjuntos de datos consisten en pares de valores con algún tipo de relación entre ellos.

Cada individuo del conjunto de datos

presenta un valor y un valor .

Por lo general, el par -ésimo se

denota mediante

, , 1,... , .i i

x y

i

x y i n

Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:

Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:

Temperatura Piezas defectuosas24.2 2522.7 3130.5 3628.6 3325.5 1932.0 2428.6 2726.5 2525.3 1626.0 1424.4 2224.8 2320.6 2025.1 2521.4 2523.7 2323.9 2725.2 3027.4 3328.3 3228.8 3526.6 24

Total 569

Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables.

En este caso los pares de datos son la temperatura y el numero de piezas defectuosas.Tenemos un conjunto de 22 parejas de datos, cuya primera componente es la temperatura y la segunda componente el número de piezas defectuosas encontradas en ese momento.Por ejemplo, el tercer día la temperatura era de 30.5 grados centígrados y el número de piezas defectuosas halladas fue de 36.

Una posibilidad de representación de esos conjuntos de datos consiste en considerar separadamente cada uno de los datos apareados y en representar cada uno de ellos mediante histogramas o gráficas de tallos y hojas.

Sin embargo, dicha representación por separado, en general no nos dicen nada acerca de la relación existente entre ambas variables.Así por ejemplo, no son útiles por sí mismas para ayudar a discernir si existe algún tipo de correlación o dependencia entre las dos variables.

Para responder a cuestiones de este tipo, es preciso considerar simultáneamente los valores apareados de cada dato puntual.

Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:

Temperatura Piezas defectuosas24.2 2522.7 3130.5 3628.6 3325.5 1932.0 2428.6 2726.5 2525.3 1626.0 1424.4 2224.8 2320.6 2025.1 2521.4 2523.7 2323.9 2725.2 3027.4 3328.3 3228.8 3526.6 24

Total 569

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210

5

10

15

20

25

30

35

40

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

40.0

Temperatura

Piezas defectuosas

Una posibilidad para considerar simultáneamente los valores apareados de cada dato puntual, es mediante un diagrama de dispersión.

Una forma útil de mostrar un conjunto de datos con valores apareados es la de representarlos mediante un gráfico cartesiano con dos ejes perpendiculares.

En el eje X aparecerían los valores x de los datos, mientras que los valores y estarían en el eje Y.

Tales gráficas se denominan diagramas de dispersión.

Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:

Temperatura Piezas defectuosas24.2 2522.7 3130.5 3628.6 3325.5 1932.0 2428.6 2726.5 2525.3 1626.0 1424.4 2224.8 2320.6 2025.1 2521.4 2523.7 2323.9 2725.2 3027.4 3328.3 3228.8 3526.6 24

Total 569

20.0 22.0 24.0 26.0 28.0 30.0 32.0 34.010

15

20

25

30

35

40

Temperatura

Núm

ero

de p

ieza

s de

fect

uosa

s

Aparte de que representan los patrones conjuntos de dos variables y de que nos permiten hacer predicciones, los diagramas de dispersión resultan útiles para detectar outliers, los datos puntuales que aparentemente no siguen los patrones de los demás datos.

El tiempo de espera entre las erupciones y la duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone, Wyoming, EE.UU..

Esta gráfica sugiere que por lo general hay dos "tipos" de erupciones en cuanto a la espera: cortos y largos.

La siguiente tabla nos muestra las

calificaciones de 15 alumnos en

dos examenes, el primero es de

matemáticas y el segundo de

comprensión de la lectura.

Matemáticas Comprensión de lectura

750 750

700 710

720 700

790 780

700 680

750 700

620 610

640 630

700 710

710 680

540 550

570 600

580 600

790 750

710 720

Matemáticas Lectura

750 750

700 710

720 700

790 780

700 680

750 700

620 610

640 630

700 710

710 680

540 550

570 600

580 600

790 750

710 720

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

100

200

300

400

500

600

700

800

900

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

100

200

300

400

500

600

700

800

900

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

100

200

300

400

500

600

700

800

900

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

100

200

300

400

500

600

700

800

900 Matemáticas Lectura

750 750

700 710

720 700

790 780

700 680

750 700

620 610

640 630

700 710

710 680

540 550

570 600

580 600

790 750

710 720

Matemáticas Lectura

750 750

700 710

720 700

790 780

700 680

750 700

620 610

640 630

700 710

710 680

540 550

570 600

580 600

790 750

710 720500 550 600 650 700 750 800

500

550

600

650

700

750

800

Matemáticas Lectura

750 750

700 710

720 700

790 780

700 680

750 700

620 610

640 630

700 710

710 680

540 550

570 600

580 600

790 750

710 720500 550 600 650 700 750 800

500

550

600

650

700

750

800

A pesar de algunas pequeñas incongruencias, lectura y matemáticas tienen una fuerte relación lineal: personas con altos niveles de comprensión de lectura tienden a tener altas calificaciones en matemáticas y viceversa, y aquellos con puntuaciones más bajas en un área tienden a tener peores puntuaciones en la otra.

Los datos siguientes relacionan el periodo de atención (en minutos) y la puntuación en un test de inteligencia (IQ) de 18 niños en edad preescolar.

Periodo de atención Puntuación IQ

Periodo de atención Puntuación IQ

Periodo de atención Puntuación IQ

2.0 82 6.3 105 5.5 118

3.0 88 5.4 108 3.6 128

4.4 86 6.6 112 5.4 128

5.2 94 7.0 116 3.8 130

4.9 90 6.5 122 2.7 140

6.1 99 7.2 110 2.2 142

1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.070

80

90

100

110

120

130

140

150

Periodo de atención

Punt

uaci

ón IQ

top related