1 ejemplo consideremos los datos de un estudio donde se les mide la talla en centímetros a 20...
TRANSCRIPT
1
EjemploConsideremos los datos de un estudio donde se les mide la talla en centímetros a 20 jugadores del equipo Nacional de Handbol de EE. UU. seleccionados al azar.La ley que asocia a cada hombre con su talla es una variable aleatoria (continua).
184.2
191.8
188.0 196.2
178.4
.... etc
A esta función que asocia a cada deportista con su talla la llamaremos variable aleatoria y la denotaremos por X.
X: Talla
Qué es una Variable Aleatoria??????????
2
Ejemplo
184.2 191.8 188.0 196.2 178.4
184.2 195.4 189.2 186.0 194.3
190.5 190.5 198.1 188.0 184.2
176.5 184.2 193.5 195.6 186.3
X: Talla
3
Es un arreglo de los distintos valores que toma la variable con sus respectivas frecuencias (nº de veces que aparece cada valor de la variable en la muestra).
Cómo ordenamos los datos???????????
En una: Tabla de Distribución de Frecuencia
Qué es ?????
4
Distribución de frecuencia de ejemplo (TALLA)
Talla
173.5-179.5
179.5-185.5
185.5-191.5
191.5-197.5
197.5-203.5
f
2
4
7
6
1
20
F
2
6
13
19
20
==
Tabla de frecuenciasTabla de frecuencias
5
173.5 179.5 185.5 191.5 197.5 203.5
Talla
0
1
2
3
4
5
6
7
8f
Distribución de frecuencia de ejemplo (TALLA)
HistogramaHistograma
6
Medidas de Resumen
Los fenómenos biológicos no suelen ser constantes
•La tendencia central de los datos
Necesitamos conocer:
• La dispersión o variación respecto de este centro
•Los datos que ocupan ciertas posiciones
•La simetría de los datos
•La forma en que los datos se agrupan
7
Medidas representativas de un conjunto de datos estadísticos
8
Medidas de Tendencia Central
Son medidas alrededor de las cuales se concentran los datos
Las tres medidas más usuales de tendencia central son:
Media Mediana Moda
9
Es la suma de todos sus posibles valores dividida por el n° total de datos (n)
8.18875.188
20
3.1866.1955.193...0.1888.1912.184_
X
(Ejemplo: TALLA)
1.-Media Aritmética (X) de una variable aleatoria (o Promedio)
Datos:Datos:
184.2 191.8 188.0 196.2 178.4
184.2 195.4 189.2 186.0 194.3
190.5 190.5 198.1 188.0 184.2
176.5 184.2 193.5 195.6 186.3
10
a) n impar: mediana es el único valor central
b) n par: mediana es el promedio de los dos valores centrales
Primero !!!!! Ordenamos los valores de menor a mayor
Si n es el número de observaciones:
Es el primer valor de la variable que deja por debajo y por sobre de sí al 50 % de las observaciones.
2.- Mediana(Med) de una variable aleatoria
11
Si la variable es la talla
12
176.5, 178.4, 184.2, 184.2, 184.2, 184.2, 186.0, 186.3, 188.0, 188.0, 189.2, 190.5, 190.5, 191.8, 193.5, 194.3, 195.4, 195.6, 196.2, 198.1
(Ejemplo: TALLA)
datosde 10220
10020*50
20%50
Datos ordenados:Datos ordenados:
n= 20n= 20 parpar MedianaMediana
• Promedio de 2 valores Promedio de 2 valores centralescentrales
• Dejan aproximadamente Dejan aproximadamente 50% de los datos bajo y 50% de los datos bajo y sobre sí (aprox. 10 datos) sobre sí (aprox. 10 datos)
10 datos10 datos
6.1882
2.1890.188 Med
13
39, 40, 42, 49, 51, 54, 56, 57, 58, 58, 58, 59, 63, 64, 66, 68, 69, 70, 70, 71,72
(Ejemplo: PESO)
datosde 105.102
21
100
21*5021%50
Datos ordenados:Datos ordenados:
n= 21n= 21 imparimparMedianaMediana
• valor central únicovalor central único
• Deja aproximadamente Deja aproximadamente 50% de los datos bajo y 50% de los datos bajo y sobre sí (aprox. 10 datos) sobre sí (aprox. 10 datos)
Med=58
14
Mediana=
Si cambiamos la última observación por otra
extrañamente grande
X: 2, 5, 7, 125
Sea X una variable discreta con los siguientes valores:
X: 2, 5, 7, 12
Media= (2+5+7+12)/4=6.5(2+5+7+12)/4=6.5 (5+7)/2= 6
Media=(2+5+7+125)/4=34.75(2+5+7+125)/4=34.75 Mediana=(5+7)/2= 6
Conclusión:
La Media es afectada por valores extremos, no así, la Mediana
15
Cuál de los dos valores es más adecuado para la distribución de los datos, la Media o la Mediana???
Límite real
f
0-10 60
10-20 80
20-30 30
30-100 20
100-500 10
200
c
5
15
25
65
300
F
60
140
170
190
200
15
75.32
Mediana
XMedia
Ejercicio
16La medida de tendencia central más adecuada para describir estosLa medida de tendencia central más adecuada para describir estos
datos es la MEDIANAdatos es la MEDIANA
17
Es aquel valor de la variable con mayor frecuencia absoluta.
3.- Moda de una variable aleatoria
• Puede no ser única
18
(Ejemplo: TALLA)
Moda= 184.2
Como conocemos cada uno de los datos, podemos ver el que
más se repite:
19
Medidas de Posición
Dividen el conjunto de datos ordenados en partes iguales
Las dos medidas de posición más usuales son:
Percentiles Cuartiles
20
Es la observación, Pk, que deja por debajo de sí el k% de la población.
1.-Percentiles
PERCENTIL DE ORDEN k:
Deja debajo de sí el 50% de los datos ordenadosDeja debajo de sí el 50% de los datos ordenados
PP2525 Deja debajo de sí el 25% de los datos ordenadosDeja debajo de sí el 25% de los datos ordenados
PP7575== Deja debajo de sí el 75% de los datos ordenadosDeja debajo de sí el 75% de los datos ordenados
Son 99 valores que dividen en 100 partes iguales el conjunto de
datos ordenados. Ejemplo, el percentil de orden 67 deja por debajo de
sí el 67% de las observaciones, y por encima queda el 33%
PP5050 MedianaMediana
21
Si n es el número de observaciones:
1º) Primero ordenamos las observaciones de menor a mayor1º) Primero ordenamos las observaciones de menor a mayor
2º) Calculamos el k% de n 2º) Calculamos el k% de n
100
*%
nkndek
3º)Contando los datos desde el valor menor al mayor, 3º)Contando los datos desde el valor menor al mayor, el percentil deel percentil de
orden k será aquel valor de la variable ubicado en la posición número:orden k será aquel valor de la variable ubicado en la posición número:
100
*nk
22
176.5, 178.4, 184.2, 184.2, 184.2, 184.2, 186.0, 186.3, 188.0, 188.0, 189.2, 190.5, 190.5, 191.8, 193.5, 194.3, 195.4, 195.6, 196.2, 198.1
(Ejemplo: TALLA)
datosde 134.13100
20*6720%67
Datos ordenados:Datos ordenados:
n= 20n= 20
PP6767
• Deja aproximadamente Deja aproximadamente 67% de los datos bajo de sí 67% de los datos bajo de sí (aprox. 13 datos), y el 33% (aprox. 13 datos), y el 33% sobre sísobre sí
Calculemos el percentil de orden 67%Calculemos el percentil de orden 67%
8.19167 P
23
2.-Cuartiles
Segundo cuartil (Q2)Segundo cuartil (Q2) PP5050=Mediana=Mediana
Son los 3 valores que dividen al conjunto de datos ordenados en cuatro
partes iguales
Primer cuartil (Q1)Primer cuartil (Q1)PP2525
Tercer cuartil (Q3)Tercer cuartil (Q3) PP7575
24
Medidas de Dispersión
• Nos dicen hasta qué punto las medidas de tendencia central son representativas como síntesis de la información.
• Cuantifican la separación o la variabilidad de los valores de la distribución respecto al valor central.
Las más usadas son: Las más usadas son:
Rango(Recorrido)Rango(Recorrido)Desviación EstándardDesviación Estándard
25
1.-Rango o Recorrido
RANGO (RECORRIDO) = Valor Máximo - Valor Mínimo.
Inconvenientes del RANGO (RECORRIDO):
• No utiliza todas las observaciones (sólo dos de ellas).
• Se puede ver muy afectado por alguna observación extrema.
• El rango aumenta con el número de observaciones, o bien se
queda igual. En cualquier caso, nunca disminuye.
26
(Ejemplo: TALLA)
Valor Máximo=Valor Máximo=Valor Mínimo= Valor Mínimo= 176.5176.5 198.1198.1
Rango o Recorrido=Rango o Recorrido= 198.1 – 176.5=198.1 – 176.5= 21.621.6
Sólo depende del valor máximo (198.1) y del valor Mínimo (176.5)Sólo depende del valor máximo (198.1) y del valor Mínimo (176.5)
176.5, 178.4, 184.2, 184.2, 184.2, 184.2, 186.0, 186.3, 188.0, 188.0, 189.2, 190.5, 190.5, 191.8, 193.5, 194.3, 195.4, 195.6, 196.2, 198.1
27
(Ejercicio: Concentración urinaria de plomo en niños
Concentración de plomo (µmol/24hr)
0.2
1.5
0.6
2.0
0.8
2.1
2.1x
(x-promedio)
0.2 - 1.2= -1
1.5 - 1.2=0.3
0.6 - 1.2= -0.6
2.0 - 1.2=0.8
0.8 - 1.2=-0.4
2.1 - 1.2=0.9
9.04.08.06.03.01x 00
28
01
n
ii xx
11
2
n
xxn
ii
n
ii xx
1
2
SS22=
soluciónsolución
29
11
2
2
n
xxS
n
ii
Es la media de las diferencias cuadrática de n puntua-
ciones con respecto a su media aritmética.
Desviación Estándar (S):
2.-Varianza (S2) y desviación estándar(S)
30
(Ejemplo: TALLA)
Datos:Datos:
5.34
1208.1883.1868.1886.195...8.1880.1888.1888.191)8.1882.184( 22222
2
s
8,188
20_
X
n
9.55.34 s
184.2 191.8 188.0 196.2 178.4
184.2 195.4 189.2 186.0 194.3
190.5 190.5 198.1 188.0 184.2
176.5 184.2 193.5 195.6 186.3
31
En SPSS
32
Medidas de Forma
1.- Asimetría
Coef. deCoef. de
Asimetría <0Asimetría <0
Coef. deCoef. de
Asimetría =0Asimetría =0
Coef. deCoef. de
Asimetría >0Asimetría >0
33
Ejemplo
Moda <Mediana<MediaModa <Mediana<Media
34
En SPSS
Moda <MedianaModa <MedianaMediaMedia Si bien se nota una leve cola hacia laSi bien se nota una leve cola hacia la
izquierda, la asimetría es sutil por ello queizquierda, la asimetría es sutil por ello que
los valores son cercanoslos valores son cercanos
35
2.- Apuntamiento o curtosis
Curtosis >0Curtosis >0 Curtosis =0Curtosis =0 Curtosis <0Curtosis <0
Distribución mesocúrtica : presenta un grado de concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta una distribución normal).
Distribución leptocúrtica : presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
36
En SPSS
37
En SPSS
38
Ejercicio
Datos I: Datos I:
2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 52, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5
Datos II: Datos II:
3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 63, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6
Datos III: Datos III:
2, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 62, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 6
Datos IV: Datos IV:
3, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 53, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 5
Promedio=Promedio=
Mediana=Mediana=
Promedio=Promedio=
Mediana=Mediana=
Promedio=Promedio=
Mediana=Mediana=
Promedio=Promedio=
Mediana=Mediana=
39
Datos x Med Moda Rango P25 P75 P75-P25 S
I 4 4 5 3 3 5 2 1
II 4 4 3 3 3 5 2 1
III 4 4 4 4 4 4 0 1
IV 4 4 3 y 5 2 3 5 2 1Distribución I
2 3 4 50
1
2
3
4
5
6
No
of o
bs
Distribución II
3 4 5 60
1
2
3
4
5
6
No
of o
bsDistribución III
2 3 4 5 60
1
2
3
4
5
6
7
8
No
of o
bs
Distribución IV
3 4 50
1
2
3
4
5
6
7N
o o
f ob
s
40
Importante para describir los datos!!!!!!!!!!!!......Importante para describir los datos!!!!!!!!!!!!......
Medidas de DispersiónMedidas de Dispersión
Medidas de Tendencia CentralMedidas de Tendencia Central
Medidas de posiciónMedidas de posición
++
++
Gráficos:Histograma, BoxPlotGráficos:Histograma, BoxPlot
++
41
RESUMEN : Medidas descriptivasRESUMEN : Medidas descriptivas
PosiciónPosición
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de datosDividen un conjunto ordenado de datos en grupos con la misma cantidad de datos
. Percentiles, cuartiles. Percentiles, cuartiles
CentralizaciónCentralización
Indican valores respecto alos cuales los datos parecen agruparesIndican valores respecto alos cuales los datos parecen agrupares
. Media, mediana y moda. Media, mediana y moda
DispersiónDispersión
Indican la mayor o menor concentración de los datos con respecto a las medidas de Indican la mayor o menor concentración de los datos con respecto a las medidas de centralizacióncentralización
. Varianza, desviación estándar, rango o recorrido. Varianza, desviación estándar, rango o recorrido
FormaForma
Asimetría y apuntamientoAsimetría y apuntamiento
42
Elección de medidas de tendencia central y de dispersión
Variable Nominal
Variable Ordinal
Moda
• Mediana
• Moda
• Percentiles
Variable Contínua:
• ConCon distribución desconocida o asimétrica distribución desconocida o asimétrica
• ConCon distribución simétrica y unimodal (Ej: Normal) distribución simétrica y unimodal (Ej: Normal)
• Mediana
• Percentiles
• Media
• Desviación estándard