medidas de tendencia central medidas de dispersión medidas ... · medidas de tendencia central ......
Post on 16-Oct-2018
285 Views
Preview:
TRANSCRIPT
Medidas de Tendencia central
Medidas de Dispersión
Medidas de Asimetría
1
• Intento de resumir la distribución, expresando el
valor que se puede considerar mas típico o
representativo de los datos.
• El término tendencia central implica la idea de un
“centro” identificable en la distribución. Tanto más
útil será ese valor en tanto más identificable sea
ese “centro”.
• Veremos:
- Media Aritmética
- Mediana
- Modo o moda
2
• Es el promedio de las observaciones.
• Se puede ver como un punto de equilibrio de la distribución,
o como un centro de gravedad de la misma.
Ojo: La suma de las diferencias de cada valor de la muestra con
la media es siempre cero, es decir:
N
xNi
i
i
1
3
n
i
i xx1
0)(
• Ejemplo: Para la serie de datos utilizada anteriormente:
12 15 13 12 14 16 12 14 14 12 14
= (12+15+13+12+14+16+12+14+14+12+14)/11=13.45
Interpretación: El total de individuos tienen en promedio 13.45
años de servicio; o
El total de individuos tienen alrededor de 13,45 años de servicio.
N
xNi
i
i
1
4
• Es el punto medio de una distribución ordenada de los datos.
• El 50% de los datos están por encima o debajo de este valor.
Es útil cuando se quiere reducir o eliminar el efecto
de valores extremos en un conjunto de datos (muy
grandes o muy pequeños).
5
• Ejemplo 1: Cantidad de observaciones impar (n=11)
12 15 13 12 14 16 12 14 14 12 14
• Ordenamos de menor a mayor y ubicamos el centro:
• Ejemplo 2: Cantidad de observaciones par (n=10)
5 8 8 5 9 6 8 2 9 6
Ordenamos de manera ascendente y ubicamos el centro:
12 12 12 12 13 14 14 14 14 15 16
2 5 5 6 6 8 8 8 9 9
Mediana=(6+8)/2=7
6
Se ordenan los n valores en forma creciente:
x1 < x2 < x3 < x4 < x5 < x6 < …..xn
• Si n impar:
• Si n par:
1
2
nMd X
12 2
2
n nX X
Md
7
• Valor de la variable correspondiente al 0.50 en la frecuencia relativa acumulada
0
10
20
30
40
50
60
70
80
90
100
15 20 25 30 35 40
Edad(años)
Frecu
en
cia
acu
mu
lad
a%
8
• Es el valor con mayor frecuencia en la distribución de
datos.
• Las distribuciones pueden ser unimodales, bimodales, multimodales.
9
Ej: Variable cuantitativa: Años de servicio
12 15 13 12 18 16 12 14 14 12 14
Moda:
Md=12
10
MdMeX
MdMeX
Distribución Asimétrica Positiva (+)
Distribución Asimétrica Negativa (+)
Asimetría positiva
Moda Mediana
Media
Asimetría negativa
Media Mediana
Moda
• Cuantil: valor de la variable bajo el cual se encuentra
una cierta proporción de los valores de la
distribución.
• Percentiles o centiles: C,100 partes
• Deciles: D, 10 partes
• Cuartiles: Q, 4 partes:
• Q1(25%), Q2(50%), Q3(75%)
13
Mediana: Valor de la variable que deja por debajo al
50% de las observaciones
Percentil k: Valor de la variable que deja por debajo
el k% de las observaciones(Ej: P23, P45 , P50)
Decil k: Valor de la variable que deja por debajo el
(k*10)% de las observaciones (Ej: P10=D1, P20=D2,etc.)
Cuartil k:Valor de la variable que deja por debajo el
(k*25)% de las observaciones (Ej: P50=Q2 =Me,
Medidas de Posición
14
• Cuantil: valor de la variable bajo el cual se encuentra
una cierta proporción de los valores de la
distribución.
• Percentiles o centiles: C,100 partes
• Deciles: D, 10 partes
• Cuartiles: Q, 4 partes:
• Q1(25%), Q2(50%), Q3(75%)
15
• D1=P10
• Q1=P25
• Q2=Me=P50
16
Se tienen los siguientes datos que corresponden a los salarios
mensuales de un Ingeniero con experiencia laboral de tres años:
(los salarios están en miles)
2350 2450 2550 2380 2255 2210 2390 2630 2440 2825 2420 2380
Calcular la Media
Calcular la Mediana
Calcular la Moda
Calcular el primer y el tercer cuartil
17
18
19
2440
12
2825......238022552210
1
X
X
n
X
X
n
i
i
La moda es el valor que más se repite; en este ejemplo la moda es:
Md=2380
20
238024052440 Distribución Asimétrica Positiva (+)
Primer Cuartil
21
3
12*100
25
*100
i
i
np
i
Como i es entero y es igual a 3 el cuartil 1 es el promedio
de los valores ubicados en las posiciones 3 y 4
Nota: Es de anotar que el valor i se refiere es a la posición del valor dentro de
la distribución de datos.
Si el valor no hubiese sido entero, entonces se aproximaba al entero que
sigue y el valor en esa posición correspondería al cuartil
2365
2
23802350
1
1
Q
Q
Tercer Cuartil
22
9
12*100
75
*100
i
i
np
i
Como i es entero y es igual a 9 el cuartil 3 es el promedio
de los valores ubicados en las posiciones 9 y 10
Nota: Es de anotar que el valor i se refiere es a la posición del valor dentro de
la distribución de datos.
Si el valor no hubiese sido entero, entonces se aproximaba al entero que
sigue y el valor en esa posición correspondería al cuartil
2500
2
25502450
3
3
Q
Q
Es un diagrama que resume gráficamente en cinco puntos todos los datos
23
1.5*RIC 1.5*RIC
Me Q3
Q1
RIC=Q3 – Q1 LI=Q1-1,5*RIC
LS=Q3+1,5*RIC
Límite
Inferior
Límite
Superior
SOLUCIÓN EJEMPLO ANTERIOR
24
202,5 202,5
Me=2405 Q3=2500 Q1=2365
RIC=Q3 – Q1
RIC=2500-2365
RIC=135
LI=2365-1,5*135=2162,5
LS=2500+1,5*135=2702,5
2825
Los siguiente datos corresponden a las toneladas
de carga que movilizó la empresa FedEx durante
el año 2010.
Calcular la media
Calcular la mediana
Calcular el cuartil 1 y el cuartil 3
Elaborar el diagrama de caja y bigotes
25
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
34,5 35,5 36,5 34,8 33,55 33,10 35 37,3 35,4 39,25 35,20 34,80
26
408,35
12
80,34......50,3650,3510,33
1
X
X
n
X
X
n
i
i
27
Primer Cuartil
28
3
12*100
25
*100
i
i
np
i
Como i es entero y es igual a 3 el cuartil 1 es el promedio
de los valores ubicados en las posiciones 3 y 4
Nota: Es de anotar que el valor i se refiere es a la posición del valor dentro de
la distribución de datos.
Si el valor no hubiese sido entero, entonces se aproximaba al entero que
sigue y el valor en esa posición correspondería al cuartil
65,34
2
80,3450,34
1
1
Q
Q
Tercer Cuartil
29
9
12*100
75
*100
i
i
np
i
Como i es entero y es igual a 9 el cuartil 3 es el promedio
de los valores ubicados en las posiciones 9 y 10
Nota: Es de anotar que el valor i se refiere es a la posición del valor dentro de
la distribución de datos.
Si el valor no hubiese sido entero, entonces se aproximaba al entero que
sigue y el valor en esa posición correspondería al cuartil
36
2
50,3650,35
3
3
Q
Q
30
2,025 2,025
Me=35,1 Q3=36 Q1=34,65
RIC=Q3 – Q1
RIC=36-34,65
RIC=1,35
LI=34,65-1,5*1,35=32,625
LS=36+1,5*1,35=38,025
39,25
32,625 38,025
• Resume la magnitud con la cual los diferentes datos
difieren entre sí.
• Sirven como medida de homogeneidad.
• Entre ellas tenemos:
- Rango - Desviación estándar
- Varianza - Coeficiente de variación
- Error Estándar - Valor Z
31
• Rango= Xmax-Xmin
• Se utiliza para variables cuantitativas
• Inestable (muy afectada por los valores extremos).
• No aprovecha los datos.
• Fácil de calcular.
32
• Nos informan sobre la magnitud de la variación en
los datos, la magnitud con la cual las observaciones
se agrupan en torno a la media.
• Sólo se aplica a variables cuantitativas Para una
población, la varianza es:
2
2
1
( )i ni
i
x
N
33
• Poblacional
• Muestral
2
2
1
( )
1
i ni
i
x xs
n
2
2
1
( )i ni
i
x
N
34
Varianza Desviación estándar
2
2s s
Ej: 5 8 8 5 9
Media=(5+8+8+5+9)/5=7
87.15,3
5,34
41144
4
)79()78()78()75()75( 222222
s
s
2
2
1
( )
1
i ni
i
x xs
n
35
Proporciona los elementos para comparar la
variabilidad en distintos conjuntos de datos que
pueden tener distintas medias.
Una desviación estándar de 500 en una distribución
con una media de 5000, sugiere una variabilidad
mayor que una desviación de 500 en una distribución
de media 50000
Generalmente se expresa en porcentaje:
36
sCV
x * 100%
yi hace referencia a la marca de clase
ni hace referencia a las frecuencias absolutas
ii
ii
hyY
n
nyY
*
Las calificaciones del examen final de 30 alumnos en la
asignatura de estadística fueron las siguientes.
Elaborar una tabla de frecuencias
Calcular la media, la mediana, la moda
38
56 77 84 82 44 61
44 95 98 84 93 62
96 78 88 58 62 79
85 89 89 97 53 76
75 58 80 64 90 82
Yi-1 Yi ni hi Ni Hi yi
44 53 3 0,1 3 0,1 48,5
53,1 62 6 0,2 9 0,3 57,5
62,1 71 1 0,033 10 0,333 66,5
71,1 80 6 0,2 16 0,533 75,5
80,1 89 8 0,266 24 0,8 84,5
89,1 98 6 0,2 30 1,00 93,5
9,74
2,0*5,93266,0*5,842,0*5,75033,0*5,662,0*5,571,0*5,48
9,74
30
6*5,938*5,846*5,751*5,666*5,573*5,48
Y
Y
Y
Y
40
Yi-1 Yi ni Ni
44 – 53 3 3
53,1 – 62 6 9
62,1 – 71 1 10
71,1 – 80 6 16
80,1 – 89 8 24
89,1 – 98 6 30
6,786
1015*91,71
Me
nj
Nj-1
nj=6 c=9
Nj-1=10
n/2 = 15
Yi-1=71.1
j
j
in
NncYMe
1'
12
Nj
Yi-1 Yi ni Ni
44 – 53 3 3
53,1 – 162 6 9
62,1 – 71 1 10
71,1 – 80 6 16
80,1 – 89 8 24
89,1 - 98 6 30
6,84
66
6*91,80
*11
1'
1
Md
Md
nn
ncYMd
jj
j
i
nj
nj-1
nj+1
42
31,878
165,22*91,803
Q
Nj
Nj-1
j
j
in
NncYQ
1'
134
3
Yi-1 Yi ni Ni
44 – 53 3 3
53,1 – 62 6 9
62,1 – 71 1 10
71,1 – 80 6 16
80,1 – 89 8 24
89,1 - 98 6 30
nj=8 c=9
Nj-1=16
3n/4 = 22,5
Yi-1=80,1
nj
43
j
j
in
Nn
cYP1'
130100
30
1,5330 P
30n/100 = 9
P30=Yi-1=53,1
Yi-1 Yi ni Ni
44 – 53 3 3
53,1 – 62 6 9
62,1 – 71 1 10
71,1 – 80 6 16
80,1 – 89 8 24
89,1 - 98 6 30
Nj-1
44
j
j
in
Nn
cYP1'
160100
60
35,828
1618*91,8060
P
Yi-1 Yi ni Ni
44 – 53 3 3
53,1 – 62 6 9
62,1 – 71 1 10
71,1 – 80 6 16
80,1 – 89 8 24
89,1 - 98 6 30
Nj-1
nj=8 c=9
Nj-1=16
60n/100 = 18
Yi-1=80,1
Nj nj
45
Ubicación gráfica de los cuartiles
46
Proporciona los elementos para comparar la
variabilidad en distintos conjuntos de datos que
pueden tener distintas medias.
Una desviación estándar de 500 en una distribución
con una media de 5000, sugiere una variabilidad
mayor que una desviación de 500 en una distribución
de media 50000
Generalmente se expresa en porcentaje:
47
sCV
x * 100%
48
sCV
x * 100%
49
• Se refiere a la simetría respecto a la media.
Distribución simétrica
0
2
4
6
8
10
12
m-a m
m+
a
De
ns
ida
d
Asimetría negativa
0
1
2
3
4
5
6
7
8
1 2 3 4 5 6 7 8 9
De
ns
ida
d
0
1
2
3
4
5
6
7
8
1 2 3 4 5 6 7 8 9
De
ns
ida
d
Asimetría positiva
Simétrica: media=mediana=moda
Asimetría negativa media>mediana>moda
Asimetría positiva media<mediana<moda
50
51
52
53
Valores atípicos
54
top related