est sesiones 3 y 4 diplops adobe
Post on 01-Feb-2016
229 Views
Preview:
DESCRIPTION
TRANSCRIPT
“Estadística”Prof. Juan Narro Lavi
Diplomatura de Estudio en
Gestión de Operaciones
Sesiones 3 y 4:Resumen numérico
de los datosMedidas de Correlación
“La estadística es una ciencia que demuestra que si mi vecino tiene dos autos y yo ninguno, en promedio los dos tenemos uno.”
Media Aritmetica
Mediana
Moda
Descripción Numérica de Datos
Varianza
Desviación EstándarCoeficiente de Variación
Rango
Rango Intercuartil
Tendencia Central Dispersión
Estadística Sumaria
Tendencia Central
Media Mediana Moda
n
xx
n
1ii
Punto medio de los Datos Ordenados
Valor observado frecuentemente
Promedio
Aritmético
Estadística Sumaria
Medidas de tendencia central
• Aquellas que nos indican cual podría ser el punto medio o típico de un conjunto de datos analizados.
• Llamados “Promedios”.• Promedios principales:
Media aritmética simple
Media ponderada
Media geométrica
Media Armónica
Mediana
Moda
• Ventajas:
• Concepto familiar para muchas personas
• Es única para cada conjunto de datos
• Es posible comparar medias de diferentes muestras
• Desventajas:
• Se ve afectada por los datos extremos.
Media aritmética
0 1 2 3 4 5 6 7 8 9 10
Media = 3
0 1 2 3 4 5 6 7 8 9 10
Media = 4
Media ponderada
k
ii
k
iii
p
k
ii
k
iii
p
w
xwx
w
Xw
1
1
1
1• Media aritmética en la
cual se considera a cada uno de los valores de las variables de acuerdo con su importancia relativa en el grupo.
Media geométrica
• De n números positivos es la raíz n-ésima del producto de los n números.
• Para promediar porcentajes, índices y cifras relativas.
• Determinar el incremento porcentual promedio en ventas, producción, etc.
G nN
GN
X X X X
ValoralfinalValoralinicio
1 2 3
1 1
..
Mediana
• Punto medio de los valores después de ordenarlos.
• Es un promedio de posición.
• No es afectada por valores extremos.
Med
DatosNoAgrupados
NX
2
0 5.
MedN
faAi
DatosAgrupados
ii
L f
2
Reglas1º Si la serie es impar, la mediana ocupa el lugar
central de la serie previamente ordenada.
Ejemplo: 5, 10, 10, 12, 15, 17, 20, 21, 24
Mediana
2º Si la serie es par, la mediana se obtiene de la semisuma de los dos valores centrales de la serie previamente ordenada.
Ejemplo: 8, 10, 14, 18, 23, 24, 32, 34
5.202
2318
mediana
Ventajas:• Los valores extremos no afectan a la mediana como
en el caso de la media aritmética.• Es fácil de calcular, interpretar y entender.• Se puede determinar para datos cualitativos.
Desventajas:• Como valor central, se debe ordenar primero la
serie de datos.
Mediana
Moda
• Valor que más se repite en un conjunto de datos.
• No es afectada por valores extremos.
• Para datos discretos es fácil de calcular.
• No puede ser calculada exactamente en una dist. de frecuencias.
Mo i
DatosAgrupados
iLd
d d
1
1 2
14
4, 5, 7, 8, 8 , 10, 12, 15
4, 7, 12,12 , 15, 16, 20, 20 , 24, 27
7, 12, 15, 18, 25, 30, 31, 38
Ejemplo:
Moda
Ventajas:• Se puede utilizar tanto para datos cualitativos como
cuantitativos.• No se ve afectada por los valores externos
Desventajas:• No tiene un uso tan frecuente como la media.• Muchas veces no existe moda (distribución amodal).• En otros casos la distribución tiene varias modas, lo
que dificulta su interpretación.
Moda
Selección del promedio apropiado
OBSERVACIÓN DATOS
EDAD 22, 24, 25, 26, 27, 28, 28, 29, 30, 31, 33, 34
INGRESO EN MILES DE $
8, 8.2, 9,10,11,12, 12.3,12.5,13,13.5, 86,97
TALLA ZAPATOS
39, 40, 41, 41, 41, 41, 42, 42, 43, 43, 44, 45
Selección del promedio más adecuado
• La mediana siempre es la posición central.• La moda se puede emplear cuando se requiere
una idea rápida de la tendencia central.• La más usada es la media aritmética.• La más representativa para datos de una
distribución asimétrica es la mediana.• Media valor de equilibrio de Magnitud .
Mediana valor de equilibrio de Cantidad.Moda valor con mayor frecuencia.
Cuartiles, deciles y percentiles(Fractiles o cuantiles)
• Medidas de posición.• Dividen en :
– Cuatro (Qj)– Diez (Dj)– Cien (Pj)
• Formulación semejante a la mediana.
j jnF
j ijij
F X
F L f
DatosNoAgrupados
jnF faA
i
DatosAgrupados
0 5.
Mismo centro, Diferente variación
Dispersión
Varianza DesviaciónEstandard
Coeficiente de Variación
Rango Desviación Media
Información sobre la variabilidad de los datos.
Medidas de dispersión
Rango o recorrido
• Diferencia entre el valor mayor y el valor menor de un conjunto de datos.
• No está afectado por los valores comprendidos entre los extremos.
R V max V min
DatosNoAgrupados
R A B
DatosAgrupadoss iL L
. . .
( ) ( )
Ventajas• fácil de calcular• fácil de entender e interpretar
Desventajas• sólo considera los valores extremos• no toma en cuenta ni el número de datos ni el valor
de estos
Rango o recorrido
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Rango = 14 - 1 = 13
Desviación media
• Media de los valores absolutos de las diferencias entre las variables y la media.
• Da una mejor descripción de la dispersión que el rango.
DMN
DatosNoAgrupados
DMN
DatosAgrupados
ii
N
i ii
N
X
f X
1
1
Varianza
• Media aritmética de las desviaciones cuadráticas respecto a la media.
• Expresada en unidades al cuadrado.
• n-1, factor de corrección.
2
2
1
X
NPoblacion
i
N
S
x
nMuestra
ii
n
x2
2
1
1
Desviación estándar
ii
N
ii
n
X
x
NPoblacion
Sx
nMuestra
2
1
2
1
1
• Es la raíz cuadrada positiva de la varianza.
• Unidades originales.
• Permite medir el % de elementos dentro de intervalos de una curva simétrica.
• Puntaje estándar (Z).
Comparación de Desviaciones Estándar
Media = 15.5
s = 3.338 11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Datos B
Datos A
Media = 15.5
s = .9258
11 12 13 14 15 16 17 18 19 20 21
Media = 15.5
s = 4.57
Datos C
-3σ -2σ -1σ +1σ +2σ +3σμ
x
Z
Puntaje o Resultado Estándar (Z)
-3 -2 -1 +1 +2 +30Z
• Regla Empírica, si la distribución de datos tiene forma acampanada, entonces el intervalo:
• contiene cerca 68% de los valores en la población o muestra.
1σμ
μ
68%
1σμ
Interpretación y usos de la Desviación Estándar
• contiene cerca 95% de los valores en la población o muestra.
• contiene a casi todos (cerca 99.7%) los valores de la población o
muestra.
2σμ
3σμ
3σμ
99.7%95%
2σμ
Interpretación y usos de la Desviación Estándar
-3σ -2 σ -1σ +1σ +2σ +3σμ
34.13%34.13%
13.60%13.60%
2.135%2.135%
0.135%0.135%
68.26%
95.46%
99.73%
Interpretación y usos de la Desviación Estándar
Coeficiente de variación
CV
Poblacion
CVS
xMuestra
*
*
100
100
• Indica la magnitud relativa de la desviación estándar con respecto a la media aritmética.
• Comparación de distribuciones.
Coeficiente de variación
CV Grado de Variablidad
0 < CV < 10 Datos muy homogéneos
10 ≤ CV < 15Datos regularmente homogéneos
15 ≤ CV < 20Datos regularmente variables
20 ≤ CV < 25 Datos variables
CV ≥ 25 Datos muy variables
Medidas de Simetría y Curtosis
• Evalúa como están concentradas las observaciones.• Además de la tendencia para agruparse alrededor de
ciertos valores y grados de dispersión.• Representatividad de los valores de tendencia y su
confiabilidad.• Coeficientes:
– de Asimetría de Pearson– de Curtiosis
Coeficiente de Simetria y Curtosis de Fisher
𝑠𝑘 = σ ሺ𝑥𝑖 − 𝑥ҧሻ3𝑛𝑖=1ሺ𝑛− 1ሻ𝑠2
• Tercer momento • Simétrica = 0• Asimetrica Positiva > 0• Asimetrica Negativa < 0
Simetría Curtosis• Cuarto Momento• Mesocurtica = 0• Leptocurtica > 0• Platicurtica < 0
𝑘 = σ ሺ𝑥𝑖−𝑥ҧሻ4𝑛𝑖=1 ሺ𝑛−1ሻ𝑠4 -3
Sesgo de una distribución
Coeficiente de Curtosis
K > 0 K < 0K = 0
Análisis de Regresión Simple
• Finalidad es establecer una relación cuantitativa (ecuación de regresión) entre dos variables, y estimar el valor de Y (dependiente) con base en un valor de X (independiente).
• Ecuación de estimación o de pronóstico (Y’) .
• Regresión lineal simple
– Una recta.
Y a bX'
Y X' 0 1
Análisis de regresión simple
• Métodos : gráfico y matemático (mínimos cuadrados).
• Gráfico– Diagrama de dispersión.– Trazar una recta que trate de unir los puntos.– Ventaja: simple y directo.– Desventaja: procedimiento subjetivo.
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6
X 3 1 2 5 4
Y 9 5 7 14 10
Análisis de regresión simple• Mínimos cuadrados
– Técnica para encontrar la ecuación de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores observados y los estimados (recta) de Y.
– Hallar los coeficientes de regresión a y b.– Ecuaciones Normales.
a Y bX
bXY nXY
X n X
2 2
Y na b X
XY a X b X
;
2
Recta de regresión
0
2
4
6
8
10
12
14
0 1 2 3 4 5
Y’=2.7+2.1X
YY’*
*
ValorEfectivo
ValorEstimado
• Error estándar de estimación– Mide la disparidad (dispersión) promedio
entre los valores observados y los valores estimados de Y.
– Indicador del grado de precisión de la ecuación.– No es la más adecuada para medir relación.
Análisis de regresión simple
y x
y x
S
S
Y Y
n
Y a Y b XY
n
.
.
'
( ) ( )
2
2
2
2
Coeficiente de correlación (r)
• Karl Pearson, 1900.
• Mide el grado de asociación o relación lineal entre
las variables X e Y.
• Sus valores van de -1 a +1.(correlación negativa y
positiva perfecta).
• Es el mismo signo de b.
rXY nXY
X nX Y nY
( )( )2 2 2 2
Coeficiente de correlación (r)
Medida de intensidad de la relación entre dos conjuntos de variables.
CorrelaciónNegativaPerfecta
NingunaCorrelación
CorrelaciónPositivaPerfecta
CorrelaciónNegativa
Moderada
CorrelaciónPositiva
Moderada
0-1 1
Correlación positivaCorrelación negativa
0.5 0.5
Y
X
Y
X
Y
X
Y
X
Y
X
r = -1 r = -.6 r = 0
r = +.3r = +1
Y
Xr = 0
Coeficiente de correlación (r)
Variaciones
0
2
4
6
8
10
12
14
0 1 2 3 4 5
YY’*
*VariaciónTotal Variación
Explicada
Y
Variación noExplicada
Coeficiente de determinación (r2)
• Proporción de la variación total en la variable
dependiente (Y) que se explica por o se debe a la
variación de la variable independiente.
• Puede adoptar valores entre 0 y 1.
rVar Explicada
Var Total
Y Y
Y Y
ra Y b XY nY
Y nY
22
2
22
2 2
.
.
( ' )
( )
Si r2 = 1 : Correlación perfecta, es decir, toda
variación de Y puede explicarse por X
Si r2 = 0 : No existe correlación entre X e Y. La
variación explicada es 0.
La variable X no explica nada de los cambios en Y
1 r 0 2
Cuanto más cerca a uno, las variables tendrán mayor correlación.
Coeficiente de determinación (r2)
• Una empresa dedicada a la producción de cierto artículo perecible ZZ desea evaluar la relación existente entre la distancia recorrida para transportar su producto a los diferentes puntos de comercialización y las mermas producidas por dicho transporte. Con este fin, se lleva a cabo un estudio en el que se observan, entre otras variables:
Y= porcentaje de carga útil final (luego del transporte)
X= Distancia recorrida (decenas de kilómetros)• Y se encuentra en una muestra aleatoria de 12 viajes o
recorridos los siguientes resultados:
• Con la finalidad de establecer medidas preventivas, ¿Cuál será el porcentaje de carga útil para un futuro transporte de 250 km.?
Análisis de regresión simple
Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95
Distancia Recorrida (x)
33 12 18 3 4 8 66 5 37 29 15 10
“Estadística”Prof. Juan Narro Lavi
Diplomatura de Estudio en
Gestión de Operaciones
top related