temas 4, 5 y 6: parámetros o medidas estadísticas...
Post on 27-Sep-2018
218 Views
Preview:
TRANSCRIPT
Temas 4, 5 y 6: Parametros o MedidasEstadısticas. Complementos
Jose Antonio Mayor Gallego
Departamento de Estadıstica e Investigacion Operativa
Universidad de Sevilla. Facultad de Matematicas
Curso Academico 2006-2006Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 1/113
Contenidos1 TEMA 4. Parametros centrales o de tendencia central.
Media aritmeticaMedia geometricaMedianaLos cuartilesLos percentilesLa moda
2 TEMA 5. Parametros de dispersionVarianza y desviacion tıpicaCoeficiente de variacion de PearsonEl recorrido intercuartılicoCoeficiente ∆x
3 TEMA 6. Medidas de forma. Otras medidasMedidas o parametros de forma
Coeficiente de asimetrıa de PearsonCoeficiente de asimetrıa de FisherCoeficiente de curtosis o aplastamiento
Medidas de concentracion. Curva de Lorenz. Indice de Gini4 Complementos: Deteccion de valores singulares. Diagramas de caja
IntroduccionDeteccion de valores singularesDiagrama de caja o “Box-Plot”
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 2/113
Parametros o Medidas Estadısticas
Las medidas estadısticas o par ametros estadısticoscomo ciertos valores “representativos” de una masa de datos,en el sentido de condensar en ellos la informacion contenidaen dichos datos, en relacion a sus valores mas caracterısticoso a la forma en la que se reparten.
Estas medidas estadısticas nos daran informacion sobre lasituacion, dispersion y otros patrones de comportamiento delos datos, de manera que sea posible captar rapidamente laestructura de los mismos y tambien la comparacion entredistintos conjuntos de datos.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 3/113
Clases de parametros estadısticos
a) Parametros centrales o de tendencia central . Estandestinados a definir valores centrales o caracterısticos dela serie de datos. Por ejemplo, la serie de datos ordenada,
1, 3, 3, 3, 4, 5, 5, 5, 7
se reparte alrededor del valor central 4.
b) Parametros de dispersi on . Sirven para caracterizar laforma en que se reparten los datos, unos con respecto alos otros, o todos con respecto a un valor central . Porejemplo, dadas las dos series siguientes,
6, 6, 7, 7, 8, 9, 9, 10, 10 1, 2, 4, 6, 8, 10, 12, 14, 15
Ambas se reparten en torno al valor central 8, sin embargola primera esta menos dispersa alrededor de dicho valorque la segunda.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 4/113
Clases de parametros estadısticos
a) Parametros centrales o de tendencia central . Estandestinados a definir valores centrales o caracterısticos dela serie de datos. Por ejemplo, la serie de datos ordenada,
1, 3, 3, 3, 4, 5, 5, 5, 7
se reparte alrededor del valor central 4.
b) Parametros de dispersi on . Sirven para caracterizar laforma en que se reparten los datos, unos con respecto alos otros, o todos con respecto a un valor central . Porejemplo, dadas las dos series siguientes,
6, 6, 7, 7, 8, 9, 9, 10, 10 1, 2, 4, 6, 8, 10, 12, 14, 15
Ambas se reparten en torno al valor central 8, sin embargola primera esta menos dispersa alrededor de dicho valorque la segunda.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 4/113
Clases de parametros estadısticos
c) Parametros de forma . Recogen la existencia de ciertospatrones de tipo geometrico en la distribucion defrecuencias, como son el grado de simetrıa o el mayor omenor aplanamiento.
d) Otros par ametros . Parametros de diversidad yconcentracion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 5/113
Clases de parametros estadısticos
c) Parametros de forma . Recogen la existencia de ciertospatrones de tipo geometrico en la distribucion defrecuencias, como son el grado de simetrıa o el mayor omenor aplanamiento.
d) Otros par ametros . Parametros de diversidad yconcentracion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 5/113
Terminologıa empleada
Distribucion Tipo I. Los datos brutos X1, X2, · · · , Xn
0 0 0 1 1 6 5 1 0 0 50 0 0 0 0 1 1 1 1 1 15 4 4 4 3 3 4 4 0 0 03 0 1 2 2 2 2 2 2 2 32 2 2 2 2 3 2 3 3 2 12 2 2 2 2 3 3 2 3 2 30 0 0 0 1 1 1 2 1 1 10 0 2 2 2 2 3 2 1 1 22 2 2 2 2 3 2 2 2 2 21 1 1 1 2 2 2 2 2 2 13 3 3 3 3 3 3 3 3 3 32 2 2 2 2 2 2 2 2 2 21 1 1 1 1 1 1 1 1 1 12 2 2 2 2 2 2
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 6/113
Terminologıa empleada
Distribucion Tipo II. Pocas modalidades. Sin intervalos.
xi ni fi Ni Fi
0 20 0′13333 20 0′133331 35 0′23333 55 0′366672 62 0′41333 117 0′780003 24 0′16000 141 0′940004 5 0′03333 146 0′973335 3 0′02000 149 0′993336 1 0′00667 150 1′00000
150 1
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 7/113
Terminologıa empleada
Distribucion Tipo III. Datos agrupados en intervalos.
(ei−1, ei ] xi ni Ni fi Fi
(46′5, 55′5] 51 11 11 0′06286 0′06286(55′5, 64′5] 60 16 27 0′09143 0′15429(64′5, 73′5] 69 39 66 0′22286 0′37714(73′5, 82′5] 78 63 129 0′36000 0′73714(82′5, 91′5] 87 35 164 0′20000 0′93714(91′5, 100′5] 96 11 175 0′06286 1′00000
175 1
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 8/113
Media aritmetica. Parametro muy popular.
Se define como la suma de todas las observaciones divididapor el numero total de las mismas. Simbolicamente, si tenemosn observaciones,
X1, X2, . . . , Xn
se suele denotar la media aritmetica como X y se define como,
X =1n
n∑i=1
Xi
Por ejemplo, los datos 1, 2, 4, 5, 7, 8, 9, 10, 11, 13, tienen comomedia aritmetica,
X =1 + 2 + 4 + 5 + 7 + 8 + 9 + 10 + 11 + 13
10=
7010
= 7
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 9/113
1 La media aritmetica solo es aplicable a valores numericos.2 Es un parametro unico. Un conjunto de datos numericos
solo tiene una media aritmetica.3 La media aritmetica generalmente no es un valor
observado. Por ejemplo,
1 + 4 + 63
= 3′666..
4 La media aritmetica no depende del orden en el que estenlos datos
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 10/113
Sensibilidad de la media aritmetica
La media aritmetica es un parametro sensible a lapresencia de valores muy separados de la masa principal dedatos. Por ejemplo, la serie de valores,
1, 1, 2, 2, 2, 4, 4, 4, 70
posee un valor fuertemente diferente del resto, el 70. La mediaaritmetica calculada con los 8 primeros valores es 2’5, lo queconstituye un valor central razonable. Por el contrario, si seconsidera tambien el ultimo valor, la media aritmetica resultaser 10, que es un valor muy poco significativo.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 11/113
Propiedades de linealidad
aX = aX , siendo a un numero real cualquiera. Porejemplo, la media de 1, 2 y 3 es 2, y la media de 3, 6 y 9es 3× 2 = 6.
X + Y = X + Y . Por ejemplo, la media de 1, 2 y 3 es 2, yla media de 3, 4 y 5 es 4. Entonces la media de 1+3, 2+4 y3+5 es 2+4=6.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 12/113
Propiedades de linealidad
aX = aX , siendo a un numero real cualquiera. Porejemplo, la media de 1, 2 y 3 es 2, y la media de 3, 6 y 9es 3× 2 = 6.
X + Y = X + Y . Por ejemplo, la media de 1, 2 y 3 es 2, yla media de 3, 4 y 5 es 4. Entonces la media de 1+3, 2+4 y3+5 es 2+4=6.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 12/113
Media aritmetica. Distribucion Tipo I.
X =1n
n∑i=1
Xi
Media aritm etica de hijos. 150 familias.
X =1
150(0 + 0 + 0 + 1 + 1 + · · ·+ 2 + 2 + 2) = 1′813..
Media aritm etica de puntuaciones. 175 alumnos.
X =1
175(76 + 66 + · · ·+ 79) = 75′5
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 13/113
Media aritmetica. Distribucion Tipo II.
X =1n
k∑i=1
nixi
xi son las modalidades
Hijos de 150 familias
X =1
150(0× 20 + 1× 35 + 2× 62 + 3× 24
+4× 5 + 5× 3 + 6× 1) = 1′813...
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 14/113
Media aritmetica. Distribucion Tipo III.
X =1n
k∑i=1
nixi
xi son las marcas de clase
Puntuaciones de 175 estudiantes
X =1
175(51× 11 + 60× 16 + 69× 39 + 78× 63
+87× 35 + 96× 11) = 75′6
Observacion
Este valor no es exactamente la media aritmetica de los datosoriginales o brutos pues la agrupacion en intervalo, comosabemos, produce perdida de informacion, sin embargo es unvalor bastante aproximado.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 15/113
Media geometrica.
Dados los n valores, X1, X2,...,Xn, de una variable X , quesupondremos que solo asume valores mayores que cero, sumedia geom etrica es la raız n-esima del producto de dichosvalores.Ejemplo, dados los valores 3, 6, 11, su media geometrica es,
X G =3√
3× 6× 11 =3√
198 = 5′8285
Y la media geometrica de 1 y 9 es,
X G =2√
1× 9 = 3
Las formulas para distribuciones Tipo I, Tipo II y Tipo III, son,
X G = n
√√√√ n∏i=1
Xi = n
√√√√ k∏i=1
xnii
NOTA: Se verifica X G ≤ X , es decir, la media geometrica essiempre menor o igual que la media artimetica.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 16/113
Media geometrica. Aplicacion economica
Pequena clase de Economıa
Si un artıculo sube de precio de un ano a otro, por ejemplopasa de costar 100 euros a 120, llamamos ındice de subida alnumero que multiplicado por 100 nos da 120.
En este caso, dicho ındice serıa 1′2 ya que,
100× 1′2 = 120
NOTESE que la subida ha sido del 20 %.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 17/113
Media geometrica. Aplicacion economica
Supongamos que un producto tiene un valor inicial de 10euros, y durante tres anos consecutivos sube de precio segunlos ındices 1′05, 1′03 y 1′06 respectivamente. Queremoscalcular el ındice medio de incremento anual .
El que el primer ano el ındice sea 1′05 quiere decir que alfinal del ano, el precio pasa de 10 a 10× 1′05 = 10′5 euros, esdecir, sube medio euro .
El segundo ano el precio pasa a ser10′5× 1′03 = 10× 1′05× 1′03. Finalmente, al cabo del tercerano, el precio sera
Precio final = 10× 1′05× 1′03× 1′06
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 18/113
Media geometrica. Aplicacion economica
Ahora queremos calcular un ındice anual medio queaplicado de lugar a la subida anterior. Vamos a llamarle I a eseındice que buscamos. El precio al final serıa,
Precio final = 10× I × I × I = 10× I3
Y como el precio final es el mismo, tendremos,
10× I3 = 10× 1′05× 1′03× 1′06
o sea,I3 = 1′05× 1′03× 1′06
y por consiguiente,
I =3√
1′05× 1′03× 1′06
es decir, la media geom etrica de los tres ındices . El calculode esta cantidad se deja al alumno como pequeno ejercicio.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 19/113
Mediana
Si tenemos una distribucion de Tipo I con n observacionesnumericas,
X1, X2, . . . , Xn
la mediana es, basicamente, en la serie de valores ordenadosde menor a mayor, el valor central, el que esta en el medio.
Cuando n es impar, hay siempre un valor central, y no hayproblema. Pero si n es par hay dos valores centrales¿Que hacer en tal caso?
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 20/113
Mediana. Regla practica para distribuciones Tipo I.
1 En primer lugar se ordenan los valores de menor amayor .
2 A continuacion se aplica la siguiente regla,• si n es impar. La mediana es el valor central de las
observaciones ordenadas.• si n es par. La mediana es la suma de los dos valores
centrales, dividida por 2.
Para representar la mediana usaremos la notacion Me.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 21/113
Mediana
Ejemplo
Dados los siete datos 7, 3, 1, 9, 17, 15, 8, primero se ordenan,
1, 3, 7, 8, 9, 15, 17
y por consiguiente tienen como mediana el valor Me = 8.
Y los seis datos, 15, 7, 3, 1, 9, 8, primero se ordenan,
1, 3, 7, 8, 9, 15
por lo que tienen como mediana el valor Me = (7 + 8)/2 = 7′5.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 22/113
Mediana. Distribuciones Tipo II.
Ejemplo. Hijos de 150 familias.
xi ni Ni
0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150
Dividiendo el numero total de observaciones por 2, obtenemos150/2 = 75, y entonces, en la tabla, buscamos la primeraobservacion cuya frecuencia acumulada supere dicho valor. Eneste caso, dicha observacion es 2, que es la mediana. Es decir,Me = 2.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 23/113
Mediana. Distribuciones Tipo II. Caso especial.
En algunos casos puede ocurrir que una frecuencia acumuladacoincida exactamente con el numero de observaciones divididopor dos. Por ejemplo, en la siguiente tabla,
xi ni Ni
1 10 103 20 304 14 447 26 708 10 809 8 88
la mitad del numero de observaciones es 88/2 = 44 quecoincide con la frecuencia acumulada de la modalidad x3 = 4.Para hallar la mediana en esta situacion, se tomara dicho valory el siguiente y se calculara la media aritmetica de los dosvalores. La mediana sera pues Me = (4 + 7)/2 = 5′5.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 24/113
Mediana. Distribuciones Tipo III.
Ejemplo. Puntuaciones de 175 alumnos.
(ei−1, ei ] xi ni Ni
(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175
Se buscara el primer intervalo cuya frecuencia acumuladasupere la mitad de las observaciones, es decir, 175/2 = 87′5.En este caso, dicho intervalo es (73′5, 82′5]. Este intervalo sedenomina intervalo mediano y su marca de clase, 78.
Entonces −→
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 25/113
Mediana. Distribuciones Tipo III.
Formula de calculo
La mediana se calcula empleando la formula siguiente,
Me = ei−1 +n/2− Ni−1
ni× ai
ei−1 es el extremo inferior del intervalo mediano.
ai es la amplitud del intervalo mediano, o sea,ai = ei − ei−1.
Ni−1 es la frecuencia acumulada del intervalo anterior oprevio al mediano.
ni es el numero de observaciones en el intervalo mediano.
En nuestro caso, tendremos,
Me = 73′5 +175/2− 66
63× 9 = 76′57..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 26/113
Mediana
IMPORTANTE: Robustez de la mediana
Observemos que la mediana es el valor que divide una seriede observaciones ordenadas, en dos partes iguales. Pordepender de los valores a traves de su orden, la mediana espoco sensible a la existencia de valores muy separados de lamasa principal de datos, por ellos, si nuestros datos contienenvalores de este tipo, sera preferible usar la mediana en vez dela media aritmetica como parametro central.Por ejemplo, dada la serie de valores 1, 1, 2, 2, 2, 4, 4, 4, 70, yaconsiderada cuando se estudio la media aritmetica, la medianaes 2 y este valor es mas indicativo que la media aritmetica, 10,pues al contrario que esta, no se ve influenciado por el valor70. En este sentido, se dice que la mediana es un parametroresistente o robusto , y que la media aritmetica no lo es.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 27/113
Cuartiles
Observacion
Estos parametros son parientes cercanos de la mediana, yrealmente no todos son parametros de tendencia central. Noobstante los explicamos aquı debido a su estrecha relacion conla mediana.
Los cuartiles dividen la serie de datos en cuartos
Ya hemos visto que la mediana, en la serie ordenada de datos,divide la masa de datos en dos partes iguales, es decir, deja aderecha e izquierda el 50 % de los mismos. Podemosconsiderar tambien valores que dividen el conjunto de los datosen cuatro partes iguales, es decir, dejan a su izquierda el 25 %,el 50 % y el 75 % de las observaciones. Dichos valores sedenominan cuartiles y se denotan como Q1, Q2 y Q3,respectivamente. Es claro que Q2 = Me por definicion. Veamoscomo se calcula Q1.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 28/113
Cuartiles
Observacion
Estos parametros son parientes cercanos de la mediana, yrealmente no todos son parametros de tendencia central. Noobstante los explicamos aquı debido a su estrecha relacion conla mediana.
Los cuartiles dividen la serie de datos en cuartos
Ya hemos visto que la mediana, en la serie ordenada de datos,divide la masa de datos en dos partes iguales, es decir, deja aderecha e izquierda el 50 % de los mismos. Podemosconsiderar tambien valores que dividen el conjunto de los datosen cuatro partes iguales, es decir, dejan a su izquierda el 25 %,el 50 % y el 75 % de las observaciones. Dichos valores sedenominan cuartiles y se denotan como Q1, Q2 y Q3,respectivamente. Es claro que Q2 = Me por definicion. Veamoscomo se calcula Q1.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 28/113
Cuartiles. Distribucion Tipo I.
Calculo de Q1
Si tenemos una distribucion de Tipo I con n observacionesnumericas, X1, X2, . . . , Xn, para hallar el primer cuartil, seordenan los valores de menor a mayor y a continuacion sebusca en dicha serie ordenada el primer valor cuyo numero deorden supere n/4
Ası, los siete datos 7, 3, 1, 9, 17, 15, 8, primero se ordenan,
1, 3, 7, 8, 9, 15, 17
y al ser n/4 = 7/4 = 1′75, Q1 sera la observacion que en laserie ordenada ocupa el lugar 2, es decir, Q1 = 3.
Calculo de Q3
Para hallar Q3, el procedimiento es analogo peroconsiderando 3n/4 en vez de n/4.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 29/113
Cuartiles. Distribucion Tipo I.
Calculo de Q1
Si tenemos una distribucion de Tipo I con n observacionesnumericas, X1, X2, . . . , Xn, para hallar el primer cuartil, seordenan los valores de menor a mayor y a continuacion sebusca en dicha serie ordenada el primer valor cuyo numero deorden supere n/4
Ası, los siete datos 7, 3, 1, 9, 17, 15, 8, primero se ordenan,
1, 3, 7, 8, 9, 15, 17
y al ser n/4 = 7/4 = 1′75, Q1 sera la observacion que en laserie ordenada ocupa el lugar 2, es decir, Q1 = 3.
Calculo de Q3
Para hallar Q3, el procedimiento es analogo peroconsiderando 3n/4 en vez de n/4.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 29/113
Cuartiles. Distribucion Tipo I.
Calculo de Q1. Caso especial.
Puede ocurrir que el orden de la observacion coincidaexactamente con n/4 (sucede cuando n es multiplo de 4), ental caso, el primer cuartil se obtiene tomando dichaobservacion y la siguiente, y calculando su media aritmetica.Por ejemplo si tenemos los doce datos,
1, 3, 7, 8, 9, 9, 10, 12, 13, 13, 14, 15
n/4 = 3, luego el primer cuartil es la media aritmetica entre eltercer y cuarto valor de la serie de observaciones,
Q1 = (7 + 8)/2 = 7′5
IMPORTANTE: La misma consideracion se hace para elcalculo del tercer cuartil, Q3.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 30/113
Cuartiles. Distribuciones Tipo II.
Ejemplo. Hijos de 150 familias.
xi ni Ni
0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150
Se divide el numero de observaciones, n, por 4,n/4 = 150/4 = 37′5, y en la tabla, se busca la primeramodalidad cuya frecuencia acumulada supere dicho valor. Eneste caso es 1, que es el primer cuartil Q1. Para calcular eltercer cuartil, Q3, buscaremos la primera modalidad cuyafrecuencia acumulada supere 3n/4 = 450/4 = 112′5, dichamodalidad es Q3 = 2.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 31/113
Cuartiles. Distribuciones Tipo II. Caso especial.
En algunos casos puede ocurrir que una frecuenciaacumulada coincida exactamente con el numero deobservaciones dividido por cuatro. Por ejemplo,
xi ni Ni
1 10 103 12 224 18 407 30 708 10 809 8 88
Ahora la cuarta parte del numero de observaciones es 22que coincide con la frecuencia acumulada de 3. Para hallar Q1
se tomara dicho valor y el siguiente y se calculara la mediaaritmetica de ambos. En este caso sera Q1 = (3 + 4)/2 = 3′5.Una situacion similar se puede presentar en el calculo de Q3
siendo analogo el procedimiento a seguir.Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 32/113
Cuartiles. Distribuciones Tipo III.
Ejemplo. Puntuaciones de 175 alumnos.
(ei−1, ei ] xi ni Ni
(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175
Para hallar Q1 se buscara el primer intervalo cuya frecuenciaacumulada supere la cuarta parte de las observaciones, esdecir, 175/4 = 43′75. En este caso, dicho intervalo es(64′5, 73′5]. Entonces −→
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 33/113
Cuartiles. Distribuciones Tipo III.
Q1. Formula de calculo
El primer cuartil se calcula empleando la formula siguiente,
Q1 = ei−1 +n/4− Ni−1
ni× ai
ei−1 es el extremo inferior del intervalo hallado.
ai es la amplitud de dicho intervalo, es decir, ai = ei − ei−1
Ni−1 es la frecuencia acumulada del intervalo previo oprecedente al considerado.
ni es el numero de observaciones en el intervaloconsiderado.
En nuestro caso, tendremos,
Q1 = 64′5 +175/4− 27
39× 9 = 68′365..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 34/113
Cuartiles. Distribuciones Tipo III.
Q3. Formula de calculo
Para hallar Q3, se buscara el primer intervalo cuyafrecuencia acumulada supere las tres cuartas partes de lasobservaciones , esto es, (3× 175)/4 = 131′25. En este caso,dicho intervalo es (82′5, 91′5]. Q3 se calculara aplicando lasiguiente formula,
Q3 = ei−1 +3n/4− Ni−1
ni× ai
ei−1 es el extremo inferior del intervalo hallado.
ai es la amplitud de dicho intervalo, es decir, ai = ei − ei−1
Ni−1 es la frecuencia acumulada del intervalo previo oprecedente al considerado.
ni es el numero de observaciones en el intervaloconsiderado.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 35/113
Cuartiles. Distribuciones Tipo III.
Q3. Formula de calculo
En nuestro caso, aplicanfo la formula anteriorontendremos,
Q3 = 82′5 +525/4− 129
35× 9 = 83′078..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 36/113
Cuartiles. Observaciones
IMPORTANTE: Robustez de los cuartiles
Al igual que la mediana, los cuartiles tienen la propiedadde ser resistentes o robustos frente a la existencia deobservaciones muy separadas de la masa principal de datos.
IMPORTANTE: Parametros de posicion
Es necesario notar, como hicimos al principio de esteapartado, que los cuartiles, salvo Q2 que coincide con lamediana, no son realmente parametros de tendencia central.Los denominaremos parametros de posici on ya quedeterminan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud con la mediana los hemos explicado aquı.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 37/113
Cuartiles. Observaciones
IMPORTANTE: Robustez de los cuartiles
Al igual que la mediana, los cuartiles tienen la propiedadde ser resistentes o robustos frente a la existencia deobservaciones muy separadas de la masa principal de datos.
IMPORTANTE: Parametros de posicion
Es necesario notar, como hicimos al principio de esteapartado, que los cuartiles, salvo Q2 que coincide con lamediana, no son realmente parametros de tendencia central.Los denominaremos parametros de posici on ya quedeterminan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud con la mediana los hemos explicado aquı.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 37/113
Percentiles
Delimitan por su izquierda el 1 %, el 2 %, el 3 %, etc, yası hasta el 100 % de las observaciones. Hay pues 100percentiles que denotamos como Pc1, Pc2, Pc3,..., Pc100.
Realmente ya conocemos algunos percentiles, porejemplo, Pc25 = Q1, Pc50 = Me = Q2 y Pc75 = Q3.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 38/113
Percentiles. Distribucion de Tipo I.
Dadas n observaciones numericas,
X1, X2, . . . , Xn
para hallar el percentil k -esimo, es decir, Pck , se ordenan losvalores de menor a mayor y a continuacion se busca en dichaserie ordenada el primer valor cuyo numero de orden superek × n/100.
Calculemos por ejemplo Pc40 para los siete datos 7, 3, 1,9, 17, 15, 8. Primeramente se ordenan,
1, 3, 7, 8, 9, 15, 17
y al ser 40× 7/100 = 2′8, Pc40 sera la observacion que en laserie ordenada ocupa el lugar 3, o sea, la tercera observacion,es decir, Pc40 = 7.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 39/113
Percentiles. Distribuciones de Tipo II.
xi ni Ni
0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150
Hallemos por ejemplo el percentil 60. Primero calculamosk × n/100 = 60× 150/100 = 90. Y ahora buscamos lamodalidad cuya frecuencia acumulada supere esta cantidad.La frecuencia acumulada correspondiente es 117, y porconsiguiente el percentil buscado es Pc60 = 2.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 40/113
Percentiles. Distribuciones de Tipo III.
(ei−1, ei ] xi ni Ni
(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175
Hallemos por ejemplo el percentil Pc70.Primeramente se buscara el primer intervalo cuya frecuenciaacumulada supere k × n/100 = 70× 175/100 = 122′5. Eneste caso, dicho intervalo es (73′5, 82′5] pues su frecuenciaacumulada es 129 que es la primera de la lista que supera122’5.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 41/113
Percentiles. Distribuciones de Tipo III.
(ei−1, ei ] xi ni Ni
(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175
Hallemos por ejemplo el percentil Pc70.Primeramente se buscara el primer intervalo cuya frecuenciaacumulada supere k × n/100 = 70× 175/100 = 122′5. Eneste caso, dicho intervalo es (73′5, 82′5] pues su frecuenciaacumulada es 129 que es la primera de la lista que supera122’5.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 41/113
Percentiles. Distribuciones de Tipo III.
Seguidamente Pc70 se calculara aplicando la siguiente formula,
Pck = ei−1 +k × n/100− Ni−1
niai
donde k es el numero del percentil, en este caso 70, y,
ei−1 es el extremo inferior del intervalo hallado.
ai es la amplitud de dicho intervalo, es decir, ai = ei − ei−1
Ni−1 es la frecuencia acumulada del intervalo previo oprecedente al considerado.
ni es el numero de observaciones en el intervaloconsiderado.
En nuestro caso, tendremos,
Pc70 = 73′5 +70× 175/100− 66
63× 9 = 81′571..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 42/113
Percentiles
OBSERVACION
Al igual que la mediana y los cuartiles, los percentilestambien tienen la propiedad de ser resistentes o robustosfrente a la existencia de observaciones muy separadas de lamasa principal de datos.
OBSERVACION
Como en el apartado anterior, es necesario notar que lospercentiles no son en general parametros de tendencia central.Como antes, podrıan denominarse parametros de posici on yaque determinan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud, se explican en esta seccion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 43/113
Percentiles
OBSERVACION
Al igual que la mediana y los cuartiles, los percentilestambien tienen la propiedad de ser resistentes o robustosfrente a la existencia de observaciones muy separadas de lamasa principal de datos.
OBSERVACION
Como en el apartado anterior, es necesario notar que lospercentiles no son en general parametros de tendencia central.Como antes, podrıan denominarse parametros de posici on yaque determinan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud, se explican en esta seccion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 43/113
Percentiles
OBSERVACION: Los percentiles informan sobre la posicion
Los percentiles son cantidades que proporcionaninformacion relevante sobre la situacion de una unidadestadıstica en relacion al conjunto de todas.
Por ejemplo, si en un estudio de las estaturas de un conjuntode personas se verifica que Pc95 = 176 cm., esto significa queuna persona de 176 cm. o mas pertenece al 5 % de individuosmas altos.
Y si en un estudio de los salarios de los trabajadores de unagran empresa, fuera Pc10 = 1200 EUROS, un trabajador quegane 970 EUROS pertenece al grupo formado por el 10 % quemenos gana.
Y si al corregir las notas de un examen un profesor observaque un alumno tiene una calificacion superior al percentil 98,ello no significa que el alumno haya obtenido una grancalificacion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 44/113
Percentiles
OBSERVACION: Los percentiles informan sobre la posicion
Los percentiles son cantidades que proporcionaninformacion relevante sobre la situacion de una unidadestadıstica en relacion al conjunto de todas.
Por ejemplo, si en un estudio de las estaturas de un conjuntode personas se verifica que Pc95 = 176 cm., esto significa queuna persona de 176 cm. o mas pertenece al 5 % de individuosmas altos.
Y si en un estudio de los salarios de los trabajadores de unagran empresa, fuera Pc10 = 1200 EUROS, un trabajador quegane 970 EUROS pertenece al grupo formado por el 10 % quemenos gana.
Y si al corregir las notas de un examen un profesor observaque un alumno tiene una calificacion superior al percentil 98,ello no significa que el alumno haya obtenido una grancalificacion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 44/113
Percentiles
OBSERVACION: Los percentiles informan sobre la posicion
Los percentiles son cantidades que proporcionaninformacion relevante sobre la situacion de una unidadestadıstica en relacion al conjunto de todas.
Por ejemplo, si en un estudio de las estaturas de un conjuntode personas se verifica que Pc95 = 176 cm., esto significa queuna persona de 176 cm. o mas pertenece al 5 % de individuosmas altos.
Y si en un estudio de los salarios de los trabajadores de unagran empresa, fuera Pc10 = 1200 EUROS, un trabajador quegane 970 EUROS pertenece al grupo formado por el 10 % quemenos gana.
Y si al corregir las notas de un examen un profesor observaque un alumno tiene una calificacion superior al percentil 98,ello no significa que el alumno haya obtenido una grancalificacion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 44/113
Moda
La moda es la observacion mas frecuente, esto es, la masobservada. Al contrario de las medidas estudiadas hastaahora, puede ser hallada tanto para datos cualitativos comocuantitativos. Se denota por Mo.
Por ejemplo, consideremos las observaciones cuantitativas,
3, 4, 3, 5, 6, 7, 6, 5, 4, 3, 4, 5, 6, 2, 6, 7, 8, 4, 5, 4, 6, 4, 7
la moda sera Mo = 4 por ser el valor mas observado.Puede ocurrir que halla dos valores que sean los mas
observados, en tal caso ambos son moda, es decir, hay dosmodas. Por ejemplo,
1, 2, 3, 4, 3, 4, 3, 4, 3, 4, 5, 6, 7, 3, 4, 10
tiene dos modas, Mo1 = 3 y Mo2 = 4. En este caso se diceque la serie de observaciones es bimodal. Analogamentepuede haber tres modas, cuatro, etc.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 45/113
Moda
Si las observaciones son cualitativas, el calculo de la modase hace igualmente hallando la que mas se repite. Por ejemplo,si observamos el estado civil de 15 personas y obtenemos losvalores,
C, S, C, C, C, D, C, S, C, C, C, C, D, S, S
siendo S :sin pareja, C :casado o con pareja, D :divorciado.La moda sera Mo = C, que es el valor mas frecuente.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 46/113
Moda. Distribucion Tipo II.
xi ni Ni
0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150
En este caso, la moda sera Mo = 2 pues es la modalidad quepresenta mayor frecuencia absoluta. Recuerdese que podrıadarse el caso de que hubiera mas de una moda.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 47/113
Moda. Distribucion Tipo III.
(ei−1, ei ] xi ni Ni
(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175
Buscaremos el intervalo que tenga asociado el rectangulo demayor altura en el histograma. Recordemos [vease Tema 3.]que las alturas se calculan mediante la formula hi = ni/ai . Esteintervalo se denomina intervalo modal
Notemos que si todos los intervalos tienen la misma amplitudo anchura, dicho intervalo de mayor altura asociadasera tambien el de mayor frecuencia, siendo esta situaci on lade nuestro ejemplo .
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 48/113
Moda. Distribucion Tipo III.
En nuestro ejemplo, el intervalo modal sera (73′5, 82′5].Para calcular entonces la moda emplearemos la siguienteformula,
Mo = ei−1 +δ1
δ1 + δ2ai
siendo,
ei−1 es el extremo inferior de la clase o intervalo modal.
δ1 = hi − hi−1
δ2 = hi − hi+1
hi es la altura del intervalo modal, hi−1 la altura delintervalo previo y hi+1 la altura del intervalo posterior.
ai es la amplitud o anchura del intervalo modal.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 49/113
Moda. Distribucion Tipo III.
Para nuestros datos, los calculos son,
ei−1 = 73′5
δ1 = 63/9− 39/9 = 24/9
δ2 = 63/9− 35/9 = 28/9
ai = 9
Y por consiguiente,
Mo = ei−1 +δ1
δ1 + δ2ai = 73′5 +
24/924/9 + 28/9
× 9 = 77′65..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 50/113
PARAMETROS DE DISPERSION
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 51/113
Varianza
La varianza es una medida de dispersion que se basa en ladesviacion de las observaciones con respecto a su mediaaritmetica, y se denota por σ2
x (a veces se emplea la notacionmas simple σ2 por sobreentenderse que hace mencion a lavariable X ). SVeamos la formula. Si tenemos las observaciones numericas,
X1, X2, . . . , Xn
la varianza vendra dada por,
σ2x =
1n
n∑i=1
(Xi − X )2
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 52/113
Varianza
Ejemplo
Consideremos las dos series de observaciones 6, 6, 7, 7, 8, 9,9, 10, 10 y 1, 2, 4, 6, 8, 10, 12, 14, 15, que provienen deobservar una misma variable sobre dos poblaciones.Ambas tienen como media aritmetica el valor 8. Sus varianzasson, para la primera serie,
σ2x =
19((6− 8)2 + (6− 8)2 + (7− 8)2 + (7− 8)2 + (8− 8)2+
+(9− 8)2 + (9− 8)2 + (10− 8)2 + (10− 8)2) = 2′22..
y para la segunda,
σ2x =
19((1− 8)2 + (2− 8)2 + (4− 8)2 + (6− 8)2 + (8− 8)2+
+(10− 8)2 + (12− 8)2 + (14− 8)2 + (15− 8)2) = 23′33..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 53/113
Varianza
Es obvio que la segunda serie tiene una varianza muy superiora la primera.
Observemos que para la primera serie, a pesar de que lamedia es la misma, es decir, 8, las cantidades estan mascercanas entre si.
En este caso, como las series tienen similar media y provienende la misma variable, podemos pues decir que la segundaserie esta mas dispersa que la primera.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 54/113
Desviacion tıpica
Desviacion tıpica
Es la raız cuadrada de la varianza. Se denota por σx . Es decir,
σx = +
√σ2
x = +
√√√√1n
n∑i=1
(Xi − X )2
Ası, para las anteriores series de observaciones,
6, 6, 7, 7, 8, 9, 9, 10, 10 y 1, 2, 4, 6, 8, 10, 12, 14, 15
las desviaciones tıpicas son, respectivamente,√
2′22.. = 1′489.. y√
23′33.. = 4′830..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 55/113
Formula practica para la varianza
Formula practica
σ2x =
1n
n∑i=1
X 2i − X
2
que simbolicamente se puede expresar como X 2 − X2.
Regla nemotecnica
σ2x = X 2 − X
2
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 56/113
Formula practica para la varianza
Ejemplo
Para los datos 1, 2, 4, 6, 8, 10, 12, 14, 15, la media aritmetica es
X =19(1 + 2 + 4 + 6 + 8 + 10 + 12 + 14 + 15) = 8
y la media de los cuadrados,
X 2 =1n
n∑i=1
X 2i =
19(1+4+16+36+64+100+144+196+225)
=786
9= 87′33..
siendo pues la varianza,
σ2x = X 2 − X
2= 87′33..− 82 = 23′33..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 57/113
Formula practica de la varianza
OBSERVACION
Con la formula practica, el calculo de la varianza se reducebasicamente al calculo de dos medias aritmeticas, la de lasobservaciones, y la de los cuadrados de las observaciones.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 58/113
Varianza. Distribucion Tipo II.
σ2x =
1n
k∑i=1
nix2i − X
2
siendo xi las distintas modalidades.
Varianza de hijos de 150 familias
xi ni x2i
0 20 02
1 35 12
2 62 22
3 24 32
4 5 42
5 3 52
6 1 62
NOTA: Se crea una columna con las modalidades al cuadrado.Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 59/113
Varianza. Distribucion Tipo II.
Varianza de hijos de 150 familias. Continuacion.
X =1
15020× 0 + 35× 1 + 62× 2 + 4× 3 + 5× 4 + 3× 5 + 1× 6)
= 1′813..
1n
k∑i=1
nix2i =
1150
(20× 02 + 35× 12 + 62× 22 + 24× 32 + 5× 42
+3× 52 + 1× 62) = 4′6
σ2x = 4′6− (1′813)2 = 1′313.. hijos2 y σx =
√1′313.. = 1′145.. hijos
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 60/113
Varianza. Distribucion Tipo III
Se aplica la misma formula que para distribuciones de Tipo II,es decir,
σ2x =
1n
k∑i=1
nix2i − X
2
siendo ahora xi las marcas de clase de los intervalos .
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 61/113
Varianza. Distribucion Tipo III.
Varianza de las puntuaciones de 175 estudiantes
(ei−1, ei ] xi ni x2i
(46′5, 55′5] 51 11 512
(55′5, 64′5] 60 16 602
(64′5, 73′5] 69 39 692
(73′5, 82′5] 78 63 782
(82′5, 91′5] 87 35 872
(91′5, 100′5] 96 11 962
X =1
175(11×51+16×60+39×69+63×78+35×87+11×96) = 75′6..
1n
k∑i=1
nix2i =
1175
(11×512+16×602+39×692+63×782+35×872+11×962)
= 5836′99..
σ2x = 5836′99..− (75′6..)2 = 124′63.. puntos2
σx =√
124′63.. = 11′16.. puntos
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 62/113
Observaciones finales sobre la varianza
OBSERVACION
Resaltemos que, al igual que ocurrıa con la media aritmetica,cuando los datos se agrupan en intervalos, no vamos a obtenerexactamente el mismo valor que si aplicaramos la formuladirectamente a los datos iniciales aunque sı un valoraproximado.
OBSERVACION
Es importante observar que, en forma analoga a como ocurrecon la media aritmetica, la varianza tiene el inconveniente deser sensible a la presencia de valores marcadamenteseparados de la masa principal de los datos, por ello serıaconveniente disponer de una medida de dispersion que no seviera muy afectada por tales valores. En un apartado siguienteveremos una con dicha propiedad.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 63/113
Observaciones finales sobre la varianza
OBSERVACION
Resaltemos que, al igual que ocurrıa con la media aritmetica,cuando los datos se agrupan en intervalos, no vamos a obtenerexactamente el mismo valor que si aplicaramos la formuladirectamente a los datos iniciales aunque sı un valoraproximado.
OBSERVACION
Es importante observar que, en forma analoga a como ocurrecon la media aritmetica, la varianza tiene el inconveniente deser sensible a la presencia de valores marcadamenteseparados de la masa principal de los datos, por ello serıaconveniente disponer de una medida de dispersion que no seviera muy afectada por tales valores. En un apartado siguienteveremos una con dicha propiedad.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 63/113
Coeficiente de variacion
Limitaciones de la varianza
La varianza esta afectada por la magnitud media de lascantidades ası como por las unidades en las que estenmedidas.
Ejemplo
Las estaturas, en centımetros, de cinco alumnos de Primero deEnsenanza Secundaria Obligatoria son 145, 139, 135, 143y 135. Y las de seis alumnos de Cuarto de EnsenanzaSecundaria Obligatoria son 163, 174, 175, 169, 171 y 178.La varianza de las estaturas de los alumnos de Primero esσ2
x = 16′64. Y la de los de Cuarto σ2x = 23′2222.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 64/113
Coeficiente de variacion
Ejemplo
La varianza de las estaturas de los alumnos de Primero esσ2
x = 16′64. Y la de los de Cuarto σ2x = 23′2222.
Aparentemente los de cuarto presentan mas dispersion, noobstante podemos plantearnos que el hecho de que los deCuarto sean globalmente mas altos hace que los valoresnumericos se separen mas entre sı a pesar de que,intrınsecamente las estaturas de los de Cuarto esten menosdispersas que las de los de Primero.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 65/113
Coeficiente de variacion
Coeficiente de variacion de Pearson
Para dilucidar esta cuestion los estadısticos han ideado elsiguiente coeficiente denominado coeficiente de variaci on dePearson,
Cvx =σx
|X |Al dividir la desviacion tıpica por la media aritmeticacompensamos el efecto o influencia de la magnitud global omedia.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 66/113
Coeficiente de variacion
Si en el ejemplo anterior calculamos este coeficiente en cada grupo,
Alumnos de Primero de E.S.O.
X =15
(145 + +139 + 135 + 143 + 135) = 139′4
σx =√
16′64 = 4′0792 Cvx =σx
|X |=
4′0792139′4
= 0′02926
Alumnos de Cuarto de E.S.O.
X =16
(163 + 174 + 175 + 169 + 171 + 178) = 171′6667
σx =√
23′2222 = 4′8189 Cvx =σx
|X |=
4′8189171′6667
= 0′02807
Por lo que las estaturas de los alumnos de Cuartos estan menosdispersas, en relacion a su magnitud media, que las de los dePrimero, a pesar de que estas ultimas presenten menos varianza.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 67/113
Coeficiente de variacion
Otro problema que se presenta a veces es la influencia de lasunidades.
Ejemplo
Un ingeniero mide las longitudes de tres piezas en centımetros,obteniendo 1, 1′5 y 1′2. Otro ingeniero emplea milımetros,siendo pues las longitudes 10, 15 y 12. La varianza de 1, 1′5y 1′2 es σ2
x = 0′04222, mientras que la varianza de 10, 15 y 12es σ2
x = 4′2222.Resulta obvio que comparar las dispersiones simplemente pormedio de las varianzas parece un poco ilogico pues lasmedidas son las mismas y lo que ha cambiado es la unidad demedicion. En esta situacion no podemos pues emplear lavarianza para comparar la dispersion real.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 68/113
Coeficiente de variacion
Solucion: emplear el coeficiente de variacion
Datos en centımetros. 1, 1′2 y 1′5.
X =13
(1+1′2+1′5) = 1′2333 σx =√
0′04222 = 0′20548
Cvx =σx
|X |=
0′205481′2333
= 0′166606
Datos en milımetros. 10, 12 y 15.
X =13
(10+12+15) = 12′3333 σx =√
4′2222 = 2′0548
Cvx =σx
|X |=
2′054812′333
= 0′166606
Los coeficientes de variacion son iguales por lo que la dispersion reales la misma. Es decir, el coeficiente de variacion no esta influenciadopor la unidad de medida empleada.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 69/113
Coeficiente de variacion
Conclusiones
El coeficiente de variacion es una medida de dispersionadimensional y ademas compensada del efecto queproduce la mayor o menor magnitud global de lascantidades.
Se ha de emplear cuando se quiere comparar la dispersionde dos o mas conjuntos de observaciones medidas enunidades distintas y/o con valores promedio distintos.
El coeficiente de variacion no es un parametro robusto, porno serlo ni la media aritmetica ni la desviacion tıpica.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 70/113
Recorrido intercuartılico
Sabemos que el primer cuartil, Q1 deja a su izquierda el 25 %de las observaciones, y que el tercer cuartil Q3 deja a suizquierda el 75 %.Esto significa que entre Q1 y Q3 se encuentran el 50 % centralde las observaciones. El intervalo [Q1, Q3] se denominaintervalo intercuartılicoLa longitud del intervalo intercuartılico, puede ser consideradacomo una medida de dispersion que se denomina recorridointercuartılico y se denota IQR, es decir,
IQR = Q3 −Q1
Esta medida de dispersion es robusta por serlo tambien loscuartiles, es decir, esta poco influenciada por la presencia devalores muy extremos.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 71/113
Recorrido intercuartılico
Para los datos,
1, 3, 7, 8, 9, 9, 10, 12, 13, 13, 14, 15
se tiene que,Q1 = 7′5 Q3 = 13
luego,IQR = 13− 7′5 = 5′5
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 72/113
Recorrido intercuartılico
Si tenemos los datos siguientes,
xi ni Ni
1 10 103 14 244 16 407 30 708 10 809 8 88
entonces,
Q1 = 3 Q3 = 7 ⇒ IQR = Q3 −Q1 = 7− 3 = 4
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 73/113
Recorrido intercuartılico
Y para los datos,
(ei−1, ei ] xi ni Ni
(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175
se tendra,Q1 = 68′365.. Q3 = 83′078..
⇒ IQR = Q3 −Q1 = 83′078− 68′365 = 14′713..
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 74/113
Coeficiente ∆x
Cuando se trata de comparar las dispersiones de dosconjuntos de datos nos encontramos con el mismo problemaque para la varianza, es decir, la influencia tanto de la unidadde medicion como de la magnitud media de las cantidades. Poresta razon, de la misma forma que en aquel caso se definio encoeficiente de variacion de Pearson, ahora podemos definir uncoeficiente similar dividiendo IQR por el valor absoluto de lamediana. Obtenemos ası el siguiente parametro quedenominaremos coeficiente ∆x ,
∆x =IQR|Me|
=Q3 −Q1
|Me|
Como en el caso del coeficiente de variacion de Pearson, estenuevo coeficiente es adimensional y esta liberado de lainfluencia de la mayor o menor magnitud media de lasobservaciones.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 75/113
Coeficiente ∆x
Ejemplo
Las estaturas, en centımetros, de cinco alumnos de Primero deEnsenanza Secundaria Obligatoria, son 145, 139, 135, 143y 135. Y las de seis alumnos de Cuarto de EnsenanzaSecundaria Obligatoria son 163, 174, 175, 169, 171 y 178.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 76/113
Coeficiente ∆x
Calculemos el coeficiente ∆x para cada caso
Primero de E.S.O. 145, 139, 135, 143, 135. Ordenadas son 135,135, 139, 143, 145.
Q1 = 135 Q3 = 143 Me = 139 IQR = Q3 −Q1 = 8
∆x =IQR|Me|
=8
139= 0′057553957
Cuarto de E.S.O. 163, 174, 175, 169, 171, 178. Ordenadas son163, 169, 171, 174, 175, 178.
Q1 = 169 Q3 = 175 Me = 172′5 IQR = Q3 −Q1 = 6
∆x =IQR|Me|
=6
172′5= 0′034782609
Por consiguiente, las estaturas de los alumnos de Cuarto presentanmenos dispersion que las de los alumnos de Primero.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 77/113
Coeficiente ∆x
Conclusiones
El coeficiente ∆x es una medida de dispersionadimensional y ademas compensada del efecto queproduce la mayor o menor magnitud global de lascantidades.
Se ha de emplear cuando se quiere comparar la dispersionde dos o mas conjuntos de observaciones medidas enunidades distintas y/o con valores promedio distintos.
Tiene la ventaja sobre coeficiente de variacion de ser unparametro robusto, por lo que deberıa ser preferidocuando existan valores extremos anomalos.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 78/113
PARAMETROS O MEDIDAS DE FORMA.OTRAS MEDIDAS
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 79/113
Patrones de simetrıa de una distribucion de frecuencias
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 80/113
Coeficiente de asimetrıa de Pearson
As =X −Mo
σx
As = 0, distribucion simetrica.
As < 0, distribucion asimetrica o sesgada a la izquierda.
As > 0, distribucion asimetrica o sesgada a la derecha.
Aunque a veces puede ser util, es un coeficiente poco preciso ysolo tiene utilidad cuando la distribucion es unimodal ycampaniforme.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 81/113
Coeficiente de asimetrıa de Fisher
• Distribucion Tipo I.
γ1 =1
n σ3x
n∑i=1
(Xi − X )3
• Distribuciones Tipo II y Tipo III.
γ1 =1
n σ3x
k∑i=1
ni(xi − X )3
γ1 = 0, distribucion simetrica.
γ1 < 0, distribucion asimetrica o sesgada a la izquierda.
γ1 > 0, distribucion asimetrica o sesgada a la derecha.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 82/113
Coeficiente de curtosis o aplastamiento
• Distribucion Tipo I.
γ2 =
(1
n σ4x
n∑i=1
(Xi − X )4
)− 3
• Distribuciones Tipo II y Tipo III.
γ2 =
(1
n σ4x
k∑i=1
ni(xi − X )4
)− 3
γ2 = 0, distribucion mesocurtica. Ni muy aplastada ni muyapuntada.
γ2 > 0, distribucion leptocurtica. Distribucion apuntada.
γ2 < 0, distribucion platicurtica. Distribucion aplastada.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 83/113
Patrones de aplastamiento de una distribucion de frecuencias
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 84/113
Concentracion
El concepto de concentraci on hace referencia al grado deuniformidad en el reparto del total de la variable sobre cadauno de los individuos o elementos.El estudio de la concentracion es de gran interes en el ambitoeconomico, cuando se trata de estudiar el grado de equidad enel reparto de la riqueza, los salarios, o bienes en general. Dehecho, este concepto se emplea frecuentemente en estudiossobre el reparto de bienes como riqueza o salario, enempresas, clases sociales, paıses o regiones geograficas engeneral.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 85/113
Concentracion
Ejemplo
Los cinco trabajadores de la empresa A ganan, mensualmente,
1400, 1500, 1390, 1600, 1550 Euros.
Los cuatro empleados de la empresa B ganan, mensualmente,
1300, 1400, 1350, 5000 Euros.
Los sueldos de la empresa A presentan menos concentracionque los de la empresa B pues el total esta mas uniformementerepartido en A que en B.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 86/113
Estudio de la concentracion. Distribuciones de Tipo II.
Lo veremos con el ejemplo del numero de hijos de 150 familias.Construimos la tabla usual, ampliandola con otras cantidadesque se ven a continuacion,
xi ni fi Fi si Si Pi % Ti %
0 20 0′13333 0′13333 0 0 13′333 0′0001 35 0′23333 0′36666 35 35 36′666 12′8682 62 0′41333 0′78000 124 159 78′000 58′4563 24 0′16000 0′94000 72 231 94′000 84′9264 5 0′03333 0′97333 20 251 97′333 92′2795 3 0′02000 0′99333 15 266 99′333 97′7946 1 0′00666 1′00000 6 272 100′000 100′000
150 272
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 87/113
Concentracion. Distribuciones de Tipo II.
Cantidades importantes
si . Es la suma de las observaciones en cada modalidad.En nuestro caso se obtiene multiplicando el valor de lamodalidad por la frecuencia absoluta, es decir, si = ni xi .Por ejemplo, s3 = 2× 62 = 124, o sea, las familias con 2hijos reunen en total 124 hijos.
Si . Es la cantidad anterior, acumulada, es decir,Si = s1 + s2 + · · ·+ si .
Pi . Representa el porcentaje de observaciones menores oiguales que xi , es decir, Pi = 100× Fi . Observemos quesiempre se verificara Pk = 100.
Ti . Es el porcentaje que representa Si con respecto a lasuma total Sk , es decir, Ti = 100× Si/Sk . Observemosque siempre se verificara Tk = 100.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 88/113
Concentracion. Distribuciones de Tipo II.
Observacion
La modalidad 1, es decir, CERO hijos, representa unporcentaje igual a P1 del numero total de elementos, familiasen este caso, pero su valor asociado de la variable, numero dehijos en este caso, representa un porcentaje igual a T1. Lasmodalidades primera y segunda representan un porcentajeigual a P2 del numero total de elementos, familias en este caso,pero su valor asociado de la variable, numero de hijos en estecaso, representa un porcentaje igual a T2, y ası sucesivamente.
Importante
Observando la evolucion conjunta de las columnas P y Tpodemos estudiar la concentracion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 89/113
Curva de Lorenz
Importante
Observando la evolucion conjunta de las columnas P y Tpodemos estudiar la concentracion.
Para ello, dibujamos un cuadrado de lado 100 y representamoslos puntos (0, 0), (T1, P1), (T2, P2),...,(Tk , Pk ) = (100, 100).Uniendolos por segmentos obtendremos una lınea que semantiene siempre por encima de la bisectriz, como puedeverse en la grafica adjunta, en la que hemos representadodicha poligonal y tambien la bisectriz.Esta poligonal se denomina curva de Lorenz o curva deconcentraci on . La mınima concentracion corresponde a unreparto uniforme del total, y la curva de Lorenz coincide con labisectriz. Por contra, si este reparto es menos equitativo, esdecir, el total tiende a concentrarse mas en uno o variosvalores, la curva tiende a alejarse de la bisectriz.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 90/113
Curva de Lorenz
��
��
��
��
��
��
��
��
���
(0, 0)
(100, 100)
δ
�������%
%%
%%#
##
##
#
T1
P1
T2
P2
""!!!!!
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 91/113
Queremos un parametro para cuantificar laconcentracion
A mayor concentracion, mayor superficie entre la curva deLorenz y la bisectriz. A menor concentracion, menor superficie.Entonces, para medir la concentracion podemos emplear dichasuperficie. Vamos a llamarle δ. Este valor esta comprendidoentre CERO que serıa su valor mınimo, y 5000 que serıa suvalor maximo.El estadıstico italiano Gini invento el ındice que lleva su nombredividiendo δ por su valor maximo,
IG =δ
5000
y de esta forma,0 ≤ IG ≤ 1
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 92/113
Indice de Gini
Interpretacion
Cuanto mas proximo este IG a UNO, hay masconcentracion.
Cuanto mas proximo este IG a CERO, hay menosconcentracion.
Formula para su calculo
IG =1
10000
k∑i=2
(Pi−1 × Ti − Pi × Ti−1)
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 93/113
Ejemplo: numero de hijos
xi ni fi Fi si Si Pi % Ti %
0 20 0′13333 0′13333 0 0 13′333 0′0001 35 0′23333 0′36666 35 35 36′666 12′8682 62 0′41333 0′78000 124 159 78′000 58′4563 24 0′16000 0′94000 72 231 94′000 84′9264 5 0′03333 0′97333 20 251 97′333 92′2795 3 0′02000 0′99333 15 266 99′333 97′7946 1 0′00666 1′00000 6 272 100′000 100′000
150 272
IG =1
10000((13′333× 12′868− 36′666× 0′000)
+(36′666× 58′456− 78′000× 12′868) + · · ·+99′333× 100, 00− 100′00× 97′794)) = 0′3355
Este resultado nos indica la presencia de cierto grado de concentracion,aunque no excesivo. Notese que para el calculo anterior se van multiplicandode forma cruzada las Pi por las Ti . estos productos se restan, y losresultados se suman.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 94/113
Concentracion. Distribuciones de Tipo III.
Para este tipo de distribucion, se procede de forma similar peroempleando las marcas de clase, xi . Veamos un ejemplo.Tenemos una variable ya agrupada en intervalos.
Intervalo xi ni Fi si Si Pi Ti
(0′5, 1′5] 1 5 5/50 = 0′10 5 5 10′00 3′16(1′5, 2′5] 2 14 19/50 = 0′38 28 33 38′00 20′88(2′5, 3′5] 3 15 34/50 = 0′68 45 78 68′00 49′36(3′5, 4′5] 4 7 41/50 = 0′82 28 106 82′00 67′08(4′5, 5′5] 5 4 45/50 = 0′90 20 126 90′00 79′74(5′5, 6′5] 6 3 48/50 = 0′96 18 144 96′00 91′14(6′5, 7′5] 7 2 50/50 = 1′00 14 158 100′00 100′00
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 95/113
Concentracion. Distribuciones de Tipo III.
Cantidades importantes
si . Es la suma de las observaciones en cada intervalo.Usualmente no se dispone de estas observaciones,empleandose entonces como aproximaci on la suma delas marcas de clase, es decir, si = ni xi .
Si . Es la cantidad anterior, acumulada, es decir,Si = s1 + s2 + · · ·+ si .
Pi . Representa el porcentaje de observaciones menores oiguales que Xi , es decir, Pi = 100× Fi . Observemos quesiempre se verificara Pk = 100.
Ti . Es el porcentaje que representa Si con respecto a lasuma total Sk , es decir, Ti = 100× Si/Sk . Observemosque siempre se verificara Tk = 100.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 96/113
Curva de Lorenz. Indice de Gini
Como en el caso de las distribuciones de Tipo II, ahora seprocede de la misma forma, representando los puntos (0, 0),(T1, P1), (T2, P2),...,(Tk , Pk ) = (100, 100), que daran lugar a lacurva de Lorenz o curva de concentraci on , y calculando elındice de Gini,
IG =1
10000
k∑i=2
(Pi−1 × Ti − Pi × Ti−1)
que aplicada a los datos de nuestro ejemplo, proporciona,
IG =1
10000(10′0× 20′88− 38′00× 3′16 + · · ·
+96′00× 100, 00− 100′00× 91′14) = 0′2594
es decir, poca concentracion.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 97/113
Concentracion. Distribuciones de Tipo I.
Finalmente veremos como calcular el ındice de Gini paradistribuciones Tipo I. Lo haremos con un ejemplo pequeno,pero suficiente para mostrar el metodo. Supongamos cincosueldos, en miles de Euros, 4, 3, 2, 2, 1. Primero se ordenande menor a mayor, y se construye la siguiente tabla, que esanaloga a las calculadas para las distribuciones Tipos II y III.
Xi ni fi Fi si Si Pi % Ti %
1 1 1/5 = 0′2 1/5 = 0′2 1 1 20′000 100× 1/12 = 8′3332 1 1/5 = 0′2 2/5 = 0′4 2 3 40′000 100× 3/12 = 25′0002 1 1/5 = 0′2 3/5 = 0′6 2 5 60′000 100× 5/12 = 41′6673 1 1/5 = 0′2 4/5 = 0′8 3 8 80′000 100× 8/12 = 66′6674 1 1/5 = 0′2 5/5 = 1′0 4 12 100′000 100× 12/12 = 100′00
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 98/113
Concentracion. Distribuciones de Tipo I.
Xi ni fi Fi si Si Pi % Ti %
1 1 1/5 = 0′2 1/5 = 0′2 1 1 20′000 100× 1/12 = 8′3332 1 1/5 = 0′2 2/5 = 0′4 2 3 40′000 100× 3/12 = 25′0002 1 1/5 = 0′2 3/5 = 0′6 2 5 60′000 100× 5/12 = 41′6673 1 1/5 = 0′2 4/5 = 0′8 3 8 80′000 100× 8/12 = 66′6674 1 1/5 = 0′2 5/5 = 1′0 4 12 100′000 100× 12/12 = 100′00
IG =1
10000
k∑i=2
(Pi−1 × Ti − Pi × Ti−1)
que aplicada a los datos de nuestro ejemplo, proporciona,
IG =1
10000((20′000× 25′000− 40′000× 8′333)
+(40′000× 41′667− 60′000× 25′000) + · · ·+80′000× 100, 00− 100′00× 66′667)) = 0′2333
Hay concentracion pero poca. De forma similar se dibuja lacurva de Lorenz a partir de las Pi y las Ti .
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 99/113
Deteccion de valores singulares y/o anomalos
Consideremos los siguientes datos numericos, relativos a lastallas de 20 alumnos de Tercero de Ensenanza SecundariaObligatoria, en centımetros,
150 151 150 147 155 145 151 152 150 149 160 142158 153 144 190 145 147 151 156
Existe un valor singular , 190, que se puede considerar comoatıpico o anomalo .
¿Es posible que dicho valor provenga de la misma fuenteo poblacion?
¿Estara afectado de algun error?
En caso afirmativo, ¿Que tipo de error?
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 100/113
Clasificacion de observaciones singulares
Observaciones singulares
Observaci on AT IPICA. Es aquel valor que presenta unagran variabilidad de tipo inherente.
Observaci on ERRONEA. Es aquel valor que seencuentra afectado de algun tipo de error.
Definicion
Se llamara “OUTLIER” a aquella observacion que siendoatıpica y/o erronea, tiene un comportamiento muy diferenterespecto al resto de los datos, en relacion al analisis que sedesea realizar sobre las observaciones.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 101/113
Deteccion de “outliers”. Metodo IQR.
1 Calcular Q1, Q3 e IQR2 Calcular las vallas interiores .
f1 = Q1 − 1′5× IQR f2 = Q3 + 1′5× IQR
3 Calcular las vallas exteriores .
F1 = Q1 − 3× IQR F2 = Q3 + 3× IQR
Toda observacion que quede fuera de las vallas interioressera considerada como “OUTLIER”, y se conceptua como valoranomalo. Los “OUTLIERS” que ademas esten fuera de lasvallas exteriores se conceptuan como valores muy anomalos.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 102/113
Ejemplo. Estaturas de los alumnos
150 151 150 147 155 145 151 152 150 149 160 142158 153 144 190 145 147 151 156
1 Cuartiles y recorrido intercuartılico.
Q1 = 147 Q3 = 154 IQR = 7
2 Vallas interiores.
f1 = 147−1′5×7 = 136′5 f2 = 154+1′5×7 = 164′5
3 Vallas exteriores.
F1 = 147− 3× 7 = 126 F2 = 154 + 3× 7 = 175
Conclusion
Luego el valor 190 es un valor muy anomalo, que requiere unestudio pormenorizado. Puede ser un error en lasobservaciones, o que realmente existe un alumno de elevadaestatura.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 103/113
Diagrama de caja o “Box-Plot”
Utilidad
Este tipo de diagramas expresa muy claramente la distribucionde los datos: su valor central, simetrıa, concentracion yobservaciones anomalas.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 104/113
Diagrama de caja o “Box-Plot”. Construcion
1 Fijar la escala segun los valores mınimo y maximo.2 Localizar la mediana y los cuartiles, Q1 y Q3, y dibujar un
rectangulo o caja que conecte estos ultimos. Dentro delmismo, marcar la mediana con un segmento. La amplitudde la caja sera el recorrido intercuartılico, IQR.
3 Detectar valores anomalos. Las observaciones fuera delas vallas interiores pero dentro de las exteriores serepresentan como pequenos cuadrados o cırculos, y lasque queden fuera de las vallas exteriores con asteriscos ocruces. Esta regla puede varıar.
4 A cada lado de la caja se trazan segmentos que terminanen las observaciones m as extremas dentro de lasvallas interiores , que se denominan valores adyacentes.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 105/113
Diagrama de caja o “Box-Plot”
Q1 Me Q3 f2 F2f1F1
� ∗
Observaciones
Los valores que queden fuera de las vallas interiores perodentro de las exteriores se han representado con �, y las quequeden fuera de las vallas exteriores con ∗.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 106/113
Comparacion de datos con diagramas de caja
Es interesante emplear este diagrama para comparar variosconjuntos de datos, suponiendo por supuesto que dichacomparacion tenga sentido.
Ejemplo
Compararemos dos conjuntos de datos relativos a laspuntuaciones de 175 alumnos por una parte, y de 120 por otra.Construiremos los correspondientes diagramas de caja, y losubicaremos en un mismo grafico, con una escala comun.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 107/113
Puntuaciones de 175 estudiantes
76 66 77 50 81 69 75 73 84 62 6571 93 54 70 55 86 63 84 76 80 8878 69 77 75 52 60 68 71 84 70 8978 87 98 80 76 55 65 77 64 82 7075 73 82 72 84 75 85 78 83 74 8168 76 77 61 66 85 58 92 96 51 8778 77 90 75 62 81 63 72 68 76 7286 80 92 79 84 70 50 70 71 77 6975 91 80 87 83 64 85 61 77 65 6774 90 78 82 73 88 85 89 65 75 7684 55 81 75 77 69 83 70 86 69 9679 98 51 97 63 90 54 74 71 89 7682 71 83 77 84 78 90 53 98 75 6964 70 81 77 67 83 79 85 76 72 5776 65 71 74 94 75 66 95 80 91 8056 83 82 60 74 81 79 80 61 79
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 108/113
Puntuaciones de 175 estudiantes. Resultados.
Mediante el programa EXCEL, hemos calculado losparametros,
Q1 = 69 Q2 = Me = 76 Q3 = 83
a partir de los cuales tenemos,
IQR = Q3 −Q1 = 14
f1 = Q1 − 1′5× IQR = 48 f2 = Q3 + 1′5× IQR = 104
F1 = Q1 − 3× IQR = 27 F2 = Q3 + 3× IQR = 125
La puntuacion mınima es 50, y la maxima 98. Ası pues, todaslas observaciones quedan dentro de las vallas interiores, y nodetectamos “outliers”. Los valores adyacentes son pues 50 y98.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 109/113
Puntuaciones de 120 estudiantes
41 46 54 60 54 61 50 50 53 5551 58 61 48 51 60 43 53 62 5556 62 45 49 55 59 56 53 59 5358 55 50 48 61 62 57 58 58 5361 50 62 49 53 60 54 34 49 5860 53 56 53 59 52 61 53 56 6039 54 50 60 57 52 55 59 53 5554 59 54 60 57 50 45 57 60 5555 59 55 54 49 58 52 53 60 5451 56 58 53 54 49 61 50 60 5358 55 51 56 62 54 58 50 53 5561 60 54 51 53 54 55 48 58 62
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 110/113
Puntuaciones de 120 estudiantes. Resultados.
Mediante el programa EXCEL, hemos calculado losparametros,
Q1 = 52 Q2 = Me = 55 Q3 = 58′5
a partir de los cuales tenemos,
IQR = Q3 −Q1 = 6′5
f1 = Q1−1′5×IQR = 42′25 f2 = Q3+1′5×IQR = 68′25
F1 = Q1 − 3× IQR = 32′5 F2 = Q3 + 3× IQR = 78
La puntuacion mınima es 34, y la maxima 62. Ası pues, existenobservaciones por debajo de la valla interior inferior, enconcreto, 34, 39 y 41, que son consideradas como “outliers”.
Por encima de la valla interior superior no hay observaciones.Los valores adyacentes son las observaciones 43 y 62. No hayobservaciones fuera de las vallas exteriores, es decir, muyanomalas.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 111/113
Diagramas de caja
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 112/113
Conclusiones
Las puntuaciones del grupo de 175 estudiantes songlobalmente mejores que las del grupo de 120 estudiantes. Porejemplo, se puede observar que las medianas de ambosgrupos de puntuaciones difieren en casi 20 unidades.
Observese tambien que en el grupo de 175 estudiantes no sedetectan “outliers”, al contrario de lo que sucede en el grupo de120 estudiantes en el que se observan tres “outliers”, que porestar dentro de las vallas los hemos representados porpequenos cuadrados, es decir, �.
Recuerdese que algunos programas de ordenador, empleansımbolos distintos, por ejemplo pequenos cırculos, es decir, ◦.
Jose A. Mayor. Universidad de Sevilla. jmayor.doc@gmail.com Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 113/113
top related