55869137 medidas de deformacion y apuntamiento arvelo

30
ANGEL FRANCISCO ARVELO LUJAN Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico: [email protected] Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES , Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Para consultar otras publicaciones, ir la página web. www.arvelo.com.ve

Upload: kaihansen200

Post on 02-Aug-2015

79 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

ANGEL FRANCISCO ARVELO LUJAN

Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello” : Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico: [email protected] Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES , Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Para consultar otras publicaciones, ir la página web. www.arvelo.com.ve

Page 2: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

2

MEDIDAS DE DEFORMACION Y DE APUNTAMIENTO.

1 Momentos: El término “Momento” se aplica en Física, para indicar el

producto entre una fuerza y su distancia a un punto, llamada “brazo” ,y así existen “Momentos Estáticos”, “Momentos de Inercia”, etc., según se multiplique la fuerza por la distancia, por el cuadrado de la distancia, etc. En Estadística existen muchas fórmulas y expresiones matemáticas, en donde es necesario incluir el desvío o distancia de un dato a un cierto punto llamado “origen de trabajo”, y cuya escritura puede simplificarse con la introducción del concepto de “Momento de los Datos”. Cuando se tiene un conjunto de datos sin agrupar { x1, x2 ,x3 ,

......, xn} , se define como Momento de orden “r” respecto de un valor “A”, a la media aritmética de las potencias de grado “r” , de sus desvíos respecto a ese valor “A” , es decir :

m

x A

nr A

ir

i

I n

,

( )1

El valor “A” con respecto al cual se está calculando este momento de orden “r” , puede ser cualquiera , y recibe el nombre de “origen de trabajo”. Desde el punto de vista descriptivo, los momentos respecto de un origen de trabajo cualquiera no pueden ser interpretados como una característica especial de los datos, a excepción de algunos de ellos que serán analizados a lo largo de este capítulo. La principal utilidad práctica que tienen los diferentes momentos, es simplificar la escritura de ciertas fórmulas y expresiones matemáticas. Ejemplo 8.1: Dados los datos 2, 5, 8 y 13, calcular el momento de orden 2 respecto del valor 10. Solución: Se calculan los desvíos respecto del origen de trabajo, en este caso A=10, que resultan ser: 2-10 = -8 , 5-10 = -5 , 8-10 = -2 y 13 – 10 = 3 . El momento de orden 2 respecto del valor 10, es entonces por definición, la media

de los cuadrados de estos desvíos: m2 10

2 2 2 28 5 2 3

4,

( ) ( ) ( ) ( ) = 25,50.

Para calcular el momento de orden 3, se promedian las potencias cúbicas de los desvíos y así sucesivamente. El resultado obtenido no tiene en general una interpretación estadística, salvo en ciertos casos particulares que se analizaran luego, y por lo tanto debe ser visto simplemente como el resultado de un cálculo definido por una fórmula matemática. Aunque el origen de trabajo “A” puede ser cualquiera, los más utilizados son la

media X y el cero, en cuyo caso se tienen los siguientes momentos:

Page 3: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

3

A = X Momento de orden “r” respecto de la media X = m r =

( )x X

n

ir

i

i n

1

A=0 Momento de orden “r” respecto del origen = X r =

x

n

ir

i

i n

1

La nomenclatura X r significa media de las potencias de orden “r”, diferente de

( )X r , que significa potencia “r” de X , es decir: X r ( )X r . Algunas de las expresiones ya conocidas en los capítulos anteriores, pueden ser escritas en función de los momentos, y así por ejemplo tenemos que:

X = Primer momento respecto del origen.

2=

( )x X

n

i

I

i n2

1 = m2 = Segundo Momento respecto de la media

o también : 2 =

x

n

i

I

i n2

1 X2 = X 2 - X

2 m2 = X 2 - X

2

lo que equivale a decir que la varianza poblacional es igual al momento de segundo orden respecto del origen, menos el cuadrado del primer momento respecto del origen. Como consecuencia de las propiedades de la media, se tiene que para cualquier conjunto de datos, su primer momento respecto de la media siempre es nulo.

m

x X

n

i

i

i n

11

( )

= 0

Entre los momentos respecto de la media y los momentos respecto del origen, existen ciertas relaciones, y es posible obtener uno a partir de los otros. Así por ejemplo, se verifica:

m3 = X3 23 2 X X ( X )3

m4 = X4 34 6 3 X X X ( X ) X )2 2 4(

Para demostrar estas identidades, basta partir de la definición:

m3 =

( )x X

n

i

i

i n

1

3

=

(x X

n

i

i

i n3 2

1

3 x X + 3 x - X )i2

i3

=

X3 23 3 X X X (X) - ( X )2 3 = X3 23 2 X X ( X )3

La demostración de la segunda identidad está hecha en general en el Ejercicio 3 Las consideraciones anteriores deben ser vistas como una simple manipulación matemática de las fórmulas y propiedades ya conocidas, que introducen un nuevo

Page 4: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

4

lenguaje en las expresiones estadísticas, y no como un hecho que le concede a los diferentes momentos un significado especial. Para el caso de datos agrupados, los momentos se calculan a través del procedimiento ya conocido de reemplazar cada dato por la marca de clase del intervalo donde cae, y se obtiene:

m

L A f

f

r A

i

i

i kr

i

i

i

i k,

*( )1

1

= Momento de orden “r” respecto de un valor “A”.

m

L X f

f

r

i

i

i kr

i

i

i

i k

( )*

1

1

= Momento de orden “r” respecto de la media.

X

L f

f

ri

i

i kr

i

i

i

i k

( )*

1

1

= Momento de orden “r” respecto del origen.

Tal como se ha explicado en capítulos anteriores, al agrupar los datos se introduce un error en el cálculo de sus diferentes medidas descriptivas, pues el supuesto de cada dato es igual a la marca de clase del intervalo donde cae, es una simple aproximación. El cálculo de los diferentes momentos para datos agrupados no escapa de este error, y por ello han sido desarrolladas una serie de fórmulas, que pretenden corregir parcialmente el cálculo de los momentos, hecho mediante las fórmulas convencionales con la marca de clase. Estas fórmulas se conocen bajo el nombre de “Correcciones de Sheppard”, se utilizan para corregir los momentos respecto de la media, y se fundamentan en el supuesto de que el error de agrupamiento para cada dato es aleatorio, y

distribuido uniformemente en el intervalo LNM

IKJ

c

2 ; +

c

2, pues el verdadero valor del

dato cae en el intervalo Lc

i*

2 .

Las correcciones de Sheppard no serán tomadas en consideración aqui, y se dejan como tema de investigación para el lector. Ejemplo 2 : Si los primeros cuatro momentos de un conjunto de datos respecto del número 3 , son –2,10,-25 y 50 .Determinar los correspondiente momentos respecto de . a) la media, b) el número 5 c) el cero. Solución : Si el primer momento respecto del número 3 es –2 , esto significa que :

Page 5: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

5

m´1,3 =

( )x

n

i

i

i n

31 = -2

x n

n

i

i

i n

31 =-2

x

n

i

i

i n

1 3 = -2 X =

x

n

i

i

i n

1 = 1

El primer momento respecto de cero es X =1 , respecto de la media es siempre

cero, y respecto del número 5: m´1,5 =

( )x

n

i

i

i n

51 =

x

n

i

i

i n

1 - 5 = 1-5 = - 4.

Para hallar los segundos momentos, se tiene: m´2,3 = 10

m´2,3 =

( )x

n

i

i

i n

3 2

1 = 10

( )x x

n

i i

i

i n2

1

6 9

=

x x n

n

i

i

i n

i

i

i n2

1 1

6 9

= 10

por tanto:

x

n

i

i

i n2

1 -6 X +9 = 10 X 2 =

x

n

i

i

i n2

1 = 10 – 9 + 6 X = 7 pues X =1

Conocido X 2 , se pueden determinar los demás momentos de segundo orden

m2 = 2

=

( )x X

n

i

i

i n2

1 =

x

n

i

i

i n2

1 - X2 = X 2 - X2 = 7-12 = 6

m´2,5 =

( )x

n

i

i

i n

1

25

=

( )x x

n

i i

i

i n2

1

10 25

=

x

n

i

i

i n2

1 -10 X +25 = 7-10+25 = 22

Con los terceros momentos:

m´3,3 =

( )x

n

i

i

i n

1

33

=

( )x x x

n

i i i

i

i n3 2

1

9 27 27

=

x

n

i

i

i n3

1 -9

x

n

i

i

i n2

1 +27 X - 27

Como m´3,3 = - 25

x

n

i

i

i n3

1 -9

x

n

i

i

i n2

1 +27 X -27 = -25

Por lo tanto : X 3 =

x

n

i

i

i n3

1 = 9

x

n

i

i

i n2

1 -27 X + 2 = 9 (7) – 27 (1) + 2 = 38

Los restantes momentos de tercer orden son:

m3 =

( )x X

n

i

i

i n3

1 =

( )x x X x X X

n

i i i

i

i n3 2 2 3

1

3 3

= X X X X X3 2 2 33 3 X -

Simplificando: m3 = X X X3 2 33 2 X = 38 - 3 (7) (1) + 2 (1)3= 19

Page 6: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

6

m´3,5 =

( )x

n

i

i

i n

1

35

=

( )x x x

n

i i i

i

i n3 2

1

15 75 125

= X X3 215 125 X +75

por lo tanto : m´3,5 = 38 – 15 (7) + 75 (1) –125 = -117 Procediendo de manera análoga para los cuartos momentos, y a partir de

m´4,3 = 50 se obtiene: X 4 = 155 , m4 = 42 y m´3,5 = 560 . Ejemplo 3 Demostrar la siguiente identidad entre momentos:

m4 = m´4,A – 4 m´1,A m´3,A + 6 (m´1,A )2 m´2,A –3 (m´1,A)

4

Solución: Por definición m4 =

( )x X

n

i

i

i n4

1 y m

x A

nr A

ir

i

I n

,

( )1

Se suma y se resta “A” dentro de la expresión de m4 se obtiene:

m4 =

( )x A A X

n

i

i

i n4

1 =

( ) ( )x A A X

n

i

i

I n4

1

Al desarrollar el binomio ( ) ( )x A A Xi

4se obtiene:

( ) ( ) ( ) ( ) ( ) ( )( ) ( )x A x A A X x A A X x A A X A Xi i i i

i

i n4 3 2 2 3 4

1

4 6 4

y al dividir entre “n” se obtiene el lado derecho de la identidad , teniendo en

cuenta que: m´1,A =

( )x A

n

i

i

i n

1 = X - A .

………………………………. Momentos adimensionales: Los diferentes momentos de orden “r” de un conjunto de datos vienen expresados en unidades a la potencia “r” de los datos, y así por ejemplo, el cuarto momento respecto del origen de unos datos expresados

en centímetros, viene en cm4 .

En algunas oportunidades se deben comparar estos momentos con los de otro conjunto de datos, y cuando estos vienen en diferentes unidades, tal comparación no es posible de realizar. Para poder hacer estas comparaciones, se utilizan los momentos adimensionales, que se definen como el correspondiente momento de orden “r”, dividido entre la potencia “r” de alguna medida de dispersión de las mismas unidades de los datos, que generalmente es la desviación típica. Así por ejemplo, se define como momento adimensional de orden “r” respecto de

la media a: a r = m

rr

El uso y utilidad práctica de los momentos será analizada a lo largo de este capítulo.

Page 7: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

7

2. Datos Simétricos : Un conjunto de datos { x1, x2 ,x3 , ......, xn} se dice que es

simétrico respecto de un valor “A” , cuando se verifican dos condiciones: 1ª Condición: El número de datos menores que “A” es igual al número de datos mayores que ese mismo valor “A”. 2ª Condición : Entre los datos menores que “A” y los mayores que “A” existe una correspondencia biunívoca (uno a uno), de manera que para cada dato menor que “A” existe otro mayor que “A” con igual desvío absoluto con relación a “A”, es decir a la misma distancia. Ejemplos de datos simétricos son los conjuntos { 3 , 7 , 9 , 11 ,13 , 17 } respecto del valor 10, y { 4, 11, 14, 15 , 16 , 19 , 26 } con relación a 15. El valor “A” recibe el nombre de “eje de simetría”, y no necesariamente debe pertenecer al conjunto de datos, como por ejemplo en el primero de los conjuntos anteriores, donde el valor 10 no pertenece al conjunto. Cuando una distribución de frecuencias es simétrica, el histograma queda dividido en dos mitades iguales por el eje de simetría, como por ejemplo:

Intervalo 20 a 25 25 a 30 30 a 35 35 a 40 40 a 45 45 a 50

frecuencia 15 50 80 80 50 15

la cual es simétrica respecto del valor 35, tal como puede apreciarse en el histograma.

Propiedades de los datos simétricos Propiedad N°1 : Cuando un conjunto de datos es simétrico respecto de un valor

“A” , entonces la media coincide con el eje de simetría, es decir : X = A . Para demostrarlo, sea xp < A , y xq> A , su simétrico. Sean dp y dq sus correspondientes desvíos absolutos con relación al eje de simetría “A”. Se tiene entonces: xp= A – dp , y xq= A + dq .

Pero, por definición de simetría: dp = dq . xp + xq= 2A

Page 8: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

8

Como además el número de datos a la izquierda de “A” es igual al número de

datos a su derecha, se concluye entonces que: xi

i

i n

1

= n A X = A

Propiedad N° 2 : Cuando un conjunto de datos es simétrico respecto de un valor “A” , entonces la mediana también coincide con el eje de simetría, y por lo tanto : Med = A . Para demostrarlo basta aplicar el principio de reducción al absurdo, pues si se

supone que el conjunto es simétrico con relación al valor “A” y que Med A, se obtiene como conclusión que existe simetría pero que el número de datos menores que “A” es diferente del número de datos mayores que “A”, lo que obviamente contradice la definición de simetría. Corolario: Como consecuencia de estas dos primeras propiedades, se deduce

entonces que en distribuciones simétricas: X = Med, es decir:

Simetría X = Med Es importante destacar que esta implicación no es válida en sentido recíproco, es

decir que si se verifica X = Med , no necesariamente es simétrica, tal como ocurre

en el siguiente conjunto de datos: {3, 8,9,11,13,16}, en donde se verifica X = Med, pero no existe simetría. Propiedad N° 3 : Cuando una distribución es unimodal y simétrica, entonces la moda coincide con eje de simetría. La demostración de esta propiedad es también por reducción al absurdo, pues si se supone que es simétrica y que la moda es única pero que no coincide con el eje de simetría ,se concluiría de que la moda no tiene simétrico por ser única, lo que obviamente contradice la definición de simetría. La única manara como la distribución puede ser simétrica con una sola moda, es que el simétrico de la moda sea ella misma, lo que solamente puede ocurrir cuando la moda coincide con el eje de simetría. De estas tres propiedades, se concluye que en distribuciones simétricas unimodales, moda mediana y media coinciden con el eje de simetría, tal como

ocurre en la curva normal. Propiedad N° 4 : En distribuciones simétricas todos los momentos de orden impar

respecto de la media X son nulos.

En efecto, el momento de orden “r” respecto de la media X viene dado por:

Page 9: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

9

m r =

( )x X

n

ir

i

i n

1

Cuando existe simetría X coincide con el eje de simetría, y por lo tanto la

diferencia x Xi representa el desvío de cada dato con relación a dicho eje.

Cuando x Xi , este desvío es negativo, y cuando x Xi es positivo, pero en

ambos casos, igual en valor absoluto al de su simétrico. Si la potencia “r” es impar el signo del desvío se mantiene, y por lo tanto al sumar sobre todos los datos el resultado es cero, pues cada potencia del desvío se anula con la de su simétrico, que es igual en valor absoluto pero de signo contrario.

En resumen: Simetría m r = 0 cuando “r” es impar Lamentablemente, esta propiedad no es recíproca, y existen casos donde m r = 0 con “r” impar, y sin embargo, no existe simetría.

Tal es el caso por ejemplo, del primer momento respecto de X , el cual siempre es nulo exista o no simetría, y por ejemplo el de los siguientes datos: {0,0,0,0,6,6,6,6,6,10}, en donde no existe simetría y sin embargo al calcular el

tercer momento respecto de X , se obtiene:

X = 4 , m3 = ( )0 4 3 4 + ( 6 - 4) 5 + (10 - 4)

10

3 3

= 0

Conclusiones De las cuatro propiedades anteriores, se pueden obtener las siguientes conclusiones:

1°) Si existe simetría se verifica: X = Med , y además todos los momentos de

orden impar respecto de X nulos. El hecho de que se verifique alguna de estas propiedades no garantiza la simetría. La única manera de verificar la simetría es aplicar la definición, y analizar si entre

los datos menores que X y los mayores que X existe una correspondencia uno a

uno, de manera para cada dato menor que X exista otro mayor que X igualmente

desviado en forma absoluta con relación a X . 2°) Si alguna de estas propiedades no se verifica, se llega a la conclusión de que los datos no son simétricos, es decir.

X Med No existe simetría.

m r 0 para algún “r” impar No existe simetría. Ejemplo 4 Se tienen cuatro datos simétricos respecto del valor 8. Si el rango de los datos es 14, y la varianza 37, determine los cuatro datos.

Solución: X =8 por simetría, y su distancia a los datos extremos es la mitad del rango, es decir 7. Por tanto, los datos extremos son : x1 = 8 -7 = 1 y x4 = 8+7 = 15. Falta determinar los dos datos centrales x2 y x3, pero como son simétricos respecto del valor 8, sus desvíos absolutos son iguales. Por simetría: x2 = 8 – d , x3 = 8 +d, y como la varianza es 37 se obtiene:

2 =

( ) ( ) ( ) ( )1 8 8 8 15 8

4

22

23

2 2x x=

49 49

4

2 2d d = 37

Page 10: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

10

Por lo tanto: 98 + 2d2 = 148 d

2 = 25 d= 5 .

En consecuencia: x2 = 8 – 5 = 3 ,y x3 = 8 +5 = 13. Los cuatro datos buscados son entonces { 1 , 3 , 13 , 15 }

3 Medidas de deformación : Cuando un conjunto de datos no es simétrico,

se dice que es “deforme o sesgado”, y el objetivo de estas medidas es analizar su grado de deformidad. Un problema que van a confrontar estas medidas es que el grado de deformidad de un conjunto de datos es un concepto algo subjetivo, y por ello difícil de medir de manera precisa. En las medidas de dispersión ocurre que cuando los datos son todos iguales, todas ellas se anulan, y viceversa cuando cualquiera de las medidas de dispersión se anula, la conclusión es que todos los datos son iguales. Con las medidas de deformación no va a ocurrir esta circunstancia, y por lo tanto cuando exista simetría se anulan, pero el hecho de que se anule alguna de ellas no garantiza la simetría. Las principales medidas de deformación son: 1°) Coeficientes de sesgo o de asimetría: Estas medidas propuestas por Carl Pearson son exclusivas para distribuciones unimodales, y se fundamentan en la coincidencia entre moda, mediana y media cuando la distribución es simétrica. También reciben el nombre de “Coeficientes de asimetría de Pearson”.

1er coeficiente de sesgo de Pearson ó Sesgo1 = S.K1= X Moda

2° coeficiente de sesgo de Pearson = S.K2= 3 (X Med)

Aunque estos dos coeficientes son números reales sin unidades, cuyo valor numérico es prácticamente igual como consecuencia de la relación empírica

X - Moda 3 ( X - Med), su interpretación es diferente. El primer coeficiente representa la distancia relativa entre la media y la moda expresada en términos de la desviación típica; y así por ejemplo, si su valor es 0,5, esto significa que la media se encuentra a la derecha de la moda, a 0,5 desviaciones típicas de ella. El signo del primer coeficiente indica si la media está a la derecha o a la izquierda de la moda, según sea positivo o negativo respectivamente. Cuando es positivo, se dice que la curva de frecuencias está sesgada hacia la derecha es decir, que la cola a la derecha de la moda es más larga que la cola a su izquierda; mientras que cuando el signo es negativo, se dice que está sesgada hacia la izquierda, lo que se interpreta como la cola a la izquierda de la moda más larga que a su derecha.

1 La abreviatura S.K viene del inglés “Skewness” que se traduce como “Sesgo”.

Page 11: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

11

El segundo coeficiente de sesgo, expresa la posición de la media con relación a la mediana, de manera que cuando resulta positivo indica que la media es mayor que la mediana, y que por lo tanto más del 50% de los datos son menores que la media; mientras que cuando resulta negativo, señala que la media es menor que la mediana, y que más del 50% de los datos son mayores que la media, tal como puede apreciarse en la siguiente figura:

Sesgo > 0 Menos del 50 % de datos mayores que X . Sesgo < 0 Mas del 50 % de datos mayores que X

2°) El coeficiente momento de sesgo. Debido a que todos los momentos impares respecto de la media se anulan en una distribución simétrica, otra medida importante de deformación propuesta por Fisher, es el tercer momento

adimensional respecto de la media dado por: a3 = 3

3

m.

El primer momento respecto de la media siempre se anula aunque no exista simetría, y por ello no sirve para medir deformación. De allí que se tome el tercero, que es el siguiente impar, para definir a este coeficiente.

Se divide entre 3

para obtener una cifra relativa sin unidades, que permita comparar grados de deformidad entre conjuntos de datos de distintas unidades.

Cuando a3 >0, los desvíos a la derecha de X predominan sobre los desvíos a su izquierda, mientras que cuando a3 < 0 es justamente lo contrario. Cuando a3= 0 , puede ser que exista simetría, pero no puede garantizarse.

Algunos textos utilizan la nomenclatura: b a1 32 , y otrosg1 1 b = a 3 , que es

una medida del grado de deformación, sin indicar en cual dirección.

Page 12: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

12

3°) El Coeficiente de sesgo cuartílico: En una distribución simétrica, el primero y el tercer cuartil son simétricos respecto del segundo o mediana, y por lo tanto debe verificarse: Q3 – Q2 = Q2 – Q1. De allí que A. L. Bowley haya propuesto como medida de deformación al siguiente

coeficiente adimensional: gQ = ( ) ( )

( ) ( )

Q Q Q Q

Q Q Q Q

3 2 2 1

3 2 2 1

= Q

Q Q

3 2 1

3 1

2 Q Q.

Su valor esta siempre comprendido entre –1 y +1. Cuando resulta positivo, se interpreta que la distancia del segundo cuartil al tercero es mayor que del segundo al primero, y cuando resulta negativo que es menor. Según Bowley, cuando la asimetría es leve este coeficiente debe estar entre –0,10 y + 0,10 , mientras que valores absolutos de 0,30 ó más, reflejan una fuerte asimetría. Los casos extremos +1 ó -1 revelan una asimetría tan fuerte que el primero o el tercer cuartil coincide con la mediana respectivamente. 4°) El coeficiente de sesgo percentílico 10-90: En forma análoga al anterior, puede decirse que en una distribución simétrica, la distancia desde la mediana o percentil 50 hasta el percentil 90, debe ser igual a la distancia hasta el percentil 10, y por lo tanto para distribuciones simétricas: P90 – P50 = P50 – P10.

gP= ( ) ( )

( ) ( )

P P P P

P P P P

90 50 50 10

90 50 50 10

= P

P P

90 50 10

90 10

2 P P

Al igual que el anterior, es un coeficiente adimensional, cuyo valor oscila entre –1 y +1, y que debe anularse para distribuciones simétricas. Ejemplo 5 Los siguientes datos corresponden al área de un conjunto de apartamentos expresada en metros cuadrados.

Area 40 a 60 60 a 80 80 a 100 100 a 120 120 a 140 140 a 160 160 a 180 180 a 200 Frecuencia 38 154 206 102 72 21 6 1

Calcular los coeficientes de sesgo, el coeficiente momento de sesgo, y los coeficientes cuartílico y percentílico de sesgo. Solución : Se comienza calculando la media, la mediana , la moda, percentiles y cuartiles, para lo que se necesita la tabla acumulada de frecuencias:

Area < 60 < 80 < 100 < 120 < 140 < 160 < 180 < 200 Frecuencia 38 192 398 500 572 593 599 600

P10 = 60 +

10

100 600 - 38

154 20 = 62,86 ; P90 = 120 +

90

100 600 - 500

72 20 = 131,11

Q1 = 60 +

1

4 600 - 38

154 20 = 74,55 ; Q3 = 100 +

3

4 600 - 398

102 20 = 110,20

Q2 = Med = 80 +

1

2 600 - 192

206 20= 90,49 ;

Moda = 80 + 206 -154

(206 -154)+(206 -102) 20 = 86,58

Page 13: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

13

A continuación , se calculan los momentos.

Area fi L i* (L i

* ) fi (L i* )

2 fi (L i

* )3 fi

40 - 60 38 50 1.900 95.000 4.750.000

60 - 80 154 70 10.780 754.600 52.822.000

80 - 100 206 90 18.540 1.668.600 150.174.000

100 - 120 102 110 11.220 1.234.200 135.762.000

120 - 140 72 130 9.360 1.216.800 158.184.000

140 - 160 21 150 3.150 472.500 70.875.000

160 - 180 6 170 1.020 173.400 29.478.000

180 - 200 1 190 190 36.100 6.859.000

Sumatoria 600 56.160 5.651.200 608.904.000

X = 56160

600

. = 93,60 ;

2 =

5 651200

600

. . - (93,60 )

2 = 657,71 = 25,65

Para calcular el tercer momento respecto de X , resulta más cómodo aplicar la identidad ya demostrada, según la cual :

m3 = X3 23 2 X X ( X )3

m3 =608 904 000

600

. .- 3

5 651200

600

. . ( 93,60 ) + 2 (93,60)

3 = 10.130,11

Una vez hechos estos cálculos, se procede a determinar las diferentes medidas de deformación.

1° coeficiente de Pearson = S.K1 = 93 60 86 58

25 65

, ,

, = 0,27

2° coeficiente de Pearson = S.K2 = 3 93 60 90 49

25 65

( , , )

, = 0,36

Coeficiente momento de sesgo = a3 = 10.130,11

( , )25 65 3 = 0,60

Coeficiente cuartílico de sesgo = gQ = 110,20 - 2 ( 90,49 ) + 74,55

110 20 74 55, ,= 0,13

Coeficiente percentílico de sesgo = gP = 131,11- 2 ( 90,49 ) + 62,86

131,11 62,86= 0,19

Todas las medidas de asimetría resultan positivas, por lo que evidentemente se trata de una distribución sesgada hacia la derecha, en donde más de la mitad de los datos son menores que la media. Comentarios con relación a las medidas de deformación : Es importante hacer las siguientes advertencias con relación a las diferentes medidas de deformación propuestas anteriormente: a) Como cada una de ellas mide la deformidad desde puntos de vista diferentes, estas medidas no son comparables. Por lo general, cuando la distribución es marcadamente asimétrica en cualquiera de los dos sentidos, los signos de las diferentes medidas de deformación

Page 14: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

14

coinciden, pero cuando es el grado de deformidad es leve, ocurre en muchos casos que algunas de las medidas resultan positivas y otras negativas. b) Por lo explicado en la sección 2, no debe olvidarse que la implicación:

Simetría Medida de deformación = 0 es en un solo sentido, y que su reciproco no es cierto. Por lo tanto, no es válido concluir que si una medida de deformación resulta dar cero, entonces la distribución es simétrica. La única conclusión válida, es que si la medida de deformación no se anula, entonces la distribución no es simétrica. Para demostrar la simetría hay que verificar que se cumple la definición, dada en la sección 2. Toda esta confusión que se presenta alrededor de las medidas de deformación es producto, de que si bien es cierto que la noción de simetría es clara y definida, no lo es tanto la de grado o intensidad de la asimetría, ya que algunos casos podemos referirnos al grado de asimetría respecto de la media, en otros con respecto a la mediana, etc.

4 Gráficos de Caja: En el Capítulo anteriores, se estudió el “Gráfico de tallo y

hoja” desarrollado por el estadístico John Tukey en su trabajo “ Exploratory Data Analysis”. El “Gráfico de caja” denominado por algunos autores “Box and whiskers Plot”, es decir gráfico de caja y bigotes, es también una nueva técnica del “Análisis Exploratorio de datos”, y constituye una novedosa manera de representar los datos, en donde se puede ver, entre otras cosas si existe o no simetría. Para construirlo es necesario calcular los siguientes valores:

La mediana.

El “cuarto” inferior y el “cuarto” superior.

El límite inferior y el límite superior. El término “cuarto” viene de una traducción del inglés “hinge” (bisagra) o también “fourths”, y corresponde aproximadamente a “cuartil”; de manera que el “cuarto” inferior es aproximadamente “el primer cuartil” y el “cuarto” superior el tercer cuartil. Algunos autores también los llaman “goznes”. Estos “cuartos” se designan por Hi el inferior, y por Hs el superior, y la forma de calcularlos exactamente, se dejará como tema de investigación para el lector. Siempre que no existan valores atípicos o fuera de escala, el límite inferior es el menor valor de los datos y se designa por Li; mientras que el límite superior es el mayor valor de los datos, y se designa por Ls. Una vez calculados estos valores, se procede a construir el gráfico, tal como se explica en el siguiente ejemplo: Ejemplo 6 : Representar en un diagrama de caja, las calificaciones obtenidas por un grupo de estudiantes en un examen de ingreso a la Universidad, en una escala sobre100 puntos.

34 56 78 45 86 67 76 80 52 71 68 55 54 66 71 77 59 70 64 62

54 73 93 55 68 77 80 61 44 57 62 79 82 66 56 43 60 73 71 64

49 60 51 66 70 74 63 55 60 78 76 64 69 47 51 53 76 67 60 56

Page 15: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

15

50 54 76 57 65 61 69 88 74 47 76 80 70 62 56 55 58 70 46 52

59 62 67 59 61 73 77 40 63 74 71 68 59 66 75 90 57 66 64 59

54 71 64 58 57 82 78 44 63 49 56 70 84 54 65 68 53 47 51 66

78 56 65 79 56 75 66 60 37 80 62 90 77 68 53 73 71 60 45 71

56 60 72 65 76 89 73 80 63 65 74 32 87 67 55 78 46 76 55 51

67 54 73 81 70 68 53 72 94 56 87 72 64 46 70 55 53 54 67 72

54 39 56 53 73 76 77 80 64 88 61 70 47 65 76 75 59 62 79 54

Solución: Al calcular la mediana, los “cuartos” y los límites, se obtiene: Med= 65 , Hi= 56 , Hs = 73 , Li = 32 , Ls= 94

Los datos comprendidos entre el cuarto inferior y el superior quedan empaquetados dentro de la caja, la que a su vez queda dividida en dos partes por la línea gruesa interior que representa a la mediana. El ancho de la caja no tiene ninguna interpretación, y su altura es aproximadamente el rango intercuartil, o longitud del intervalo 50% central. Los brazos o colas de la caja representan la distancia entre el menor de los datos y el cuarto inferior, y entre el cuarto superior y el mayor de los datos. El eje horizontal no tiene significado alguno, y solo se usa se usa para señalar categorías en caso de que existan más de una. En este ejemplo hay una sola categoría, pero es posible que existan dos o más, como sería por ejemplo el caso en que los alumnos que presentaron este examen de admisión sean clasificados por sexo, o por zona de procedencia, etc., y se quiera hacer una comparación entre las calificaciones obtenidas por estos grupos. En estos casos, el gráfico se llama “Gráfico de Cajas Múltiples”, y será analizado más adelante, en un próximo capitulo.

Page 16: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

16

Cuando existe simetría en los datos, la mediana divide a la caja en dos partes iguales, y la longitud de los dos brazos o colas del diagrama son iguales. Cuando en el conjunto de datos existen valores atípicos o fuera de escala, sobre los cuales podría pensarse que existe algún error de medición o de transcripción, el gráfico de caja suele representarlo aparte, y lo designa como “outside” (lejano) o “far outside” (muy lejano), según se encuentre fuera de la ”cerca interna” o de la “cerca externa” respectivamente. La forma como se calculan estas “cercas”, se deja como tema de investigación para el lector. En el caso de existir valores atípicos, los brazos de la caja van desde el “cuarto” hasta el último valor dentro de la cerca interna, el cual se denomina “valor adyacente”, y estos valores atípicos aparecen señalados con símbolos especiales, para alertar que se trata de valores lejanos, o muy lejanos.

5 Medidas de Apuntamiento: Cuando se tiene un conjunto de datos, resulta

muy importante verificar si su comportamiento sigue una “Distribución Normal” , pues sobre esta hipótesis de normalidad se apoya la validez de muchos procedimientos, utilizados principalmente en “Inferencia Estadística” . A lo largo de este capítulo y también de los precedentes, hemos visto diversas propiedades descriptivas de la curva normal, tales como la simetría, el porcentaje

de datos comprendido en los intervalos μ , μ 2 , etc.

Otra propiedad 2 de la curva normal es: m4= 3 m2

2 ,

m4 = Cuarto momento respecto de la media =

( )X X

n

i

i

i n4

1

m2 = 2 = Segundo momento respecto de la media o Varianza =

( )X X

n

i

i

i n2

1

Basado en esta propiedad, surgió la idea de tomar al cuarto momento

adimensional respecto de la media, definido por : a4 = m

m

4

22

como una medida de

la normalidad para los datos, pues en ese caso debería verificarse a4 = 3 . A este coeficiente a4 se le dio el nombre de “coeficiente momento de curtosis” , se aplica exclusivamente a distribuciones unimodales, y lo que hace es comparar la frecuencia de los valores centrales en la distribución considerada, con la frecuencia que debería tener una distribución normal con igual media e igual varianza en la misma zona, de manera que si a4 > 3 , esto podría interpretarse como una mayor concentración de los datos en su zona central, por lo tanto la curva de frecuencias resultante es más puntiaguda que la curva normal; mientras que cuando a4 < 3 ocurre justamente lo contrario, existe una menor concentración

2 Ver la demostración N° 4 del Anexo.

Page 17: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

17

en la zona central, y la curva de frecuencias es mas aplastada que la curva normal. El término “curtosis” es derivado de la arquitectura griega, y se utilizaba para comparar la esbeltez de una columna con otra que servía de patrón o de referencia que era llamada “cúrtica”; de manera que si la columna en cuestión era más esbelta que aquella, se llamaba “ leptocúrtica”, y si no era , se llamaba “planticúrtica”. De la misma manera, en Estadística, la curva normal es una referencia para las demás curvas de frecuencia, y cuando ésta resulta igual de puntiaguda que la normal se denomina ”mesocúrtica”, más puntiaguda que la normal se le llama “leptocúrtica”, y cuando resulta mas achatada “planticúrtica”, tal como puede apreciarse en la siguiente figura:

Para no tener que recordar el valor 3 como referencia para la curva normal , algunos autores sugieren el uso del coeficiente de curtosis definido como: g2 = a4 - 3 de manera que g2 > 0 para curvas leptocúrticas , g2 < 0 para planticúrticas , y g2 = 0 para mesocúrticas. Otra medida de apuntamiento, es el coeficiente percentílico de curtosis dado por:

=

1

2 3 1

90 10

( )Q Q

P P

La siguiente gráfica interpreta esta medida:

Cuando la distribución tiene la mayoría de sus observaciones concentradas en el centro, la curva de frecuencias es muy puntiaguda, el rango intercuartílico Q3 –Q1

Page 18: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

18

y el percentílico P90 – P10 tienden a ser casi iguales , la relación Q Q

P P

3 1

90 10

aproximadamente igual a 1, y por lo tanto” ” ligeramente menor que 0,5. Por el contrario, cuando la curva es aplastada, el rango percentílico P90 – P10 es considerablemente mayor que el rango cuartílico Q3 –Q1 , y por tanto la relación

Q Q

P P

3 1

90 10

es cercana a cero.

Puede demostrarse3 mediante el uso de las tablas normales que se estudiaran

posteriormente, que para la curva normal = 0,2630, que es aproximadamente la media entre los valores extremos 0 y 0,5 , y de allí que:

Para curvas leptocúrticas: > 0,2630

Para curvas mesocúrticas: = 0,2630

Para curvas planticúrticas: < 0,2630

En la fórmula de “ “ se toma 1

2 3 1( )Q Q también llamado “rango semi-intercuartil”

y no directamente el rango intercuartil Q3 –Q1 , pues no necesariamente la distribución es simétrica, y esta es una manera de promediar las distancias Q3 –Q2

y Q2 –Q1 . Ejemplo 7 : Calcularle el coeficiente momento de curtosis y el coeficiente percentilico de curtosis , a los datos del Ejercicio 5 . Solución: Como se trata de datos agrupados, el cuarto momento respecto de la

media debe ser calculado a través de la expresión: m

L X f

f

i

i

i k

i

i

i

i k41

4

1

( )*

, que a

su vez resulta más sencillo de calcular en función de sus momentos respecto al origen, según lo explicado en la sección 8.1

m4 = X4 34 6 3 X X X ( X ) X )2 2 4(

En los cálculos hechos en el ejemplo 8.5, se encontró:

X 3 = 608 904 000

600

. . = 1.014.840 ; X 2 =

5 651200

600

. . = 9.418,67 ; X = 93,60

Sólo falta hallar: X 4 =

( )*L f

f

i

i

i k

i

i

i

i k

1

4

1

, para lo cual hay que añadir a la tabla una

nueva columna con los valores de (L i* )

4 fi :

3 Ver Demostración N°4 del Anexo.

Page 19: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

19

Area fi L i* (L i

* )4 fi

40 - 60 38 50 237.500.000

60 - 80 154 70 3.697.540.000

80 - 100 206 90 13.515.660.000

100 - 120 102 110 14.933.820.000

120 - 140 72 130 20.563.920.000

140 - 160 21 150 10.631.250.000

160 - 180 6 170 5.011.260.000

180 - 200 1 190 1.303.210.000

Sumatoria 600 69.894.160.000

De donde : X 4 = 69.894.160.000

600 = 116.490.266, 7

Sustituyendo se obtiene : m4 = 1.370.457,00 , y dado que 2 = 657,71 , se

obtiene que: a4 = 1.370.457,00

(657,71)2 = 3,17 , lo que significa que la curva de

frecuencia correspondiente a estos datos es ligeramente más puntiaguda que una curva normal de igual media e igual varianza, debido a que presenta una mayor concentración de datos en su zona central, en comparación con la curva normal, tal como puede apreciarse en el histograma correspondiente:

En este gráfico puede apreciarse que la distribución a pesar de tener igual media e igual varianza que una normal, presenta mayor frecuencia que aquella, tanto en la zona central como en las zonas extremas, y una menor frecuencia en las zonas intermedias. Las zonas extremas tienen mayor influencia en el cálculo de a4 , pues sus desvíos aparecen elevados a la cuarta potencia, y de allí a4 > 3 .

Fre

cuencia

200,0175,0150,0125,0100,075,050,0

400

300

200

100

0

Area de los Apartamentos

Page 20: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

20

En cuanto al coeficiente percentílico de curtosis, según los cálculos del ejemplo 8.5 , se tiene: P10 = = 62,86 ; P90 = = 131,11 ; Q1 = 74,55 ; Q3 = = 110,20

=

1

2110 20 74 55

13111 62 86

( , , )

, , = 0,2612 < 0,263

En este ejemplo, se confirman los comentarios hechos con relación a la subjetividad de estas medidas, pues por un lado la curva resulta ligeramente leptocúrtica, y por el otro ligeramente planticúrtica . La contradicción se debe a que se está midiendo el grado de apuntamiento desde dos puntos de vista diferentes. En casos como este, en donde existen dudas acerca de la normalidad de los datos, hay que recurrir a las llamadas pruebas de bondad del ajuste, que se estudian en Inferencia Estadística.

EJERCICIOS RESUELTOS Ejemplo 8 La siguiente distribución de frecuencias, representa la duración de las llamadas telefónicas hechas desde una oficina

Minutos 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12 12 a 14 Frecuencia 48 77 37 22 10 4 2

Determine los coeficientes de asimetría y de apuntamiento. Comente los resultados. Solución: Es conveniente organizar los cálculos en la siguiente tabla:

Clase fi L i* (L i

* ) fi (L i* )

2 fi (L i

* )3 fi (L i

* )4 fi

0 a 2 48 1 48 48 48 48

2 a 4 77 3 231 693 2079 6237

4 a 6 37 5 185 925 4625 23125

6 a 8 22 7 154 1078 7546 52822

8 a 10 10 9 90 810 7290 65610

10 a 12 4 11 44 484 5324 58564

12 a 14 2 13 26 338 4394 57122

Sumatoria 200 778 4376 31306 263528

Los diferentes momentos respecto al origen son:

X = 778

200 = 3.89 ; X 2 =

4376

200= 21.88 ;

X3 31306

200= 156.53 ; X4 263528

200=1317.64

Los momentos respecto de la media resultan: 2 = m2 = X 2 - X

2 = 21.88 – ( 3.89)

2 = 6.75

m3 = X3 23 2 X X ( X )3 = 156.53 – 3 (21.88) ( 3.89) + 2 (3.89)3 = 18.92

m4 = X4 34 6 3 X X X ( X ) X )2 2 4( = 181.63

Page 21: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

21

y por lo tanto: a3 = 18 92

6 75 3

.

( . )= 1.08 ; a4 =

18163

6 75 2

.

( . )= 3.99

Por el resultado a3 =1.08 , se puede concluir que se trata de una distribución fuertemente sesgada hacia la derecha, tal como puede verse en su correspondiente polígono de frecuencias:

Poligono de Frecuencias

Duracion de las llamadas

1614121086420

Fre

cuencia

80

60

40

20

0

En cuanto a los demás coeficientes, se tiene:

Moda = 2+ 77 48

48 37(77 ) (77 )2 = 2.84 Mediana = 2 +

200

248

77 2 = 3.35

Q1= 2 +

200

448

77 . 2 = 2.05 Q3= 4 +

3

4200 125

37 2 = 5.35

P10=

10

100200

48 . 2 = 0.83 P90= 6+

90

100200 162

22 . 2 = 7.64

S.K1= X Moda

S =

3 89 2 84

6 75

. .

. = 0.40 > 0 Sesgada hacia la derecha

S.K2= 3 ( )X Med

S =

3 3 89 3 35

6 75

( . . )

.= 0.62 > 0

Por tanto, mas del 50 % de las llamadas duran menos de X = 3.89

gQ = Q

Q Q

3 2 1

3 1

2 Q Q =

5 35 2 2

5 35 2 05

.

. .

(3.35) .05= 0,21 > 0

gP= P

P P

90 50 10

90 10

2 P P=

7 64 2 3 35 0 83

7 64 0 83

. ( . ) .

. . = 0.26 > 0

Page 22: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

22

En ambos casos, los coeficientes de Bowley resultan positivos, lo que revela una asimetría hacia la derecha. El coeficiente percentílico de curtosis resulta:

=

1

2 3 1

90 10

( )Q Q

P P =

1

25 35 2 05

7 64 0 83

( . . )

. . = 0,2423

No es posible llegar a una conclusión definitiva acerca de la esbeltez de la curva

de frecuencia, pues a4 > 3 y < 0,263 . Ejemplo 9: De un conjunto de datos se sabe que la mediana es 12 , el segundo coeficiente de asimetría de Pearson es 1,5 , y la desviación típica 2. a)¿ Puede ser simétrica esta distribución? . b)¿ Cual es su media ? . c) ¿A qué conclusión se puede llegar, acerca del porcentaje de datos que son mayores que la media ? . Solución : a) Cuando en una distribución existe simetría, todas las medidas de deformación deben anularse, y dado que en este caso una de ellas como lo es

S.K2 0, se concluye que esta distribución no puede ser simétrica.

b) Para hallar X , basta con despejarla de la expresión: S.K2= 3 ( )X Med

S , de

donde se obtiene : X = Med + S (S.K 2 )

3 = 12 +

2

3

(1,5) = 13

c) La distribución es sesgada hacia la derecha pues X > Med , y por lo tanto

menos del 50% de los datos son mayores que X . Ejemplo 10 Analice si en los datos {1 , 1 , 2 , 2, 2 , 3, 3 ,3, 4, 4} existe o no simetría .

Solución : Se cumple X = Med = 2,50 ; sin embargo, esto no garantiza la simetría. Hay que aplicar la definición, a ver si se cumplen las dos condiciones de simetría: La primera condición se cumple, pues existen cinco datos menores que 2,5, y también cinco mayores que 2,5. Para cada dato menor que 2,5 existe otro mayor que 2,5 , con el mismo desvío absoluto, y por tanto se cumple la segunda condición. En conclusión, el conjunto es simétrico con respecto al valor 2,5. Ejemplo 11: De una distribución simétrica de frecuencias para 200 datos, en cinco intervalos de clase con igual amplitud, se tiene la siguiente información:

Rango = 50

Mediana = 75

Frecuencia del tercer intervalo doble de frecuencia del segundo, y ésta a su vez doble del primero.

a) Construya la tabla de frecuencias.

b) ¿Qué porcentaje de los datos cae en el intervalo X ± ? c) Si se eliminaran los datos inferiores al percentil 15, y los superiores al percentil

92 , ¿ cual sería la media de los datos resultantes ? .

Page 23: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

23

Solución: Por simetría se tiene f2 = f4 , y f5 = f1 , y según las condiciones del problema : f3 = 2 f2 , y f2 = 2f1 .

Además f1 + f2 + f3 + f4 + f5 = 200 f1 +2 f1 +2(2 f1)+ 2f1 + f1 = 200 10 f1 = 200

f1 = 20 f2 = 40 y f3 = 80 . No se conocen los límites de clase, ni la amplitud. Sea : L= Límite Real inferior de la primera clase, y c = Amplitud La distribución de frecuencias es entonces:

Clase L a L +c L+ c a L + 2c L+2c a L + 3c L+3c a L + 4c L+4c a L + 5c

Frecuencia 20 40 80 40 20

Acumulada 20 60 140 180 200

Rango = L + 5c – L = 5c = 50 c = 10

Med = L +2c +

1

2200 60

80c = L + 2,5 c = 75 L = 75 – 2,5 (10) = 50

La distribución de frecuencias es por consiguiente:

Clase 50 a 60 60 a 70 70 a 80 80 a 90 90 a 100

Frecuencia 20 40 80 40 20

Por simetría X = 75, y al hacer los demás cálculos, se obtiene:

= 10,95 , P15 = 62,50 y P92 = 92,00

Para hallar el porcentaje de datos comprendido en el intervalo X ± S , que corresponde a 75,00 ± 10,95 = [ 64,05 ; 85,95] , se determina el porcentaje de datos por debajo de cada límite, encontrándose:

p2 = % por debajo de 85,95 = 100

200140

85 95 80

4010

FHG

IKJ

,= 81,90 %

p1 = % por debajo de 64,05 = 100

20020

64 05 60

4010

FHG

IKJ

,= 18,10 %

En el intervalo [ 64,05 ; 85,95] se encuentran 81,90% - 18,10% = 63,80 % . Si se eliminan os datos inferiores a P15 = 62,50 y los superiores a P92 = 92,00 , los intervalos de 60 a 70 y de 90 a 100 resultan truncados, y hay que hallar la frecuencia proporcional que les corresponde.

Al intervalo 62,50 a 70 le corresponde una frecuencia de : 70 62 50

1040

, = 30

Y a 90 a 92 una frecuencia de : 92 90

1020 = 4

La distribución recortada resultante es :

Clase 62,50 a 70 70 a 80 80 a 90 90 a 92

Frecuencia 30 80 40 4

cuya media es: X15 92

62 50 70

2

92 90

230 75 80 85 40 4

30 80 40 4

,( ) ( )

= 76,31 .

Ejemplo 12: Se tienen dos distribuciones de frecuencia, de las cuales se tiene la siguiente información:

Page 24: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

24

Segundo momento respecto de la media: 9 y 16 Tercer momento respecto de la media: -8.1 y - 12.8. ¿Cuál de las dos presenta una mayor asimetría? . Solución : A partir del segundo y tercer momento respecto de la media, se puede

calcular el coeficiente momento de sesgo, pues : a3 = 3

3

m =

m3

23(m )

.

Para la primera distribución se tiene : a3 = 8 1

9 3

,

( )= -0,30 .

Para la segunda distribución se tiene : a3 = 12,8

16 3( )= -0,20 .

Ambas distribuciones son sesgadas hacia la izquierda, pero la primera presenta un mayor grado de deformidad, pues el valor absoluto de su coeficiente momento de sesgo es mayor. Ejemplo 13: Hallar el coeficiente cuartílico de sesgo para los siguientes datos sin agrupar: 1 , 3 , 5 , 5 , 11 , 12 , 12 , 15 . Interprete el resultado. Solución: Los datos se encuentran ya ordenados de menor a mayor , y como son

ocho, Q1 = 3 5

2 = 4 ; Q2 =Med =

5 11

2 = 8 y Q3 =

12 12

2 = 12

gQ = Q

Q Q

3 2 1

3 1

2 Q Q =

12 2 4

12 4

(8) = 0

Por el resultado, se podría pensar que existe simetría, pero al aplicar la definición, encontramos que en realidad no lo es , pues no cumple la segunda condición. Ejemplo 14: Hallar el sesgo o 1er coeficiente de sesgo de Pearson para los siguientes datos sin agrupar: { 2 , 5 , 9 , 9 , 9 , 20 } . Interprete el resultado.

Solución: Para estos datos: X = 9 , Moda = 9 , S = 5.57

Sesgo = S.K1= X Moda

= 9 9

5 57. = 0

Sin embargo, no existe simetría al no verificarse ninguna de las dos condiciones.

Preguntas de Revisión 1°) ¿Puede una distribución bimodal ser simétrica? . Si su respuesta es positiva de un ejemplo, y si es negativa justifíquela. 2°) ¿Es posible que alguno de los momentos de orden par, respecto de cualquier origen de trabajo sea negativo? 3°) Si todos los datos son iguales, ¿qué ocurre con las diferentes medidas de deformación y apuntamiento?.

Page 25: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

25

4°) ¿Por qué se toma al tercer momento adimensional respecto de la media, como medida de asimetría? 5°) Analice si al multiplicar un conjunto de datos por una constante, se alteran los coeficientes momento de sesgo, y de curtosis. ¿Se alteran esos mismos coeficientes, si los datos se someten a una transformación lineal? . 6°) ¿En qué caso, los coeficientes de asimetría de Bowley no pueden ser calculados, y por lo tanto no existen? . En caso de existir, ¿entre qué valores pueden variar?. 7°) ¿Puede garantizarse la simetría, cuando una de las medidas de deformación se anula?. Justifique su respuesta.

8°) ¿Cual es la diferencia entre escribir X r y ( )X r ?.

9°) ¿Para qué se utilizan los momentos de orden impar respecto de la media? . 10°) ¿En qué casos los coeficientes de asimetría de Pearson no existen?. 11°) Obtenga una expresión para el tercer momento respecto de un origen de

trabajo “A”, m X AA33

, ( ) , en función de los tres primeros momentos respecto

del origen, y en función de los tres primeros momentos respecto de la media. 12°) ¿ A qué conclusión puede llegarse si en una distribución, los momentos respecto de la media son iguales a los momentos respecto del origen? . 13°) ¿Qué puede decirse de una distribución cuyo cuarto momento respecto de la media sea nulo? . 14°) Si en una distribución, más del 50% de los datos son menores que su media, ¿qué tipo de deformación presenta? . 15°) En una distribución que sólo presente dos valores, ¿qué condición debe cumplirse para que sea simétrica?. ¿Cuál es el eje de simetría?. 16°) Si se tienen dos distribuciones con segundo coeficiente de sesgo S.K2, ambos negativos, pero diferentes. ¿ En cual de las dos existe un menor porcentaje de datos inferiores que la media?. 17°) ¿ En qué caso el coeficiente percentílico de curtosis no existe? . En caso de existir, ¿ entre qué valores puede variar?.

Page 26: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

26

18°) Suponga que en la siguiente distribución, que solo presenta dos valores: Xi x1 x2 se encuentra S.K2 = 0 . fi f1 f2 ¿ Se puede concluir que es simétrica? . 19°) Suponga que en una distribución, una de las medidas de deformación se anula y otra no. ¿Existe duda acerca de su simetría?.

Temas complementarios para investigar

1°) Investigue la forma exacta de construir un “Gráfico de Caja”. ¿Qué significa el término “Profundidad de un dato”? . ¿Qué son los valores letra?. ¿ Como se hallan “los cuartos” , las “cercas internas y externas”, etc.?. 2°) Investigue acerca de las correcciones de Sheppard, su fundamento, y las fórmulas para corregir el cálculo de los momentos en el caso de datos agrupados. 3°) Investigue acerca de los métodos abreviados para calcular los diferentes momentos de una distribución, en especial cuando se trata de datos agrupados. Investigue el fundamento teórico de estos métodos, y aplíquelos en el cálculo de a3 y a4 , en los ejercicios 8.5 , 8.7 y 8.8 . Problemas Propuestos I. Nivel Elemental 15) Dado el conjunto de datos {2,3,7,8,10} . Halle sus cuatro primeros momentos respecto de: a) el origen . b) la media . c) el número 4 . Analice si existe simetría. Solución: a) 6, 45.2 , 378 y 3318.8 b) 0 , 9.2 , -3.6 y 122 . c) 2 , 13.2 , 59.6 y 330 8.16) Encuentre la media de un conjunto de datos, sabiendo que el primer momento

respecto del número 4 es 12. Solución: X = 16 16) La siguiente distribución, representa el número de inasistencias durante un año, para los empleados de una empresa:

Intervalo 0 a 4 5 a 9 10 a 14 15 a 19 20 a 24 25 a 29

frecuencia 5 10 8 1 0 1

Calcule los coeficientes momento de asimetría y de curtosis. Solución: a3 = 1.3 a4 = 5.6 17) La siguiente distribución, representa el número de aparatos de T.V en una encuesta entre viviendas. Use métodos abreviados.

Aparatos 1 2 3 4 5 6

frecuencia 2241 3272 264 47 6 3

Calcule los coeficientes momento de asimetría y de curtosis. Solución: a3 = 0.8 a4 = 5.4

Page 27: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

27

18) La siguiente tabla de frecuencias se refiere a la longitud en milímetros de una cierta pieza mecánica:

Longitud 9.3 a 9.7 9.8 a 10.2 10.3 a 10.7 10.8 a 11.2 11.3 a 11.7 11.8 a 12.2 12.3 a 12.7 12.8 a 13.2

Frecuencia 2 5 12 17 14 6 3 1

Calcule todas las medidas de deformación y de apuntamiento. Interprete los resultados. Solución: a3 = 0.9190 S.K1 = 0.040 S.K2 = 0.074 gq= –0.02 gp= –0.13

a4 = 2.94 = 0,313 19) Para una distribución se tiene que su media es 20 , y su coeficiente de variación del 30% . Halle su segundo momento respecto del origen y respecto del

número 3 , es decir ( )X 3 2 . Solución : 436 y 325

20) Para la distribución del ejercicio anterior, halle la moda y la mediana, si sabe que los coeficientes de sesgo de Pearson, tienen un valor de 0,10 y 0,15 respectivamente. Solución. Moda = 19.40 . Mediana = 19.70 21) De una distribución con media 15 y moda 18, se sabe que sus coeficientes de sesgo de Pearson tienen un valor de –1 y de – 0,80 . Encuentre la mediana. Solución: Mediana = 15,80 22) Analice si en los datos {6, 10, 12, 14, 15, 16, 17, 21, 24} existe simetría. 23) Dados los siguientes datos sin agrupar: 15 , 20, 7, 10, 30, 14, 19, 9, 27, 5, 14, 38, 12, 21, 20, 29, 14, 25, 24 ,7 Calcule los coeficientes de sesgo de Bowley, y de Pearson. Interprételos. Solución: gq = 0,11 gp = 0,11 S.K1= 0.46 S.K2= 0.35 24) En la siguiente tabla de frecuencias para datos sin agrupar, calcule los diferentes coeficientes de asimetría:

Valor 3 5 0 4 2 1

Frecuencia 18 20 2 24 10 6

Solución : S.K1= -0.42 , S.K2= - 1.25 gq = -0.33 gp = - 0.43 ; a3 = - 0,68 25) a) Sabiendo que la media y el coeficiente momento de sesgo son ambos iguales a cero, complete la siguiente tabla de frecuencia para datos sin agrupar: Xi 1 -4 5

fi ? ? 1

b) ¿ Es realmente simétrica la distribución ? . Justifique Solución: a) f(1) = 3 ; f(-4) = 2 b) No 26) Calcule el coeficiente momento de sesgo para la siguiente distribución: Xi -3 2 6 Analice si existe simetría. fi 2 3 1 ¿Existe contradicción entre los dos resultados anteriores?. Solución: a3 = 0 . No es simétrica.

Page 28: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

28

27) En una distribución, el intervalo que contiene al 50% central tiene amplitud 48, y el intervalo que contiene al 80% central tiene amplitud 64. Calcule el coeficiente percentílico de curtosis. Solución: 0.375 28) En una distribución, la mediana es 40, el intervalo 50% central tiene amplitud 25, y el coeficiente cuartílico de sesgo es – 0.20 . Halle el primer y tercer cuartil. Solución: Q1 = 25 Q3 = 50 II. Nivel Intermedio 29) Suponga que en un conjunto formado por 5 datos, se sabe que es simétrica, que su media aritmética es 10 , que su rango es 14 y que su varianza es 29,60 . Determine los 5 datos que lo integran . Solución: 3 , 5 , 10 , 15 y 17 . 30) De una distribución de frecuencias simétrica, que considera cinco clases de igual amplitud, se tiene la siguiente información:

Número total de datos = 400

Media = 300

Rango intercuartil = Q3 - Q1 = 80

La frecuencia del tercer intervalo es el doble de la del primero . La frecuencia del cuarto intervalo es 80 . a) Construya la tabla de frecuencias . b) Calcule el porcentaje de datos que caen en el intervalo [ 234 ; 358] Solución: a) c= 40. Límite inferior = 200 . fi= 60,80,120,80,60 b) 71,50% 31) Se tiene una distribución simétrica de frecuencias con cinco intervalos, de la

cual se sabe que : X = 150 , n= 200 , f3 = 100 , f2 = f1 + 10 , D7 = 158 .

a) Construya la tabla de frecuencias .

b) Calcule el porcentaje de observaciones que caen en el intervalo: X ± . Solución: a) c= 40. Límite inferior = 100 . fi= 20,30,100,30,20 b) 66,46 % 32) Si los dos primeros momentos de un conjunto de datos respecto al número 5 son : -4 y 22 respectivamente. Determine los dos primeros momentos de ese conjunto de datos , respecto de : a) la media , b) el numero 3 . c) el origen .d) Calcule también la varianza . Solución : a) 0 y 6 , b) -2 y 10 . c) 1 y 7 . d) S2 = 6 . 33) ¿Cuál debe ser el cuarto momento respecto de la media , de una distribución simétrica con desviación típica 15 , para que sea: a) leptocúrtica , b) mesocúrtica , c) planticúrtica . Solución : a) mayor que 151875 . b) igual a 151875 . c) menor que 151875

Page 29: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

29

34) Se tiene la siguiente distribución simétrica, que considera 150 valores puntuales de la variable "X": Valores de "X" ? 4 8 ? 15 Frecuencia 15 ? 70 ? ? a) Complete la tabla de frecuencias . b) Calcule la desviación típica de la distribución . c) Encuentre los percentiles 40 y 90 de la distribución. d) Calcule el 5º momento respecto de la media . Solución: b) S = 3,89 c) P40 = 8 P90 = 13,50 d) m5 = 0 35) De una distribución de frecuencias simétrica, que considera 7 intervalos de igual amplitud para agrupar 400 datos, se tiene la siguiente información:

Intervalo 80% central = [170 ; 230 ]

Frecuencia de la clase modal = 184

La frecuencia de la sexta clase es siete veces la de la primera clase.

La frecuencia de la tercera clase es 68 . a) Construya la tabla de frecuencias .

b) Encuentre el porcentaje de observaciones en el intervalo X ± S . Solución: a) c= 20. Límite inferior = 130 . fi= 5,35,68,184,68,35,5 b) 67,23 % 36) Una distribución simétrica de frecuencias para 240 datos, empieza en 100, termina en 350, considera cinco intervalos de igual amplitud, su tercer cuartil es 270 , y además la frecuencia del tercer intervalo es igual a la suma de las frecuencias del primero y del segundo. a) Construya la tabla de frecuencias. b) Calcule el porcentaje de datos que se encuentran en el intervalo [215 ; 316]. Solución: a) c= 50.. fi=30,50,80,50,30 b) 48,17 % 37) En una distribución de frecuencias simétrica, para 300 datos agrupados en cinco intervalos de igual amplitud, se tiene : f3 = f1 + f 4 ; P40 = 166 ; P90 = 220 ; h5 = 10 % . a) Construya la tabla de frecuencias .

b) Calcule el porcentaje de datos que caen en el intervalo X D.M . c) Calcule la media de la cuarta parte superior. Solución: a) c= 30. Empieza en 100. fi=30,70,100,70,30 b) 50.44% c)220,21 38) Encuentre el primero y segundo momento respecto al valor “6” , para una distribución de frecuencias que tenga media 8 y varianza 2. Solución: 2 y 6 39) En una distribución, la mediana es 31,20 , el intervalo 80% central tiene amplitud 82, el coeficiente cuartílico de sesgo 0,60 , y el coeficiente percentílico de curtosis 0,25 . Determine el primer y tercer cuartil. Solución: Q1 = 23 Q3 = 64 40) De un conjunto con 30 datos cuantitativos, se sabe que la suma es 150, la suma de sus cuadrados 860, y la suma de sus cubos 5400. ¿ Puede afirmarse que la media y la mediana son iguales ?.

Page 30: 55869137 Medidas de Deformacion y Apuntamiento Arvelo

Medidas de Deformación Angel Francisco Arvelo L.

30

Solución: Es posible pues m3 = 0 , pero no necesariamente se puede llegar a esa conclusión. III. Nivel Avanzado

41) Demuestre que a4 1 . ¿En qué caso a4 = 1? . 42) Demuestre que: –3< S.K2 < +3 43) Encuentre el tercero y cuarto momento respecto de la media, para “n” datos que se encuentran en progresión aritmética: a, a +r , a +2r , ....., a + (n -1)r .

¿Existe simetría? . Sugerencia : in n n n

i

i n4

1

21 2 1 3 3 1

30

(n ) ( ) ( )

Solución: m3 = 0 , m4 = (n ) )2 1 7 (3n r

240

2 4

. Si existe simetría

44) En un conjunto de “n” datos , “m” de ellos son iguales a 1 , y los restantes “n – m” son iguales a 0 . Encuentre los cuatro primeros momentos respecto de la media.

Solución: m2 = m (n - m)

n2 ; m3 =

m (n - m) (n - 2m)

n3; m4 =

m (n - m) (3m +n - 3mn)

n

2 2

4

45) Si en una distribución se verifica:

3 2 3

4 4 2 2 4

X 3X + X

X 3 + 6X X

Determine los coeficientes momento de sesgo, y de curtosis. Solución: a3 = 0 , a4 = 3 .