capitulo iii

9
3 MEDIDAS DESCRIPTIVAS 3.1 INTRODUCCIÓN Se presentaron los métodos tabulares y gráficos más usuales para destacar las particularidades más importantes de un conjunto de datos. Sin embargo, tales métodos no son suficientes para caracterizarlos en forma resumida. Por ejemplo, si deseamos comparar dos conjuntos de datos, resulta difícil confrontarlos por simple inspección de sus gráficos o de sus distribuciones de frecuencia: En tal caso, resulta conveniente obtener medidas numéricas que describan resumidamente los conjuntos de datos. Existen fundamentalmente dos tipos de medidas de interés para cualquier conjunto de datos. Las de tendencia central y las de dispersión. Medidas que serán estudiadas en la presente unidad. 3.2 MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central resumen los datos en un valor central alrededor del cual se distribuyen todos los datos del conjunto. Entre tales valores están la media aritmética, la mediana, la moda y la media ponderada entre otras. 3.2.1 Media Aritmética La media aritmética, media o promedio de un conjunto de n observaciones x1 , x2 ,..., xn se representa por x y se define como : La media es la más importante de las medidas de tendencia central. Su interpretación corresponde geométricamente al punto de equilibrio de los datos. Posee propiedades teóricas excelentes para su empleo en la inferencia estadística. La desventaja que tiene es que es muy sensible a los valores extremos cuando éstos no están equilibrados entre sí. 3.2.2 Propiedades de la media aritmética La media aritmética posee las siguientes dos propiedades. I.- La suma de las desviaciones con respecto a la media es igual a cero, esto es II.-La suma de las desviaciones al cuadrado con respecto a la media es mínima que con respecto a cualquier otro valor, esto es

Upload: mercedes-perez

Post on 27-Jul-2015

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Capitulo iii

3 MEDIDAS DESCRIPTIVAS

3.1 INTRODUCCIÓN

Se presentaron los métodos tabulares y gráficos más usuales para destacar lasparticularidades más importantes de un conjunto de datos. Sin embargo, tales métodos noson suficientes para caracterizarlos en forma resumida. Por ejemplo, si deseamoscomparar dos conjuntos de datos, resulta difícil confrontarlos por simple inspección de susgráficos o de sus distribuciones de frecuencia: En tal caso, resulta conveniente obtenermedidas numéricas que describan resumidamente los conjuntos de datos.

Existen fundamentalmente dos tipos de medidas de interés para cualquier conjunto dedatos. Las de tendencia central y las de dispersión. Medidas que serán estudiadas en lapresente unidad.

3.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central resumen los datos en un valor central alrededor del cualse distribuyen todos los datos del conjunto. Entre tales valores están la media aritmética,la mediana, la moda y la media ponderada entre otras.

3.2.1 Media Aritmética

La media aritmética, media o promedio de un conjunto de n observaciones x1 , x2 ,..., xnse representa por x y se define como :

La media es la más importante de las medidas de tendencia central. Su interpretacióncorresponde geométricamente al punto de equilibrio de los datos. Posee propiedadesteóricas excelentes para su empleo en la inferencia estadística. La desventaja que tienees que es muy sensible a los valores extremos cuando éstos no están equilibrados entresí.

3.2.2 Propiedades de la media aritmética

La media aritmética posee las siguientes dos propiedades. I.- La suma de las desviaciones con respecto a la media es igual a cero, esto es

II.-La suma de las desviaciones al cuadrado con respecto a la media es mínima que conrespecto a cualquier otro valor, esto es

Page 2: Capitulo iii

3.2.3 Mediana

La mediana de un conjunto de n observaciones se representa por Md y se define como elvalor central de los datos, previamente ordenados creciente o decrecientemente.

Otra forma de definir la mediana es la siguiente: es el valor a partir del cual el 50% de losdatos están por debajo y el otro 50% por arriba.

En un conjunto de datos originales la mediana puede determinarse aplicando uno de lossiguientes casos.

I.- Si n es impar, la mediana será el valor central del conjunto de datos ordenados. II.-Si n es par, la mediana será el promedio de los dos valores centrales, previoordenamiento de los datos.

3.2.4 Moda

La moda de un conjunto de n observaciones se representa por Mo y es el valor de laobservación que se presenta con mayor frecuencia en un conjunto de datos.

La moda es una medida de tendencia central poco usual, las razones se deben a quepuede ocurrir que en un conjunto de datos no exista moda, como también puede sucederque la moda no se un valor único; esto es, que este compartida por dos o másobservaciones.

3.2.5 Comparación de la media, mediana y moda

En secciones precedentes se hizo notar que la media es el punto de equilibrio de unconjunto de datos. Que la mediana, divide al grupo de datos en dos partes iguales de talmodo que la mitad de los datos quedan por debajo de ella y la otra mitad por arriba.Finalmente, que la moda representa el valor de la observación que se presenta con mayorfrecuencia con el conjunto de datos. Estas medidas, son las medidas de tendencia centralmás usuales por su fácil comprensión y su enorme utilidad. Sin embargo, de estas tresmedidas, la media es la más usual para representar la tendencia central de un conjuntode datos. Esto se debe a que generalmente proporciona una mejor estimación deparámetro.

Además, la media posee propiedades teóricas excelentes que no tienen la mediana y lamoda, y que originan que la media sea ampliamente utilizada en la inferencia estadística.No obstante, pueden presentarse también algunas situaciones en las que se opta por elempleo de la mediana en lugar de la media para representar la tendencia central de unconjunto de datos. Estas situaciones se presentan en aquellos grupos de observacionesque contienen valores extremos que no están equilibrados en ambos lados del colectivo yque a causa de la sensibilidad de la media, ésta proporciona una estimación errónea de latendencia central. En estas circunstancias, la mediana resulta ser la medida apropiadapara representar la tendencia central de un conjunto de datos. Por otro lado, la moda es

Page 3: Capitulo iii

una medida adecuada siempre que se desee una estimación aproximada rápida de latendencia central, o cuando sólo estamos interesados en la ocurrencia del valorcaracterístico.

La Figura 3.1 muestra las posiciones de la media, la mediana y la moda. Si la distribuciónes simétrica, como se aprecia en a), las tres mediadas de tendencia central coinciden, esdecir, se verificará la igualdad x=Md=Mo . Si la distribución es asimétrica positiva,como se observa en b), las tres medidas de tendencia central divergen, de tal forma quese cumple la relación x>Md>Mo . Finalmente, si la distribución es asimétrica negativa,como se aprecia en c) las tres medidas de tendencia central divergen, verificandose en talcaso la relación x<Md<Mo . Al respecto cabe mencionar, que si una distribuciónpresenta dos o más modas, la dirección de ésta se determina comparando únicamente lamedia y la mediana.

Figura 3.1 Posición de la media, la mediana y la moda.

3.3 MEDIDAS DE POSICIÓN

Las medidas de posición sirven para describir la localización de un dato específico en larelación con el resto de la muestra. Dos de las medidas de posición más populares sonlos llamados cuartiles y los centiles.

3.3.1 Cuartiles

Los cuartiles son números que dividen al conjunto de datos ordenados en cuatro partesiguales. Estos se representan habitualmente por Q1, Q2, y Q3. El primer cuartil, Q1, es elvalor que tiene por debajo la cuarta parte de los datos. El segundo cuartil, Q2, tiene pordebajo la mitad de los datos. Nótese que Q2 tiene la misma ubicación que la mediana. Eltercer cuartil Q3, tiene por debajo las tres cuartas partes de los datos. En términos deporcentaje, Q1 tiene por debajo el 25% de los datos, Q2 el 50% y Q3 el 75%.

El rango intercuartílico (R.I) mide aproximadamente la distancia de la mediana quedebemos recorrer en ambos lados antes de poder incluir una mitad de los valores delconjunto de datos. R.I.=Q3-Q1. 3.3.2 Centiles

Los centiles (o percentiles) son números que dividen al conjunto de datos ordenados en100 partes iguales. Estos se representan por p1 , p2 ,..., p100. El centil ochenta, p80,tiene por debajo el 80% de los datos. El centil cuarenta y cinco p45 tiene por debajo el45% de los datos.

3.4 MEDIDAS DE DISPERSIÓN

Page 4: Capitulo iii

En unidades anteriores se presentaron las medidas de tendencia central más comunespara caracterizar conjuntos de datos. Sin embargo, tales medidas no son suficientes pararealizar de manera completa la caracterización de éstos, puesto que otro aspecto que sedebe considerar es la dispersión o variabilidad de los datos. Una dispersión pequeña,denota gran homogeneidad de los datos. Por el contrario, una dispersión grande indicaheterogeneidad de los datos. La ausencia de dispersión significa que todos los datos del conjunto son iguales.

La Figura 3.2 muestra que una medida de tendencia central no es suficiente paracaracterizar dos conjuntos de datos, puesto que, es posible tener dos o másdistribuciones con la misma medida de tendencia central y pertenecer a distribucionesmuy diferentes. Por ejemplo, hay que apreciar en la Figura 2, la diferencia en lainterpretación de la observación 80. En a) se observa que la distribución tiene menordispersión, es decir, las observaciones están estrechamente distribuidas alrededor de lamedia, tanto así, que la observación de 80 está situada casi en el extremo de ladistribución y puede por lo tanto considerarse como una observación muy alta. En b), porel contrario, las observaciones están más dispersas alrededor de la media. En este caso,la observación de 80 no se localiza tan al extremo de la distribución puesto que, tieneencima de ella un buen número de observaciones, tal como lo indica el área situada a laderecha de 80.

Figura 3.2 Dos distribuciones con la misma medida de tendencia central pero condiferente dispersión.

La dispersión de un conjunto de datos normalmente se expresa cuantitativamente. Deesta manera, con el propósito de medir la dispersión de un conjunto de datos, se estudianen la presente sección las medidas siguientes: amplitud, varianza, desviación estándar ycoeficiente de variación.

3.4.1 Amplitud o Rango

Page 5: Capitulo iii

La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones de mayory menor valor numérico en el mismo. La amplitud es poco usual por su evidenteinestabilidad. Esto se debe a que únicamente considera para su cálculo, los valoresextremos del conjunto de datos.

3.4.2 Varianza

La varianza de un conjunto de n observaciones x1, x2,..., xn; se representa por S2 y sedefine como la suma de los cuadrados de las desviaciones con respecto a su media,dividida por el número de observaciones menos uno, simbólicamente

La varianza es una medida de dispersión de gran importancia en la estadística, debido aque constituye la base de algunas distribuciones que se estudian en la inferenciaestadística.

3.4.3 Desviación Estándar

La desviación estándar se representa por S y se define como la raíz cuadrada de lavarianza esto es

Debido a las propiedades teóricas que posee la desviación estándar es la más importantey la más usual de las medidas de dispersión. Se opta por el uso de la desviación estándaren la relación con la varianza, porque la varianza expresa las unidades al cuadrado,mientras que la desviación estándar presenta las unidades de su forma original.

3.4.4 Coeficiente de Variación

El coeficiente de variación se representa por C.V., y se define como la medida dedispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviaciónestándar del conjunto entre su media, esto es

La forma más usual del coeficiente de variación es como se indica a continuación

Se multiplica por l00 con el propósito de expresar la dispersión de un conjunto de datos entérminos de porcentaje. El coeficiente de variación cobra mayor importancia cuando se desea comparar la

Page 6: Capitulo iii

dispersión de dos o más conjuntos de datos que tienen diferente unidad de medida. Estose debe a que la unidad de medida utilizada en los grupos que se comparan se elimina, yla dispersión de los datos, se da en términos de porcentaje.

3.4.5 Comparación de las medidas de dispersión

Por la rapidez y facilidad con que se obtiene, la amplitud se considera simplemente comoun índice preliminar o aproximado de la variación existente entre las observaciones de unconjunto de datos. Como medida de dispersión debe emplearse con precaución, puestoque su valor depende únicamente de los dos valores extremos del conjunto.

La varianza resulta ser una medida razonablemente buena de la dispersión debido a quesi las desviaciones son grandes entonces el valor de la varianza será grande, por elcontrario, si éstos son pequeños entonces el valor de la varianza será pequeño. Lavarianza puede sufrir un cambio bastante desproporcionado, aun más que la media, por laexistencia de valores extremos en el conjunto. La varianza es una medida de dispersiónen la que los resultados que se obtienen representan unidades al cuadrado, para superaréste inconveniente de la varianza y disponer de otra medida de dispersión que expreselas unidades en su forma original como fueron obtenidos, se extrae la raíz cuadrada de lavarianza, obteniéndose, lo que se conoce como desviación estándar.

La desviación estándar es la más utilizada e importante de las medidas de dispersión,esto se debe a las propiedades teóricas que posee, razón por la cual, se constituye en labase de los métodos inferenciales.

El coeficiente de variación es una medida de dispersión independiente de la unidad demedida, puesto que la dispersión de un conjunto de datos se obtiene en términos deporcentaje.

3.4.6 Significado de la desviación estándar

El resultado obtenido al calcular la desviación estándar de un conjunto de datos, nos llevaa preguntar ¿Qué significa realmente ese número?. El significado completo de ladesviación estándar se comprende cuando se estudia la distribución normal puesto que elsignificado depende del entendimiento de la relación que existe entre la desviaciónestándar y la distribución normal. Sin embargo, a manera de ilustrar el significado de ladesviación estándar consideremos el aspecto que se presenta a continuación.

Supóngase que se desea medir la distancia que hay entre las plantas de un jardín. Sepodría efectuar la medición de éstos, ya sea en metros o en centímetros. Por ejemplo,que el rosal esta a una distancia de 3 metros del tulipán o que la gardenia esta a 95centímetros de la noche buena. Pero, ¿cómo medir la anchura del eje horizontal de unpolígono de frecuencias?. Del mismo modo en que se midieron las plantas del jardín enmetros o en centímetros, se puede medir también el eje horizontal de un polígono defrecuencias en unidades de desviación estándar. Desde este punto de vista, la desviaciónestándar se constituye en una especie de "vara de medir", que nos permite comparardatos de dos o más conjuntos.

Con el propósito de ilustrar lo anterior considérese la distribución de frecuencias que sepresento en la Tabla 2.5, perteneciente al peso de 60 alumnos elegidos al azar de unaescuela. Tal característica tiene un peso promedio igual a x = 67.63 kg. y una desviaciónestándar igual a S = l l.02. Se podría sumar la desviación estándar al valor de la media

Page 7: Capitulo iii

para determinar el peso de un alumno que esta situada a una desviación estándar porencima de la media, o bien, restar la desviación estándar al valor de la media y encontrarel alumno que esta ubicado a la misma distancia pero por debajo de la media. Si serealiza lo antes indicado se obtiene que el peso aproximado de ambos alumnos es 78.65y 56.61 kg. respectivamente. La Figura 3.3 muestra el peso de los alumnos que estánsituados a una y dos desviaciones estándar por encima y por abajo de la media.

Figura 3.3 Medición de observaciones en un polígono de frecuencias en unidades dedesviación estándar.

Se aprecia en la Figura 3.3 que el proceso de medir en el eje horizontal de un polígono,en unidades de desviación estándar, es en muchos aspectos, similar al medir en metros oen centímetros las plantas de un jardín. Sin embargo, la similitud se divide en por lomenos un aspecto importante: mientras que los metros o los centímetros son dedimensión constante, es decir, un metro siempre tendrá 100 centímetros y un centímetroiempre será la centésima parte de un metro, el valor de la desviación estándar variará deuna distribución a otra. Por tal razón, se debe de calcular la desviación estándar decualquier grupo de datos con el que se esté trabajando para efectuar las medicionescorrespondientes.

3.5 COEFICIENTE DE ASIMETRÍA Y CURTOSIS

En este apartado se estudian dos medidas que proporcionan información útil con respectoa la forma de la distribución de un conjunto de datos.

3.5.1 Coeficiente de asimetría

El coeficiente de asimetría (ax) se utiliza para conocer si la distribución de un conjunto dedatos es asimétrica o no. Este se calcula utilizando la expresión

Page 8: Capitulo iii

Para las distribuciones que presentan un solo pico, si a x < 0, se dice que la distribuciónes asimétrica negativa; si a x > 0, la distribución es asimétrica positiva; y si a x =0, ladistribución recibe el nombre de simétrica, los tres tipos de distribución se ilustran en laFigura 3.4.

Figura 3.4 Simetría y asimetría de un conjunto de datos a) Asimétrica negativa, b)Simétrica c)Asimétrica positiva.

3.5.2 Curtosis

La curtosis es una medida que indica qué tan puntiaguda es la distribución de un conjuntode datos. Esta se calcula utilizando la expresión

Para las distribuciones que presentan un solo pico, si a * x > 3, la distribución de los datos

Page 9: Capitulo iii

presenta un solo pico relativamente alto y recibe el nombre de leptocúrtica; si a * x < 3, ladistribución es relativamente plana y recibe el nombre de platicúrtica; y si a * x = 3 ladistribución presenta un pico ni muy alto ni muy bajo y recibe el nombre de mesocúrtica.

Los tres tipos de distribuciones se ilustra en la Figura 3.5

Figura 3.5 Diferentes tipos de distribución de un conjunto de datos. a) Leptocúrtica b)Platicúrtica, c) Mesocúrtica.

Es importante anotar que en la mayoría de paquetes estadísticos para determinar lacurtosis no se realiza el corte en 3, s por facilidad se utiliza el cero, es decir:

Si a * x < 0 entonces se dice que la curva es platicúrtica.Si a * x =0 entonces se dice que la curva es mesocúrtica.Si a * x > 0 entonces se dice que la curva es leptocúrtica.