tema1 matematicas

Upload: yadiego93

Post on 04-Feb-2018

230 views

Category:

Documents


1 download

TRANSCRIPT

  • 7/21/2019 tema1 matematicas

    1/17

    Tema 1

    Estadstica Descriptiva

    Indice

    1. Introduccion 1

    2. Datos agrupados y sin agrupar 2

    3. Distribuciones de frecuencias 4

    4. Representaciones graficas 5

    4.1. Polgonos de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64.2. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64.3. Diagrama de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.4. Diagrama de sectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    5. Medidas de centralizacion 9

    5.1. Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95.2. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105.3. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    6. Medidas de dispersion 12

    6.1. Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126.2. Varianza, cuasivarianza, desviacion tpica y cuasidesviacion tpica . . . . . . . . . . . . . . 136.3. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.4. Coeficiente de variacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    7. Bibliografa 17

    1. IntroduccionEl conjunto de individuos (objetos, personas, valores de magnitudes fsicas...) en cuyo estudio nos in-teresamos, se llama poblacion. Usualmente la poblacion es tan grande, que para ese estudio debemosconformarnos, por razones materiales o economicas, con considerar solo una parte de la misma a la quellamamos muestra.

    El aspecto de los individuos de la poblaci on que queremos investigar, se llama caracter. Por ejemplo laestatura, el diametro, el color..., y para efectuar el estudio, hacemos observaciones de ese car acter sobrelos individuos de la muestra.

    Un caracter puede ser cualitativo o cuantitativo, la diferencia es, que en el primer caso, el resultadode la observacion no es cuantificable numericamente, por ejemplo el color, el sexo..., y en el segundo, porel contrario, la observacion es una medida cuyo resultado es numerico, como la estatura o la resistencia

    electrica. En todo caso, llamaremos dato a cualquiera de los resultados individuales obtenido.

    Un estudio estadstico comienza con una primera fase de recogida de datos de la muestra elegida. Laeleccion de esa muestra debe hacerse de tal forma, que el estudio hecho sobre ella pueda extenderse con

    1

  • 7/21/2019 tema1 matematicas

    2/17

    Tema 1. Estadstica descriptiva 2

    un amplio margen de confianza a toda la poblaci on. Ello obliga a que la eleccion de la muestra se hagade acuerdo con ciertas reglas que son el objeto de estudio de la teora del muestreo.

    Despues de la recogida de los datos, se inicia un proceso de elaboracion de estos, ordenandolos, clasifi-candolos, haciendo graficos y calculando promedios, porcentajes y otras cantidades utiles. Esta fase esconocida como estadstica descriptiva.

    Por ultimo, y esta es quiza la etapa mas interesante, se pretende, a partir de los datos recogidos en lamuestra, extrapolar conclusiones para toda la poblacion, lo que permitira entre otras cosas, una posteriortoma de decisiones. Esta ultima fase se conoce como estadstica inferencial.

    2. Datos agrupados y sin agrupar

    Seann individuos de la poblacion a los que se les mide el caracterX (variable o atributo). Xesta cons-

    tituida por n valores, resultantes de la observacion de dicho caracter sobre los n individuos:

    X1, X2, X3, . . . , X n

    Usualmente, los caracteres cualitativos toman pocos valores distintos. Por ejemplo el car acter sexosolotoma dos valores. Lo mismo ocurre con algunos caracteres cuantitativos como el numero de ninos nacidosen un mismo parto, que puede variar entre 1 y 5, (no consideraremos por lo insolito del caso, numerosmayores) siendo los valores 3, 4 y 5, muy poco frecuentes.

    Por el contrario, hay caracteres cuantitativos que pueden tomar muchos valores distintos. Ejemplo de elloes el caracter estatura en una poblacion de personas, en el que si se aprecia, como es usual, hasta elcentmetro, pueden darse hasta 41 valores distintos entre, digamos un mnimo de 1,50 m. y un maximode 1,90 m.

    Llamemosx1, x2, x3, . . . , xk (k n) a los datos distintosobtenidos de la muestra (modalidades). Si k espequeno, para describir el conjunto de datos, basta con anotar junto a los x1, x2, x3, . . . , xk, el numero deveces que aparece cada uno. Pero si k es grande, la manipulacion de muchos datos distintos es incomoda,procediendose (siempre y cuando el caracter a estudiar sea cuantitativo) a agruparlos.

    En lneas generales, el procedimiento para ello, consiste en tomar el intervalo cuyos extremos son los datosmas pequeno y mas grande respectivamente, y dividirlo en subintervalos contiguos de igual longitud, lla-madosclases. Los datosx1, x2, x3, . . . , xk estaran distribuidos dentro de estas clases. Pero la subdivisiondebe hacerse, para no incurrir en ambiguedades, de tal modo que cada dato distinto, pertenezca a una ysolo una de las clases, es decir, hay que evitar que alguno de los puntos de subdivision coincida con undato, ya que ello inducira a confusion con respecto en cual de las dos clases contiguas debe incluirse.

    En la practica, los extremos del intervalo que contiene todos los datos, no tiene por que coincidir conel menor y el mayor de estos. Por ejemplo, si al medir estaturas, el dato mas pequeno recogido en lamuestra es 1,51 m., y el mas grande 1,87 m., es preferible tomar como intervalo a subdividir, el que tienepor extremos 1,50 y 1,90, ya que resultan mas comodos de manejar los numeros cuya ultima cifra es 0 o5. Pero en todo caso, este aumento en la longitud del intervalo, no debe ser excesivo, pues introduciraespacios muertos que hara enganoso el agrupamiento en clases.

    Procedamos ahora a la subdivision, para lo cual comenzamos completando la parte decimal de los datoscon ceros (si ello fuere necesario), con objeto de que todos tengan la misma longitud. Sea d el numero decifras decimales una vez completadas. Sean tambien a y b, los extremos del intervalo, y p el numero declases en que se desea agrupar los datos.

    La longitud de cada clase sera:

    h= b a

    p

    El numero h debe redondearse hasta la desima cifra decimal. Con ello se logra que los puntos desubdivision

    a= a+ 0h, a+ 1h, a+ 2h, . . . , a+ (p 1)h, a+ph= b

  • 7/21/2019 tema1 matematicas

    3/17

    Tema 1. Estadstica descriptiva 3

    tengan el mismo numero d de cifras decimales que los datos, pero entonces puede darse el caso de quealguno de estos puntos coincida con un dato. Para evitar este inconveniente, disminuimos el extremoderecho de cada clase en una unidad de la ultima cifra decimal (sera equivalente a tomar el intervalocerrado por la izquierda y abierto por la derecha).

    Una vez que se han agrupado los datos en clases, estos pierden su individualidad. La unica informacionque tenemos despues del agrupamiento es el numero de clases, los extremos de las mismas y el numerode datos en cada una. Esta perdida de informacion es el tributo a pagar por la comodidad de manejarunas pocas clases en lugar de un volumen, quiza elevado de datos individuales. Es conveniente, paradeterminados calculos que se consideraran mas tarde, tener un numero que de alguna forma caractericea cada clase. Para ello, se calcula su punto central (es decir, la media aritmetica de los extremos), que sellama representante o marcade esa clase.

    Es de observar que el representante de una clase no tiene por que coincidir con un dato de la muestra.Ademas, el hecho de tomar a este numero como una representacion de los ocupantes de la clase lleva

    implcita la hipotesis (solo aproximadamente correcta) de que los datos se encuentran uniformementerepartidos dentro de la clase. Aun no siendo cierta, la hipotesis es plausible si los datos de la muestrapresentan (como suele ocurrir) una relativa uniformidad en su distribucion.

    Ejemplo:Vamos a agrupar los datos de la siguiente tabla (ya ordenados de menor a mayor) en clases.

    3, 07 3, 09 3, 20 3, 23 3, 24 3, 27 3, 30 3, 31 3, 32 3, 323, 35 3, 35 3, 40 3, 41 3, 41 3, 42 3, 43 3, 46 3, 46 3, 463, 48 3, 49 3, 49 3, 50 3, 50 3, 51 3, 52 3, 52 3, 53 3, 543, 54 3, 55 3, 55 3, 55 3, 56 3, 57 3, 60 3, 60 3, 60 3, 613, 62 3, 62 3, 63 3, 64 3, 64 3, 65 3, 66 3, 67 3, 68 3, 683, 69 3, 69 3, 70 3, 70 3, 70 3, 70 3, 70 3, 71 3, 71 3, 713, 74 3, 75 3, 76 3, 77 3, 78 3, 78 3, 79 3, 80 3, 82 3, 82

    3, 83 3, 83 3, 85 3, 87 3, 88 3, 90 3, 90 3, 90 3, 91 3, 933, 94 3, 96 3, 98 3, 98 3, 99 4, 00 4, 00 4, 01 4, 03 4, 044, 05 4, 06 4, 07 4, 13 4, 18 4, 22 4, 27 4, 29 4, 35 4, 47

    Para ello, comenzamos ampliando ligeramente el intervalo cuyos extremos son el mas pequeno y el mayorde los datos hasta que esos extremos sean 3,00 y 4,50, as trabajaremos con numeros cuya ultima cifraes cero. La longitud de este intervalo es 1,50 que es divisible por 2, 3, 5, 6, 10 y 15 con un cociente quetiene dos cifras decimales exactas. Como el numero de cifras decimales de los datos es tambien d = 2,si tomamos como numero de clases p a uno de estos valores, no sera necesario redondear la longitudh de cada clase para que tenga dos cifras decimales, lo cual siempre es m as comodo. Ahora elegimosp descartando los valores 2, 3, 5 y 6 porque parecen pocas clases para el volumen de datos (100) quetenemos. Tambien desechamos 15 porque sin ser demasiado elevado, tampoco es muy pequeno, as quetomaremosp = 10. Usando las notaciones anteriores, tenemos

    a= 3, 00 b= 4, 50 p= 10 h= 0, 15 d= 2

    y efectuando los calculos resulta:

    Clase Marca

    [3, 00, 3, 15) 3,075[3, 15, 3, 30) 3,225[3, 30, 3, 45) 3,375[3, 45, 3, 60) 3,525[3, 60, 3, 75) 3,675[3, 75, 3, 90) 3,825[3, 90, 4, 05) 3,975[4, 05, 4, 20) 4,125[4, 20, 4, 35) 4,275[4, 35, 4, 50) 4,425

  • 7/21/2019 tema1 matematicas

    4/17

    Tema 1. Estadstica descriptiva 4

    No hay un criterio objetivo para decidir en cuantas clases se deben agrupar los datos. Una regla empricaque puede usarse es hallar las dos potencias sucesivas de 2 entre las que se encuentra n, y tomar comovalor de p el mayor de los dos exponentes. Otra regla emprica sugiere que se tome para p el valor

    n convenientemente redondeado a un entero. Tambien puede usarse la siguiente tabla basada en laexperiencia:

    no de datos no de clases

    menos de 50 de 5 a 7entre 50 y 99 de 6 a 10

    entre 100 y 249 de 7 a 12mas de 249 de 10 a 20

    Sobre la clasificacion de datos, puede consultarse el segundo captulo del libro de Huntsberger citado enla bibliografa.

    3. Distribuciones de frecuencias

    Supongamos que al recoger datos relativos a un determinado caracter en una muestra de tamanon, hemosobtenido los valores distintos

    x1, x2, x3, . . . , xk (k n)

    Admitamos que por ser k pequeno, no se ha juzgado oportuno agrupar los datos en clases.

    Definicion 3.1 Para cada dato xi (i= 1, 2, . . . , k), se llama:

    a) frecuencia absolutani al numero de veces que aparece el dato xi

    b) frecuencia relativafi = nin

    = nikj=1

    nj

    c) frecuencia absoluta acumuladaNi =i

    j=1

    nj

    d) frecuencia relativa acumuladaFi = Ni

    n =

    ij=1

    fj.

    Caso de que por ser k grande (y naturalmente tratarse de un caracter cuantitativo), se haya optado por

    agrupar los datos en p clases, podemos definir para la iesima claseDefinicion 3.2 Para cada clase, se llama:

    a) frecuencia absolutani al numero de datos de laiesima clase

    b) frecuencia relativafi =ni

    n =

    nipj=1

    nj

    c) frecuencia absoluta acumuladaNi =i

    j=1

    nj

    d) frecuencia relativa acumuladaFi = Ni

    n =

    ij=1

    fj.

  • 7/21/2019 tema1 matematicas

    5/17

    Tema 1. Estadstica descriptiva 5

    De ambas definiciones se deducen las desigualdades

    a) 0 ni n b) 0 Ni n c) 0 Fi 1d) 0 fi 1 e)Ni Ni+1

    A la frecuencia relativa se le llama algunas veces proporcion, y suele expresarse como un porcentajemultiplicandola previamente por 100. Tambien es corriente llamar a la frecuencia absoluta simplementefrecuencia.

    Definicion 3.3 Se llamadistribucion de frecuencias correspondiente al caracter bajo estudio, a unadescripcion, usualmente en forma de tabla, aunque tambien puede expresarse graficamente, de los datosdistintos, o de las clases si se han agrupado, acompanados de sus respectivas frecuencias (absolutas,relativas y/o acumuladas).

    Ejemplos:

    1. En la muestra formada por los nacimientos habidos en una maternidad durante diez anos, se haobservado el caractersexo de los recien nacidos, obteniendose la siguiente distribucion de frecuencias:

    Sexo Frecuencia

    Hembra 2055Varon 2180

    2. En una muestra de 110 personas que han comprado una casa en determinada ciudad, se ha analizado lavariableedadagrupando los datos obtenidos en ocho clases. La correspondiente distribucion de frecuenciases

    Edad Frecuencia

    18 32 533 37 1038 42 1043 47 3048 52 3553 57 1058 62 862 67 2

    4. Representaciones graficas

    Una forma muy comun de exponer una distribucion de frecuencias es mediante una representacion grafica.Existen muchas formas distintas de hacerlo, y en este aspecto entre cientfico y artstico, los trabajospublicados de estadstica descriptiva exhiben multitud de variantes. Un buen ejemplo de ello son lossondeos de opinion acerca de cualquier tema de interes general, y las encuestas de intencion de voto quecasi siempre en epocas preelectorales publican los periodicos.Un grafico, sobre todo si esta bien elegido y disenado, proporciona una vision rapida y precisa de lasituacion. Su utilidad no solo se manifiesta en la exposicion de los resultados finales, sino que cada vez seemplean mas para obtener una vision preliminar del comportamiento de los datos de nuestro problema,su distribucion aproximada, su tendencia, sus valores extremos etc., detalles que nos indican hacia dondepodemos orientar el estudio. Este analisis exploratorio de datos que es como se conoce en la literaturaestadstica a esta y a otras tecnicas que nos aproximan al problema, se ha generalizado por la gran facilidadde los paquetes estadsticos comerciales para trazar de manera rapida y sencilla una gran variedad degraficos.En esta leccion solo consideraremos algunos tipos de graficos que suelen ser los mas empleados. Para unaexposicion mas detallada puede consultarse el captulo primero del libro de Mendenhall referenciado enla bibliografa.

  • 7/21/2019 tema1 matematicas

    6/17

    Tema 1. Estadstica descriptiva 6

    4.1. Polgonos de frecuencias

    El primero de ellos es el usual diagrama cartesiano. Se emplea cuando la variable es cualitativa o cuandoes cuantitativa pero no toma demasiados valores distintos. En el eje horizontal se representan los valoresde la variable, y en el vertical las respectivas frecuencias. Ello da origen a una representacion graficaformada por puntos aislados, que para mejorar su aspecto, se unen mediante segmentos rectilneos. Elresultado es una lnea quebrada, y de ah el nombre polgono de frecuencias.

    Figura 1: Ejemplo de polgono de frecuencias.

    Ejemplo: Durante dos meses se ha contabilizado el numero de das de baja por enfermedad de una

    muestra de 100 trabajadores de una empresa. Los resultados estan en la tabla que sigue

    Das de baja no de trabajadores

    0 351 202 163 94 105 8

    mas de 5 2

    En la Figura 1 se muestra un polgono de frecuencias para estos datos.

    4.2. Histogramas

    Cuando los datos estan agrupados en clases es preferible el empleo de una representacion llamadahisto-gramaconstituida por rectangulos cuyas bases corresponden a la anchura de cada clase, y las alturas alas respectivas frecuencias.

    Ejemplo:

    Los datos de la tabla que sigue son los tiempos en segundos de CPU (unidad central de procesos) de 25trabajos realizados por un ordenador.

    0, 02 0, 15 0, 19 0, 47 0, 71 0, 75 0, 82 0, 92 0, 96 1, 16 1, 17 1, 23 1, 381, 40 1, 59 1, 61 1, 94 2, 01 2, 16 2, 41 2, 59 3, 07 3, 53 3, 76 4, 75

    La correspondiente distribucion de frecuencias con los datos agrupados en 7 clases es

  • 7/21/2019 tema1 matematicas

    7/17

    Tema 1. Estadstica descriptiva 7

    Clases Frecuencias

    0,015 0,715 50,715 1,415 91,415 2,115 42,115 2,815 32,815 3,515 13,515 4,215 24,215 4,915 1

    En la Figura 2 se ha trazado el histograma correspondiente a esta distribuci on de frecuencias.

    Figura 2: Ejemplo de histograma. En el eje horizontal se han colocado los extremos de las

    clases.

    4.3. Diagrama de Pareto

    En problemas de control de calidad y de analisis de fallos en procesos, es frecuente el uso de diagramasque reunen un histograma y un polgono de frecuencias, llamado diagrama de Pareto1. En el losrectangulos correspondientes a cada una de las clases estan colocados de izquierda a derecha en ordende frecuencias decrecientes, y superpuesto se coloca un polgono de frecuencias relativas acumuladas. Aderecha e izquierda se situan ejes en los que se marcan las frecuencias absolutas y las frecuencias relativasacumuladas respectivamente.Aunque este tipo de diagrama puede usarse indistintamente para datos cuantitativos y cualitativos , seprefiere su uso para estos ultimos.

    Ejemplo:En un proceso de fabricacion de circutos integrados, las causas mas frecuentes de fallos sonlas que se indican en la siguiente tabla junto con la frecuencia de cada una de ellas en una muestra de 31circutos examinados

    1Vilfredo Frederigo Samaso, Marques de Pareto 18481923, sociologo y economista italiano.

  • 7/21/2019 tema1 matematicas

    8/17

    Tema 1. Estadstica descriptiva 8

    Causa de fallo Frecuencia

    corrosion 2oxido 8

    contaminacion 14metalizacion 2

    silicio 1doping 1varios 3

    En la Figura 3 se ha trazado un diagrama de Pareto para estos datos. Observando el diagrama podemos

    Figura 3: Ejemplo de diagrama de Pareto.

    deducir que la contaminacion afecta a mas del 40 % de los circutos seguido del oxido que afecta a casi el30 %. No se olvide que las alturas de los rectangulos (las frecuencias absolutas) se miden en el eje de laizquierda, y la posicion de los puntos del polgono de frecuencias (las frecuencias relativas acumuladas),se miden en el eje de la derecha.

    4.4. Diagrama de sectores

    Si el caracter estudiado tiene pocos valores distintos (como suele ocurrir con los caracteres cualitativos)

    se puede usar un diagrama en forma de crculo dividido en tantos sectores como datos distintos haya,en el que el angulo de cada sector es proporcional a la frecuencia relativa del correspondiente dato. Estarepresentacion grafica se denomina diagrama de sectores o diagrama de tarta. Tambien puedenemplearse para datos cuantitativos agrupados en clases, y en tales casos, cada sector corresponde a unaclase. Dada la ndole de esta representacion, solo se utiliza para distribuciones de frecuencias relativasusualmente expresadas en porcentajes.

    Ejemplo:La encuesta de poblacion activa elaborada por el Instituto Nacional de Estadstica referenteal cuarto trimestre de 1970 presenta para el numero de empleados por rama de actividad los siguientesdatos

  • 7/21/2019 tema1 matematicas

    9/17

    Tema 1. Estadstica descriptiva 9

    Rama de actividad Miles de empleados

    Agricultura, caza y pesca 3706,3Fabriles 3437,8

    Construccion 1096,3Comercio 1388,3

    Transporte 648,7Otros servicios 2454,8

    En la Figura 4 se muestra un diagrama de sectores para esta distribucion de frecuencias.

    Figura 4: Ejemplo de diagrama de sectores.

    5. Medidas de centralizacion

    Con el nombre de medidas de centralizacion se denominan a determinados valores que, bien por-que ocupan posiciones centrales, o bien porque cerca de ellos se situan un numero apreciable de datos,destacan en una distribucion de frecuencias. Estos valores son de alguna manera representativos detoda la muestra y en ello estriba su interes. Piensese por ejemplo en las calificaciones obtenidas por unapersona en los distintos ejercicios que componen un examen. Para asignar una calificaci on global a eseexamen, se toma la media aritmetica como una medida que en cierta forma representa y reune en un solodato, las calificaciones parciales.

    A continuacion pasamos a definir tres de esas medidas que son con mucho las mas importantes.

    5.1. Media aritmetica

    Definicion 5.1 Si al medir un caracter cuantitativo sobre los elementos de una muestra, obtenemos losvaloresX1, X2, . . . , X n, se llamamedia aritmeticade la correspondiente distribucion de frecuencias a

    x= 1

    n

    ni=1

    Xi

    Si consideramos los datos distintos x1, x2, . . . , xk (k n) y sus respectivas frecuencias n1, n2, . . . , nk,podemos escribir

    x= 1n

    ni=1

    Xi =

    k

    i=1

    nixi

    ki=1

    ni

    .

  • 7/21/2019 tema1 matematicas

    10/17

    Tema 1. Estadstica descriptiva 10

    Si los datos estan agrupados en p clases, y llamamos xi al representante de la i-esima clase, la mediaaritmetica se define as

    x= 1

    n

    pi=1

    nixi

    Al hacer uso dexi estamos en la hipotesis de espaciado uniforme de los datos dentro de cada clase, lo queno es en general cierto. Debido a ello, si en una muestra no agrupamos los datos y calculamos la mediaaritmetica, el valor obtenido diferira ligeramente del que resultara con los mismos datos pero agrupadosen clases.

    5.2. Moda

    Definicion 5.2 Si los datos obtenidos de una muestra no estan agrupados, se llamamodade la corres-pondiente distribucion de frecuencias al dato (o datos) de mayor frecuencia. Suele representarse con el

    smbolo x.Se deduce de esta definicion que una distribucion de frecuencias puede tener mas de una moda, inclusopuede no tener ninguna, lo que ocurrira en el caso poco comun de que todos los datos tuvieran igualfrecuencia.

    Cuando los datos estan agrupados en clases, se define laclase modal exactamente de la misma forma, yen algunas ocasiones, se llama moda al representante de la clase modal. No obstante, si las clases contiguas

    i1 i i+1 i+2

    ni ni+1

    ni ni1

    x

    Xi1 Xi Xi+1

    Figura 5: Calculo aproximado de la moda.

    a la clase modal no tienen igual frecuencia, parece conveniente tener en cuenta esta asimetra, y tomarcomo moda a un punto de la clase modal que este mas proximo a la clase contigua de mas frecuencia.Para ello observemos la Figura 5 de la que se deduce

    x lini ni1 =

    li+1 xni ni+1

    y por lo tanto

    x

    li(ni ni+1) +li+1(ni ni1)

    2ni ni1 ni+1Ejemplos:

    a) En la siguiente distribucion de frecuencias

  • 7/21/2019 tema1 matematicas

    11/17

    Tema 1. Estadstica descriptiva 11

    dato 1 2 3 4 5 7 9

    frecuencia 3 4 3 2 1 1 4se observa que hay dos modas, que son los datos 2 y 9.

    b) La duracion en horas, agrupadas en clases, de una muestra de focos se expone en la siguiente tabla

    duracion frecuencias duracion frecuencias

    9501050 4 15501650 5310501150 9 16501750 3711501250 19 17501850 2012501350 36 18501950 913501450 51 19502050 314501550 58 20502150 1

    De la observacion de la tabla se deduce que la clase modal, que en este caso es unica, es la sexta, ya quesu frecuencia f6 = 58 es la mayor de todas. Para calcular aproximadamente la moda de la distribucion,con la formula anterior, observemos que

    l6= 1449,5 l7= 1549,5 n5= 51 n6= 58 n7= 53

    luego

    x 1449,5(58 53) + 1549,5(58 51)2 58 51 53 = 1507,83

    Si hubiera mas clases modales, el calculo aproximado de las modas se hara aplicando este procedimientoa cada una de dichas clases modales.

    5.3. MedianaDefinicion 5.3 Si al medir un caracter cuantitativo sobre los elementos de una muestra, obtenemos unnumero impar de datosn, y los ordenamos de menor a mayor, se llama medianaal dato que ocupa ellugar central, es decir al(n+ 1)/2esimo. Si el numero de datos es par, se llama medianaa la mediaarimetica de los dos datos que ocupan los lugares centrales. As si l lamamosx a la mediana, tenemos

    x=

    X(n+1)/2 si n es impar

    Xn/2+X(n+2)/22

    si n es par

    Si los datos no estan agrupados en clases, el calculo de la mediana se lleva a cabo mediante una simpleinspeccion de los datos ordenados, pero cuando los datos estan agrupados, para el calculo de la mediana

    es preciso localizar aquella clase (digamos la iesima) que cumple las desigualdadesNi1

    n

    2

    Como la mediana es un numero menor (o igual) que la mitad de los datos y mayor (o igual) que la otramitad, debe encontrarse en esta iesima clase. Aceptando, como es habitual, la hipotesis de espaciado

    uniforme de los datos dentro de cada clase, podemos plantear de acuerdo con la Figura 6 la siguienteproporcionalidad

    li+1 lix li =

    nin

    2 Ni1

    de la que resulta

    x= li+

    n

    2 Ni1

    ni(li+1 li)

  • 7/21/2019 tema1 matematicas

    12/17

    Tema 1. Estadstica descriptiva 12

    1 2 3

    i x i+1

    n/2 datos

    Ni1datos fidatos

    Figura 6: Calculo aproximado de la mediana.

    Dado que una vez mas hemos hecho la suposicion de que los datos se encuentran dentro de cada clase,igualmente distribudos, el calculo de la mediana mediante este ultimo procedimiento diferira ligeramente

    del que se obtendra sin proceder a la agrupacion de los datos.Ejemplos:

    a) Los numeros que siguen son valores de resistencias (en ohmios) de una muestra de veinte.

    96 96 97 98 99 99 100 100 101 101102 103 103 103 104 106 106 108 110 110

    Dado que el numero de datos es par, la mediana es la media aritmetica de los dos centrales, es decir deldecimo y el undecimo:

    x=101 + 102

    2 = 101,5

    b) En la siguiente tabla se encuentran agrupados en clases, los valores de la resistencia a la compresi on

    (en kg/cm3) de bloques de hormigon:

    marcas de clase 200 225 250 275 300 325 350 375 400 425 450 475 500

    frecuencias 1 4 6 9 10 19 17 11 7 2 3 0 1

    Observemos que la frecuencia acumulada de la quinta clase es N5 = 30, y la de la sexta N6 = 49, luegoen esta ultima ha de estar la mediana, ya que la mitad del numero de datos es n/2 = 90/2 = 45. Loslmites de la sexta clase son l6= 312,5 y l7= 337,5, y su frecuencia n6= 19. Con toda esta informacionpodemos calcular la mediana por el procedimiento aproximado explicado mas arriba

    x 312,5 +45 3019

    (337,5 312,5) = 332,24

    6. Medidas de dispersion

    Contrariamente a las medidas de centralizacion que informan de la concentracionde los datos alrededorde ciertos valores notables, las medidas de disp ersiondan cuenta del esparcimientoque presentan talesdatos. La mas elemental de todas es la que definimos a continuacion

    6.1. Recorrido

    Definicion 6.1 Si sonX1, X2, . . . , X n los datos cuantitativos y sin agrupar obtenidos de la muestra, yllamamosXmn eXmax al mas pequeno y al mas grande de ellos, se llama recorrido a

    R= Xmax XmnEl recorrido es una medida muy facil de calcular, pero la informacion que da es de una utilidad relativa,ya que es muy sensible a la presencia de un dato muy pequeno o muy grande. En efecto, en una situacionen la que los datos estuvieran muy concentrados (es decir, hubiera poco esparcimiento) pero uno s olo de

  • 7/21/2019 tema1 matematicas

    13/17

    Tema 1. Estadstica descriptiva 13

    ellos estuviera muy alejado de los demas, tendramos un valor grande del recorrido estando sin embargolos datos muy concentrados.No obstante, si el numero de datos es pequeno, es poco probable que haya alguno muy distinto de losdemas, por lo que en aquellas aplicaciones en las que se utilicen muestras peque nas, y sobre todo sison muchas, como en las cartas de control usadas en el Control Estadstico de la Calidad, el recorridoconstituye una medida de dispersion util y comoda de calcular.

    6.2. Varianza, cuasivarianza, desviacion tpica y cuasidesviacion tpica

    De uso mas comun son las medidas de dispersion que involucran las desviacionesde los datos en torno aciertos valores centrales como la media aritmetica.Consideremos de nuevo los datos cuantitativos distintos x1, x2, . . . , xk obtenidos de la muestra, y sea xla media aritmetica. Se llama desviaciondel iesimo dato a

    di = xi x i= 1, 2, . . . , kAhora bien, en cada muestra hay tantas desviaciones como datos distintos, lo que no es muy pr actico.As que reuniendo la informacion proporcionada por las desviaciones en un solo numero para que resultemas manejable, definimos la desviacion mediacomo la media aritmetica de las desviaciones:

    1

    n

    ki=1

    ni(xi x)

    Pero la desviacion media siempre es cero como es facil comprobar:

    1

    n

    k

    i=1

    ni(xi

    x) = 1

    n

    k

    i=1

    nixi

    1

    n

    k

    i=1

    nix= x

    x

    n

    k

    i=1

    ni = x

    x

    nn = 0.

    Esta propiedad, debida a que las desviaciones positivas y negativas se compensan, la hace completamenteinutil. Podemos no obstante evitar esta dificultad si tomamos los valores absolutos de las desviaciones:

    1

    n

    ki=1

    ni|xi x|

    Esta medida de dispersion informa del esparcimiento de los datos de la muestra promediando las dis-persiones, y en ese sentido tiene interes. Ademas, a diferencia del recorrido, tiene en cuenta a todos losdatos, y no solo a los mas extremos, pero presenta el inconveniente de lo inc omodo que resulta bajo elpunto de vista del calculo, el empleo de los valores absolutos.

    Para superar esta ultima dificultad, reeemplazamos los valores absolutos por los cuadrados de las disper-siones resultando la siguiente

    Definicion 6.2 Se llamavarianzade la muestra a

    s2 = 1

    n

    ki=1

    ni(xi x)2

    Se llamadesviacion tpicade la muestra a:

    s=

    1n

    ki=1

    ni(xi x)2

    La razon de considerar la desviacion tpica como medida de dispersion ademas de la varianza es queaquella se mide en las mismas unidades que los datos de la muestra en tanto que la varianza se mide en

  • 7/21/2019 tema1 matematicas

    14/17

    Tema 1. Estadstica descriptiva 14

    el cuadrado de esas unidades. Por eso, en ocasiones resulta mas descriptivo el empleo de la desviaciontpica.

    La varianza y la desviacion tpica son poco utiles para la inferencia estadstica. Ello es debido a que comoestimadores de la varianza y de la desviacion tpica de la poblacion, sonsesgados. El significado de estaultima frase quedara claro al estudiar la Estadstica Inferencial. Cuando abordemos su estudio, necesi-taremos unos conceptos muy similares a la varianza y a la desviacion tpica pero que como estimadoresseaninsesgados, es por ello que definimos

    Definicion 6.3 Se llamacuasi varianzade la muestra a

    s2c = 1

    n 1k

    i=1

    ni(xi x)2

    Se llama cuasi desviacion tpicade la muestra a:

    sc =

    1n 1

    ki=1

    ni(xi x)2

    El denominador n de la varianza se explica porque la varianza es la media aritmetica de los cuadradosde las desviaciones, pero no as la cuasi varianza que resulta por lo tanto menos intuitiva. La razon deemplear el denominador n 1 en la cuasi varianza se pondra de manifiesto al estudiar la estadsticainferencial. La relacion entre ambas esta dada por la igualdad

    s2c = n

    n 1s2

    6.3. Cuantiles

    Otras medidas de dispersion que vamos a considerar estan basadas en la misma idea que sirvi o paradefinir la mediana. Recordemos que esta es un numero por debajo del cual se encuentra la mitad de losdatos de la muestra. Se presentaba una disyuntiva entre si el numero de datos era par o impar, lo queobligaba a considerar dos definiciones distintas. Pero nada de eso ocurra si los datos estaban agrupados enclases, procediendose en tal caso al empleo de una formula aproximada. Para las medidas que definiremosa continuacion, se presentan tambien diferentes posibilidades segun que el numero de datos sea o nodivisible por 4, pero el considerar las alternativas posibles complicara mucho la exposicion y hara pocopracticos los conceptos que se van a definir, de modo que de entrada partiremos de que los datos est anagrupados en clases.

    Busquemos aquel valor por debajo del cual se encuentra la cuarta parte de los datos. Para ello debemoslocalizar el valor de i que cumple

    Ni1 n

    4

    el numero buscado tiene que encontrarse en la iesima clase. Si lo llamamosq1 tenemos el esquema de laFigura 7. Con respecto a tal figura, y en la hipotesis de espaciado uniforme de los datos dentro de cada

    clase, podemos plantear la siguiente proporcionalidad

    li+1 liq1 li =

    nin

    4 Ni1

    de la que resulta

    q1= li+

    n

    4 Ni1

    ni (li+1 li)De modo completamente analogo consideraramos el valor q3 por debajo del cual se encuentran las trescuartas partes de los datos y definir

  • 7/21/2019 tema1 matematicas

    15/17

    Tema 1. Estadstica descriptiva 15

    1 2 3

    i q1 i+1

    n/4 datos

    Ni1datos nidatos

    Figura 7: Calculo del primer cuartil.

    Definicion 6.4 En una muestra den datos, se llama:

    a) primer cuartil

    q1= li+n4 Ni1

    ni(li+1 li)

    dondei es el numero que verificaNi1

    n

    4

    b) tercer cuartil

    q3= li+

    3n

    4 Ni1

    ni(li+1 li)

    dondei es el numero que verificaNi1

    3n

    4

    En esta definicion, li y li+1 son los lmites de la i

    esima clase, y ni y Ni las frecuencias absoluta y

    absoluta acumulada de la misma clase. Es evidente que el segundo cuartil es la medianaEjemplo:

    Se elige una muestra de dispositivos electronicos de entre los producidos en una lnea de fabricacion, y semide para cada uno de ellos el tiempo transcurrido (en horas), entre dos fallos sucesivos. Los resultados,agrupados en clases, se encuentran en la siguiente tabla

    Tiempo entre fallos Numero de fallos Numero de fallos acumulados

    [0, 50) 3 3[50, 100) 7 10

    [100, 150) 13 23[150, 200) 18 41[200, 250) 22 63

    [250, 300) 21 84[300, 350) 12 96[350, 400) 8 104[400, 450) 1 105

    Puesto quen = 105, tenemos n

    4 = 26,25, as que el primer cuartil se encuentra en la cuarta clase, ya que

    N3= 23< 26,25< 41 =N4. Los l mites y la frecuencia de esa clase son l4= 149,5,l5= 199,5 yn4= 18,as que el primer cuartil es

    q1= 149,5 + 26,25 23

    18 (199,5 149,5) = 158,53

    Analogamente, el tercer cuartil es

    q3= 249,5 + 78,75 63

    21 (299,5 249,5) = 287

    Esta definicion es susceptible de generalizacion de esta manera:

  • 7/21/2019 tema1 matematicas

    16/17

    Tema 1. Estadstica descriptiva 16

    Definicion 6.5 En una muestra den datos, se llamajesimo decil (j = 1, 2, . . . , 9) a

    dj =li+

    jn10 Ni1

    ni(li+1 li)

    dondei es el numero que verificaNi1

    jn

    10

    y tambien de esta otra

    Definicion 6.6 En una muestra den datos, se llamajesimo percentil (j = 1, 2, . . . 99)a

    pj =li+

    jn

    100 Ni1

    ni

    (li+1

    li)

    dondei es el numero que verificaNi1< jn

    100 yNi >

    jn

    100.

    Ejemplos:

    a) Calcular el septimo decil de la distribucion de frecuencias dada en la siguiente tabla

    clases frecuencias

    1024 152539 254054 425569 50

    7084 388599 30

    El numero de datos es n = 200, de modo que jn

    10 =

    7 20010

    = 140. Observando la tabla podemos ver que

    N4 = 132 < 140 < 170 = N5, luego k = 5. Los lmites y la frecuencia absoluta de la quinta clase sonl5= 69,5, l6= 84,5, n5= 38, con lo cual estamos en condiciones de calcular el decil pedido:

    d7= 69,5 +

    7 20010

    13238

    (84,5 69,5) = 75,026.

    b) Vamos ahora a calcular el 32 percentil de la misma distribucion. Tenemos que jn

    100 =

    32 200100

    = 64.

    De la tabla se deduce que N2 = 40< 64 < 82 =N3, luego i = 3. Los lmites y la frecuencia absoluta dela tercera clase son l3= 39,5, l4= 54,5, n3= 42, as que podemos calcular el percentil pedido:

    p32= 39,5 +

    32 200100

    4042

    (54,5 39,5) = 48,071.

    Todas estas medidas (cuartiles, deciles y percentiles) reciben el nombre generico de cuantiles. De unmodo expresivo, pero sin mucha precision si el numero de datos es pequeno, podemos decir que el primercuartil es un numero por debajo del cual se halla el 25 % de los datos y por encima el 75 % restante.Asimismo, el sexto decil es un numero por debajo del cual se encuentra el 60 % de los datos y por encimael 40 % restante, y el 89 percentil, el numero por debajo del cual esta el 89 % de los datos y por encimael restante 11 %.

  • 7/21/2019 tema1 matematicas

    17/17

    Tema 1. Estadstica descriptiva 17

    6.4. Coeficiente de variacion

    Cuando se estudian los errores en las medidas, se emplea el error relativo para tener en cuenta no solo eltamanodel error (error absoluto) sino tambien el tamanode la medida, ya que un error de 10 en unamedida de 1000, supone un 1 % mientras que en una medida de 100 es un 10 %. De modo analogo, unadesviacion tpica de 10 en una muestra de media 1000 puede ser menos importante que en una muestrade media 100. Por ello se define un concepto analogo al error relativo, y como el suele expresarse enporcentajes despues de multiplicarlo por 100.

    Definicion 6.7 Se llamacoeficiente de variacion(o de dispersi on) de una muestra de mediax y

    desviacion tpicas al cocienteCV = s

    x.

    El coeficiente de variacion es independiente de las unidades en que se hayan expresado los datos, por ellopuede usarse para comparar distribuciones de frecuencias cuyos datos esten en diferentes unidades.

    Un inconveniente del coeficiente de variacion es que pierde su utilidad en distribuciones con media cercanaa cero.

    7. Bibliografa

    Calot G. Curso de Estadstica Descriptiva. Paraninfo

    Huntsberger D.V. y Billingsley P. Elementos de Estadstica Inferencial. Compania Editorial Conti-nental 1983.

    Mendenhall W. y Sincich T. Probabilidad y Estadstica para Ingeniera y Ciencias (4a edicion).Pearson Educacion 1995.

    Spiegel M.R. Estadstica. McGraw-Hill. (Coleccion Schaum)

    Walpole R.E., Myers R.H. y Myers, S. L. Probabilidad y Estadstica para Ingenieros (6a edicion).Pearson Educacion 1998.