estadc3adstica apuntes unidad 1 parte final 1

10
Estadística y Diseño Experimental Página - 34 La desviación típica y otras medidas de dispersión DISPERSIÓN O VARIACIÓN La dispersión o variación de los datos intenta dar una idea de cuan esparcidos se encuentran éstos. Hay varias medidas de tal dispersión, siendo las más comunes el rango, la desviación media, el rango semi-intercuartilar, el rango percentilar 10-90 y la desviación típica o estándar. EL RANGO El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos ellos. EJEMPLO 1. El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. A veces el rango se indica dando el par de valores extremos; así, en este ejemplo, seria 2-12. LA DESVIACIÓN MEDIA 1 2 N La desviación media o desviación promedio, de un conjunto de N números X , X , …, X es abreviada por DM y se define como (19) j j donde es la media aritmética de los números y |X | es el valor absoluto de la desviación de X respecto de (El valor absoluto de un número es el número sin signo y se denota con dos barras verticales; así |-4| = 4, |+3| = 3, |6| = 6 y |-0.84| = 0.84.) EJEMPLO 2. Hallar la desviación media del conjunto 2, 3, 6, 8, 11. 1 2 K 1 2 K Si X , X , ..., X ocurren con frecuencias f , f , ... , f, respectivamente, la desviación media se puede escribir como (20) j j Esta forma es útil para datos agrupados, donde los X representan las marcas de clase y los f son las correspondientes frecuencias de clase. Ocasionalmente se define la desviación media en términos de desviaciones absolutas respecto de la mediana u otro promedio, en vez de la media. Una propiedad interesante de la suma

Upload: lola-mento

Post on 05-Nov-2015

216 views

Category:

Documents


3 download

TRANSCRIPT

  • Estadstica y Diseo Experimental Pgina - 34

    La desviacin tpica y otras medidasde dispersinDISPERSIN O VARIACIN

    La dispersin o variacin de los datos intenta dar una idea de cuan esparcidos se encuentran stos.Hay varias medidas de tal dispersin, siendo las ms comunes el rango, la desviacin media, elrango semi-intercuartilar, el rango percentilar 10-90 y la desviacin tpica o estndar.

    EL RANGO

    El rango de un conjunto de nmeros es la diferencia entre el mayor y el menor de todos ellos.

    EJEMPLO 1. El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. A veces el rango seindica dando el par de valores extremos; as, en este ejemplo, seria 2-12.

    LA DESVIACIN MEDIA

    1 2 NLa desviacin media o desviacin promedio, de un conjunto de N nmeros X , X , , X esabreviada por DM y se define como

    (19)

    j jdonde es la media aritmtica de los nmeros y |X | es el valor absoluto de la desviacin de Xrespecto de (E l valor absoluto de un nmero es el nmero sin signo y se denota con dos barrasverticales; as |-4| = 4, |+3| = 3, |6| = 6 y |-0.84| = 0.84.)

    EJEMPLO 2. Hallar la desviacin media del conjunto 2, 3, 6, 8, 11.

    1 2 K 1 2 KSi X , X , ..., X ocurren con frecuencias f , f , ... , f , respectivamente, la desviacin media se puedeescribir como

    (20)

    j jEsta forma es til para datos agrupados, donde los X representan las marcas de clase y los f son lascorrespondientes frecuencias de clase.Ocasionalmente se define la desviacin media en trminos de desviaciones absolutas respecto de la

    mediana u otro promedio, en vez de la media. Una propiedad interesante de la suma

  • Estadstica y Diseo Experimental Pgina - 35

    es que es mnima cuando a es la mediana (o sea, la desviacin media respecto de la mediana esmnima).Ntese que sera ms apropiado usar la terminologa desviacin media absoluta que desviacinmedia.

    EL RANGO SEMI-INTERCUARTILAR

    El rango semi-intercuartilar, o desviacin cuartilar, de un conjunto de datos se denota por Q y sedefine como

    (21)

    1 3 3 1donde Q y Q son el primer y tercer cuartil de esos datos. El rango intercuartilar Q Q tambinse usa a veces, pero menos que el rango semi-intercuartilar, como medida de dispersin.

    EL RANGO PERCENTILAR 10-90

    El rango percentilar 10-90 de un conjunto de datos se define por

    90 10Rango percentilar 10-90 = P - P (22)

    l0 90donde P y P son los dcimo y nonagsimo percentiles de esos datos. Puede usarse tambin el90 10Rango Semipercentilar 10-90 = (P - P ). Pero no es frecuente.

    LA DESVIACIN TPICA O ESTNDAR

    1 2 NLa desviacin estndar de un conjunto de N nmeros X , X , ..., X se denota por s y se definecomo

    (23)

    jdonde x representa las desviaciones de cada uno de los nmeros X respecto de la media . As ques es la raz cuadrada de la media de las desviaciones cuadrticas, o como se le llama en ocasiones,la desviacin raiz-media-cuadrado.

    1 2 K 1 2 KSi X , X , ..., X ocurren con frecuencias f , f , , f , respectivamente, la desviacin estndar puedeexpresarse

    (24)

    De esta forma resulta til para datos agrupados.A veces se define la desviacin estndar de los datos de una muestra con (N 1) reemplazando a Nen los denominadores de (23) y (24), porque el valor resultante da una mejor estimacin de ladesviacin estndar de la poblacin total. Para grandes valores de N (ciertamente para N > 30), nohay prcticamente diferencia entre ambas definiciones. Adems, cuando se necesita esa mejor

  • Estadstica y Diseo Experimental Pgina - 36

    estimacin, siempre podemos obtenerla multiplicando la aqu definida por . Por tanto,nos quedaremos con la eleccin (23) y (24).

    LA VARIANZA

    La varianza de un conjunto de datos se define como el cuadrado de la desviacin estndar y vienedada en consecuencia por s en las ecuaciones (23) y (24).2Cuando sea necesario distinguir la desviacin estndar de una poblacin de la de una muestra dedicha poblacin, usaremos el smbolo s para esta ltima y (sigma griega minscula) para laprimera. De modo que s y representaran la varianza de la muestra y la varianza de la2 2poblacin, respectivamente.

    MTODOS CORTOS PARA CALCULAR LA DESVIACIN ESTNDAR

    Las ecuaciones (5) y (6) se pueden escribir, respectivamente, en las formas equivalentes

    (25)

    (26)

    donde denota la media de los cuadros de los diversos valores de X, mientras d e n o t a e lcuadrado de la media de los valores de X.

    j j jSi d = X A son las desviaciones de X respecto de alguna constante arbitraria A, los resultados(25) y (26) se convierten, respectivamente, en

    (27)

    (28)

    Cuando se tienen los datos agrupados en una distribucin de frecuencias cuyos intervalos de clasej j j jtienen la misma anchura c, tenemos d = cu o sea X = A + cu y (28) pasa a ser

  • Estadstica y Diseo Experimental Pgina - 37

    (29)

    Esta ltima frmula proporciona un mtodo muy breve para calcular la desviacin estndar y debeusarse para datos agrupados con igual anchura en sus intervalos de clase. Se llama mtodo decompilacin y es similar al utilizado para el clculo de la media aritmtica de datos agrupados.

    PROPIEDADES DE LA DESVIACIN ESTNDAR

    1. La desviacin estndar puede definirse .como

    donde a es cualquier valor presuntivo de promedio. De tales desviaciones estndares, lamnima es aquella para la cual a = , debido a la Propiedad 2 de la media aritmtica. Estapropiedad da una buena razn para adoptar la definicin del comienzo.

    2. Para distribuciones normales, resulta (ver figura 1.17):

    (a) 68,27% de los casos estn entre X& s y X& + s (o sea, una desviacinestndar a cada lado de la media).

    (b) 95,45% de los casos estn entre X& 2s y X& + 2s (o sea, dos desviacionesestndares a cada lado de la media).

    (c) 99,73% de los casos entre X& 3s y X& + 3s (o sea, tres desviacionesestndares a cada lado de la media).

    Para distribuciones poco asimtricas, los anteriores porcentajes son aproximadamentevlidos.

    1 23. Supongamos que dos conjuntos de N y N nmeros (o dos distribuciones de frecuencias1 2 1 2con frecuencias totales N y N tienen varianza dadas por s y s , respectivamente, y2 2

    tienen la misma media X&. Entonces la varianza combinada de ambos conjuntos (o deambas distribuciones de frecuencias) vendr dada por

    (30)

    Figura 1.17

  • Estadstica y Diseo Experimental Pgina - 38

    Ntese que esto es una medida aritmtica ponderada de las varianzas. El resultado admitegeneralizacin a ms conjuntos.

    COMPROBACIN DE CHARLIER

    La comprobacin de Charlier en clculos de la media y de la desviacin tpica por el mtodo decompilacin hace uso de las identidades

    CORRECCIN DE SHEPPARD PARA LA VARIANZA

    El clculo de la desviacin estndar es algo errneo como resultado del agrupamiento de datos enclases (error de agrupamiento). Para corregirlo, se usa la frmula

    (31)

    donde c es la anchura del intervalo de clase. La correccin c /12 (que se resta) se llama correccin2de Sheppard. Se usa para distribuciones de variables continuas donde las colas vangradualmente hacia cero en ambas direcciones.Los estadsticos difieren respecto de cundo y dnde debe aplicarse la correccin. Ciertamente nodebe aplicarse antes de examinar cuidadosamente la situacin, pues a menudo tiende asobrecorregir, con lo que sustituye un error por otro. En nuestro curso, salvo indicacin expresa,no la usaremos.

    RELACIONES EMPRICAS ENTRE MEDIDAS DE DISPERSIN

    Para distribuciones poco sesgadas, se tienen las frmulas empricas

    (32)

    donde:DM = Desviacin medias = desviacin estndar

    y(33)

    donde:RSQ = Rango Semiintercuartilars = desviacin estndar

    Ambas son consecuencia del hecho de que la desviacin media y el rango semi-intercuartilar parala distribucin normal son iguales, respectivamente, a 0,7979 y 0,6745 veces la desviacinestndar.

  • Estadstica y Diseo Experimental Pgina - 39

    DISPERSIN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIN

    La variacin o dispersin real, tal como se determina en la desviacin estndar u otra medida dedispersin, se llama la dispersin absoluta. Sin embargo, una dispersin (o variacin) de 25centmetros en la medida de 350 metros es muy diferente de esa misma dispersin al medir unadistancia de 10 metros. Una medida de este efecto la da la dispersin relativa, a saber

    (34)

    Si la dispersin absoluta es la desviacin estndar s y el promedio es la media X& , entonces ladispersin relativa se denomina coeficiente de variacin, o coeficiente de dispersin; se denotarpor V y se define como

    (35)

    y se expresa en general en forma de porcentaje.

    Ntese que el coeficiente de variacin es independiente de las unidades usadas. Por esa razn estil al comparar distribuciones con unidades diferentes. Una desventaja del coeficiente devariacin es que pierde su utilidad cuando X& es prxima a cero.VARIABLES TIPIFICADAS: UNIDADES ESTNDAR

    La variable que mide la desviacin de la medida en unidades de la desviacin estndar se llamauna variable tipificada o estandarizada, es adimensional (independiente de las unidades usadas) yviene dada por

    (36)

    Si las desviaciones de la media se dan en unidades de la desviacin estndar, se dicen expresadasen unidades estndar, o recuentos estndar. Son de gran valor al comparar distribuciones.

  • Estadstica y Diseo Experimental Pgina - 40

    PROBLEMAS PROPUESTOS

    EL RANGO

    1.125 Hallar el rango de los conjuntos (a) 12, 6, 7, 3, 15, 10, 18, 5 y (b) 9, 3, 8, 8, 9, 8, 9, 18.

    1.126 Hallar el rango de las alturas de los estudiantes de la Tabla 1.1.

    1.127 Hallar el rango de los conjuntos de nmeros (a) 5, 3, 8, 4, 7, 6, 12, 4, 3 y (b) 8,772, 6,453,10,624, 8,628, 9,434, 6,351.

    1.128 Hallar el rango de las cargas mximas del Problema 1.52, Tabla 1.17.

    1.129 Hallar el rango de los dimetros de remaches del Problema 1.54, Tabla 1.19.

    1.130 La mayor de 50 medidas es 8,34 kilogramos (Kg). Si el rango es 0,46 Kg, hallar la menorde esas medidas.

    1.131 Determinar el rango de los datos en (a) Problema 1.55, (b) Problema 1.78 y (c) Problema1.20.

    LA DESVIACIN MEDIA

    1.132 Hallar la desviacin media de los conjuntos de nmeros del Problema 1.125.

    1.133 Hallar la desviacin media de las alturas de los 100 estudiantes de la Universidad XYZ(Tabla 1.1)

    1.134 Hallar los valores absolutos de (a) -18,2, (b) +3,58, (c) 6,21, (d) 0, (e) - y (f) 4,00 2,36 3,52.

    1.135 Hallar la desviacin media del conjunto (a) 3, 7, 9, 5 y (b) 2,4, 1,6, 3,8, 4,1, 3,4.

    1.136 Hallar la desviacin media de los conjuntos de nmeros del Problema 1.125.

    1.137 Hallar la desviacin media de las cargas mximas del Problema 1.52, Tabla 1.17.

    1.138 (a) Hallar la desviacin media de los dimetros del Problema 1.54, Tabla 1.19.(b) Qu porcentaje de ellos est entre ( DM), ( 2 DM) y ( 3 DM)?

    1.139 Para el conjunto de nmeros 8, 10, 9, 12, 4, 8, 2, hallar la desviacin media respecto de (a)la media y (b) la mediana. Verificar que la desviacin media de la mediana no es mayorque la de la media.

    1.140 Para la distribucin de la Tabla 1.18, Problema 1.53, hallar la desviacin media respectode (a) la media y (b) la mediana.

    1.141 Para la distribucin de la Tabla 1.20, Problema 1.55, hallar la desviacin media respectode (a) la media y (b) la mediana.

    1.142 Explicar por qu la desviacin media es o no una buena medida de dispersin para ladistribucin de la Tabla 1.21 del Problema 1.78.

  • Estadstica y Diseo Experimental Pgina - 41

    1.143 Deducir frmulas de compilacin para calcular la desviacin media respecto de (a) lamedia y (>) la mediana, de una distribucin de frecuencias. Aplicar estas frmulas a laverificacin de los resultados de los Problemas 1.140 y 1.141.

    EL RANGO SEMI-INTERCUARTILAR

    1.144 Hallar el rango semi-intercuartilar para la distribucin de alturas de la Universidad XYZ(Tabla 1.1)

    1.145 Hallar el rango semi-intercuartilar para los salarios de los 65 empleados de la empresaP&R (Tabla 1.6) del Problema 1.7).

    1.146 Hallar el rango semi-intercuartilar para la distribucin del (a) Problema 1.52, (b) Problema1.53 y (c) Problema 1.116. Interpretar los resultados claramente en cada caso.

    1.147 Hallar el rango semi-intercuartilar para la distribucin de (a) Problema 1.31 y (b)Problema 1.78, interpretando los resultados en cada caso. Comparando con otras medidasde dispersin, explicar las ventajas del rango semi-intercuartilar para este tipo dedistribuciones.

    1.148 Probar que para cualquier distribucin de frecuencias el porcentaje total de casos que caen2en el intervalo es 50%. Es eso cierto para el intervalo Q

    ? Explicar la respuesta.

    1.149 (a) Cmo representara el rango semi-intercuartilar de una distribucin defrecuencias dada?

    (b) Cul es la relacin del rango semi-intercuartilar con la ojiva de la distribucin?

    EL RANGO PERCENTILAR 10-90

    1.150 Hallar el rango percentil 10-90 de las alturas de la Tabla 1.1.

    1.151 Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.52 y (b) Problema1.116. Interpretar cada resultado.

    1.152 Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.31 y (b) Problema1.78. Interpretar los resultados. Qu ventajas y desventajas ofrece el rango percentil 10-90 frente a otras medidas de dispersin?

    1.153 Qu ventajas y desventajas tendra un rango percentil 20-80 comparado con el rangopercentil 10-90?

    LA DESVIACIN ESTNDAR

    1.154 Hallar la desviacin estndar s de los conjuntos de nmeros del Problema 1.125.

    1.155 Hallar la varianza de los conjuntos de nmeros del Problema 1.125.

    1.156 Hallar la desviacin estndar de las alturas de estudiantes de la Tabla 1.1.

  • Estadstica y Diseo Experimental Pgina - 42

    1.157 Hallar la desviacin estndar de los conjuntos de nmeros (a) 3, 6, 2, 1, 7, 5; (b) 3,2, 4,6,2,8, 5,2, 4,4 y (c) 0, 0, 0, 0, 0, 1, 1, 1.

    1.158 (a) Sumando 5 a cada nmero del conjunto 3, 6, 2, 1, 7, 5, obtenemos 8, 11, 7, 6, 12,10. Probar que ambos conjuntos de nmeros tienen la misma desviacin estndarpero diferentes medias. Cmo estn relacionadas las medias?

    (b) Multiplicando cada nmero en 3, 6, 2, 1, 7, y 5 por 2 y sumando entonces 5,obtenemos el conjunto 11, 17, 9, 7, 19, 15. Cul es la relacin entre la desviacinestndar y las medias de ambos conjuntos?

    (c) Qu propiedades de la media y de la desviacin estndar quedan ilustradas porlos conjuntos particulares elegidos en las partes (a) y (b)?

    1.159 Hallar la desviacin estndar del conjunto de nmeros de la progresin aritmtica 4, 10,16, 22,..., 154.

    CALCULO DE LA DESVIACIN ESTNDAR PARA DATOS AGRUPADOS

    1.160 Hallar la desviacin estndar del conjunto de nmeros 12, 6, 7, 3, 15, 10, 18, 5.

    1.161 Hallar la desviacin estndar de las alturas de estudiantes de la Universidad XYZ (Tabla1.1) mediante (a) la frmula corta y (b) con el mtodo de compilacin.

    1.162 Por mtodos de compilacin, hallar (a) la media y (b) la desviacin estndar para ladistribucin de salarios del Problema 1.7.

    1.163 La Tabla 1.24 muestra los IQ (coeficientes de inteligencia) de 480 nios de una escuelaelemental. Mediante el mtodo de compilacin, hallar (a) la media y (b) la desviacinestndar.

    Tabla 1.24jMarca de clase X 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126

    jFrecuencia f 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2

    COMPROBACIN DE CHARLIER

    1.164 Usar la comprobacin de Charlier para verificar los clculos de (a) la media y (b) ladesviacin estndar, efectuados en el Problema 1.163.

    CORRECCIONES DE SHEPPARD PARA LA VARIANZA

    1.165 Aplicar la correccin de Sheppard para determinar la desviacin estndar de los datos del(a) Problema 1.161, (b) Problema 1.162 y (c) Problema 1.163.

    1.166 Hallar, para la distribucin de frecuencias del Problema 1.12, (a) la media, (b) ladesviacin estndar, (c) la desviacin estndar usando la correccin de Sheppard y (d) laverdadera desviacin estndar para los datos sin agrupar.

    RELACIONES EMPRICAS ENTRE MEDIDAS DE DISPERSIN

    1.167 Para la distribucin de alturas de la Universidad XYZ, discutir la validez de las frmulasempricas que relacionan (a) desviacin media con la desviacin estndar y (b) el rangosemi-intercuartilar con la desviacin estndar.

  • Estadstica y Diseo Experimental Pgina - 43

    PROPIEDADES DE LA DESVIACIN Estndar

    1.168 Determinar el porcentaje de los IQ del Problema 1.163 que caen en los rangos(a) s,(b) 2s y(c) 3s.

    1.169 Dados los conjuntos de nmeros 2, 5, 8, 11, 14 y 2, 8, 14, hallar (a) la media de cada uno,(b) la varianza de cada uno, (c) la media combinada y (d) la varianza combinada.

    1.170 Resolver el Problema 1.169 para los conjuntos 2, 5, 8, 11, 14 y 10, 16, 22.

    DISPERSIN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIN

    1.171 Un fabricante de tubos de televisin produce dos tipos de tubos, A y B, que tienen vidasA B Amedias respectivas = 1.495 horas y = 1.875 horas, y desviacin estndar de s =

    B280 horas y s = 310 horas. Qu tubo tiene (a) mayor dispersin absoluta y (b) mayordispersin relativa?

    1.172 En un examen final de Estadstica, la puntuacin media de 150 estudiantes fue de 78, y ladesviacin estndar 8,0. En lgebra, la media fue 73 y la desviacin estndar 7,6. En qumateria fue mayor (a) la dispersin absoluta y (b) la dispersin relativa?

    1.173 Hallar el coeficiente de variacin para los datos de (a) Problema 1.52 y (b) Problema1.116.

    1.174 (a) Definir una medida de la dispersin relativa que pueda utilizarse para un conjuntode datos cuyos cuartiles son conocidos.

    (b) Ilustrar el clculo de la medida definida en (a) mediante los datos del Problema1.144

    VARIABLES TIPIFICADAS: UNIDADES ESTNDAR

    1.175 Un estudiante obtuvo 84 puntos en el examen final de Matemticas, en el que la notamedia fue 76, y la desviacin estndar 10. En el examen final de Fsica obtuvo 90 puntos,siendo la media 82 y la desviacin estndar 16. En qu examen sobresali ms?

    1.176 (a) Convertir los IQ del Problema 1.163 en un recuento estndar y (b) construir una grficade frecuencias relativas versus recuento estndar.

    1.177 En los exmenes a que se refiere el Problema 1.172, un alumno obtuvo 75 en Estadstica y71 en lgebra. En qu examen sobresali ms?

    1.178 Convertir el conjunto 6, 2, 8, 7, 5 en un recuento estndar (o referencias tipificadas).

    1.179 Probar que la media y la desviacin estndar de un recuento estndar son 0 y 1,respectivamente. Ilustrar esto mediante el Problema 1.178.