00apuntes

Upload: jsebas24

Post on 19-Jul-2015

113 views

Category:

Documents


0 download

TRANSCRIPT

ApuntesdeESTADISTICA6dejuniode2011SixtoSanchezMerinoDpto.deMatem aticaAplicadaUniversidaddeMalagaMi agradecimiento a los profesores del departamento del Ma-tematicaAplicadadelaUniversidaddeM alagaconlos quehecompartido asignatura enlos ultimos cursos academicos y, enparticular, aloscompa nerosCarlosCerezo, InmaculadaFortes,CarlosGuerrero, JoseMoronesyAgustnValverde, porsusco-rreccionesysugerenciasenlaelaboraciondeestosapuntes.ApuntesdeEstadstica2011,SixtoS anchezMerino.EstetrabajoestaeditadoconlicenciaCreativeCommonsdeltipo:Reconocimiento-Nocomercial-Compartirbajolamismalicencia3.0Espa na.Ustedeslibrede:copiar,distribuirycomunicarp ublicamentelaobra.hacerobrasderivadas.Bajolascondicionessiguientes:Reconocimiento. Debe reconocer los creditos de la obra de la manera especicadapor el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyooapoyanelusoquehacedesuobra).Nocomercial.Nopuedeutilizarestaobraparanescomerciales.Compartirbajolamismalicencia.Sialteraotransformaestaobra,ogenerauna obra derivada, solo puede distribuir la obra generada bajo una licencia identicaa esta.Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia deestaobra.Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de losderechosdeautor.Nadaenestalicenciamenoscabaorestringelosderechosmoralesdelautor.Indicegeneral1. Estadsticadescriptiva 111.1. Conceptoselementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2. Distribucionesdefrecuenciasdeuncaracter . . . . . . . . . . . . . . . . . . . . . 131.2.1. Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.2. Distribucionesdiscretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2.3. Distribucionescontinuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3. Representacionesgracas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3.1. Caracterescualitativos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.3.2. Caracterescuantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.4. Medidasdeposicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.4.1. Mediaaritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.4.2. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.4.3. Mediana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.4.4. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.5. Medidasdedispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.5.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.5.2. Desviacionmedia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.5.3. Varianzasydesviaciontpica . . . . . . . . . . . . . . . . . . . . . . . . . 321.5.4. Coecientedevariacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351.5.5. Momentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361.6. Medidasdeforma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.6.1. Medidasdeasimetra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371.6.2. Medidasdeapuntamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 391.7. Relaciondeproblemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4134INDICEGENERAL1.8. AnexoI:ComandosdeR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492. Regresionycorrelacion 532.1. Distribucionesbidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532.1.1. Representaciontabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532.1.2. Representacionesgracas . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.1.3. DistribucionesMarginales . . . . . . . . . . . . . . . . . . . . . . . . . . . 582.1.4. DistribucionesCondicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 592.1.5. Distribucionesconjuntas:Momentosmixtos . . . . . . . . . . . . . . . . . 602.2. Regresionycorrelacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642.2.1. Relacionentrevariables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642.2.2. Regresion:Metododelosmnimoscuadrados . . . . . . . . . . . . . . . . 672.2.3. Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712.3. Elmodelolineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732.3.1. Regresionlineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732.3.2. Correlacionlineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 762.4. Modelosderegresionnolineal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 812.4.1. Linealizaciondemodelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822.4.2. Ajusteparabolico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 832.4.3. Otrosajustes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 852.4.4. Bondaddelajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872.5. Relaciondeproblemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892.6. AnexoI:Justicaciondealgunosresultados . . . . . . . . . . . . . . . . . . . . . 972.6.1. Descomposiciondelasvarianzasparaelmodelolinealderegresion . . . . 972.6.2. ElcoecientedecorrelacionlinealdePearson(r)esunn umerocompren-didoentre-1y1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 972.7. AnexoII:ComandosdeR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 993. Seriesestadsticas 1033.1. N umeros ndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1033.1.1. Clasicacionden umeros ndice . . . . . . . . . . . . . . . . . . . . . . . . 1043.1.2. Propiedadesdelosn umeros ndice . . . . . . . . . . . . . . . . . . . . . . 1043.2.Indicessimples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105Dpto. MatematicaAplicada(UniversidaddeMalaga)INDICEGENERAL 53.2.1.Indicessimpleselementales(ISE) . . . . . . . . . . . . . . . . . . . . . . . 1053.2.2.Indicessimplesencadena(ISC) . . . . . . . . . . . . . . . . . . . . . . . . 1073.2.3. Relaciondeprecios,cantidadesyvalores. . . . . . . . . . . . . . . . . . . 1083.3.Indicescomplejos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1103.3.1.Indicescomplejossinponderar . . . . . . . . . . . . . . . . . . . . . . . . 1113.3.2.Indicescomplejosponderados . . . . . . . . . . . . . . . . . . . . . . . . . 1123.3.3.Indicesdeprecios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1133.4. Seriesden umeros ndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1163.4.1. Cambiodeperiodobase . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1163.4.2. Renovacionyempalme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1173.4.3. Deaciondeseriesestadsticas . . . . . . . . . . . . . . . . . . . . . . . . 1183.5. SeriesTemporalesoCronologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 1213.5.1. Representaciongraca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1213.5.2. PromediosoMediasMoviles . . . . . . . . . . . . . . . . . . . . . . . . . 1213.6. Analisisdelasseriestemporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1233.6.1. Tendenciasecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1243.6.2. Variacionesestacionalesoperiodicas . . . . . . . . . . . . . . . . . . . . . 1253.6.3. Variacionescclicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1253.6.4. Variacionesaleatorias,irregularesoaccidentales . . . . . . . . . . . . . . 1253.7. Estimaciondelatendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1253.7.1. Metodograco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1253.7.2. Metododelasmediasmoviles. . . . . . . . . . . . . . . . . . . . . . . . . 1263.7.3. Metododemnimoscuadrados . . . . . . . . . . . . . . . . . . . . . . . . 1273.7.4. Metododesemipromedios . . . . . . . . . . . . . . . . . . . . . . . . . . . 1283.8. Estimaciondelavariacionestacional . . . . . . . . . . . . . . . . . . . . . . . . . 1293.8.1. Metododelamediamovilenporcentajes . . . . . . . . . . . . . . . . . . 1293.8.2. Metododelporcentajemedio . . . . . . . . . . . . . . . . . . . . . . . . . 1313.8.3. Estimaciondelavariacionestacionalparaelmodeloaditivo. . . . . . . . 1333.8.4. Desestacionalizaciondeunaserietemporal . . . . . . . . . . . . . . . . . 1343.9. Estimaciondelasvariacionescclicas . . . . . . . . . . . . . . . . . . . . . . . . . 1363.10. Estimaciondelasvariacionesaleatorias . . . . . . . . . . . . . . . . . . . . . . . 137ApuntesdeMetodosEstadsticosparalaComputacion6INDICEGENERAL3.11. Relaciondeproblemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1394. Probabilidad 1474.1.AlgebradeBooledesucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1484.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1494.2.1. Denicionaxiomaticadeprobabilidad . . . . . . . . . . . . . . . . . . . . 1494.2.2. Relacionentrefrecuenciasyprobabilidad . . . . . . . . . . . . . . . . . . 1514.3. Probabilidadcondicionada.Sucesosindependientes . . . . . . . . . . . . . . . . . 1524.4. Teoremadelaprobabilidadtotal.TeoremadeBayes . . . . . . . . . . . . . . . . 1544.4.1. Teoremadelaprobabilidadtotal . . . . . . . . . . . . . . . . . . . . . . . 1544.4.2. TeoremadeBayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1554.5. ANEXO:Combinatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1564.5.1. Identicaciondelproblema . . . . . . . . . . . . . . . . . . . . . . . . . . 1574.6. Relaciondeproblemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1595. Variablealeatoria 1735.1. Variablealeatoriaunidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . 1745.2. Funciondedistribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1745.3. Variablealeatoriadiscreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1755.3.1. Distribuciondeprobabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 1755.3.2. Funciondedistribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1775.3.3. Funciongeneratrizdeprobabilidad. . . . . . . . . . . . . . . . . . . . . . 1785.4. Variablealeatoriacontinua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1795.4.1. Funciondedensidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1795.4.2. Funciondedistribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1805.5. Esperanzamatematicayotrasmedidas . . . . . . . . . . . . . . . . . . . . . . . 1825.5.1. Esperanzamatematica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1825.5.2. Momentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1825.5.3. Funciongeneratrizdemomentos . . . . . . . . . . . . . . . . . . . . . . . 1835.5.4. Medidasdeposicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1845.5.5. Medidasdedispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1855.5.6. Medidasdeforma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186Dpto. MatematicaAplicada(UniversidaddeMalaga)INDICEGENERAL 75.6. Variablealeatoriabidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1875.6.1. Funciondedistribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1875.6.2. Tiposdevariablesaleatoriasbidimensionales . . . . . . . . . . . . . . . . 1885.7. Relaciondeproblemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1956. Distribucionesdeprobabilidad 2076.1. Distribucionesuniformes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2076.1.1. Distribucionuniformediscreta . . . . . . . . . . . . . . . . . . . . . . . . 2076.1.2. Distribucionuniformecontinua . . . . . . . . . . . . . . . . . . . . . . . . 2086.1.3. Distribucionuniformebidimensional . . . . . . . . . . . . . . . . . . . . . 2086.2. DistribucionBinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2096.2.1. DistribuciondeBernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . 2096.2.2. DistribucionBinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2106.2.3. DistribucionMultinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 2116.2.4. DistribucionHipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . 2126.2.5. DistribucionBinomialnegativa . . . . . . . . . . . . . . . . . . . . . . . . 2136.3. Distribucionesasociadasafenomenosaleatoriosdeespera . . . . . . . . . . . . . 2146.3.1. DistribuciondePoisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2146.3.2. DistribucionGeometricaodePascal . . . . . . . . . . . . . . . . . . . . . 2166.3.3. DistribucionExponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 2176.4. Distribucionesnormales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2186.4.1. DistribucionNormalodeLaplace-Gauss. . . . . . . . . . . . . . . . . . . 2186.4.2. Distribucionnormalbidimensional . . . . . . . . . . . . . . . . . . . . . . 2206.4.3. Teoremacentraldellmite. . . . . . . . . . . . . . . . . . . . . . . . . . . 2206.5. Distribucionesderivadasdelanormal . . . . . . . . . . . . . . . . . . . . . . . . 2216.5.1. Distribucion2dePearson . . . . . . . . . . . . . . . . . . . . . . . . . . 2216.5.2. DistribuciontdeStudent . . . . . . . . . . . . . . . . . . . . . . . . . . . 2236.5.3. DistribucionFdeFisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . 2246.6. SimulacionyMetododeMontecarlo . . . . . . . . . . . . . . . . . . . . . . . . . 2256.7. Relaciondeproblemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2276.8. RelaciondeproblemasIITemas4,5y6. . . . . . . . . . . . . . . . . . . . . . 2316.9. AnexoI:Justicaciondealgunosresultados . . . . . . . . . . . . . . . . . . . . . 235ApuntesdeMetodosEstadsticosparalaComputacion8INDICEGENERAL6.9.1. DistribucionBinomal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2356.9.2. PropiedadesdelafuncionGamma . . . . . . . . . . . . . . . . . . . . . . 2357. Inferenciaestadstica 2397.1. Inferenciaestadstica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2397.1.1. Teorademuestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2407.2. Estimacionparametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2417.2.1. Estimacionpuntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2417.2.2. Estimacionporintervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2447.3. ContrastedeHipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2457.4. Inferencianoparametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2497.4.1. Bondaddeajuste.Tabladecontingencia . . . . . . . . . . . . . . . . . . . 2507.4.2. Contrastedehomogeneidaddevariasmuestras . . . . . . . . . . . . . . . 2527.4.3. Contrastededependenciaoindependenciadecaracteres.Tablasdecontingencia K M. . . . . . . . . . . . . . . . . . . . . . . . 2537.5. Relaciondeproblemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255A. Tablasdeintervalosdeconanza 265B.Tablasdecontrastesdehipotesis(regionesderechazo) 269C.Tablasdelasdistribucionesdeprobabilidad 275Dpto. MatematicaAplicada(UniversidaddeMalaga)ApuntesdeESTADISTICAEstadsticadescriptivaSixtoSanchezMerinoDpto.deMatem aticaAplicadaUniversidaddeMalagaMi agradecimientoalosprofesoresCarlosCerezoCasermeiroyCarlosGuerreroGarca,porsuscorreccionesysugerenciasenlaelaboraciondeestosapuntes.ApuntesdeEstadstica2011,SixtoS anchezMerino.EstetrabajoestaeditadoconlicenciaCreativeCommonsdeltipo:Reconocimiento-Nocomercial-Compartirbajolamismalicencia3.0Espa na.Ustedeslibrede:copiar,distribuirycomunicarp ublicamentelaobra.hacerobrasderivadas.Bajolascondicionessiguientes:Reconocimiento. Debe reconocer los creditos de la obra de la manera especicadapor el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyooapoyanelusoquehacedesuobra).Nocomercial.Nopuedeutilizarestaobraparanescomerciales.Compartirbajolamismalicencia.Sialteraotransformaestaobra,ogenerauna obra derivada, solo puede distribuir la obra generada bajo una licencia identicaa esta.Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia deestaobra.Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de losderechosdeautor.Nadaenestalicenciamenoscabaorestringelosderechosmoralesdelautor.Captulo1EstadsticadescriptivaLaestadsticadescriptivaeslaramadelaestadsticaquetrataladescripcionyanalisisdelosdatosdeunapoblacion,sinpretenderextenderogeneralizarsusresultadosyconclusionesaotraspoblacionesdistintasomasamplias.Ladescripcionconsiste enenumerar los elementos yrasgos que conguranunarealidadmediantelaobservacionolamedida.Elanalisisdelapoblacionestaconstituidoporlosproce-dimientos existentes para la determinacion de los distintos aspectos, propiedades y relaciones delosconjuntosdedatos.Laestadsticadescriptivaimplicalacoleccion, clasicacion, analisiseinterpretaciondelosdatos en un proceso de organizacion y sntesis de la informacion. Estos sencillos trabajos de orde-nar,contar,clasicar,registrarinformaticamente,etc.requierenmuchotiempo(quesetraduceencostes)yunaespecialatencionparaevitarposibleserroresiniciales.Enestecaptulosetratandistintosmetodosdeclasicacionyrepresentaciondelosdatosysedetallanlosparametrosmasimportantesparaelanalisis,lainterpretacionylaobtencionderesultados.Entrelosejemplosqueilustranlosconceptos, sehanseleccionadodosdeellosquehacenreferencia a un estudio del traco (ejemplo 1.5 de la pagina 16) y a las calicaciones de un grupode alumnos (ejemplo 1.7 de la pagina 17).El recorrido de estos dos ejemplos a lo largo de todaslassecciones,ilustraunestudioestadsticocompleto.Por ultimo, algunas cuestiones interesantes se tratan a modo de ejercicios autocontenidos enlarelaciondeproblemaspropuestosalnaldelcaptulo.Suinteresquedajusticadoporelusoconjuntodelastecnicasestudiadasenelcaptuloyporsusnumerosasaplicacionespracticas.1.1. ConceptoselementalesComocualquier otraciencia, laestadsticautilizasupropiaterminologayparaaccederal conocimientoresultaimprescindible dominar sulenguaje. Conviene familiarizarse conlosconceptosqueseintroducenenestecaptuloysercapazdeidenticarlos.Acontinuacionse presentanlas deniciones de los elementos basicos que intervienenencualquierestudioestadstico.1112 1.1.ConceptoselementalesPoblacion. Sedenominauniverso, colectivo, poblacionestadsticaosimplementepoblacionalconjunto de elementos que son objeto de estudio. Las poblaciones podran ser consideradas nitaso innitas seg un la naturaleza o el n umero de elementos que la compongan, y en cualquier caso,estoselementosdebenestarperfectamentedelimitadosybiendenidos.Individuo. Se denomina unidad estadsticao individuoa cada uno de los elementos de lapoblacion descritos mediante una serie de caractersticas a las que se reere el estudio estadstico.Muestra.Unamuestraesunsubconjuntonovaciodeindividuosdelapoblacion.Lamuestra,debidamenteelegida, sesometeaobservacioncientca, enrepresentaciondel conjuntototal,conelpropositodeobtenerresultadosvalidosparatodalapoblacion.Eln umerodeelementosquecomponenlamuestrasedenominatama nomuestral ysicoin-cideconeltama nodelapoblacion,lamuestrasedenominacenso.Portanto,realizaruncensoimplicaelestudiodetodalapoblacion.Lasdicultadespararealizaruncenso(poblacionin-nita,dicultaddeaccesoatodoslosindividuos,costeeconomico,capacidaddetrabajo,tiemponecesario, etc.) hacen que sea preferible usar una muestra. En este caso, las tecnicas de inferenciaestadsticapermitiranobtenerresultadosdetodalapoblacionapartirdelosobtenidosenlamuestra.Encuesta. Laencuestaes unprocedimientodeobservacionqueconsisteenlaobtenciondedatosmediantelainterrogacionalosmiembrosdeunapoblacionolamedidadelosmismos.Caracteres.Loscaracteressonlascualidadesomagnitudesdelosindividuosdelapoblacionquesonobjetodeestudio. Loscaracterespuedensercualitativos(porejemplo, nacionalidadocolordelpelo)ocuantitativos(porejemplo,n umerodehijosometroscuadradosdevivienda).Los caracteres cualitativos recibenel nombre de atributos ylos designaremos utilizandopreferentemente las primeras letras del alfabeto en may usculas (A,B,C,...). Los caracteres cuan-titativossedenominanvariablesestadsticas ylosdesignaremosutilizandopreferiblementelas ultimasletrasdelalfabetoenmay usculas(...,X,Y,Z).A su vez, las variables pueden ser discretas (por ejemplo, n umero de acciones vendidas un daen la Bolsa de Valores, n umero de estudiantes matriculados en una Universidad, ...) o continuas(por ej. vidamediadelos tubos detelevisionproducidos por unafabrica, longitudde1000tornillos producidos por unaempresa, temperaturas medidas enunobservatoriocadamediahora)seg unlanaturalezadelosvaloresnumericos.Caracteres___Cualitativos(atributos)Cuantitativos(variableestadstica)_DiscretosContinuosModalidades. Las diferentes situaciones posibles del caracter se denominan modalidades.Estasdebenestarbiendenidasdetalmaneraquecadaindividuopertenezcaaunaysolouna unicamodalidad. Las denotaremos haciendo uso de una letra min uscula, correspondiente al nombre delcaracter, con un subndice de orden. Por ejemplo, x1, x2, ..., xkdenotan las distintas modalidadesdelavariableestadsticaX.Ejemplo1.1Serealizaunestudiosobreel tipodesoftware(libreopropietario)utilizadoenlossistemasdegestiondebasesdedatosdelasempresasmalague nas.Paraello,seconsultote-lefonicamente a 10 empresas elegidas al azar. Determinar los conceptos estadsticos elementales.Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 13Enestecaso, lapoblacionestaconstituidaportodaslasempresasmalague nasqueusansoft-wareparalagestiondebasesdedatos.Laencuestaserealizamediantellamadatelefonicayelresultadoesunamuestrade10valoresdel caractertipodesoftwareparalagestiondebasesdedatosqueresultaserunatributocuyasdosmodalidadessonlibreypropietario. Enel casodelasvariablescuantitativassepuedendenirfuncionesquepermitenobtenermedidas descriptivas a partir de las observaciones. El objetivo de estas medidas es proporcionarinformacionsobrelascaractersticasdeladistribuciondelosdatos.Parametro. Un parametro es una funcion que permite obtener una medida descriptiva numericaapartirdelosvaloresdeuncaractermedibledelapoblacion. Porejemplo, lamediadeunapoblacionsecalculadividiendolasumadelosvaloresdelavariableentreel n umerototal deindividuos.Estasmedidassuelenserdesconocidaspuesparacalcularlassenecesitaefectuaruncenso.Estadstico. Un estadstico es una funcion denida sobre los valores numericos de una muestra.Estafuncionpermiteobtenerunamedidadescriptivaqueseutilizaparaobtenerinformacionsobrealgunodelosparametrosdesconocidosdelapoblacion. Porejemplo, el estadsticome-diaaritmeticadelos datos deunamuestraseusaparaestimar el parametromediadelapoblacion.Ejemplo1.2Estimarlacompresionmediadelmotorinstaladoenlosautomovilesdeunciertomodeloproducidosporunafabricaapartirdel estudioefectuadoen100vehculos.Seconsideralapoblacionformadaportodoslosautomovilesdeesemodeloproducidosporlafabrica. El conjuntode100autom ovilesextradosdedichapoblacionconstituyeunamuestradetama no100.Serealizaunaencuestaqueconsisteenmedirlacompresiondelmotorencadaunodeellos. El resultadoesunamuestrade100valoresdel caractercompresiondel motorquees unavariablecontinuacuyas modalidades correspondenatodas las posibles relacionesvolumetricas. Si secalculalamediadelos 100datos decompresionseobtieneunvalor delestadsticoqueproporcionainformacionsobreelparametromediadelapoblaciontotal. 1.2. DistribucionesdefrecuenciasdeuncaracterUno de los conceptos sobre el que se basaran muchas deniciones posteriores y que simplicalapresentaciondelosdatoseseldefrecuenciaon umerodevecesqueapareceunadeterminadamodalidaddeuncaracterosuproporcionsobreel total. Lasdistintasmodalidadesjuntoasufrecuenciacorrespondienteconstituyeladistribuciondefrecuencias deuncaracter.1.2.1. FrecuenciasEnadelanteseconsideraraunapoblacionomuestradetama noNenlaqueseobservaraelcaracter Xque presenta las modalidades x1, x2, ..., xk (ordenadas de menor a mayor, si el caracterescuantitativo).FrecuenciaAbsoluta. Se llama frecuencia absoluta de un valor xidel caracter X, y se denotaporni,aln umerodeindividuosobservadosquepresentanestamodalidad.ApuntesdeMetodosEstadsticosparalaComputacion14 1.2.DistribucionesdefrecuenciasdeuncaracterFrecuenciaRelativa.SellamafrecuenciarelativadeunvalorxidelcaracterX,ysedenotaporfi,alcocienteentrelafrecuenciaabsolutayeltotaldeindividuos.fi=niNi = 1, 2, ..., kLafrecuenciarelativarepresentalaproporciondeindividuosquepresentanunadeterminadamodalidadysepuedeexpresarentantosporciensinmasquemultiplicarporcienel cocientedelaformulaanterior.Ejemplo1.3De la siguiente frase:La representacion graca no esmas que un medio auxiliardelainvestigacionestadstica,puesestaesfundamentalmentenumerica,obtenerlasdistribu-cionesdefrecuenciasdelasvocales.Las frecuencias absolutas de las modalidades a, e, i, o y u del atributo vocales son15, 16, 11, 4 y 6 respectivamente y suman un total de 52 observaciones. Por tanto, la frecuenciarelativadecadaunadelasmodalidadeses15/52,16/52,11/52,4/52y6/52queexpresadasentantosporcienson29 %,31 %,21 %,8 %y11 %aproximadayrespectivamente.Elsignicadodeestasfrecuenciasestaclaro.Porejemplo,lafrecuenciaabsolutadelavocalaes15,esdecir,delas52vocalescontenidasenlafrase,15deellassonlavocala,loquecorrespondeal29 %deltotal. Cuandoel caracterescuantitativo, tienesentidodenirtambienlassiguientesfrecuenciasacumuladas:Frecuencias Acumuladas Absolutas yRelativas. SellamafrecuenciaacumuladadeunvalorxidelavariableXalasumadelasfrecuenciasdelosvaloresquesonmenoresoigualesael.Lasfrecuenciasacumuladassedenen,tantoparalasfrecuenciasabsolutas,quesedenotanporNi,comoparalasrelativas,quesedenotanporFi.SilosvaloresxiestanordenadosdeformacrecienteentoncesNi=i

j=1njy Fi=i

j=1fj=NiNi = 1, 2, ..., kDualmente, se podran haber denido estas frecuencias con los datos ordenados de forma de-creciente. Seg un la denicion utilizada se denominan frecuencias absolutas/relativas acumuladascrecientesodecrecientes.Delasdenicionesanterioressedestacanlassiguientespropiedadeselementales:1) 0 ni N 2)k

i=1ni= N 3) ni= NiNi14) 0 fi 1 5)k

i=1fi= 1 6) fi= FiFi1quepuedenusarseamododepruebaparadetectarposibleserroresinicialesenelcalculodeladistribuciondefrecuencias.Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 15Ejemplo1.4Comoestudiopreliminaraunaencuestadetraco, fuenecesariorecabarciertainformacionacercadeln umerodeocupantesenlosautomovilesqueentrabanaunapoblacioneldomingoporlatarde;paraellosecontoeln umerodeocupantesen40deesosautomoviles,yseobtuvieronlossiguientesdatos:1 3 2 2 3 1 1 2 2 1 1 4 3 1 3 2 3 2 2 21 2 5 1 3 1 2 1 3 1 4 1 1 3 4 2 2 1 1 4ObtenerladistribuciondefrecuenciasacumuladasdelavariableXquerepresentael n umerodeocupantesenlosautomoviles.Siordenamosde1a5lasmodalidadesdelavariableXycontamoseln umerodeobservacionescorrespondientes a cada modalidad, obtenemos las frecuencias absolutas 15,12, 8, 4 y 1, de cadauna de las modalidades. Por lo tanto, la frecuencias acumuladas absolutas para las modalidades 1a 5 son 15, 27, 35, 39 y 40 respectivamente. Las correspondientes frecuencias acumuladas relativasseobtienendividiendolasabsolutaspor40queeseltama nodelamuestra,yobtenemos0375,0625,0875,0975y1. Generalmente, lasdistribucionesdefrecuenciassepresentanenformadetabla, dondelosdatos se agrupan por modalidades. A cada modalidad se le asigna su frecuencia (absoluta, relativaoacumulada)paraconstituirladenominadatablaestadsticaodefrecuencias. Estaformaderepresentacionpermitetenerorganizadayresumidalainformacioncontenidaenelconjuntodedatosypresentadadeformamascomprensibleysignicativa.Las distribuciones de frecuencias de una sola variable son basicamente de dos tipos: discretasycontinuas.Estaclasicacionnocorrespondeexactamenteconlostiposdecaracteressinomasbienenconsideracionaln umerodeobservacionesyaln umerodevaloresdistintosquetomalavariable.1.2.2. DistribucionesdiscretasSeconsideraqueladistribuciondelosdatosesdiscretasi el caracterescualitativo, osi elcaracter es cuantitativo, pero el n umero de modalidades es peque no en relacion con el n umerodeobservaciones.EstetipodedistribucionestambienseconocecomodistribucionesdetipoII.Para construir la tabla estadstica correspondiente basta con disponer en columnas los pocosvalores distintos de la variable, ordenados de menor a mayor, y sus correspondientes frecuencias,comosemuestraenlagura1.1.xinifiNiFix1n1f1N1F1x2n2f2N2F2...............xknkfkNkFkFigura1.1:TabladefrecuenciasdeunadistribuciondiscretaPararealizar los calculos dealgunos parametros, queestudiaremos mas adelante(media,varianza, momentos, etc.), se pueden a nadir columnas que contienen operaciones para los valoresApuntesdeMetodosEstadsticosparalaComputacion16 1.2.Distribucionesdefrecuenciasdeuncaracterdecadamodalidad. Ademas, estetipodetablassecompletana nadiendounalaquecontienealgunasdelassumasporcolumnas, delosdatoscorrespondientes(veaseel ejercicio24delapagina46,enlarelaciondeproblemas).Ejemplo1.5Representar,enunatablaestadstica,ladistribuciondefrecuenciasdelosdatosdel ejemplo1.4delapagina15.Se observa que la variable X que determina el n umero de ocupantes en los automoviles presentaun reducido n umero de modalidades (1, 2, 3, 4 y 5), de tal manera que, aunque haya un elevadon umerodeobservaciones,estassepuedenagruparhaciendousodelafrecuencia,talycomoserecogeenlatabladelagura1.2.xinifiNiFi1 15 0

375 15 0

3752 12 0

300 27 0

6753 8 0

200 35 0

8754 4 0

100 39 0

9755 1 0

025 40 1Suma 40 1Figura1.2:Tabladefrecuenciasparalosdatosdelejemplo1.5

Existen distribuciones que constan de un reducido n umero de observaciones y, en consecuen-cia, lavariabletomaunreducidon umerodevaloresdistintos. Estasdistribucionestambienseconoce como distribuciones de tipo I, y para construir la tabla estadstica basta simplemente conanotarordenadamentelasobservacionesenlaoencolumna,generalmentedemenoramayor.x1, x2, x3, . . . , xNEjemplo1.6Para realizar un estudio sobre la venta semanal de ordenadores en una determina-daempresadeinformatica,seobserva,durante5semanas,eln umerodeordenadoresvendidos,obteniendoselossiguientesresultados: 10, 12, 20, 6y10. Representarsudistribuci ondefre-cuencias.Ladistribuciondefrecuenciasserepresentaordenandolosdatos: 6 , 10 , 10 , 12 , 20. 1.2.3. DistribucionescontinuasAlgunasvariablesdiscretasy, engeneral, lasvariablesdenaturalezacontinuadanlugaraconjuntos de datos en los que el n umero de modalidades es muy variado. Consideraremos que unadistribucion es continua cuando presenta un elevado n umero de observaciones y de modalidadesdistintas. Enestoscasosnoresultaapropiadoescribirtodaslasmodalidadesenunacolumna,comosehizoenelcasodiscreto.Paratabularestosdatosconvieneagruparlosenintervalosqueconstituyenunaparticion,ydeterminareln umerodeindividuosquepertenecenacadaunodeellos.EstetipodedistribucionestambienseconocecomodistribucionesdetipoIII.Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 17Tomarel intervalocomounidaddeestudio, enlugardecadavalordelavariable, suponeuna simplicacion pero resulta una perdida de informacion. Por lo tanto, es importante elegir unn umero adecuado de intervalos que equilibre estos dos aspectos y que constituyan una particiondel mismo. Seg un las caractersticas del conjunto de datos, en la bibliografa se proponen distintasformas de establecer el n umero de intervalos en funcion del tama no (N) de la muestra. Un criteriosencillousadofrecuentementeesconsiderarunn umerodeintervalosaproximadamenteigual alarazcuadradadeln umerodedatos,esdecir,N.Cadaintervalosedenominaclaseyaladiferenciaentreel extremosuperior(Li)einferior(Li1) se le llama amplituddelaclaseodelintervalo y se denota por aique puede ser variableoconstanteparatodoslosintervalos. Al serunaparticion, launiondetodoslosintervaloshaderecubriratodoslosvaloresdelavariable(exhaustivo)perosinsolaparse(excluyente). Laelecciondeln umerodeintervalosysuamplitudesimportantesisequiereidenticareltipodedistribucionysuscaractersticas.Se llama marcadeclase del intervalo i-esimo y se denota porxial punto medio del intervaloyserael valorquerepresentaralainformaciondel intervaloal quepertenececomosi fueraunvalordelavariable.Paraconstruirahoralatablaestadsticasecolocanordenadamenteyporcolumnaslosin-tervalos,lasmarcasdeclaseylasfrecuenciascorrespondientes,comosemuestraenlatabladelagura1.3.Li1, LixinifiNiFi[L0, L1] x1n1f1N1F1(L1, L2] x2n2f2N2F2..................(Lk1, Lk] xknkfkNkFkFigura1.3:TabladefrecuenciasdeunadistribucioncontinuaEjemplo1.7LascalicacionesnalesenMatematicasde100estudiantesfueron:11 46 58 25 48 18 41 35 59 28 35 2 37 68 70 31 44 84 64 8226 42 51 29 59 92 56 5 52 8 1 12 21 6 32 15 67 47 61 4743 33 48 47 43 69 49 21 9 15 11 22 29 14 31 46 19 49 51 7152 32 51 44 57 60 43 65 73 62 3 17 39 22 40 65 30 31 16 8041 59 60 41 51 10 63 41 74 81 20 36 59 38 40 43 18 60 71 44Representar, en una tabla estadstica, la distribucion de frecuencias de las notas de Matematicas.Se dene la variable Xque representa la nota nal en Matematicas. Se observa un gran n umerode observaciones correspondientes a un elevado n umero de modalidades distintas, lo que sugiereagruparlasenclases.Veamosdosagrupamientosdistintos:1. Intervalosdelamismaamplitud:Siconsideramos10intervalos(N)deigualamplitud,podemosrepresentarladistribuciondelasnotascomosemuestraenlatabladelagura1.4.ApuntesdeMetodosEstadsticosparalaComputacion18 1.3.RepresentacionesgracasLi1, LixinifiNiFi[0, 10] 5 8 0

08 8 0

08(10, 20] 15 12 0

12 20 0

20(20, 30] 25 10 0

10 30 0

30(30, 40] 35 14 0

14 44 0

44(40, 50] 45 21 0

21 65 0

65(50, 60] 55 16 0

16 81 0

81(60, 70] 65 10 0

10 91 0

91(70, 80] 75 5 0

05 96 0

96(80, 90] 85 3 0

03 99 0

99(90, 100] 95 1 0

01 100 1100 1Figura1.4:Tabladefrecuenciasparalosdatosdelejemplo1.72. Intervalos de diferente amplitud: Si atendemos a la calicacion correspondiente a cada notay consideramos 4 clases de distinta amplitud (suspenso, aprobado, notable y sobresaliente),podemosrepresentarladistribuciondelasnotascomosemuestraenlatabladelagura1.5.Li1, LixinifiNiFi[0, 50) 25 65 0

65 65 0

65[50, 70) 60 25 0

25 90 0

90[70, 90) 80 9 0

09 99 0

99[90, 100] 95 1 0

01 100 1100 1Figura1.5:Tabladefrecuenciasparalosdatosdelejemplo1.7

1.3. RepresentacionesgracasEstamosacostumbradosarecibirinformacionatravesdeimagenes. Enestesentido, laes-tadstica utiliza la representacion graca para presentar visualmente la distribucion de los datosdelamuestra.Aligualquelastablasestadsticas,lasrepresentacionesgracasmuestranladis-tribucion de frecuencias y deben ser capaces de transmitir informacion de la muestra permitiendoobservaralgunascaractersticasdelosdatos.Paraconseguirestosobjetivos, convienecuidarlapresentaciondeungraco(colores, for-mas,...) yutilizar adecuadamente los elementos que locomponen: ttulo, ejes, leyenda, etc.Cuando se observa una representacion graca hay que prestar especial atencion al signicado delosejesyalasmarcasdegraduacionquedeterminanlaescala.Unavisionrapidaydescuidadapuedeinduciraconclusioneserroneas.Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 19Los distintos tipos degracas representanlas frecuencias absolutas, relativas oacumula-das. El tipodecaracter, seg unseacualitativoocuantitativo, estableceunaclasicaciondelasrepresentacionesgracas.Aunquealgunasdeellassepuedenutilizarindistintamente,convieneconocer sus caractersticas para elegir la representacion graca que resulta mas apropiado a cadacaso.Acontinuacionserelacionanlos tipos derepresentacionmas utilizados ysedetallanlascaractersticas principales y la interpretacion de los elementos que lo constituyen. La creatividadylaoriginalidadpuedendarlugaraotrostiposdegracas, siempreycuandocumplanconelobjetivodegarantizarunaimagensencillayrealdelosdatos.1.3.1. CaracterescualitativosLas distintas modalidades de los caracteres cualitativos no contemplan ning un orden numeri-co. Por tanto, estas representaciones gracas suelen ser mas iconicas y hacen uso del etiquetadodelasclasesodelaleyenda.Diagramaderectangulosobarras. Paracadamodalidad, serepresentaunrectanguloobarra cuya altura (o longitud) coincide con la frecuencia absoluta (o relativa). En la gura 1.6 serepresenta la distribucion de frecuencia de las vocales del ejemplo 1.3 de la pagina 14, utilizandodistintosdiagramasdecolumnasenverticaluhorizontal.05101520a e i o u 0 0,1 0,2 0,3aeiou1Figura1.6:DiagramaderectangulosDiagramadePareto.Diagramadebarrasdefrecuenciasrelativasdondelasmodalidadesserepresentanporordendecrecienteenaltura.Ademas,sesuperponeunacurvaconlafrecuenciarelativa acumulada cuya escala se representa a la derecha.Con este diagrama es facilidenticarlas modalidades con mayor frecuencia. En la gura 1.7 se representa la distribucion de frecuenciasdelasvocalesdelejemplo1.3delapagina14,utilizandoundiagramadePareto.00,050,10,150,20,250,30,35e a i u o00,20,40,60,81Figura1.7:DiagramadeParetoApuntesdeMetodosEstadsticosparalaComputacion20 1.3.RepresentacionesgracasDiagrama de sectores. Se descompone un crculo en sectores de area proporcional a la frecuen-cia de la modalidad correspondiente. El angulo (en grados) del sector circular correspondiente ala modalidad i-esima es i= 360 fi. En la gura 1.8 se representa la distribucion de frecuenciadelasvocalesdel ejemplo1.3delapagina14, utilizandodistintasvariedadesdediagramasdesectores.29%30%21%8%12%29%30%21%8%12%aeiouFigura1.8:DiagramadesectoresPictogramaycartogramas. Representacion iconica del fenomeno que utiliza dibujos simboli-cos o mapas donde aparecen los iconos. El pictograma de la gura 1.9 representa la distribuciondefrecuenciasdelasvocalesdelejemplo1.3delapagina14.00,10,20,30,4Figura1.9:Pictograma1.3.2. CaracterescuantitativosEste tipo de representaciones gracas se realizan sobre los ejes de coordenadas. Para que seanmassignicativas, puedeserinteresanteuncambiodeorigenoescalaenlosejes, si bienestodebeindicarseconvenientementeparanoinduciraenga no. Porejemplo, uncambiodeorigensueleindicarsemedianteunalneaenzigzagenelejecorrespondiente.Diagrama de barras o puntos. Se utiliza en el caso discreto y es similar al de rectangulos peroconbarrasverticalesopuntosenlosextremos. Lafrecuenciaabsoluta(orelativa)determinalalongituddelabarrayel valordelavariabledeterminael lugardel ejehorizontal dondeseapoya.Enlagura1.10serepresentaladistribuciondefrecuencias(absolutas)delejemplo1.5delapagina16,haciendousodeundiagramadepuntos(izquierda)ydebarras(derecha).04812160 1 2 3 4 5 604812161 2 3 4 5Figura1.10:DiagramadepuntosdiagramadebarrasDpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 21Histograma.Seutilizapararepresentarlosdatosagrupadosenintervalos.Paracadaclase,sedibujaunrectangulosobreelejeXcuyabaseseaelintervaloycuyaareaseaproporcionalalafrecuenciaarepresentar.Porlotanto,laaltura(hi)quedadeterminadaporelcocienteentrelafrecuencia(ni)ylaamplitud(ai)del intervalo. Enlagura1.11serepresentaladistribuciondefrecuenciasdel ejemplo1.7delapagina17cuandolosintervalostienenlamismaamplitud(izquierda)ycuandolatienendistinta(derecha).0 20 40 60 80 1000.0000.0100.0200 20 40 60 80 1000.0000.0100.020Figura1.11:HistogramasPolgonodefrecuencias.Seconstruyeuniendolosextremosdelasbarraseneldiagramadebarrasolospuntosmediossuperioresdelosrectangulosenelhistograma. Enlagura1.12serepresentan las distribuciones de frecuencias absolutas del ejemplo 1.5 de la pagina 16 (izquierda),ylasdefrecuenciasrelativasdelejemplo1.7delapagina17(derecha).0,000,050,100,150,200,25[0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]02468101214161 2 3 4 5Figura1.12:PolgonosdefrecuenciasDiagramadefrecuenciasacumuladas. Similar al polgono de frecuencias pero utilizando lasfrecuencias acumuladas (absolutas o relativas). En la gura 1.13 se representa la distribucion defrecuencias del ejemplo 1.5 de la pagina 16 (izquierda) y del ejemplo 1.7 de la pagina 17 (derecha),utilizandodiagramasdefrecuenciasacumuladasabsolutas,paraelprimero,yrelativas,paraelsegundo.0,000,200,400,600,801,00[0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90](90,100]0102030401 2 3 4 5Figura1.13:Diagramadefrecuencias(absolutas/relativas)acumuladasApuntesdeMetodosEstadsticosparalaComputacion22 1.4.MedidasdeposicionLas tablas estadsticas y las representaciones gracas constituyen distintas formas de presen-tar los datos de manera clara y ordenada. Ambas proporcionan informacion sobre la distribuciondelasobservaciones. Avecesconvieneresumirtodaestainformacionenunoovariosvalorescuantitativosqueseanmasomenosrepresentativosyquepermitancomparardistintasmues-tras.Porestemotivo,vamosaintroducirlasmedidasdeposicion,dedispersion,deasimetraydeapuntamiento.1.4. MedidasdeposicionLasmedidasdeposicionsonvaloresnumericosdescriptivoscalculadosapartirdelosdatosdelamuestra.Estosvaloresayudanaencontrarelcentrodeladistribucion,entornoalcualseagrupanlasobservaciones,olaposicionrelativadeunaobservacion,dentrodelconjuntodedatos.Dentro de las medidas de posicion destacan las medidas de tendencia central como la media,lamedianaolamoda. Tambiensedeniranloscuantilesquenosonpropiamentemedidasdetendenciacentralperoqueseutilizanparasituarlosvaloresdelavariable.Enladeniciondelas medidas deposicionseconsideraunamuestradeunavariableXquetomalosvaloresx1, x2, ..., xkconlasfrecuenciasabsolutas n1, n2, ..., nkrespectivamente,haciendountotalde Ndatos.1.4.1. MediaaritmeticaLamediaaritmeticaosimplemente mediaes unamedidade tendenciacentral aplicableespeccamente en el caso de variables cuantitativas. Se calcula dividiendo la suma de los valoresdetodoslosdatosentreeln umerototaldedatos,esdecir x =x1n1 +x2n2 +... +xknkN=k

i=1xiniN=k

i=1xifidonde xdenotalamediamuestral. Lamediaaritmeticapoblacional seobtieneaplicandolamismaformulaatodoslosdatosdelapoblacion(censo),ysesueledenotarpor.Lamediaesunamedidaqueseencuentrasiempreentrelosvaloresextremosdelavariableyseconsiderael centrodegravedaddelasobservaciones, enel sentidodequelasumadelasdiferencias (desviaciones) de las observaciones respecto de la media es cero. Es decir, es el unicovalorqueverica

(xi x)fi= 0.Ejemplo1.8Calcular la media aritmetica en los ejemplos 1.5 de la p agina 16, 1.6 de la pagina16y 1.7delap agina17.Lamediadelavariablediscretadelejemplo1.5secalculaaplicandodirectamentelaformula: x =1 15 + 2 12 + 3 8 + 4 4 + 5 140=8440= 2

1Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 23Enel ejemplo1.6, dondelafrecuenciaparacadaunodesusvaloreses1, lamediasecalculacomosigue x =6 + 10 + 10 + 12 + 205=585= 11

6Si lasobservacionesestanagrupadasporintervalos, comoenel ejemplo1.7, seconsideranlasmarcasdeclasecomovaloresdelavariable. Enel casodequelosintervalostienenlamismaamplitud,obtenemos: x =5 8 + 15 12 + 25 10 + + 95 1100=4160100= 41

6Paracalcularlamediaaritmeticatambienpodemosutilizarlatablaestadstica. El proce-dimientoconsisteena nadir unanuevacolumna(xifi) enlaque, paracadamodalidaddelavariable,apareceelproductodesuvalorporsufrecuenciarelativa.Finalmente,lasumadelosn umerosobtenidosenestacolumnacorrespondealamediaaritmetica.Consideremosel ejemplo1.7dondelasobservacionesseagrupanenintervalosdedistintaamplitud.Enestecaso,a nadimosunanuevacolumnaalatablaestadsticadondeanotamoslosproductos de cada uno de los valores de la variable (las marcas de clase) por su correspondientesfrecuencia relativa. Al nal, en la la de sumas, aparecera, en esta columna, el valor de la mediaaritmetica,calculadacomo

xifi.Li1, Lixinifixifi[0, 50) 25 65 0

65 16

25[50, 70) 60 25 0

25 15[70, 90) 80 9 0

09 7

2[90, 100] 95 1 0

01 0

95Suma 100 1 x=394Observese que el valor obtenido para la media (394) no coincide con el obtenido antes (416),cuandoconsideramosintervalosdelamismaamplitud,paraestemismoconjuntosdedatos.Larazon es que los dos valores son aproximaciones del verdadero valor de la media, que es 4167, yque se obtendra utilizando los valores originales de las 100 observaciones, sin hacer agrupaciones.Cuando los datos se agrupan en intervalos, perdemos el valor individual de cada observacion.Por eso, al utilizar la marca de clase, como representante de todos los datos de un intervalo, esta-mos haciendo una aproximacion. Las distintas formas de agrupar las observaciones en intervalos,danlugaradistintasaproximacionesdelasmedidasresultantescalculadas. Enmuchoscasosyconelndesimplicarloscalculos(hacerquelamediasea0otrabajarconn umerosmaspeque nos)sevelaconvenienciadeaplicarunatransformacionalavariable.Enestecaso, seranecesarioestudiarcomosevemodicadalamediadelanuevavariable. Enlastransformacionesanes,quesonlasmasusuales,si xeslamediadelavariableX,entoncesa x +beslamediaaritmeticadelavariableaX +b.ApuntesdeMetodosEstadsticosparalaComputacion24 1.4.MedidasdeposicionEjemplo1.9Lossalariosdelos6obrerosdeunaempresason800,1.100,1.200,1.400,1.600y1.700euros.Calcularlamediaaritmeticadelosmismos.SeaXlavariableestadsticaquerepresentalossalariosdelosobreros.SeconsideralavariableY= 1/100 X 13quetomalosvalores-5,-2,-1,1,3,4.Ahora,lamediadelavariableY es0yaplicandolatranformacionafnseobtienelamediadelavariableX.Si y= x100 13 entonces x = 100( y + 13) = 100(0 + 13) = 1.300TambienpodamoshaberconsideradolavariableZ=X 1300100quetomalosvalores-5,-2,-1,1,3,4ycuyamediavale0yenestecasocomo z= x 1300100entonces x = 100 z + 1300 = 100 0 + 1300 = 1.300Observese que en ambos casos, hemos aplicado, en distinto orden, dos transformaciones: una deellases, dividirpor100paracambiarlaescalayobtenern umerosmaspeque nos; ylaotraes,restarlamedia(13, enel primercaso, y1300enel segundo)paraquelamediadelanuevavariableseacero.Comopodremoscomprobarenalgunasdelasformulasqueapareceneneste,yenotrostemas,elhechodequelamediaseacero,simplicanotablementeloscalculos. Por ultimo, hay que tener en cuenta que la media aritmetica tiene dos graves inconvenientes.Porunlado, estepromediocalculadopuedenocorresponderconning unvalordelavariable,porejemplo,decirqueeln umeromediodehijosdelasfamiliasespa nolases1

2.Porotrolado,lamediaaritmeticaesmuysensibleavaloresextremosdelavariable(valoresinusualesdelapoblacion),porejemplo,siunodelosdatosesmuydistintodelresto,elvalordelamedianoes representativo de la muestra. Estos dos problemas se resuelven con el uso de la moda, para elprimercaso,ydelamediana,paraelsegundo.1.4.2. ModaLamodadeunconjuntodedatos,quedenotaremosporMo,eselvalordelavariablequepresentamayorfrecuencia. Lamodapuedenoser unicaoinclusonoexistirporquetodoslosvalorestenganlamismafrecuencia. Puedeusarseinclusoconvariablescualitativasyvieneasolucionarelproblemaquetienelamediacuandonocoincideconning unvalordelavariableocuandointeresadestacarlafrecuenciadelosvaloresdelamisma.Ejemplo1.10Determinarlamodadelosdatosdel ejemplo1.3delapagina14.Paradeterminarlamoda, sebuscalamodalidaddel atributovocalesquetengamayorfre-cuencia,queresultaserlavocale.Porlotanto,lamodadelasvocalesdenuestroejemploese. Este parametro es muy facil de calcular pero tiene el problema de que dos muestras con datosmuyparecidos puedantener modas muydistintas loque dicultalacomparacion. Ademasaunqueseenmarcacomomedidadetendenciacentral puedeocurrir queel valor conmayorfrecuencianoestecercadelcentrodelosdatos.Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 25Ejemplo1.11Calcularlamodadelasmuestras: M1= {2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18},M2= {3, 5, 8, 10, 12, 15, 16} y M3= {2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9}.Buscamos,encadaconjuntodedatos,elvalorovaloresquemasserepiten:EnM1lamodaes9quecorrespondealvalorconmayorfrecuencia;enM2nohaymodaporquetodoslosvalorestienenlamismafrecuencia;yenM3haydosmodas(distribucionbimodal)quecorrespondenalosvalores4y7. Si se dispone de una tabla de frecuencias, la moda es sencilla de calcular sin mas que buscarelvalordelavariablequemayorfrecuenciaabsolutaorelativapresenta.Ejemplo1.12Calcularlamodadelosdatosdel ejemplo1.5delapagina16.Paracalcularlamoda, sebuscaenlacolumnadelafrecuenciaabsoluta(orelativa)el mayorvalor, queresultaser15(o0

375)yquecorrespondeal valor1delavariable, queeslamoda(verlagura1.2delapagina16). Enel casodevariablescontinuas, cuandolosdatosestanagrupadosenintervalos, setomacomointervalomodal (Li1, Li] el queresultaconmayoraltura1enel histograma, einterpo-lando2, comosemuestraenlagura1.14, seobtienelasiguienteformulaparael calculodelamoda:Mo = Li1 +11 + 2aidonde 1= hihi1y 2= hihi+1siendohi= ni/ai, la altura del intervalo (Li1, Li], teniendo en cuenta que el area del rectanguloesigualalafrecuenciadedichointervalo.hihi+1hi-1MoD2D1aiLiLi-1Figura1.14:CalculodelamodaenelhistogramaSi todos los intervalos tienen la misma amplitud, es igual considerar la altura correspondientea cada intervalo, o su frecuencia, pues son proporcionales. En tal caso, podemos considerar 1=nini1y 2= nini+1, si consideramos las frecuencias absolutas (ni), o bien 1= fifi1y2= fifi+1,siconsideramoslasfrecuenciasrelativas(fi).Ademas, si el intervalomodal fueseel primerodelosintervalos, entonces, paraaplicarlaformula de interpolacion, se considerara que la frecuencia del intervalo anterior es cero, es decir,ni1=fi1=0. Deigual manera, consideraremosni+1=fi+1=0, si el intervalomodal esel ultimodelosintervalosconsiderados.1Hay que tener especial cuidado cuando los intervalos no tienen la misma amplitud pues una mayor frecuencianoestarelacionadaconunamayoralturadelintervalosinoconuna areamayor.2Lainterpolacionutilizadaparacalcularlamodaenunintervaloesdetipocuadr atica.ApuntesdeMetodosEstadsticosparalaComputacion26 1.4.MedidasdeposicionEjemplo1.13CalcularlamodadelascalicacionesnalesenMatematicasdelejemplo1.7delapagina17.Si consideramosel casodondetodoslosintervalostienenlamismaamplitud(verlagura1.4de lapagina18), podemos utilizar lacolumnade lafrecuenciaparadeterminar el intervaloconmayorfrecuenciaqueesel intervalomodal (40,50]. Aplicandolaformuladeinterpolacionobtenemos:Mo = 40 +77 + 5 10 45

833Pero si consideramos el caso donde los intervalos no tienen la misma amplitud, entonces tenemosque calcular, necesariamente, la altura correspondiente a cada intervalo. Para ello, utilizamos latabladefrecuenciasdondeincluimosdosnuevascolumnascorrespondientesalaamplitud(ai)yalaaltura(hi)decadaintervalo.Li1, Lixinifiaihi= ni/ai[0, 50) 25 65 0

65 50 1

3[50, 70) 60 25 0

25 20 1

25[70, 90) 80 9 0

09 20 0

45[90, 100] 95 1 0

01 10 0

1100 1Figura1.15:Tabladefrecuencias(ejemplo1.7)conamplitudesyalturasEn la tabla de la gura 1.15 observamos que el intervalo modal es [0,50), pues es el intervaloconmayoraltura.Aplicandolaformuladeinterpolacionobtenemos:Mo = 0 +1

31

3 + 0

05 50 48

148

1.4.3. MedianaUno de los inconvenientes de la media aritmetica es su sensibilidad a los valores extremos delavariable(valoresinusualesdelapoblacion),porejemplo,siunodelosdatosdierebastantedel resto, el valordelamedianoesrepresentativodelamuestracomovemosenel siguienteejemplo.Ejemplo1.14Consideramoslasmedidasdelosdi ametrosdediezcilindros, anotadasporuncientco: 3

88, 4

09, 3

92, 3

97, 4

02, 3

95, 4

03, 3

92, 3

98, 40

6 cm. Calcular la media aritmeticaydeterminarsiessignicativosuvalor.Lamediaaritmeticadetalesmedidases7

636quenoessignicativayaquelamayoradelosdatosestanentornoa4. Esposiblequeel ultimodatoprovengadeotrapoblacionoinclusoqueesteequivocado(sepuedepensarquelacomadecimalestamalpuestayelverdaderovalorsera4

06)ysinembargolamediasehavistomuyafectada. Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 27A la vista del resultado obtenido en el ejemplo anterior, se hace necesario denir una medidacentralmasrobustafrentealosdatosextremosdelamuestra,paraqueseamasrepresentativaenestoscasos.Lamediana, ovalor mediano, quedenotaremos por Me, es aquel valor quedividealapoblacionendospartesdeigualtama no,lamitadsonmayoresque elylaotramitadinferioresa el.SiNesimpar,existiradichovalorycoincidiraconunodelosvaloresobservados,mientrasque si es par, se tomaran los dos valores centrales y se calculara la media. Veamoslo en el siguienteejemplo.Ejemplo1.15CalcularlamedianadelosconjuntosdedatosC1= {3, 6, 4, 4, 8, 8, 8, 5, 10} y C2= {15, 5, 7, 18, 11, 12, 5, 9}.Paracalcularlamedianaesconvenienteordenarpreviamentelosconjuntosdedatosylocalizarelvalor,ovalores,queocupanlaposicioncentral:C1= {3, 4, 4, 5, 6, 8, 8, 8, 10} y C2= {5, 5, 7, 9, 11, 12, 15, 18}EnC1hay9datos, ylamedianacorrespondeal valordelavariablesituadoenlaposicion5,queeseln umero6.EnC2setienen8datosy,portanto,lamedianaes10quesecalculacomolamediaaritmeticadelosvaloresqueocupanlasposiciones4(el9)y5(el11). Ejemplo1.16Calcularlamedianaparalosdatosdel ejemplo1.14.Paracalcularlamedianaesconvenienteordenarlos10datosdelamuestraylocalizarelvalor,ovalores,queocupanlaposicioncentral:{3

88, 3

92, 3

92, 3

95, 3

97, 3

98, 4

02, 4

03, 4

09, 40

6}De esta manera, la mediana es 3975 que se obtiene calculando la media aritmetica de los valoresdelavariablequeocupanlasposiciones5(el 397)y6(el 398). Observesequeesten umero(3975) es mas representativo que el valor de la media aritmetica (7636) que habamos calculadoenelejemplo1.14. Si sedisponedeunatabladefrecuenciasdondelosvaloresdelavariableestanordenados,lamedianacorrespondeal primervalordelavariablecuyafrecuenciarelativaacumuladaseamayoroigualque1/2.Siestafrecuenciaesexactamente1/2,entonceseln umerodevaloresdelavariableesparylamedianaseobtienecalculandolamediaaritmeticadeestevalordelavariableydelsiguiente.Ejemplo1.17Calcularlamedianadelosdatosdel ejercicio1.5delapagina16.Lamedianaes 2, pues correspondeal primer valor delavariablequevericaqueFi 0

5,enconcreto, Fi=0

675(ver latabladelagura1.2delapagina16). Si Fihubiesevalidoexactamente05entonceslamedianahubiesesido2

5queeslamediaaritmeticade2y3. Enel casoenquelosdatosvenganagrupadosporintervalossecalcularael intervaloquecontengalamediana(intervalomediano), esdecir, el intervalo(Li1, Li] dondeFi 1/2, oloApuntesdeMetodosEstadsticosparalaComputacion28 1.4.Medidasdeposicionqueeslomismo, Ni N/2. Si sedalaigualdad, entonceslamedianaesLi. Enotrocaso, esnecesariointerpolarenelintervalomediana,mediantelaformulaMe = Li1 +N/2 Ni1niaique se obtiene, suponiendo que las observaciones estan distribuidas uniformemente en el intervalomediana.Ejemplo1.18Calcular lamedianade las calicaciones nales enMatematicas enel ejem-plo1.7delapagina17.Primeroconsideramos el casodonde los intervalos tiene lamismaamplitud. Enlatabladefrecuencias(gura1.4delapagina18)sebuscael intervalomediano, queresultaser(40,50],puescorrespondealprimerintervalocuyafrecuenciarelativaacumuladasuperaelvalor05.Enesteintervaloseaplicalaformuladeinterpolacionparaobtenerelvalordelamediana:Me = 40 +50 442110 42

857Si consideramos el caso donde los intervalos tiene distinta amplitud (gura 1.5 de la pagina 18),entonceselintervalomedianaes[0,50)einterpolandoseobtieneelvalordelamediana:Me = 0 +50 06550 38

462

1.4.4. CuantilesLoscuantilesnoseclasicandentrodelgrupodemedidasdetendenciacentral,perosquesonmedidasdeposicionodeorden. Loscuantilessonparametrosquedividenenpartesalosdatos ordenados de la poblacion determinando as la posicion de cada uno de ellos. Por ejemplo,lamedianaque hemos denidoantes, divide al conjuntode las observaciones endos partesiguales, esdecir, lamitaddelasobservacionesesmenorquelamediana, ylaotramitadsonmayoresqueella.Engeneral,uncuantil deordenk,quedenotaremospor C(k),dividealapoblacionendospartesdetalmaneraqueunaproporcionk delapoblacionesmenorquedichovaloryelrestomayor. Se distinguen cuatro tipos de cuantiles que dividen a la poblacion en 4, 5, 10 o 100 partesiguales.Cuartiles: Son 3 y dividen a la poblacion en 4 partes iguales. El primer cuartil, que denotamosporQ1, dejaasuizquierdaalacuartapartedelapoblacion(k=1/4)queesmenorqueel.El segundocuartil, quedenotamos por Q2, coincideconlamediana, yel tercer cuartil, quedenotamosporQ3,dejaasuizquierdalastrescuartaspartesdelapoblacionquesonmenoresque el(k = 3/4).Quintiles: Son4ydividenalapoblacionen5partes iguales. El primer quintil dejaasuizquierdael20 %delapoblacion(k = 1/5)queesmenorque el,elsegundoquintildejaal40 %(k = 2/5),eltercerquintildejaal60 %(k = 3/5)yelcuartoquintildejaal80 %(k = 4/5).Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 29Deciles: Son 9 y dividen a la poblacion en 10 partes iguales. Se llama decil de ordendal valorque divide a la poblacion en dos partes, de tal forma que la proporcionk = d/10de la poblacionseamenorque elyelrestomayor.PercentilesoCentiles:Son99ydividenalapoblacionen100partesiguales.Sellamacentildeorden c, quedenotaremospor Pc, al valorquedividealapoblacionendospartesdetalformaquelaproporcion k = c/100 delapoblacionseamenorque elyelrestomayor.Para calcular el cuantil de orden k en una distribucion discreta, se procede de manera similaral calculodelamediana, buscandoenlacolumnadelafrecuenciarelativaacumulado, cual eselprimervalormayoroigualquek.Ejemplo1.19CalcularloscuartilesQ1yQ3,losquintilesdeorden1y4,losdecilesdeorden1y9,ylospercentilesP1yP99paralosdatosdel ejemplo1.5delapagina16.ParaencontrarloscuartilesQ1yQ3sebuscaenlacolumnadelasfrecuenciasrelativasacumu-ladascual esel primervalormayoroigual que025y075respectivamente. Enestecaso, losvaloresdelavariablecorrespondientesdeterminanloscuartilesQ1= 1yQ3= 3.Paracalcularlosquintilesseprocededelamismamaneraperoconlosvaloresdekiguala1/5y4/5yseobtiene1y3.Analogamente,paralosvaloresdekiguala1/10y9/10yseobtienelosdecilesdeorden1y10quesonrespectivamente1y4;yparalosvaloresdekiguala1/100y99/100sedeterminanlospercentilesP1=1yP99=5. En el caso de datos agrupados en intervalos, el cuantil de ordenkse calcula interpolando enel intervalo (Li1, Li] donde Fi ko lo que es lo mismo Ni Nk. Si se da la igualdad, entonceselcuantilC(k)esLi,yenotrocaso,aplicamoslaformula:C(k) = Li1 +N k Ni1niaique se obtiene, suponiendo que las observaciones del intervalo estan distribuidas uniformemente.Ejemplo1.20CalcularloscuantilesQ1,Q3yP99parael ejemplo1.7delapagina17.Primeroconsideramosel casodondelosintervalostienelamismaamplitud. ParacalcularQ1sebuscaelprimerintervalocuyafrecuenciarelativaacumuladaesmayoroigualque025(vergura 1.4 de la pagina 18), que resulta ser (20,30], y despues se interpola para obtener el cuartilQ1= 20 +25 201010 = 25Analogamente,seinterpolaenelintervalo(50,60]paraobtener Q3= 50 +75 651610 = 56

25.Sinembargo, cuandosebuscael intervalocorrespondienteal percentil P99, seobservaquelafrecuenciarelativaacumuladacorrespondientealintervalo(80,90]esiguala0

99yportantoelvalordeestepercentiles90.Siconsideramoselcasodondelosintervalostienedistintaamplitud(gura1.5delapagina18),entoncesQ1 [0, 50)yQ3 [50, 70),ysecalculaninterpolandoas:Q1= 0 +25 06550 19

2 , Q3= 50 +75 652520 = 58MientrasqueP99=90, sinnecesidaddeinterpolar, pueslafrecuenciarelativaacumuladaco-rrespondientealintervalo[70,90)esexactamente099. ApuntesdeMetodosEstadsticosparalaComputacion30 1.5.Medidasdedispersion1.5. MedidasdedispersionLas medidas de dispersion constituyen otro importante tipo de medidas descriptivas numeri-casqueayudanadeterminarlavariaciondelosdatos.Estasmedidasseusanparadeterminarlo agrupada o dispersa que esta una poblacion y por tanto si la medida de tendencia central cal-culada,esrepresentativa.Estanimportantebuscarunvalorcentralcomosaberladistribuciondelosdatosentornoaesevalorcentral.Porello,lasmedidasdetendenciacentraljuntoalasmedidasdedispersionaportanunavaliosainformacionsobreladistribuciondelosdatos.Ejemplo1.21Paralassiguientesmuestras,estudiarlarepresentatividadquetieneelvalordelamedia,enfunciondeladistribuciondelosdatos:M1= {2

2, 2

6, 2

9, 3

4, 3

9} , M2= {0

5, 1

2, 1

9, 5

2, 6

2}Lamediaaritmeticadelasobservacionesencadaunadelasmuestraseslamisma,yvale3.Siembargo, como se observa en la gura 1.16, en M1(a la izquierda), las observaciones se agrupanentornoaesevalor, mientrasqueenM2(aladerecha), noocurrelomismo. Porlotanto, elvalor3delamediaesmasrepresentativoenelconjuntoM1queenelconjuntoM2.Esdecir,aportamasinformacionpuestoquedaunamejorimagendelconjuntodedatos.2 5 6 1 3 4 2 5 6 1 3 4Figura1.16:Muestrasconigualmediaydistintadispersion

Comoseobservaenel ejercicioanterior, sehacenecesarialadeniciondemedidas des-criptivasdeladispersiondelosdatosdeunamuestra. Estasmedidastambienserviranparadeterminarlarepresentatividaddelasmedidasdetendenciacentralenesasmuestras.EnladeniciondelasmedidasdedispersionseconsideraunamuestradeunavariableXquetomalosvaloresx1, x2, ..., xkconlasfrecuenciasabsolutas n1, n2, ..., nkrespectivamente,haciendountotalde Ndatos.1.5.1. RangoLamedidadedispersionmassimpleeselrango,recorridoointervalo,quedenotaremosporR,yquesedenecomoladiferenciaentreelmayorvalorobservadodelavariableyelmenor.Ejemplo1.22Calcularlosrangosdelosconjuntosdedatosdel ejemplo1.21.Si encadaconjuntosebuscael mayoryel menorvalordelavariable, restandoambosvaloresseobtiene:RC1= 3

9 2

2 = 1

7 y RC2= 6, 5 0

5 = 6lo que nos indica que los datos de C2estan mas dispersos que los de C1, pues el rango es mayor.Mas adelante veremos que hayunamedidaque se utilizaespeccamente paracomparar ladispersiondedosmuestras:elcoecientedevariacion. Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 31Ejemplo1.23Calcularelrangoenlosejemplos1.5delapagina16,1.6delapagina16y1.7delapagina17.Siencadaejemplosebuscaelmayoryelmenorvalordelavariable,restandoseobtiene:Rej:1.5= 5 1 = 4 , Rej:1.6= 20 6 = 14 y Rej:1.7= 92 1 = 91

Enalgunasocasiones, paradeterminarladispersiondeunconjuntodedatos, evitandolainuenciadelosvaloresextremos, seutilizanotrasdenicionesderangoquehacenusodelosdistintoscuantiles.Losmascomunesson:Rangointercuartlico,quesedenotaremosporRQ,esladiferenciaentreelcuartildeorden3yeldeorden1RQ= Q3Q1Rangointercentlico,quesedenotaremosporRC,esladiferenciaentreelpercentildeorden99yeldeorden1RC= P99P1Ejemplo1.24Calcularlosrangosintercuartlicoeintercentlicoparalosdatosdelejemplo1.5delapagina16.La unicadicultadquetieneelcalculoderangoseslaobtenciondelosdiferentescuantilestalycomoseexplicabaenlaseccion1.4.4RQ= 3 1 = 2 y RC= 5 1 = 4

Estas medidas de dispersion, ademas de ser sencillas de calcular, su importancia radica en lacapacidadquetienende detectarposibles datos anomalos(los queestanfuera delrango).Enlarelaciondeproblemas,elejercicio29delapagina48explicaunadeestastecnicadedeteccion.Elrangoseutilizacomomedidadedispersionenmuestraspeque nasporqueesunamedidarelativamenteinsensibledelavariaciondelosdatos. Esdecir, esposiblequedosconjuntosdedatosdistintostenganelmismorangoperodieranconsiderablementeenelgradodevariaciondelosdatosyestamedidanoserviraparadetectaresadiferencia.1.5.2. DesviacionmediaOtra medida de la dispersion de los datos de la muestra se puede obtener calculando la mediadelasdistanciasdesdecadaunodelosvaloreshastaunpuntoelegidopreviamente.Enprimerlugar,denimosladesviaciondelvalorxidelavariablerespectodelparametropcomoladistanciaentreestosdosvalores,esdecir, |xi p|.Normalmentesetomaunamedidade tendencia central (media o mediana) como valor del parametro. Despues, se calcula la mediaaritmetica de estas desviaciones respecto del promedio, para obtener una medida de la dispersiondelamuestra.ApuntesdeMetodosEstadsticosparalaComputacion32 1.5.MedidasdedispersionLadesviacionmediarespectoaunpromediopeslamediadelasdesviacionesdelosvaloresdelavariablerespectoaunadeterminadamedidadetendenciacentral p.DM(p) =k

i=1|xip| niN=k

i=1|xip| fiEjemplo1.25Calcular la desviaci on media respecto a la mediana para los datos del ejemplo 1.5delap agina16.AplicandolaformulaseobtieneDM(Me) = |1 2| 15 +|2 2| 12 +|3 2| 8 +|4 2| 4 +|5 2| 140=3440= 0

85

Los problemas de calculoque presentalautilizacionde los valores absolutos, sugiere ladeniciondeunanuevamedidadedispersion.Encualquiercaso,noseperderadevistalaideademedirdesviacionesrespectodeunpromedio,comoprocedimientoparamedirladispersion.1.5.3. VarianzasydesviaciontpicaAl igual quelamediaaritmeticaesel promediomasutilizado, lavarianzaeslamedidadedispersionporexcelencia.Ambosparametrossuelenpresentarseconjuntamenteyformanpartedemuchasdeniciones.Varianza poblacional. Se dene la varianza poblacional o simplemente varianza de un conjuntode datos, que denotaremos por 2, como la media aritmetica de los cuadrados de las desviacionesconrespectoalapropiamediadelasobservaciones,esdecir2=

ki=1(xi x)2 niN=k

i=1(xi x)2 fiDeladeniciondevarianzasepuedededucirunaformulamassimpleparasucalculoqueconsisteencalcularlamediadeloscuadradosyrestarleelcuadradodelamedia:2=k

i=1x2i fi x2Paracompensar de alg unmodoel cuadradode las desviaciones ymantener lamismaunidad de medida de las observaciones, se dene la desviaciontpica o estandar de una conjuntodedatoscomolarazcuadradapositivadelavarianza:=2=_k

i=1(xi x)2 fiDpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 33Ejemplo1.26Calcular lavarianzayladesviaciontpicapoblacional delos datos del ejem-plo1.5delapagina16.Lavarianzaes2=(12

1)2 15 + (22

1)2 12 + (32

1)2 8 + (42

1)2 4 + (52

1)2 140=47

640= 1

19yladesviaciontpica=1

19 1

091Otraformamassencilladecalcularlavarianza(conmenosoperaciones)es2=12 15 + 22 12 + 32 8 + 42 4 + 52 1402

12=224404

41 = 1

19

Para aplicar la formula y calcular la varianza poblacional podemos utilizar la tabla estadsti-ca. Para ello, se a nade una nueva columna (x2ifi) en la que, para cada modalidad de la variable,aparece el producto del cuadrado de su valor por su frecuencia relativa. La suma de los n umerosobtenidosenestacolumnamenoselcuadradodelamediacorrespondealavarianza.Tambienpodamoshabera nadidounacolumnaparacalcularlosvalores(xi x)2fiy, enestecaso, lavarianzaserasimplementelasumadelosvaloresdeestacolumna.Comoresultade sudenicion, lavarianzayladesviaciontpicasonn umeros positivos.Ambos parametros son independientes del cambio de origen, pero no de escala, es decir, si 2eslavarianzadelavariableX,entoncesa22eslavarianzadelavariableaX +b.Ejemplo1.27Calcularlavarianzayladesviaciontpicapoblacional paralosdatosdel ejem-plo1.9delapagina23.SeaXlavariableestadsticaquerepresentalossalariosdelosobreros.SeconsideralavariableY= 1/100 X 13quetomalosvalores-5,-2,-1,1,3,4.Ahora,lavarianzadelavariableYes56/6yaplicandolatransformacionlinealseobtienelavarianzadelavariableX2x= 1002 2y= 1002566 93.333

Acontinuacionvamosaintroducirdosconceptosqueestanmuyrelacionadosconlamediaylavarianzapoblacional:lavariabletipicadaylavarianzamuestral.Lavariabletipicada.Haciendo uso de la media y de la desviacion tpica de la variable X, se puede considerar unanuevavariablequevienedadapor:Z=X xquetomalosvalores zi=xi xi = 1, 2, ..., kyquesedenominavariabletipicada.Elprocesoderestarlamediaydividirporladesviaciontpica,seconocecomotipicar.ApuntesdeMetodosEstadsticosparalaComputacion34 1.5.MedidasdedispersionEjemplo1.28Tipicarlosdatosdel ejemplo1.5delapagina16.La variable Xdenida en el ejemplo 1.5 toma los valores 1 al 5 con frecuencia 15, 12, 8, 4 y 1; sumedia es 21, y su desviacion tpica es 1091. Por lo tanto, para calcular los valores (zi) que tomalavariabletipicadacorrespondiente,restaremoslamediaaritmetica( x),acadavalororiginal(xi)delamuestra,yelresultado,lodividiremosporladesviaciontpica(),yobtenemos:1 2

11

091 1

008 ,2 2

11

091 0,092 ,3 2

11

091 0

825 ,4 2

11

091 1

742 ,5 2

11

091 2

658Estocincon umerossonlosvaloresquetomalavariabletipicada,ylafrecuenciasdecadaunodeelloseslamismaquelacorrespondientefrecuenciadelvalororiginal. Lavariable tipicadaes adimensional (independiente de las unidades usadas) ymide ladesviacionde la variable Xrespecto de su media en terminos de la desviacion tpica,por lo queresultadegranvalorparacompararvaloresaisladosdedistintasdistribuciones.Ejemplo1.29Unestudianteobtuvo84puntosenel examennal dematematicas, enel quelanotamediafue76yladesviaciontpica10. Enel examennal defsicaobtuvo90puntos,siendolamedia82yladesviaciontpica16. Aunqueenlas dos asignaturas estuvomuyporencimadelamedia,encu al sobresaliomas?TipicandolasvariablesparapodercompararlasseobtieneM=84 7610= 0

8 F=90 8216= 0

5yseobservaquelanotatipicada(M)dematematicasesmejorqueladefsica(F)debidoaqueseencuentramasalejadadelamediaenterminosdedesviaciontpica.Esdecir,lanotadematematicasseencuentraa0

8desviacionestpicasporencimadelanotamediayportantoessuperioralanotadefsicaquesolosuperaalanotamediaen0

5desviacionestpicas. Lacuasivarianza.Sedenelavarianzamuestralocuasi-varianzacomos2=k

i=1(xi x)2niN 1siendos =s2lacuasidesviaciontpicaodesviaciontpicamuestral.Esteparametrotendraunagranimportanciaenlainferenciaestadsticadondesetrabajaconmuestras. Comoveremos, el estadsticos2, calculadoapartirdelosdatosdelamuestra,serael mejorestimadordel valordel parametro2delapoblacion. Observesequecuandoeltama no muestral es muy grande, la muestra resulta ser muy signicativa, y el valor de s2es muyproximoa2yaqueN 1 N.Convienenoconfundirlavarianzadelamuestra,quesecalculaaplicandolaformulade2alosvaloresdelamuestra, conlavarianzamuestral quecorrespondeas2. Sinembargo, delaexpresiondesusformulassededucenlassiguientesrelacionesentreellas:s2=NN 12obien 2=N 1Ns2Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 351.5.4. CoecientedevariacionLas medidas de dispersion que se han visto hasta ahora, vienen expresadas en las unidades dela variable, y por tanto, no resultan utiles para establecer una comparacion entre las dispersionesdedosmuestrasdosmuestrasdistintas,oquesimplemente,quevenganexpresadasenunidadesdistintas.Parasolucionar este problemase dene el coeciente de variaci onde Pearsonque es elcocienteentreladesviaciontpicayelvalorabsolutodelamedia:CV=| x|sibien,parasumejorinterpretacion,esbastantecom unexpresarlocomoporcentaje(multipli-cadopor100).El principal problemaquetieneestecoecienteesquepierderepresentatividadcuandolamediaseacercaacero.Ejemplo1.30Calcularelcoecientedevariaci ondePearsondelejemplo1.5delapagina16.Enlosejemplosanterioressehabacalculadolamedia(2

1)ylavarianza(1

19). AhorasolohabraqueaplicralaformulaparaobtenerCV=1

192

1 0

52 (52 %)

Este coeciente mide la dispersion relativa de la muestra y su ventaja es que resulta indepen-diente de la unidad de medida o cambio de escala; por tanto, permite establecer una comparacionentrelasdispersionesdedosmuestrasquevenganexpresadasendistintasunidades.Ejemplo1.31Un fabricante de tubos de television produce dos tipos de tubos, A y B, que tienenvidasmediasrespectivas xA=1495horasy xB=1875horas,ydesviaciontpicaA=280horasyB=310.Compararlasdispersionesdelasdospoblacionesenterminosabsolutosyrelativos.LoscoecientesdevariacionparacadatipodetubosCVA=2801495 100 18

73 % CVB=3101875 100 16

53 %indicanque,enterminosrelativos,ladispersionesmayorenlapoblacionA;apesardequelasdesviacionestpicassugieranlocontrario. Engeneral,tambiensedeneelcoecientedevariacionmediarespectoalpromediopdelaforma:CVM(p) =DM(p)|p|Comoenel casodeladesviacionmedia, el parametroppuedesercualquiervalorperosueleutilizarselamediaolamediana.ApuntesdeMetodosEstadsticosparalaComputacion36 1.5.MedidasdedispersionOBSERVACION: Esimportantenoconfundirlavariabletipicadaconel coecientedevaria-cion.Ambossonadimensionalesypermitenhacercomparaciones.Sinembargo,utilizaremoselcoecientedevariacionparacompararlasdispersionesdedosmuestrasopoblaciones,mientrasque, utilizaremoslavariabletipicadaparacomparardosvaloresconcretosdedosmuestrasopoblacionesdistintas.1.5.5. MomentosLosmomentossonmedidasdescriptivasqueresultanmuy utilesparacalculardeterminadosparametros.Estasmedidasgeneralizanlasdenicionesdemediaaritmeticayvarianza,ycomoveremos,formanpartedeladeniciondealgunoscoecientes.Engeneral,sedeneelmomentodeordenrrespectoal puntocdelaforma:Mr(c) =k

i=1(xic)r fiaunqueresultandeespecialintereslossiguientesdoscasosparticulares:Momentos ordinarios: Sic = 0entonces el momento de orden r recibe el nombre de momentoordinario,sedenotapormr,secalculaasmr=k

i=1xri fiyseobservaquesir = 1setieneladeniciondemediaaritmetica.Momentoscentrales: Si c = xentonces el momento de orden rrecibe el nombre de momentocentral,sedenotaporr,secalculaasr=k

i=1(xi x)r fiyseobservaquesir = 2setieneladeniciondevarianza.Paraaplicarlaformulaycalcularlosmomentospodemosutilizarlatablaestadstica, talycomosehaexplicadoenel calculodelamediaolavarianza. El procedimientoconsisteena nadir unanuevacolumnaconlas operaciones correspondientes paracadamodalidadde lavariable((xic)r fi)ysumarlosn umerosobtenidos.Ejemplo1.32Calcular los momentos ordinario y central de orden 4 de los datos del ejemplo 1.5delap agina16.Aplicamosdirectamentelaformulaparacalcularelmomentoordinariom4=14 15 + 24 12 + 34 8 + 44 4 + 54 140=250440= 62

6ysabiendoquelamediaes2

1calculamoselmomentocentral4=(12

1)415 + (22

1)412 + (32

1)48 + (42

1)44 + (52

1)4140=150

06840= 3

7517

Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 37Sedestacanlassiguientespropiedadesrelativasalosmomentos:1) m0= 1 2) m1= x 3) m2= 2+ x24) 0= 1 5) 1= 0 6) 2= 2= m2 x2ylasrelacionesentrelosmomentoscentralesyordinarios,comoporejemplo,2= m2m213= m33m1m2 + 2m314= m44m1m3 + 6m21m23m41quenospermitencalcularlosmomentoscentrales,enterminosdelosmomentosordinarios,quesonmassimplesdecalcular.Ejemplo1.33Calcularelmomentocentraldeorden3delosdatosdelejemplo1.5delapagi-na16apartirdelosmomentosordinarios.Primerosecalculanlosmomentosordinariosdeorden1, 2y3quesonm1=2

1, m2=5

6ym3= 17

7yseaplicalarelacioncorrespondienteparaobtener3= m33m1m2 + 2m31= 17

7 3 2

1 5

6 + 2 (2

1)3= 0

942

1.6. MedidasdeformaLaformaquepresentasurepresentaciongracapermiteclasicarunadistribuciondefre-cuencias.Enestaseccionnosjaremosendoscaractersticas:lasimetrayelapuntamiento,yproporcionaremoscoecientesquenospermitancomparardosdistribuciones.1.6.1. MedidasdeasimetraSedicequeunadistribuciondefrecuenciasessimetricacuandolosvaloresdelavariableque equidistande unvalor central tienenlas mismas frecuencias. Estasituacionideal vienerepresentadaporunagracasimetricayentalcasosevericaque x = Me = Mo.Sedicequeunadistribuciondefrecuenciasesasimetricasinoessimetricayestaasimetrapuedepresentarsealaderechaoalaizquierda(vergura1.17):Unadistribucionasimetricaaladerechaopositivase caracterizaporque lagracadefrecuenciaspresentacolaaladerecha, esdecir, estasdesciendenmaslentamenteporladerechaqueporlaizquierda.Enestecasosevericaque Mo Me x.Unadistribucionasimetricaalaizquierdaonegativasecaracterizaporquelagracadefrecuenciaspresentacolaalaizquierda,esdecir,estasdesciendenmaslentamenteporlaizquierdaqueporladerecha.Enestecasosevericaque x Me Mo.Acontinuacion,sepresentandoscoecientesquepermitenestudiarelgradodeasimetraosesgodeunadistribucion,sinnecesidadderepresentarla.ApuntesdeMetodosEstadsticosparalaComputacion38 1.6.MedidasdeformaDistribucionasimetricanegativaoalaizquierdaDistribucionasimetricapositivaoaladerechaDistribucionsimetricaMedianaModaMediaMedianaModaMediaModaMedianaMediaFigura1.17:FormasdeladistribuciondefrecuenciasCoecientedeasimetradePearson. Deacuerdoalasrelacionesentremedia, medianaymoda,establecidasparalasdistintasasimetras,sedeneyseinterpretaelcoecientedesesgodePearsoncomosigueAP= x Modonde___AP> 0 AsimetraaladerechaopositivaAP= 0 SimetraAP< 0 AsimetraalaizquierdaonegativaEjemplo1.34Utilizarel coecientedePearsonparadeterminarel sesgoenel ejemplo1.5delapagina16.UtilizandolosdatosobtenidosenlosejemplosanterioresyaplicandolaformulaseobtieneAP=2

1 11

19 1 > 0loqueindicaqueladistribucionesasimetricaaladerecha(vergura1.18). 0 1 2 3 4 5 60.00.10.20.30.4Figura1.18:Formasdeladistribuciondefrecuenciasdelejemplo1.5Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 39CoecientedeasimetradeFishero2dePearson. Otrocoecienteadimensional quemideel sesgo, haciendousodel momentocentral deorden3, esel coecientedeasimetradeFisherquesedeneyseinterpretacomosigueg1=33donde___g1> 0 Asimetraaladerechaopositivag1= 0 Simetrag1< 0 AsimetraalaizquierdaonegativayquetienesuexplicacionenlacomparacionconladistribucionnormalqueessimetricaycuyocoecientedeasimetradeFishertomaelvalor0paracualquiermediayvarianza.Ejemplo1.35UtilizarelcoecientedeFisherparadeterminarelsesgoenelejemplo1.5delapagina16.Utilizandolosdatosobtenidosenlosejemplosanterioresyaplicandolaformulaseobtieneg1=0

942(1

19)3 0

726 > 0loqueconrmaqueladistribucionesasimetricaaladerecha(vergura1.18). 1.6.2. MedidasdeapuntamientoEl apuntamientoolacurtosisdeterminasi ladistribuciondefrecuenciasesmasomenosaladaoaplastadaquelafunciondedensidaddeladistribucionnormal3conigual mediayvarianza,quesetomacomoreferencia.Enlagura1.19serepresentantresdistribucionesdefrecuenciasque, deizquierdaade-recha, sonplatic urtica(mas aplastadaqueladistribucionnormal), mesoc urtica(similar aladistribucion normal) y leptoc urtica (mas apuntada que la distribucion normal). En cada una deellasseharepresentadolarespectivadistribucionnormalconigualmediayvarianza.Figura1.19:Formasdeladistribuciondefrecuencias3Lafunci onde densidadde ladistribuci onnormal de mediaydesviaci ones lafunci ondenidaporf(x) =12e12(x)2,ycuyagr acaseconocecomocampanadeGauss.ApuntesdeMetodosEstadsticosparalaComputacion40 1.6.MedidasdeformaParadeterminarelgradodeapuntamientosedenelasiguientemedida:CoecientedeaplastamientodeFisher.Uncoecienteadimensionalquemidelacurtosisde una muestra, haciendo uso del momento central de orden 4, es el coeciente de aplastamientodeFisherquesedeneyseinterpretacomosigueg2=44 3 donde___g2< 0 Menosapuntamientoquelanormal.g2= 0 Igualapuntamientoquelanormal.g2> 0 Masapuntamientoquelanormal.Estaformulatienesuexplicacionenlacomparacionconladistribucionnormal. Sepuedecomprobar que el cociente 4/4siempre toma el valor 3 en la distribucion normal de cualquiermediayvarianza. Por lotanto, el coeciente de aplastamientode Fisher de ladistribucionnormaltomasiempreelvalor0.Ejemplo1.36Determinarel apuntamientodeladistribuciondelosdatosdel ejemplo1.5delapagina16.Utilizandolosdatosobtenidosenlosejemplosanterioresyaplicandolaformuladelcoecientedeapuntamientoseobtieneg2=3

7517(1

19)4 3 0,35 < 0loqueindicaqueladistribucionesmenosapuntada(masaplastada)quelanormal deigualmediayvarianza. Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 411.7. Relaci ondeproblemas1. La abilidad de un ordenador se mide en terminos de la vida de un componente de hardwareespecco(por ejemplo, launidaddedisco). Conobjetodeestimar laabilidaddeunsistema en particular, se prueban 100 componentes de un ordenador hasta que fallan, y seregistrasuvida.a) Determinarlapoblaciondeinteres,losindividuosylamuestra.b) Determinarelcaracter,sutipoylasposiblesmodalidades.c) Comopodrautilizarselainformaciondelamuestraparaestimarlaabilidaddelsistema?2. Cadacincoa nos, laDivisiondeMecanicadelaAmericanSocietyofEngineeringEduca-tionrealizaunaencuestaanivel nacional sobrelaeducacionenMecanica, enel nivel delicenciatura, en las Universidades. En la encuesta mas reciente, 66 de las 100 universidadesmuestreadas cubranlaestaticadeuidos ensuprogramadeingenieraenel nivel delicenciatura.a) Determinarlapoblaciondeinteres,losindividuosylamuestra.b) Determinarelcaracter,sutipoylasmodalidadesdelestudio.c) Utilicelainformaciondelamuestraparainferirresultadosdelapoblacion.3. Paracadaunodelossiguientesconjuntosdedatos,indiquesisoncualitativosocuantita-tivosydescribirlasdistintasmodalidades.a) Tiemposdellegadade16ondasssmicasreejadas.b) Marcasdecalculadorasempleadaspor100estudiantesdeIngeniera.c) Velocidadmaximaalcanzadapor12automovilesimpulsadosconenergasolar.d) N umerodecaracteresimpresosporlneadesalidadecomputadoraen20impresorasdelnea.e) N umerodemiembrosdelasfamiliasmalague nas.f ) Estadocivildelpersonaldeunaempresa.g) Horasdevuelodelospilotosdeunacompa naaerea.4. Encadacaso, determinar el tipode distribucion, organizar los datos enunatabladefrecuenciasyrepresentargracamenteladistribucion. Tambiensepide, calcularalgunasmedidasdetendenciacentral,medidasdedispersion,desimetraydeapuntamiento.a) Resistenciaalatension(Kg/mm2)delaminasdeacero.44 43 41 41 44 44 43 44 42 45 43 43 44 45 4642 45 41 44 44 43 44 46 41 43 45 45 42 44 44b) Tiempodeespera(redondeadoenminutos)deunconmutador,paraciertotrensub-terraneo.3 4 1 0 2 2ApuntesdeMetodosEstadsticosparalaComputacion42 1.7.Relaciondeproblemasc) Enciertos entornos, los aceros inoxidables sonespecialmentesusceptibles al agrie-tamiento. Acontinuacionserelacionanlascausasasignablesyel n umerodecasosdetectadoscorrespondientesaestascausas,enunestudiorealizadoentre200acerosobservados.Entornoh umedo 144Entornoseco 45Defectosdemateriales 4Defectosdesoldadura 7d) Contenidodecarbono( %)delcarbonmineral.87 86 85 87 86 87 86 81 77 8586 84 83 83 82 84 83 79 82 73e) Consumodecombustible(litros/100kma90km/h)deseisautomovilesdelamismamarca.6

7 6

3 6

5 6

5 6

4 6

6f ) N umerodehojasdepapel,porencimaypordebajodeln umerodeseadode100porpaquete,enunprocesodeempaquetado.0 1 0 0 1 1 2 0 1 0g) Resultados obtenidos enlas pruebas dedurabilidadde80lamparas electricas conlamentodetungsteno. Lavidadecadalamparasedaenhoras, aproximandolascifrasalahoramascercana.854 1284 1001 911 1168 963 1279 1494 798 1599 1357 1090 10821494 1684 1281 590 960 1310 1571 1355 1502 1251 1666 778 1200849 1454 919 1484 1550 628 1325 1073 1273 1710 1734 1928 14161465 1608 1367 1152 1393 1339 1026 1299 1242 1508 705 1199 1155822 1448 1623 1084 1220 1650 1091 210 1058 1930 1365 1291 6831399 1198 518 1199 2074 811 1137 1185 892 937 945 1215 9051810 1265h) Los clientes de una empresa necesitan contactar telefonicamente con el departamentode mantenimientopararealizar consultas yaclarar dudas. Lagerenciaharecibi-doquejasdelosclientesquesuelenencontrarlalneaocupada. Paradeterminareln umero de lneas nuevas que necesita incorporar a la centralita se realizo una encuestaentrealgunosdelosclientes. Lasiguientetablarecogeel n umerodereintentosquenecesitaronrealizaresosclientesensu ultimallamadatelefonicaalaempresa.3 4 3 3 1 4 1 3 2 31 1 4 2 3 3 2 6 1 13 3 2 2 2 2 1 3 2 16 3 1 2 2 3 2 2 4 25. Calcularlosvaloresquesepidenenfunciondelosdatos:a) SiN= 2, x = 2

6y= 1

1,cualessonlosdatosdelamuestra?b) SiCV= 0

5, x = 2ym3= 14,cuantovale3?Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 436. Seconsideralasiguientetabladefrecuenciasdondelasdistintasmodalidadesestanorde-nadasdemenoramayorxiniNifiFi100 15 0335 00820 0825 4650 1a) Completarlatablaestadstica,utilizandolosdatosqueyacontiene,ylosvaloresdelassiguientesmedidas: N=50, x=10,Me=4,Mo=10,Rango=51y2=201.b) Determinarquedatosymedidasresultanirrelevantesparacompletarlatabla.7. Se atribuye a George Bernard Shaw (el celebre dramaturgo y polemista irlandes) la siguien-teobservacion:Sidosamigosencuentranunpolloyselocomeunodeellos,laestadsticaarmaqueenpromediocadaamigosehacomidomediopollo. Utilceselametodologaestadsticaparaprecisarelcontenidodeestaproposicion.8. Eltama nodelamuestraAes10,ylamediaylamedianasonrespectivamente165y13.Eltama nodelamuestraBes20,ylamediaylamedianasonrespectivamente114y10.Consideremoslauniondelasdosmuestras, quedenotaremosporC, cuyotama noes30.Siesposible,calculelamediaylamedianadelamuestraC,yenotrocaso,determinelaposicionaproximadadelamedidadesconocida.9. El sueldomediodelos obreros deunafabricaes 1.500euros. Enlas negociaciones delnuevoconveniocolectivosepresentandosalternativas: unaumentode150euroseurosacadaobreroounaumentodel 10 %del sueldodecadauno. Estudiarquemodalidadesmassocialenelsentidodequeigualamaslossalarios.10. Busque un ejemplo donde la diferencia entre la mediana y la moda sea mayor que el rangointercuartlico.11. Seakunn umeroenteropositivo.Determinelamedia,lavarianzayelsesgoencadaunadelassiguientesmuestras:a) M1= {1, 2, 3, ..., k}b) M2= {p, p +c, p + 2c, p + 3c, ..., p +kc},conp R.12. Enunexamennal deEstadstica, lapuntuacionmediade150estudiantesfuede7

8,yladesviaciontpicade0

8. EnCalculo, lamediafue7

3yladesviaciontpica0

76.Enquemateriafuemayor ladispersionenterminos absolutos?yenterminos relati-vos?Explicarlarespuesta.Siunalumnoobtuvo7

5enEstadsticay7

1enCalculo,enqueexamensobresaliomas?13. Enunamuestraseobtienenlosvalores2,4,6y8delavariableX.Sepide:a) Calcularlamediaylavarianzadelosvaloresdelamuestra.ApuntesdeMetodosEstadsticosparalaComputacion44 1.7.Relaciondeproblemasb) Hallar los valores tipicados delavariableXycomprobar quelamediadeestosnuevosvaloreses0ylavarianzaes1.c) Demostrarqueelresultadodelapartadoanteriorconstituyeunapropiedaddecual-quiervariabletipicada.14. Las distribuciones defrecuencias delas variables XeY soncampaniformes ysimetri-cas.Ademas,sesabeconocenlossiguientesdatos:VariableX Me=10 2x=4 N=2

x4ifi=12416VariableY Mo=8 2y=4 N=82

y4ifi=5648Determinar los dos valores de X, y comparar la dispersion y la curtosis de ambas variables.15. Demostrarlaigualdadk

i=1(xi x)2fi=k

i=1x2ifi x2quedenealavarianza.16. Encontrarunaformulageneral querelacioneel momentocentral deordenrconlosmo-mentosordinariosdeunordenmenoroigual. Utilizarestaformulaparacomprobarlasrelaciones entre los momentos que aparecenenlaseccion1.5.5ycalcular el momentocentraldeorden5apartirdelosmomentosordinarios.17. Consideremoselsiguientehistogramaquerepresentalafrecuenciaabsolutadelosvaloresdeunamuestra.Sepide:a) Calcularlamedia,medianaymoda.b) Calcularelrangointercuartlico.c) Calcularlavarianza.18. Consideremoselsiguientediagramadefrecuenciasrelativasacumuladas.Sepide:00,10,20,30,40,50,60,70,80,910 1 2 3 4 5a) Calcular lamedia, medianaymodadelavariableX.b) Calcularelrangointercuartlico.c) Calcularlavarianza.19. Sentidocrtico.Antesdeextraerconclusionesdeunosresultadosestadsticos,convieneexaminardetenidamentelosvaloresnumericosobtenidos.Elgrann umerodeoperacionesrealizadasyel volumendedatosmanejadossonfuentesdeerrorqueincidenenlosre-sultados. Unpocodesentidocrticopuedeayudar adeterminar si unos resultados sonconsistentesconlosdatosdel problema. Enesteejercicioseproponeunaseriedecasosdondeelresultadonumericonoescorrecto.Setratadeexplicarrazonadamentelaincon-sistenciadelresultadoenfunciondelosdatos.a) Eln umeromediodeaccesosaunapaginawebes-3.b) Lamedianadeln umerodehijosdelasfamiliasespa nolases2

1.c) Lamodadeln umerodehijoses1

5.Dpto. MatematicaAplicada(UniversidaddeMalaga)1.Estadsticadescriptiva 45d) ElcuartilC3es28yelcuartilC1es32.e) ElcentilP1es32yeldecilD1es28.f ) Lavarianzaes-100.g) Lamediaes10,lamediana12yladesviaciontpicaes0.h) Laexpresiong2 + 3tomaunvalornegativo.20. ModicarlosdatosdeunamuestraEnesteejerciciosevaaestudiarel comporta-mientodelamediaylavarianzacuandosepierde,seganaosemodicaalg undatodelavariable.Seconsideranlosvalores {2, 4, 6, 8}obtenidosenunamuestra.Sepide:a) Calcularlamediaylavarianza.b) Encadacaso,obtenerelnuevovalordelamediaylavarianzasintenerqueaplicarnuevamentelasformulasatodoslosdatos:Caso1: Sedescubrequeelvalor8observadoeserroneoyseelimina.Caso2: Secuentaconunnuevovalor,el5,paralamuestra.Caso3: Sedescubrequeel valor 8observadoeserroneoysecambiapor el verdaderovalorqueesel9.21. Estudiamosel tiempodeduraciondeunprocesodonde, enalgunoscasos, el procesonisiquieracomienzay, portanto, el tiempodeduracionescero. Realizamos200pruebasyobtenemosuntiempomediode35segundosconunavarianzade7.a) Si el 23 %delaspruebasfueronconsideradasdetiempo0. Cual eslamediaylavarianzadelasrestantes.b) Si enlas 200 pruebas se obtuvierontiempos positivos yconsideramos 50 nuevaspruebasdetiempo0,cualeslanuevamediayvarianzaparalas250observaciones?c) Obtener una formula que permita obtener la nueva media y varianza de una muestracuandoa nadimosoeliminamosunn umeroarbitrariodeobservacionesdevalor0.22. Enocasiones, determinarsi losresultadosdeunproblemasoncoherentesconlosdatos,noestandirectocomoenlosapartadosdel ejercicio19. Porejemplo, supongamosqueenunamuestrade200observaciones, seobtienequelamediaes35ylavarianzaes7.Son coherentes estos resultados, si sabemos que el 23 % de las observaciones toma el valor0?Intentarazonarlarespuestaydespues, calculael valordelavarianzadelamuestra,sinconsiderarlosvaloresnulos, puesel resultadoindicalaincoherenciadelosdatosdelproblema.23. Datos agrupados. Se consideran los datos del ejemplo 1.7 de la pagina 17 y los resultadosobtenidosalolargodel captulo. Seestudiacomoafectalaparticionenintervalosalosparametroscalculados.Paraello,sepide:a) Dividir el rangoenintervalos de amplitud20ycalcular los distintos parametros:Media,mediana,moda,rangointercuartlico,varianza,coecientedevariacion,coe-cientedeasimetradeFisherycoecientedeapuntamiento.b) Repetir el ejercicio anterior dividiendo el rango en intervalos regulares de amplitud 5,25y50. Considerartambienlaparticionirregularporcalicaciones: [0,20), [20,50),[50,60),[60,70),[70,90)y[90,100].ApuntesdeMetodosEstadsticosparalaComputacion46 1.7.Relaciondeproblemasc) Compararlosdatosobtenidosenlasdistintasparticionesydeterminarcomoafectaalresultadonumericodecadaparametro.d) Compararlosvaloresnumericosobtenidosparalosdistintosparametrosconlosqueseobtienensinoseconsideranlosdatosagrupados.24. Tablas de frecuencias. Enel temasecomentaquelas tablas defrecuencias puedenresultar muy utiles para realizar los calculos de determinados parametros y son facilmenteimplementables en una hoja de calculo. Para ello, basta con a nadir columnas (a la derecha)que contengan