est ad is tic a

Upload: ele

Post on 15-Jul-2015

137 views

Category:

Documents


0 download

TRANSCRIPT

LECCIONES DE ESTADSTICA EstosapuntesfueronrealizadosparaimpartirelcursodeMtodosEstadsticosy numricos en el I.E.S. A Xunqueira I de Pontevedra. Esposiblequetenganalgnerrordetranscripcin,porloquenome responsabiliz de las consecuencias que dichos errores puedan inducir. J.M. Ramos Pontevedra 2008 NDICE Tema I. Estadstica Descriptiva...................................................................... 4 Tema II. Distribuciones bidimensionales. Correlacin y Regresin............ 27 Tema III. Combinatoria ................................................................................ 33 Tema IV. lgebra de sucesos....................................................................... 39 Tema V. Probabilidad................................................................................... 43 Tema VI. Cadenas de Markov...................................................................... 61 Tema VII. Variable aleatoria discreta y continua......................................... 67 Tema VIII. Distribucin binomial ................................................................ 79 Tema IX. Distribucin normal...................................................................... 85 Tema X. Estimacin puntual ...................................................................... 101 Tema XI. Estimacin mediante intervalos de confianza ............................ 105 Tema XII. Contraste de hiptesis ............................................................... 111 Tema I. Estadstica descriptiva4Mtodos Estadsticos TEMA I. ESTADSTICA DESCRIPTIVA Fenmenos determinsticos Llamadostambincausales,sonaquellosenlosqueseobtienenlosmismos resultados,siemprequeserealicenenlasmismascondiciones.Enellosesposible predecir el resultado final conociendo el estado inicial y las condiciones de realizacin. Estnsujetosaleyesnaturalesquepuedenserformuladasmedianteecuaciones matemticas. Se comprende fcilmente la imposibilidad de realizar un fenmeno en las mismas condicionesabsolutas,pueslaimperfeccindelamenteydelossentidosdelhombre hace que no podamos representarnos todas las causas que intervienen en un determinado fenmeno. Estas causasdesconocidas las sustituimos por lo que se llamaazar, peroen elcasodelosfenmenosdeterminsticoselazarjuegaunpapeltannfimoquesuele despreciarse su efecto.En muchos fenmenos (fsicos especialmente) la presencia del azar es mnima, sin embargo en otros fenmenos, como los sociales, lo imprevisible es de tal magnitud que hace que no podamos predecir el estado final. Obviamentelosfenmenosdeterminsticossonobjetodeestudioporpartede ciencias tales como La Fsica, la Qumica...etc. Un ejemplo de fenmeno determinstico es la caida libreyen vaco de un objeto desde una altura h. Se sabe a priori que la velocidad final con la que va a llegar al suelo (estado final) viene determinada por la ley gh v 2 = .Otro sera que si tenemos un gas comprimido en un recipiente de volumen V y sometido a una presin P, su temperatura viene dada por la frmula :nRV PT.= , donde n es el nmero de moles de gas y R es una constante qumica. Observemosqueenamboscasospodemossaberconseguridadelestadofinal siempreycuando realicemos el experimento conun estado inicial conocidoydndose laparticularidaddequesilovolvemosarealizartantasvecescomodeseemos,los resultados finales van a ser idnticos. Todo ello es lo que caracteriza a los fenmenos determinsticos o causales. Tema I. Estadstica descriptiva5Mtodos Estadsticos Fenmenos aleatorios Adiferenciadelosanteriores,sonaquellosenlosqueesimposiblepredecirel resultadofinal,aunrepitindoloenlasmismascondicionesyadems,dondeuna pequeavariacinenlascondicionesinicialesproduceunagranvariacinenlos resultadosfinales.(Elaleteodeunamariposaenchinapuedeprovocarunhuracnen Panam).Estacaractersticapodrahacernospensarenlaimposibilidaddeunestudio formalyutildeestetipodefenmenos.Lapresuntaesterilidaddelestudiodelos fenmenosaleatoriosquedarefutadadeinmediatodebidoaquetodospresentanuna importantsimapropiedadempricadenominadaregularidadestadsticaque analizaremos con un ejemplo. Obviamentesonfenmenosaleatorios,ellanzarundadoounamoneda;extraer unacartadeunabarajaounaboladeunaurna,rellenarunboletodelalotera primitiva...etctera.Comosepodrintuirhaytodaunainfinidaddefenmenos aleatorios. Estos fenmenos son objeto de estudio de la Estadstica. Estadstica. Concepto: Comoyaseconcluyenelapartadoanterior,laEstadsticaeslacienciaque estudia los fenmenos aleatorios. Histricamente,pareceserquelosdatosmsantiguosqueseposeenacercadel usodelastcnicasestadsticas,seremontanaloscensoschinosordenadosporel emperador Tao, 2200 aos a.C. Tambin tuvieron importancia los censos romanos hacia el ao 555 a.C. Es en el ao 1660 cuando se publica la obra Aritmtica poltica o descripcin de las cosas notables del Estado de Hoernn Conring. Es donde esta ciencia comienza a denominarse Estadstica. Ms adelante citar los notables trabajos del alemn Mendel (1822-1844), abad del monasteriodeBrnnquefuequinpusoloscimientosdelaactualGenticaconsus estudios sobre la herencia. Citar a Pascaly a otros colegas franceses, que motivados por problemas surgidos en los juegos de azar, comienzan a estudiar en serio esta Ciencia. En el siglo XX, la Estadstica adquiere un impulso renovador con los estudios de los ingleses Pearson, Galton y Weldon, as como del ruso Kolmogorov. Hoy en da la Estadstica forma parte de nuestra realidad ms cotidiana, pues basta abrir un peridico o escuchar un noticiario para darnos cuenta de la cantidad de datos y conceptos estadsticos que se manejan. Estadstica descriptiva Esaquellaramadelaestadsticadondelasconclusionesqueseobtienendelas experienciasodatosenestudionorebasanloslmitesdelosmismos.Tienecomo propsitosurepresentacinmediantetablas,grficosyreduccionesdedatos.Puede tambincomprenderelanlisisdelosmismos,siemprequesusconclusionesno trasciendan ms alla de dichos datos. Conceptos bsicos de Estadstica descriptiva. Tema I. Estadstica descriptiva6Mtodos Estadsticos PoblacinoUniversoEstadstico.-Conjuntoformadoportodosloselementos que posean una serie de caracteres previamente estipulados. Cada uno de los elementos delapoblacinsedenominaindividuoystospuedensersimples(hombres,piezas)o colectivos (familias) Todavezqueelnmerodeloselementosdeunapoblacinobjetodeestudio estadstico,enlamayoradeloscasosesmuynumeroso,resultacaroyengorrosoel estudiodelosmismos,porloqueserecurreaunsubconjuntorepresentativodela poblacin. Muestra.- Para evitar un estudio, a veces imposible, de una poblacin debido a su grannmerodeindividuos,sesueletomarunsubconjuntorepresentativollamado muestra,bajocriteriospreviamenteestudiados,detalmodoqueelestudioendicho conjuntonospermitainducirresultadosentodalapoblacinconungradodecerteza ciertamentegrande.Delabuenaeleccindelamuestra,dependerlabondaddelos datos extrados para la poblacin. Tamao de la poblacin: Obviamenteel tamaoes el nmero de individuos que componen la poblacin o muestra. Lo representaremos por N Variableestadstica.-Denominadatambincarcter,esunacaractersticao propiedad comn a todos los individuos de una poblacin objeto de estudio estadstico. Por ejemplo en una poblacin de personas, el peso podra ser una variable estadstica, el color de ojos...etc. Atodoslosposiblesresultadosdeunavariableestadsticaseledenominan modalidades o valores de la variable (datos) Normalmente representaremos por X una v.e y por xi sus modalidades. Unejemplodevariableestadsticapodraserelsexo,cuyasmodalidadesseran varon,hembra.Setrataradeunav.e.condosmodalidades;porelcontrariosi consideramos la v.e. estatura, las modalidades pueden llegar a ser infinitas, dentro de un intervalo. Estosdosltimosejemplosmevanapermitirclasificarlasvariablesestadsticas segn el siguiente esquema: as CualitativContinuasDiscretasvas Cuantitatia estadstic Variable Vamos a analizar esta clasificacin: a)Variables estadsticas cuantitativas: Son aquellas cuyas modalidades vienen representadasporunvalornumrico;esdecirsondealgnmodomedibles. Por ejemplo, la estatura, el peso, en valor de un dado...etc. a.1)Sondiscretascuandolacantidaddemodalidadesenunconjuntofinitoo infinitonumerable(losvaloresdeundado,elnmerodebolasblancasquese extraen de una urna con devolucin hasta que aparezca una negra) a.2)Soncontinuascuandolacantidaddemodalidadesesinfinitoytoma cualquier valor en un intervalo real. (el peso de una persona) Tema I. Estadstica descriptiva7Mtodos Estadsticos b)Variablesestadsticascualitativas:Susmodalidadessonatributoso cualidadesnomediblesyportantocarecenderepresentatividadnumrica (color de ojos, cara o cruz...etc) Parmetro.-Estodafuncindefinidasobrelosvaloresnumricosdeuna poblacin(MediaaritmticadelasalturadetodoslosalumnosdeBachilleratode Galicia) Estadstico.- Es toda funcin definida sobre los valores numricos de una muestra (Media aritmtica de las altura de los alumnos de una muestra de 10 alumnos por centro de bachillerato de Galicia)

Seaunapoblacinomuestra,detamaoN,sobrelaquevamosaestudiaruna variable estadstica discreta con p modalidades:x1, x2, x3 ... xp Frecuencia absoluta de la modalidad xi.- Es el nmero entero de veces que dicha modalidad aparece en la poblacin o muestra. Lo representaremos por ni. Son de destacar las siguientes propiedades, que se deducen inmediatamente de la definicin: a)p i N ni... 1 0 = b)N npii==1 Frecuenciarelativadelamodalidadxi.-Eslaproporcinconlaqueaparecela modalidadxienlapoblacinomuestra.Seobtienedividiendolafrecuenciaabsoluta entre N.Enmuchasocasionesestaproporcinvieneexpresadaentantoporciento.Basta multiplicar la frecuencia relativa por 100. La frecuencia relativa la representaremos porfi.

En consecuencia: Nnfii=Son propiedades triviales de la frecuencia relativa, que se deducen de las indicadas para la frecuencia absoluta, las siguientes: a) p i fi... 1 1 0 = b) 11==piif Frecuenciasacumuladas.-Ordenadosensentidocrecienteodecrecientelos valoresomodalidadesdeunav.e.,definiremoslafrecuenciaacumulada(absolutao relativa)comolasumadefrecuenciashastaunvalordeterminadodelavariable. Cuandolamodalidadeslaltimadelaordenacincreciente,lafrecuenciaacumulada serigualaNsisetratadefrecuenciasabsolutas,y1siloqueseacumulansonlas frecuencias relativas. Lafrecuenciaacumuladaabsolutaparalamodalidadxi,serepresentarporNi, mientras que si se trata de la relativa, la representaremos por Fi Tema I. Estadstica descriptiva8Mtodos Estadsticos Tablasderecogidadedatos.-Todalainformacinrecogidaanteriormentese dispone en una tabla de la siguiente manera: DatosFr. AbsolutaFr. relativaFr.Abs.Acu.Fr.Rel.Acu.% x1 n1 f1 F1=n1 F1 = f1 100.f1 x2 n2 f2 F2 = n1+n2 F2 = f1+f2100.f2 .................. xp npfp Fp= NFp = 1100.fp TOTALESN1100 Esderesaltarqueestasdefinicionesanterioresestnestablecidascuandoel conjunto de datos en discreto. En caso de que la variable sea cuantitativa continua, el nmero de modalidades es infinito y no toman valores aislados, por lo que no podemos representarlas mediante los xi. Cmo se procede en este caso? Intervalos de clase. Marcas de clase.- Cuandolavariableestadsticaescuantitativacontinuaodiscretaperocongran cantidad de modalidades, es necesario dividir el recorrido de la variable en intervalos, a serposibledeigualtamao,denominadosintervalosdeclase.Elnmerodeintervalos influir en la precisin de los estadsticos que se vayan a estudiar. Obviamente a mayor nmero de intervalos, mayor precisin. Utilizaremos la siguiente notacin. El intervalo de clase lo denotaremos por ) (1 i iL L ,siendoLi-1 yLiloslmitesinferiorysuperior,respectivamente,del intervalo. Ladiferenciaentreamboslmitesnosdeterminarneltamaoolongituddel intervalo, denominado amplitud y que representaremos por ci. As pues, ci=Li-Li-1. Comovamosaseguirteniendonecesidaddeutilizarvaloresnumricospara obtenerlosdistintosestadsticosdelamuestra,consideraremoscomovalores representativosdelosintervalosdeclase,susvalorescentrales,quedenominaremos marcas de clase.Las marcas de clase son los equivalentes a los xi en el caso discreto. Su valor viene dado por:21 i iiL Lx+=. Lasfrecuenciasabsolutasyrelativassereferirnalosintervalosdeclase,detal modoquediremosqueelintervalo) (1 i iL L tienefrecuenciaabsolutanicuandoel nmerodeindividuos,cuyamodalidadcaigadentrodedichointervalo,sea precisamente ni. Anlogamente haremos lo mismo para la frecuencia relativa. Es importante que cada dato est en un solo intervalo, por lo que los extremos han deserindicadosabiertosocerrados,segnelcaso.Enocasionesparaevitaresto,los valores extremos de los intervalos suelen ser tomados con una cifra decimal ms que la que poseen los datos. Esteprocedimientodeclasificarlosdatosenintervalosvaaproduciruna inevitableprdidadeinformacin,puestoquenoseconsiderarnlosresultados exactamente, sino por aproximacin: no se dir que un elemento tiene un carcter cuya medida es xi, sino que dicho valor se encuentra en el intervalo) (1 i iL L . Tema I. Estadstica descriptiva9Mtodos Estadsticos Aspues,loqueinteresaeselegirunaamplitud(aserposibleconstante)delos intervalos lo suficientemente pequea para que la prdida de informacin sea la menor posibley,almismotiempo,losuficientementegrandeparaqueelagrupamiento presenteunadistribucindenodemasiadosintervalos,puesdelocontrariodicho agrupamiento perdera su finalidad, es decir, la comodidad del tratamiento. Tablas de recogida de datos IntervalosMarcas Fr. AbsolutaFr. relativaFr.Abs.Acu.Fr.Rel.Acu.% L0-L1 x1 n1 f1 F1=n1 F1 = f1 100.f1 L1-L2 x2 n2 f2 F2 = n1+n2 F2 = f1+f2100.f2 .................. Lp-1-Lp xp npfp Fp= NFp = 1100.fp TOTALESN1100 Representaciones grficas Partiendo de la mxima vale ms una imagen que mil palabras, el objeto de las representacionesgrficas es precisamente hacer valer esta frase hecha, demodo que el impactovisualdelarepresentacinrespondaalarealidady,porconsiguiente,el mtodo seguido deber basarse en principios geomtricos ortodoxos. Veamosloscasosderepresentacinparaelcasodevariablesdiscretasno agrupadas en intervalos. a)Diagramadebarras:Seelaborasealandoenlasabscisasdeunsistemade ejes de coordenadas los valores de la variableconstruyendo sobre ellos unas columnas de altura igual a la frecuencia de cada uno de los valores, medida en el sentido del eje de ordenadas. Tambin puede realizarse un diagrama de barras para frecuencias acumuladas. b)Diagramadesectores:Consisteenuncrculoconsectoresderea proporcional a las frecuencias de cada uno de los valores. El ngulo correspondiente al sector de la modalidad xi, viene dado por 360.fi. Tambinpuederepresentarseenunsemicrculo,porloquelosngulosvendran dados por 180.fi c)Pictograma:Noesmsqueundiagramadebarras,peroenvezdesimples columnas,seilustraconfigurasalusivasalosdatosestudiados(animales,personas, mquinas...etc) Cuandolosdatosvienenagrupadosporintervalos,disponemosdeotrotipode representacin grfica: Los histogramas. Loshistogramassonrectngulosdebaseigualalosintervalosdeclaseyaltura proporcionalalafrecuenciaestablecidaparadichosintervalos.(tambinsepueden hacer para frecuencias acumuladas) Polgono de frecuencias: Es el polgono limitado en un histograma por el eje de abscisas y la lnea quebrada resultante de unir el punto medio del lado superior de cada rectngulo (con frecuencias Tema I. Estadstica descriptiva10Mtodos Estadsticos absolutas)olalneaquebradaresultantedeunirencadarectnguloelvrticedel polgono anterior con el suyo. Se realiza tanto para histogramas de frecuencias simples como acumuladas. REDUCCIN DE DATOS. MEDIDAS CARACTERSTICAS Esta denominacin de reduccin de datos se debe a Fisher,y consiste en sustituir la tabla estadstica, la cual nos da una idea de difcil comparacin con otras tablas, por unos nmeros (estadsticos o medidas caractersticas) que midan las caractersticas ms importantes de la distribucin de los datos. Estos valores o medidas caractersticas pueden ser de dos tipos: de centralizacin y de dispersin. Medidas caractersticas de centralizacin: Son valores de tendencia central en torno a los cuales se encuentran los valores de la variable estadstica, con arreglo a un cierto critero de equiiibrio para las frecuencias. Eslacaractersticamsimportantedeladistribucinysemideatravesdelos promedios, entre los cuales estn los siguientes: a)Mediaaritmtica(Cuandosehablademediaasecas,nosreferiremosala mediaaritmtica):Seobtienemultiplicandocadavalordelav.e.porsufrecuencia relativa y sumando todos los productos obtenidos. Se representa porx . = = == = =piiipii ipiinN Nnx f x x1 1 11. . Sellamatambincentrodegravedaddeladistribucinporadmitirlasiguiente interpretacinmecnica:Consideremosquesobrecadapuntoxiactaunafuerzade valor ni. En este casoxcorresponde al punto del ejeen el cual, aplicando la fuerza de valor N, produce el equilibrio del sistema. Para evitar largos y tediosos clculos de aritmtica elemental, la media aritmtica la obtendremos mediante el uso de calculadora cientfica. Siconsideramoslosvaloresdedesviacin,x -xi,setienecomopropiedad interesante que 0 ). (1= =ipiin x x . c)Media aritmtica ponderada.- Endeterminadasocasionesqueremosquealgndatotengamsvalor,opese msalahoradeserconsideradodentrodeladistribucin.Asipues,enestecaso, asociamosalosdatosx1,x2,...,xp,ciertosfactorespeso(opesos)w1,w2,...,wp, dependientes de la relevancia asignada a cada nmero. En tal caso, la expresin: Tema I. Estadstica descriptiva11Mtodos Estadsticos

==pi ii iww xx1.se llama media aritmtica ponderada de pesos w1, w2, ..., wp d)Media geomtrica NpininpNn nipx x x x G112 1) ( ... .2 1== =Notieneunaspropiedadestansencillasyclarascomolamediaaritmtica;no obstante se suele usar cuando la variable sigue progresin geomtrica. Tambin en la elaboracindelosnmerosndices(quesevernmsadelante),muestrauna propiedad interesante. e)Media armnica H = =piiinxN1.1 f)Media cuadrtica C=Nn xpii i =12. Esto puede generalizarse definiendo la media general de orden m M(m) = =piimimn xN1.1 resultando la media armnica para m=-1; la media geomtrica para m=0, la media aritmtica para m=1y la media cuadrtica para m=2 Se verifica: ) 2 ( ) 1 ( ) 0 ( ) 1 ( M M M M , es decir que: C x G H Mediana Ordenadoslosdatosdemenoramayoroviceversa,lamedianaeselvalordela v.e, que deja el 50% de los datos a un lado y el 50% restante al otro. En otras palabras, la mediana divide por la mitad a los datos. El clculo de la mediana difiere en funcin del tipo de distribucin, es decir si se trata de valores aislados o distribuidos por intervalos de clase. Tema I. Estadstica descriptiva12Mtodos Estadsticos En el primer caso, la mediana se obtiene del siguiente modo: a)Sielnmerodedatosespar,lamedianaeslamediaaritmticadelosdos valorescentralesqueseobtienenalordenardichosdatos,esdecirquesilosNdatos ordenados son a1, a2, ... , aN, la mediana es: Me = 212 2++N Na a b)Sielnmerodedatosesimpar,solamentehabrunvalorcentral.Esteser precisamente la mediana, y dicho valor, siguiendo la notacin anterior es. 1 )2( +NEnta En el caso de distribucin por intervalos el valor de la mediana es: iiiicnN NL Me .) 2 / (11+ = .,siendoLi-1 ellmiteinferiordelintervalodondese encuentra la mediana (aquel donde se alcance el 50% del total de la poblacin N); Ni-1 es la frecuencia acumulada absoluta hasta dicho intervalo; ni es la frecuencia absoluta en el intervalo y ci es la amplitud del intervalo. Esta frmula se demostrar en clase. Ejemplo: Sea la distribucin siguiente: IntervalosMarcasFrecu. AbsolutaFrec. Abs. acum.. 2-4355 4-6549 6-87312 8-109618 10-1211725 Primerodetectamoselintervalodondeseencuentralamediana.ComoN=25, calculamosN/2=12,5.Estafrecuencia,viendolatabladefrecuenciasacumuladas,se encuentra en el intervalo 8-10, por tanto Li-1=8, Ni-1=12, ni=6. De ah se obtiene que6 1 , 8 2 .612 5 , 128 =+ = Me . Mtodo grfico del clculo de la mediana En el ejemplo anterior sera: Como ambos tringulos son semejantes 6/2 = 5,5/x ; de donde x = 1,83 Me = 10 1,83 = 8,17 Tema I. Estadstica descriptiva13Mtodos Estadsticos Moda Es el valor de la v.e. que ms se repite. Segn esta definicin puede haber ms de unamoda,llamndoseladistribucinunimodal,bimodal...etc,segntengauna,dos ...etcmodas. Elclculoparadistribucionesconvaloresaisladosestrivial;sinembargoparael casodedistribucionesagrupadasporintervalosnoestanevidente,ylafrmulaque determina la moda es: ii i i ii iicn n n nn nL Mo .) ( ) (1 111+ + + = ,siendoLi-1Lielintervalodondese encuentra la moda. Mtodo grfico para el clculo de la moda (en el caso de distrib. agrupadas)Ejemplo: Sea la distribucin siguiente: IntervalosMarcasFrecu. AbsolutaFrec. Abs. acum.. 2-4355 4-6549 6-87716 8-109622 10-1211224 Estudiamosprimerocualeselintervalomodal(demayorfrecuencia)ytrazamos lossegmentosqueunenlosvrticessuperioresdelrectngulodelhistograma correspondienteendichointervaloconlosextremosdelosrectnguloscontiguos, obtenindose dos tringulos (el verde y el rojo) semejantes pues tienen ngulos iguales. Si llamamos x a la altura (respecto del lado vertical) del tringulo rojo, resulta que 2-x es la altura del verde. Por otra parte la base (lado vertical) del rojo vale 7-4=3, y la del verde vale 7-6=1. Estableciendo la razn de semejanza, se obtiene que x/3 = (2-x)/1; de donde x= 1,5; de donde la Moda ser6+1,5 = 7,5. Relacin emprica entre media, mediana y moda. Para distribuciones de frecuencia unimodal que sean poco asimtricas se tiene que: Media Moda = 3(media mediana) MEDIDAS POSICIONALES Los cuantiles Tema I. Estadstica descriptiva14Mtodos Estadsticos Se llama cuantil de orden m a un valor xm que deja por debajo de l al m por 100 de los elementos de la poblacin. Cuartiles: Sonlosvaloresquedividenalapoblacinen4partesiguales.Existenportanto trescuartiles:Q1(primercuartil),Q2(segundocuartil),Q3(tercercuartil).Resulta obvio que Q2 = Me. Clculo de los cuartiles. a) Caso discreto o valores aislados:Ordenados de menor a mayor los datos y para i=1,2,3.Si N.i/4 no corresponde a ningn valor de la frecuencia acumulada (est entre NkyNk+1)seledaaQielvalordelavariablequecorrespondealafrecuencia acumulada Nk+1. EncasodequeN.i/4correspondeaunvalorNkdelafrecuenciaacumulada,el cuartil es la media aritmtica entre xk y xk+1 b) Caso continuo o por intervalos: Se utiliza la frmula: Qr= iiiicnN N rL .) 4 / .(11+ , para r=1,2,3 RecorridointercuartlicooI.Q.R.:EsladiferenciaentreQ3yQ1.Laideaes dividir los datos en cuatro grupos iguales y ver lo distantes que son los extremos de esos grupos Box plots o diagramas de Tukey de caja y bigotes PararealzarelIQR,JohnTukerinventuntipoderepresentacinllamado Diagramadecajaybigotes.LosextremosdelacjasonloscuartilesQ1yQ3.La Mediana se dibuja dentro de la caja.Si un punto est a ms de 1,5 veces el IQR alejado de un extremo de la caja, se denomina atpico y se dibuja de forma aislada. Finalmente seextiendenlosbigoteshastalospuntosmslejanosquenoseanatpicos(esdecir dentro de 1,5 veces el IQR de los cuartiles). Estosdiagramassonespecialmentebuenospararealzarlasdiferenciasentre grupos.Veamos como son: Q1Q3Me Datos atpicos Datos atpicos 1,5 IQR Tema I. Estadstica descriptiva15Mtodos Estadsticos Quintiles: Son los valores que dividen a la poblacin en 5 partes iguales. Existen 4 quintiles: K1, K2, K3, K4. Su clculo es exactamente igual que en el caso de los cuartiles y su frmula es: Kr= iiiicnN N rL .) 5 / .(11+ ,para r=1,2,3,4 Deciles: Son los valores que dividen a la poblacin en 10 partes iguales. Existen 9 deciles, siendo estos:Dr, con r =1...9 Suclculoesexactamenteigualqueenelcasodeloscuartilesyademsse verifica: D2=K1 ; D4=K2 ; D5 = Me ; D6=K3 ; D8 =K4 La formula para los deciles es: Dr=iiiicnN N rL .) 10 / .(11+ para r =1, 2, 3... 9 Centiles o percentiles: Sonlosquedividenalapoblacinen100partesiguales.Hay99centilesquese representan por Cr o Pr indistintamente, donde r= 1...99. Para su clculo nos remitimos al clculo de los cuartiles. Se producen ciertas identidades tales como:C25=Q1; C50 = Me...etc. La frmula para centiles es: Cr= iiiicnN N rL .) 100 / .(11+ para r=1,2,3...99 Tema I. Estadstica descriptiva16Mtodos Estadsticos ANEXO RECOGIDA DE DATOS CON LA CALCULADORA Dependiendo de las marcas comerciales de las calculadores cientficas, el modo de trabajar con datos estadsticos normalmente vara de una a otra. INTRODUCCIN DE DATOS CON LA CALCULADORA CASIO fx-100D Paso 1) Activar el modo de trabajo en Estadstica: MODE + 3 (En la cabecera de la pantalla tiene que aparecer la leyenda SD) Paso 2) Borrado de posibles datos en memoria de trabajos anteriores: KAC =SHIFT + AC Paso 3) Comprobar que, en efecto, no tenemos datos n =SHIFT + 3 (Este n es el equivalente a nuestro N). En la pantalla tiene que aparecer 0. Paso 4) Introducir los datos: Para introducir, por ejemplo, el dato 8 con frecuencia 4: 8 X4 M+, o bien 8 y se pulsa la tecla M+ cuatro veces. Paso 5) Comprobar que el nmero de datos introducidos coincide con N n = SHIFT + 3. En la pantalla tiene que aparecer N. Paso 6) Calcular la media aritmtica, desviaciones tpicas...etc. SHIFT + 1 INTRODUCCIN DE DATOS CON LA CALCULADORA CASIO fx-570 ES 1)SHIFTMode4(STAT) 1(FRECUENCIA ON) 2) SHIFT1(STAT) 2 (DATA) 3) Introducir x1 = x2 =x3 = ... con el cursor pasar a la columna frec e introducir los valores de las frecuencias absolutas correspondientes (n1 =n2 =...) 4)AC 5) SHIFT 1(STAT) 5(VAR): 1 (n) = tamao de la poblacin 2 (x) = media aritmtica 3 (xn) = desviacin tpica. 6) Borrar datos: SHIFT 1(STAT)3(Edit) 2: (Del-A) Tema I. Estadstica descriptiva17Mtodos Estadsticos INTRODUCCIN DE DATOS CON LA CALCULADORA CASIO fx-350 ES 1)SHIFTMode3 (STAT) 1(FRECUENCIA ON) 2) SHIFT1(STAT) 2 (DATA) 3) Introducir x1 = x2 =x3 = ... con el cursor pasar a la columna frec e introducir los valores de las frecuencias absolutas correspondientes (n1 =n2 =...) 4)AC 5) SHIFT 1(STAT) 5(VAR): 1 (n) = tamao de la poblacin 2 (x) = media aritmtica 3 (xn) = desviacin tpica. 6) Borrar datos: SHIFT 1(STAT)3(Edit) 2: (Del-A) INTRODUCCIN DE DATOS CON LA CALCULADORAcasio fx-570 MS 1)SHIFT MODE 1 (SD) 2)Comprobacin de datos SHIFT 1 3(n) 3)Introduccin de datos:xi ; ni M+ 4)Clculo de parmetros SHIFT 2 1(x media) 2 (xon) desv. tipica. 5)Borrado de datos: SHIFT 1(Clr) CREAR TABLAS DE FRECUENCIAS EN EXCEL Caso discreto: En un rango se escriben todos los datos. A continuacin en una matriz columna se escriben las modalidades. Seleccionamos la columna donde queremos que aparezcan las frecuencias absolutas Se pulsa fx y vamos a las funciones estadsticas, dentro de las que escogeremosFRECUENCIA.Haydosparmetrosquehayqueintroducir:Datosy grupos.Endatosseleccionamoslamatrizdedatosyengruposlamatrizde modalidades.ydamossalidaalosresultados,altratarsedeunamatriz,con CTRL.+Maysculas. Caso continuo: Al igual que en el caso anterior pero en el parmetro grupos hemos de escribir los limites superiores de los intervalos de acogida de datos. Tema I. Estadstica descriptiva18Mtodos Estadsticos EJERCICIOS PROPUESTOS 1.Lasedadesdeseisdependientesdeuncomercioson:18,19,25,29,34,35aos. Calcular la media de dichas edades 2. La medida de la longitud de 50 varillas ha dado los siguientes resultados: de 5 cms, 8 varillas; de 7 cm., 6 varillas; de 8 cm., 6 varillas; de 9 cm., 9 varillas; de 10 cm., 11varillas;de12cm.,7varillasyde13cm.,3varillas.Calcularlamediadeestas longitudes. 3.Calcularlamediadeladistribucincorrespondientealaestaturade40chicos de primero de Bachillerato, siendo esta: Intervalos148,5-153,5153,5-158,5158,5-163,5163,5-168,5168,5-173,5173,5-178,5 Frec.abs.24111454 4. Calcular la media de los siguientes valores agrupndolos primero por intervalos de amplitud igual a 5 y despus por intervalos de amplitud igual a 10. Estos valores son: 49,48,43,42,49,41,42,43,43,44,44,51,53,54,51,59,58,57,56,54,51,54,53,64,62,64, 63,62,61,62,68,68,67,66,69 5.Dadaladistribucindelatabla,calcularlamediaaritmtica,lamedia geomtrica,lamediaarmnica,lamediacuadrtica.Comprobarquerelacinexiste entre ellas: xi 2381217 ni 22331 6.Calcularlafrecuenciacorrespondientealtercerintervalodelasiguiente distribucin, sabiendo que la media aritmtica es igual a 11,5 Int. 4-66-1010-1616-2020-30 ni 45x31 7. Calcular la mediana de las siguientes distribuciones de frecuencias: xi 12345 ni 1012773 xi 2468101214 ni 1210875810 8. Dada la siguiente serie estadstica de la distribucin de salarios a los obreros de una empresa, calcular la mediana: SALARIONUM. OBREROSNUM. OBREROS. ACUM 20000-25000100100 25000-30000150250 30000-35000200450 35000-40000180630 40000-5000041671 Tema I. Estadstica descriptiva19Mtodos Estadsticos 9.LascalificacionesdelaasignaturadeMatemticasdelos40alumnosdeuna clase vienen expresadas por la siguiente tabla: Nota123456789 Alum.224589343 Calcular los cuartiles 1 y 3 as como los percentiles de orden 30 y 70 10. Se tiene la siguiente distribucin continua, expresada por la tabla siguiente: Interv.38-4444-5050-5656-6262-6868-7474-80 Ni7815251896 Calcular los cuartiles 1 y 3, as como los percentiles 40 y 90 11.Unazapateradecaballerosvendeenunda45paresdezapatosdelas siguientes tallas. Talla3738394041424344 Zapatos135812952 Calculara)lamediana,b)Cuartiles,c)Qupercentilescorrespondenalatalla 39? 12. El nmero de hijos de 20 familias seleccionadas al azar, es el siguiente: 3, 1, 2, 2, 1, 5, 2, 2, 0, 6, 3, 2, 4, 3, 4, 2, 3, 1, 7, 6 a)formar la tabla de frecuencias b)Construir el correspondiente diagrama de barras c)Construir el polgono de frecuencias. d)Construirundiagramadesectoresoensudefectoindicarelnguloque correspondera a cada modalidad en dicho diagrama. 13. Los valores el ph sanguneo en 80individuos son los siguientes: 7,33 7,32 7,34 7,40 7,287,297,357,337,347,287,317,357,327,337,337,367,32 7,317,35 7,36 7,267,39 7,297,327,347,307,347,327,39 7,307,33 7,33 7,35 7,347,33 7,367,33 7,35 7,31 7,337,37 7,387,387,337,35 7,30 7,317,33 7,357,33 7,277,33 7,327,31 7,34 7,32 7,32 7,32 7,31 7,36 7,30 7,37 7,33 7, 32 7,31 7,337,32 7,30 7,29 7,387,337,357,327,33 7,32 7,34 7,32 7,34 7,32 7,33 a)Formar la tabla de frecuencias utilizando 15 intervalos de clase. b)Construir el histograma de frecuencias c)Polgono de frecuencias d)Construir el histograma de frecuencias acumuladase)Construir el polgono de frecuencias acumuladas Tema I. Estadstica descriptiva20Mtodos Estadsticos 14. Se ha medido la longitud de 50 individuos adultos de una determinada especie de rana, obtenindose los siguientes resultados: 32,131,032,630,032,831,432,030,030,131,8 34,031,733,031,032,332,632,031,430,232,0 33,031,432,431,632,734,033,233,133,731,0 31,833,032,331,432,431,434,033,432,732,3 32,233,134,231,329,632,733,031,432,633,0 a)Formar la tabla de frecuencias en 5 intervalos de clase b)Construir el histograma de frecuencias relativas c)Polgono de frecuencias relativas d)Construir el histograma de frecuencias relativas acumuladas e)Construir el polgono de frecuencias relativas acumuladas 15. El nmero de accidentes mortales diarios en una gran ciudad en nueve das han sido: 6, 4, 8, 1, 5, 3, 3, 7, 2. a)Hallar la media aritmtica b)Hallar la media geomtrica c)Hallar la media armnica d)Hallar la media cuadrtica e)Relacin entre estas medias. 16.Elnmerodeindividuosmuertosporcleraenundeterminadopisporao, en el transcurso de 11 aos han sido: 2, 17, 5, 8, 12, 3, 2, 8, 12, 12, 3. f)Hallar la media aritmtica g)Hallar la media geomtrica h)Hallar la media armnica i)Hallar la media cuadrtica j)Relacin entre estas medias. 17. El nmero de ptalos de 13 flores de una determinada especie es el siguiente: 8, 10, 6, 5, 8, 11, 8, 10, 7, 10, 7, 10, 9 a)Calcular la mediana b)Calcular la moda c)Calcular los cuartiles de primer y tercer orden d)Calcular el recorrido intercuartilico e)Representar el Box Plot. Tema I. Estadstica descriptiva21Mtodos Estadsticos 18.Considerandoelvalortericodelmetabolismobasaliguala100,losvalores observados en 50 individuos han dado los siguientes resultados. 10298931009810511511099120 11513010086951031059299134 1161188810212899119128110130 112114106114100116108113106105 120106110100106117109108105106 Calcular agrupando los datos en 10 clases, los siguientes valores: a)Media aritmtica b)Mediana c)Moda d)Cuartiles de primer y tercer orden e)Recorrido intercuartlico f)Diagrama de Tukey de caja y bigotes 19.Ladistribucinporpesosde70empleadosdeunhospitalseexpresaenla tabla siguiente: Kg.50-6060-7070-8080-9090-100100-110 N empl.815211871 Calcular la media aritmtica, la mediana y la moda. 20.Dadalasiguientedistribucin,qucentilcorrespondea222?.Qucentil corresponde a 230? Intervalo210-215215-220220-225225-230230-235 ni 2101152 Tema I. Estadstica descriptiva22Mtodos Estadsticos Medidas caractersticas de dispersin: Elsimpleconocimientodelasmedidasdecentralizacinnosloesinsuficiente para darnos una idea de cmo estn los datos distribuidos, sino que incluso puede llegar a ser engaoso. Pensemos en una poblacin donde la media aritmtico del sueldo de sus individuoses500.000ptas;enseguidanosvienealamentequelagranmayoradela poblacinganaunacantidadentornoaestacifra;sinembargopudieraocurrirquela mitad de la poblacin gana 1.000.000 y la otra mitad nada. De este modo vemos que en ambos casos: Riqueza bien repartida y mal distribuida son dos casos en los que la media coincide, sin embargo las realidades son opuestas. Elejemploanteriordemuestraquesehacenecesariodisponerdeinformacin acerca de cmo estn distribuidos los datos alrededor de las medidas de centralizacin; dicho de otro modo..qu alejados o dispersos estn los datos?. Estoconducealasmedidasdedispersin,entrelasqueseencuentranlas siguientes: Recorrido o rango: Yautilizadoconanterioridad,elrecorridodeunavariableestadsticaesla diferencia entre el valor ms alto y el ms bajo de dicha variable. Desviacin a la media de la modalidad xi. La desviacin a la media de la modalidad a xi, mide la distancia entre dicho valor xi y la media, por tanto su valor viene determinado por: x x di i =Esimportantedestacarquedichamedidavienedadaporelvalorabsolutodela diferencia, ya que si omitisemos dicha funcin, podra ocurrir que alguna medida fuese negativayestosseracontradictorioconelconceptodedistancia(alejamientoo dispersin) como un valor positivo. Obsrvesequeestadefinicinesvlidasolamenteparalosvaloresdela modalidad aislados, por tanto di es independiente de la frecuencia ni, asi como del resto devalores,porloqueesunamedidadedispersinquenonosdaunainformacinde conjunto. Esto nos los cubre la siguiente medida. Desviacin media Es la media aritmtica de las desviaciones a la media di, esto es: = == =pii ipii imNn x xNn dD1 1.. Tema I. Estadstica descriptiva23Mtodos Estadsticos Varianza En ocasiones se suelen primar los alejamientos grandes y minimizar las pequeos dispersiones, esto produce la medida caracterstica llamada varianza que no es ms que la media cuadrtica de las desviaciones a la media, esto es: = == =pii ipii iNn x xNn d12122) ( .Esta medida tiene el inconveniente que viene expresada en unidades de la variable al cuadrado. Para evitar este problema se extrae la raiz cuadrada, y el valor obtenido se denomina: La varianza tambin puede expresarse del siguiente modo: 212 21 122. ) () (x f x f x xNn x xnii i ipiipii i = == = = = .(Lamediaaritmticadelos cuadrados de los xi menos el cuadrado de la media aritmtica de los xi Desviacin tpica: Llamadatambindesviacinstandardodesviacincuadrticamedia,eslaraiz cuadrada (positiva) de la varianza ==pii iNn x x12) ( En Excel es la funcin DESVESTPA Coeficiente de variacin de Pearson: Enocasionessehacenecesariocomparardosomsdistribucionesdedatosde distinta naturaleza. Supongamos que queremos saber que distribucin est ms dispersa en los siguientes casos: Una variable estadstica X de pesos de individuos de media 170 cm. y desviacin tpica20cm.,ounavariableYdeproduccindeunaganaderavacunademedia30 litros y desviacin tpica 6,5 litros. Obviamentenosepuedencompararlitrosconcentmetros,peroparasaber comparativamenteculestmsconcentradaotienelosdatosmenosdispersoscon respecto a la media, se utiliza el llamado coeficiente de variacin de Pearson x=Esportantounamedidaadimensionalyestableceunvalorderelacin independiente de las unidades en las que se est trabajando. A mayor coeficiente, mayor dispersin de datos. MOMENTOS Generalizandoloanterior,tantoenlasmedidasdecentralizacincomoenlasde dispersin,podemosdefinirlosllamadosmomentospotencialesrespectoalorigeny Tema I. Estadstica descriptiva24Mtodos Estadsticos respectoalamedia.Soninteresantesporquenosvanaproporcionarunosvalorespara obtener ms informacin acerca de la distribucin. Momento de orden r respecto al origen: ==piirirNn xa1..Obsrvesequeestoesunageneralizacindealgunasmedidasde concentracin,yaquesir=1seobtienelamediaaritmtica,sir=2seobtienelamedia cuadrtica. Momento de orden r respecto a la media: ==piirirNn x xm1. ) ( Si r=1 su valor es 0. Si r=2 obtenemos la varianza Relaciones entre momentos: Todoslosmomentosrespectoalamediapuedenexpresarseenfuncindelos momentos respecto al origen mediante las siguientes igualdades: m2 = a2 a12; m3 = a3 3a2.a1 + 2a13;m4 = a4 4a3.a1 + 6a2.a12 3a14 Demostrar como ejercicio la primera igualdad. MEDIDAS DE FORMA Nosdaninformacinacercadecmoeslagrficadeladistribucinocurva envolvente del histograma, entre las ms importantes tenemos las siguientes: Medidas de asimetra o sesgo: Elaboranunindicadorquepermiteestablecerelgradodesimetra(oasimetra) que presenta la distribucin sin realizar su representacin grfica.PuedensercampaniformasyenformadeUysellamansesgadasaladerecha cuando la cola de la distribucin se prolonga hacia la derecha. Anlogamente para las sesgadas a la izquierda. Para medir el sesgo tenemos: Coeficiente de asimetra de R.A. Fisher 331mg = Si g1= 0, la distribucin es simtrica Si g1>0, la distribucin es sesgada a la derecha. Tema I. Estadstica descriptiva25Mtodos Estadsticos Si g1 0. la distribucin es leptocrtica (o con exceso) Si g2 < 0. la distribucin es platicrtica (o achatada) Tema I. Estadstica descriptiva26Mtodos Estadsticos EJERCICIOS PROPUESTOS 1.)Calcularladesviacintpicayvarianzadelasdistribucionesdelosejercicios que figuran en las pginas 13, 14 y 15 de estos apuntes. 2) Dada la siguiente distribucin, calcular los cuatro primeros momentos respecto al origen xi -213 ni 211 3) Dada la siguiente distribucin, calcular los cuatro primeros momentos respecto a la media xi 12345 ni 310421 4) Dada la siguiente distribucin, calcular el tercer y cuarto memento respecto a la media a partir de los momentos respecto al origen. xi -2-10123 ni 246521 5)Dadalasiguientedistribucindefrecuencias,calcularelcoeficientede asimetra de Fisher y su curtosis. xi 010203040 ni 24752 6)CalcularelcoeficientedeasimetradePearsondelasiguientedistribucinde frecuencias. xi 123456 ni 283575 7)LadistribucinporintervalosdeuntestdeEconomarealizadoa1230 opositores puntuando de 0 a 800, da los siguientes resultados: PUNTUACIN TEST% OPOSITORES Hasta 606,30 60-849,83 84-12020,87 120-18027,63 180-24015,00 240-48018,27 480-7001,65 Mas de 7000,45 CalcularloscuartilesyelcoeficientedeasimetradeBowley-YuleTema II. Distribuciones bidimensionales27Mtodos Estadsticos TEMA 2. DISTRIBUCIONES BIDIMENSIONALES. CORRELACIN Y REGRESIN. Variables estadsticas bidimensionales: Sonlosresultadosdelaobservacindeunfenmenorespectodedos caractersticas. A estas variables estadsticas se le denominan bidimensionales. Se representan por el par de valores (X,Y), siendo X una variable unidimensional quetomalosvaloresx1,x2,...,xpeYunavariableunidimensionalquetomalos valores y1, y2 ... yk Las variables estadsticas bidimensionales toman los valores (x1,y1), (x2,y2)....(xp,yk) Representacin grfica. Cuando los valores x ey no estn agrupados en intervalos, a cada valor x (eje de abscisas)yacadavalory(ejedeordenadas),tomadosconjuntamentelescorresponde unpuntoenelplano.Esteconjuntodepuntossedenominanubedepuntoso diagrama de dispersin. Si cada pareja tuviera una frecuencia distinta de la unidad, se puede expresar con unnmero,lafrecuenciacorrespondientealladodelpuntoocontruirunagrfica tridimensional donde la tercera dimensin z, representara la frecuencia. Si los datos estn agrupados en intervalos, la representacin grfica tendramos el plano dividido en p.k rectngulos, siendo h el numero de intervalos de x y k el numero deintervalosdeyysobrecadaunodeestosrectngulosselevantaunprismacuya altura es proporcional a la frecuencia de la pareja (xi,yi) Tablas de frecuencias. Tabla de columnas: Si la frecuencia de cada par (xi,yi) es 1 xiyi xi.yixi2 yi2 -------------------------------------------------------------------------- -------------------------------------------------------------------------- totalestotalestotalestotalestotales Silasfrecuenciasnoson1,habraqueaadirunacolumnaconlosvaloresde dicha frecuencia ni. Tabla de doble entrada: y1y2yk x1n11n12 n1k x2n21 n22 n2k xpnp1 np2 ........ npk N Tema II. Distribuciones bidimensionales28Mtodos Estadsticos En las zones sombreadas se consignarn las sumas de los nij por filas y columnas, teniendo que sumar por ambos lados N Distribuciones marginales: SellamanasalasdistribucionesdelasdosvariablesqueintervienenXeY, consideradas de forma aislada. Segn esto las distribuciones marginales son las que figuran en la zona sombreada de la grfica de doble entrada anterior. Momentos en distribuciones bidimensionales: Respecto al origen: Momento de orden r, s respecto al origen: Nnaijsjpikjrirsyx. .1 1= == a01 es la media de y, mientras que a10 es la media de x. Momentos de orden r, s respecto a las medias Nnjimijspikjrrsy yx x. . ) () (1 1= == Segn esta definicin m10 = m01 = 0 m02es la varianza de y m20es la varianza de x m11 se denomina covarianza. Por tanto la covarianza es: Nnjimijpikjy yx x. . ) () (1 111= == Suele representarse porxy oSxy Se puede demostrar quey x y xxy. . = ,es decir la media del producto menos el producto de las medias.(Hgase como ejercicio) Cuando dos variables X e Y son independientes, la covarianza es 0 Correlacin Es la teora que estudia la relacin de dependencia entre las dos variables (x, y) de una distribucin bidimensional. Hayvariostiposdecorrelacin,peronosvamosacentrarenlalineal,estoes cuando la nube de puntos se condensa ms o menos en torna a una linea recta. Podemos distinguir: Tema II. Distribuciones bidimensionales29Mtodos Estadsticos Correlacinpositivaodirecta:Cuandounavariablecrecetambinlohacela otra. En la correlacin lineal esto se traducira en que la recta sera creciente, o lo que es lo mismo, de pendiente positiva. Correlacin negativa o inversa: Cuando una variable crece la otra decrece. En la correlacinlinealestosetraduciraenquelarectaseradecreciente,oloqueeslo mismo, de pendiente negativa. Correlacin nula: Cuando no existe ninguna relacin entre las variables. Se dice que las variables estn incorreladas. Regresin matemtica: Eselresultadodesustituirlanubedepuntosodiagramadedispersindeuna distribucinbidimensionalporlafuncinmatemticaquemejorseaproximaaella. Nosotrosvamosacentrarnosenlaregresinlinealsolamente,quesedacuandola funcin que se ajusta a la nube de puntos es una recta. Recta de regresinde y sobre x: Es la recta que hace mnimos la suma de los cuadrados de las diferencias entre los valoresobservadosexperimentalmenteyiylostericosyqueseobtienenmediantela recta, medidos paralelamente al eje Y (mnimas sumas (yi-y)2. Su ecuacin es : ) (2x x y yxxy = Recta de regresinde x sobre y: Es la recta que hace mnimos la suma de los cuadrados de las diferencias entre los valoresobservadosexperimentalmentexiylostericosxqueseobtienenmediantela recta, medidos paralelamente al eje X (mnimas sumas (xi-x)2. Su ecuacin es : ) (2y y x xyxy = Es importante hacer notar que ambas rectas se cortan en el punto) , ( y x , llamado centro de gravedad de la distribucin conjunta. Coeficientes de regresin: Se llaman as a las pendientes de las rectas anteriores, que son: = b2xxy que es el coeficiente de regresin de y sobre x y representaremos por 21 = ' b2xxy que es el coeficiente de regresin desobre y, y representaremos por 12Unapropiedadimportantedeestoscoeficientesesqueelproductodeambos coeficientes es menor que 1. Tema II. Distribuciones bidimensionales30Mtodos Estadsticos Coeficiente de correlacin lineal: y xxyr = . Puesto que1 1 r , se obtiene lo siguiente: -Si r= 1: Correlacin perfecta positiva (funcional) -Si r=-1: Correlacin perfecta negativa (funcional) -Si r=0 : Correlacin nula, las rectas sonx x y y = =-Si 1 ) ; esperanza de X. Tema VII. Variable aleatoria77Mtodos Estadsticos 6)La funcin de densidad de una variable aleatoria es[ ][ ] +=3 0 03 021) (x six si kxx f Calcular la probabilidad de los sucesos A,A B,B U C,C siendoA= ( X > 3/2),B = ( 1 < X < 3 ),C = ( 3/2 < X < 2 ) 7)Unjugadortiraalblanco.Ladistribucindelosimpactosentornoaladianaviene dada por la funcin de densidad f(x) = e-kx donde x representa la distancia del impacto a la diana. Hallar el valor de k yla funcin de distribucin. Tema VIII. Distribucin Binomial79Mtodos Estadsticos TEMA VIII. DISTRIBUCIN BINOMIAL (Caso particular de v.a. discreta) Experimento de Bernouilli: Se llama as a un experimento aleatorio con las siguientes caractersticas: a)EncadapruebaestudiamosslolarealizacindeunsucesoA(xito)y su contrario ContA (fracaso). Se realizan n pruebas. b)Laproporcindexitosyfracasosesconstanteenlapoblacinynose modificacualquieraquesealacantidaddeelementosdelapoblacinobservada. Llamamosp=P(A),probabilidaddexitoyq=P(contA)=1-p,probabilidadde fracaso. c)Las n pruebas son independientes; es decir, el resultado de una prueba no depende de las precedentes. Este experimento genera un espacio muestral del tipo: { } A A A A AA A AA = ... ... , ... , ... , que tiene exactamente 2n elementos ya que como podemos observar son las variaciones con repeticin de 2 elementos (A y su contrario) tomados de n en n. Sobre este espacio muestral definimos la siguiente variable aleatoria X=nmero de xitos Es obvio que el recorrido de X es {0,1,2,3,...,n} y dado que es finito estamos ante una variable aleatoria discreta. Bajolascircunstanciasanteriores,sedicequeXesunavariablealeatoriaque sigue una distribucin binomial de parmetros n y p, representndose as: B(n,p) Funcin de masa de probabilidad de una binomial: Dado que elrecorrido de X es {0,1,2,3,...,n}, lafuncin de masa de probabilidad es: f: {0,1,2,3,...,n} [ ] 1 , 0 ,siendof(r)=P(X=r)odichodeotromodo,laprobabilidaddequealrealizarn pruebas, se obtengan r xitos (r toma valores de 0 a n) Siaplicamoselhechodequelaspruebassonindependientes,laprobabilidad pedidaeselproductodelasprobabilidadesencadaprueba,peroencadapruebaslo puedesalirAocontA,ycomosabemosqueAaparecervecesycontAn-rveces, resultaquelaprobabilidaddecadacasoesprqn-r,ahorabien...encuntoscasossalen exactamenterxitos?LacombinatorianosdicequesonRPrr,n-r= )! ( !!r n rr,pero obsrvese que esto es lo mismo que Cnr =|||

\|rn, por lo tanto la probabilidad buscada es: n r donde q prnr fr n r,..., 2 , 1 , 0 , ) ( =|||

\|= Dada la complejidad en los clculos, estos valores vienen ya determinados en una tabla. En la siguiente pgina se adjunta una tabla parael clculo de la funcinde masa de probabilidad para n desde 2 hasta 9. Tema VIII. Distribucin Binomial80Mtodos Estadsticos Tema VIII. Distribucin Binomial81Mtodos Estadsticos Funcin de distribucin de una B(n,p): Setratadelafuncindemsadeprobabilidadacumulada,portantoseruna funcin del tipo: R R F : ,detalmodoque: == =qrr f x X P x F0) ( ) ( ) ( ,siendoqelmayor entero tal quex q . Verificatodaslaspropiedadesdelasfuncionesdedistribucindeunavariable aleatoria discreta. Medidas caractersticas de una distribucin binomial: Media o esperanza: == =nrnp r f r0) ( . Desviacin tpica: npq r f rnr= = =02) ( ) ( Como calcular los valores de la funcin de masa de probabilidad y la funcin de distribucin de una binomial n, p en EXCEL: Lafuncinquelodeterminaes,dentrodelasfuncionesestadsticas, DISTR.BINOM. y los parmetros que pide son: Nm_xito (nmero); Ensayos (nmero); Prob_xito (nmero); Acumulado (valor lgico) Nmxitoeselvalorder;Ensayoseselvalordenonmerodepruebas; Prob_xito es p; Acumulado puede ser Verdadero o Falso. Si es verdadero da la el valor delafuncindedistribucinF(r),mientrasquesiesfalsadaelvalordelafuncinde masa de probabilidad f(r) Ilustracin 1 Supongamosquelanzamos25vecesunamonedayqueremossabercualesla probabilidad de obtener 8 caras como mximo. EnExcelintroduciramosenlafuncinDISTR.BINOM.,losparmetrosdela ilustracin1,esdecir,hallaramosF(8)cuyovalorsera0,053.Porelcontrariosi quisiramoshallarf(8),esdecirlaprobabilidaddeobtener8carasexactamente, Tema VIII. Distribucin Binomial82Mtodos Estadsticos solamente tendramos que modificar el parmetro Acumulado, donde tendramos que consignar Falso. La funcin BINOM.CRIT. Actademodoinversoquelaanterior,estoes:Siconocemoselvalorde probabilidaddeunsuceso,averiguaelvalorderdeformaquelaprobabilidadhasta dicho valor, acumulada, coincida con la dada. Porejemplo:Supongamosqueenelejemploanteriorqueremosconocercuntas caras como mximo dan probabilidad 0,7. El resultado viene dado en la siguiente ilustracin: Ilustracin 2 Tema VIII. Distribucin Binomial83Mtodos Estadsticos PROBLEMAS PROPUESTOS 1)En un taller hay 10 mquinas iguales. Se ha visto que una mquina determinada un da de cada cinco est averiada. Calcula la probabilidad de que un cierto da haya ms de 7 mquinas averiadas ?. Si es 5000 pesetas la prdida diaria ocasionada por tener una mquina averiada, calcular la prdida media diaria. 2)De la produccin diaria de una cierta pieza se examinan 10 de dichas piezas durante 23 das, dando la siguiente tabla de piezas defectuosas: dias1234567891011121314151617181920212223 p.d.01121322101212023021011 Suponiendoquelaprobabilidaddefabricarunapiezadefectuosaesfija,ajustaruna distribucin binomial a las observaciones. 3)Siladistribucinhalladaenelproblemaanterioreslaverdaderaleydelproceso, Cul es la probabilidad de que en las 10 piezas observadas, de un da determinado, haya ms de 2 defectuosas. 4)Sesabeque,enunnacimiento,nosetienelamismaprobabilidaddequeseanio que nia, pues la experiencia nos dice que nacen ms nios que nias. Si suponemos quedecada100recinnacidos55sonvaronesy45mujeres.a)Culesla probabilidad que tiene un recin nacido de ser mujer ? b)Culeslaprobabilidaddequelos5primerosrecinnacidosdelaoenun hospital sean nias? c)Culeslaprobabilidaddequehayaexactamente2niasentreloscinco primeros? 5)En los exmenes de selectividad del curso 1997/98 aprobaron en Galicia el 85% de losalumnospresentados.Calcularlaprobabilidaddequealcoger7alumnosa) aprueben 3. b) aprueben ms de uno. 6)Paraparticiparenunconcursodetiroalplatohayqueabonarunacuota.Cada participanterealiza10disparos:Siacierta5recuperaelimportepagado abandonando la competicin y si acierta ms se clasifica para la siguiente ronda. Un competidor muy regular acostumbra a acertar el 40% de sus disparos.a) Cul es la probabilidad de que acierte exactamente 5 disparos?. b) Cul es la probabilidad de que se clasifique? 7)Al transmitir una comunicacin, la probabilidadde distorsionar un signoes igual a 1/10. Cules son las probabilidades de que en una comunicacin de 10 signos a) Noseadistorsionada.b)Contengaexactamentetresdistorsiones.c)Contengatres distorsiones como mximo. 8)Cadamiembrodeuncomitde9personasacudealasreunionesconuna probabilidad igual a . Cul es la probabilidad de que, como mucho, se reunan 2/3 de los miembros. 9)Se lanza una moneda a) 4 veces, b) 5 veces, c) 6 veces. Cul es la probabilidad en cada caso de obtener un nmero impar de caras?. Y para n veces? 10) Hallarlaprobabilidaddeobteneruntotalde11a)unavez,(b)dosveces,endos lanzamientos de un par de dados 11) Culeslaprobabilidaddeobtener9unavezentreslanzamientosdeunparde dados? Tema VIII. Distribucin Binomial84Mtodos Estadsticos 12) Un vendedor de segurosvende plizas a 5 hombres, todos de la misma edadycon buenasalud.Sesabequelaprobabilidaddequeunhombreviva30aosomses 2/3. Hallar la probabilidad de que a los 30 aos vivan a) los 5 hombres. b) al menos 3. c) Solamente 2.d) al menos 1. 13) Se lanzan 6 veces una moneda Cul es la probabilidad de que el resultado cruz no salga nunca ms veces que el resultado cara? 14) Unjugadorproponeaunamigoelsiguientejuego:selanza20vecesunamoneda. El amigo gana si aparece cara 9, 10 o 11 veces y pierde en caso contrario. Este juego es favorable al amigo ? 15) Sehaestudiadoque1/3delosalumnosdeCOUnoleennuncalaprensadiaria. Tomando una muestra al azar de 10 alumnos estudiar las probabilidades siguientes: a)Encontrar dos alumnos que no leen la prensa.b) Ms de 3 alumnos que no leen la prensa. c) Por lo menos cinco alumnos que no leen la prensa. SOLUCIONES:1)0,0035;10.000ptas.//2)B(10,0,126)//3)0,1219//4)a. 0,45;b.0,0185;c.0,3369//5)a.0,0109;b.0,9999//6)a.0,2007;b.0,1663//7)a. 0,3487;b.0,0574;c.0,9872//8)0,9101//9)a.0,5;b.0,5;c.0,5//10)a.17/162;b. 1/324 // 11) 64/243 // 12) a. 0,1317; b. 0,7901; c. 0,1646; d. 0,9959 // 13) 0,6563 // 14) No es favorable // 15) a. 0.1951; b. 0,4408; c. 0,2131 // Tema IX. Distribucin normal85Mtodos Estadsticos TEMA IX. DISTRIBUCIN NORMAL (Caso particular de v.a. continua) UnavariablealeatoriacontinuaXsedicequesigueunadistribucinormalde media ydesviacintpica ,simbolizndoseporN( , ),sisufuncinde densidad es: 2) (2121) ( =xe x f ; + < < x Ladistribucinnormalapareceespontneamenteenmultituddeproblemas, medidas fsicas del cuerpo humano, caractersticas psquicas, medidas de calidad,...,etc. Grfica de f(x) 1)f tiene dominio en R y es continua. 2)f(x)>0, para todo x real. 3)f es simtrica respecto a la recta = x4)f tiene un mximo en el punto ( , 21) 5)f tiene una asntota en el eje OX 6)f presenta puntos de inflexin en las abscisas x- , x+ Este es el aspecto que presenta: Ilustracin 3 Funcin de distribucin de una variable aleatoria normal: = = =x t xdt e dt t f x X P x F2) (2121) ( ) ( ) ( Distribucin normal estndar o tipificada: Cuando =0y =1,entonceslavariablealeatorianormalN(0,1)sellama distribucin normal tipificada o estndar. La funcin de densidad correspondiente es: 22121) (xe x f=; + < < x Tema IX. Distribucin normal86Mtodos Estadsticos TEOREMA (Tipificacin de una variable aleatoria normal) SiXesunav.a.normalN( , ),entonceslavariableZ= Xesunanormal tipificada.En efecto, recurriendo a las propiedades de la esperanza y la varianza, se tiene: [ ] [ ] ( ) 01 1= = =((

X E X EXE [ ] [ ] 11 1 122 2 2= = = =((

X Var X VarXVar Enbaseaesteresultado,comotodanormalpuede,medianteuncambiode variable,convertirseenunatipificada,cualquierresultadopuedeserestudiadoenlas tablas de la variableZy luego volver a deshacer el cambio de variable para obtener el resultado en la variable original X. Porello,lafuncindedistribucindelavariablenormaltipificadaviene desarrollada en la siguiente tabla: Tema IX. Distribucin normal87Mtodos Estadsticos TABLA DE DISTRIBUCION NORMAL ACUMULADAZ 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .03590.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .07530.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .11410.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .15170.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .18790.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .22240.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .25490.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .28520.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .31330.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .33891.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .36211.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .38301.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .40151.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .41771.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .43191.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .44411.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .45451.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .46331.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .47061.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .47672.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .48172.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .48572.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .48902.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .49162.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .49362.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .49522.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .49642.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .49742.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .49812.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .49863.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .49903.1 .4990 .4991 .4991 .4991 .4992 .4992 .4992 .4992 .4993 .49933.2 .4993 .4993 .4994 .4994 .4994 .4994 .4994 .4995 .4995 .49953.3 .4995 .4995 .4995 .4996 .4996 .4996 .4996 .4996 .4996 .49973.4 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .4997 .49983.5 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .4998 .49983.6 .4998 .4998 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .49993.7 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .49993.8 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .4999 .49993.9 .5000 .5000 .5000 .5000 .5000 .5000 .5000 .5000 .5000 .5000SEGUNDO DECIMAL DE Z Obsrvese que F(z) viene tabulada para valores de 0 en adelante, asi pues se hace necesario averiguar F(-z) cuando z>0. El resultado es:F(-z) = 1-F(z) La demostracin es trivial. Tambin se tiene que) ( ) ( ) (1 2 2 1z F z F z Z z P = Tema IX. Distribucin normal88Mtodos Estadsticos Funciones en EXCEL para trabajar con la distribucin normal: LaprimeraesDISTR.NORMALquedevuelveelvalordeprobabilidaddeun valorxdelavariable(enrealidadtomaunpequeointervaloentornoalmismo)oel valor de probabilidad acumulada hasta el mismo. La ilustracin siguiente lo refleja: Ilustracin 4 Donde x es el valor de la variable objeto de estudio, Media es el valor de la media delavariable,Desv_estndareselvalordeladesviacintpicayacumuladoesun campolgicoquepuedetomardosvalores:verdadero(seobtieneF(x))yfalso(se obtiene P(0,5-x