estadistica basica

Download Estadistica basica

If you can't read please download the document

Upload: edwin-ronald-cruz-ruiz

Post on 24-Dec-2014

9.497 views

Category:

Education


1 download

DESCRIPTION

Estadistica basica

TRANSCRIPT

  • 1. Rodrigo Salas Apuntes de Estadstica1. ESTADISTICA BASICA1.1 INTRODUCCIONEn general, e independientemente de la tarea que se realice, los investigadores defenmenos de toda ndole se ven ante la necesidad de obtener conclusiones a partir delanlisis mucha informacin. Del correcto estudio de dicha informacin, dependendecisiones de la ms variada gama. La estadstica, a partir del uso de herramientas que vandesde el lgebra elemental, hasta el clculo diferencial, logra la sistematizacin de dichainformacin de tal manera de hacer fcilmente distinguible aspectos que de otra manerapodran pasar inadvertidos; De lo anterior surge la explicacin del por qu la estadsticacomo disciplina forma parte de la formacin integral de infinidad de profesiones y oficiosen la actualidad. En economa el anlisis de informacin para la determinacin dedemandas, elasticidades, la cuantificacin de las variables macroeconmicas y muchosotras, recibe el nombre de Econometra. En sociologa, y antropologa se estudian losllamados mtodos y tcnicas de la investigacin social. En fin, el mbito de aplicacin dela estadstica es prcticamente infinito tanto en las ciencias sociales como las exactas. Antes de seguir avanzando es necesario puntualizar algunas definiciones bsicasque nos acompaarn de aqu en adelante Estadstica: Es aquella disciplina cientfica que se preocupa de obtener, ordenar ysistematizar informacin de tal forma que esta se transforme en un insumotil para la toma de decisiones. De lo anterior se desprende el campo de accin prcticamente infinito quecaracteriza a la estadstica. Universo: coleccin de toda la posible informacin que caracteriza a un fenmeno determinado, tambin suele llamarse PoblacinEn estadstica el concepto universo o poblacin tiene mltiples interpretaciones: unconjunto infinito de observaciones para una variable determinada, o bien, un conjuntofinito de muchas (prcticamente infinitas) observaciones.Bajo condiciones ideales, a cualquier observador le gustara contar con todas lasobservaciones que componen el universo, para poder observar el comportamiento de unacaracterstica relevante, o sea realizar un Censo. Esto es perfectamente factible siempre ycuando se trate de poblaciones o universos manejables; En general las poblaciones son degrandes dimensiones, por lo que se vuelve muy difcil en trminos prcticos, (sinmencionar aspectos econmicos), la medicin de la variable relevante en todos loselementos que componen el universo. Para ello existe la alternativa de tomar proporcionesms pequeas del universo de tal manera de hacerlas mas manejables1

2. Rodrigo Salas Apuntes de Estadstica Muestra: subconjunto representativo de las observaciones que componen una poblacinSi la muestra esta adecuadamente seleccionada, es de esperar que las conclusionesobtenidas a partir de ella, puedan extrapolarse a toda la poblacin, lo que evidentementeimplica ahorro de tiempo y recursos valiosos.1.2 ATRIBUTOS Y VARIABLESUna investigacin puede dedicarse a estudiar el comportamiento de unacaracterstica no medible o cualitativa de un objeto. En dicho caso esa caracterstica enestadstica se denomina atributo. Si por el contrario la propiedad del objeto es susceptible de ser cuantificada, Dichapropiedad toma el nombre de variable. Variable: Intimamente ligado con la definicin matemtica de variable, en estadstica variable es cualquier caracterstica de un objeto de estudio susceptible de ser cuantificadaPuesto que prcticamente cualquier caracterstica de los objetos puede ser medida,la definicin de variable es muy amplia, de tal manera que es prudente clasificar losdistintos tipos de variables; enunciemos las clasificaciones mas utilizadasa) Variables Discretas y continuasUna variable discreta es aquella que no admite valores intermedios entre losdistintos valores de la variable. Por ejemplo si se realiza una encuesta entre las familias deun barrio cualquiera, que intente cuantificar el nmero de integrantes de cada una, lavariable podr adoptar valores como 2, 3, 4, etc. Sin embargo no es posible que una familiaest integrada por 2,5 personas, de tal manera que sin duda alguna el nmero de integrantesde cada familia es una variable discreta.Las variables continuas si admiten valores intermedios, como es el caso de lavariable estatura. Por ejemplo si se realiza una encuesta de estaturas en una sala de clases,identificando a un individuo con 170 cms. y otro con 171, siempre es posible, al menostericamente, y si se cuenta con una regla lo suficientemente exacta, encontrar a unindividuo que posea una estatura intermedia. De hecho, si se comparan las estaturas enmillonsima de centmetros, ser extremadamente difcil encontrar a dos personas conexactamente el mismo porte, an en cursos grandes.b) Las variables y el tiempo Si una variable determinada no se ve influenciada en absoluto por el transcurso deltiempo, decimos que dicha variable tiene un carcter atemporal o no ordinal. Por ejemplo2 3. Rodrigo Salas Apuntes de Estadsticasi se realiza un estudio de coeficiente intelectual CI en un grupo de personas, el orden deprecedencia, en que se aplique el test a los individuos, no incide en los resultados delmismo, de tal manera que para este grupo, el coeficiente intelectual es una variableatemporal.Cuando una variable modifica su comportamiento en momentos distintos, dichavariable tiene un comportamiento temporal u ordinal. Un caso tpico por ejemplo loconstituyen todos los ndices econmicos y financieros: IPC, IPPM, IGPA, ISPA, etc. estosndices deben ser siempre ser considerados en relacin con el momento en que fueronmedidos. En pocas palabras, no sirve de nada conocer una variacin del IPC, sin saber deque mes se trata.c) Una o muchas variablesCuando en el marco de una investigacin se estudia el comportamiento de una solavariable por separado, se dice que el estudio es unidimensional. El citado ejemplo de lainvestigacin de los coeficientes intelectuales es un caso claro de estudio unidimensional Pero no siempre las investigaciones toman en cuenta el comportamiento de una solavariable , sino que a veces interesa conocer como se comporta una variable en conjuntocon otra u otras (simultneamente). En dicho caso se habla de estadsticasmultidimensionales. Si en la misma investigacin sobre el coeficiente intelectual,tomamos en cuenta el grado de escolaridad de los investigados, el nivel de caloras queconsume a diario, etc. estaremos ante una investigacin de tipo multidimensional.1.3 AGRUPACION DE DATOS Tal como lo dice su definicin, la estadstica se preocupa de la ordenacin ysistematizacin de datos, para poder apoyar el proceso de toma de decisiones; La forma enque se ordenan los datos vara de acuerdo al tipo de variable de que se trata. Estudiaremos acontinuacin la ordenacin de datos de variable discreta.a) Estadsticas de variable discreta Para estudiar la agrupacin en el caso de las variables discretas, analicemos elsiguiente ejemplo.Preocupada por las metas planteadas por el nuevo Gobierno, la Ministra de salud sedecide a investigar el nmero de pacientes diarios que atiende la atencin primaria en laactualidad. Para ello, la Ministra solicita al Jefe de la Direccin Regional Sur delMinisterio, le entregue la informacin con respecto a las atenciones bsicas que presta elHospital Stero del Ro. El funcionario le despacha la siguiente informacin: 3 4. Rodrigo Salas Apuntes de Estadstica 40 42453845 41 42454241 39 37354043 40 44354241 37 38374241 39 43454537 40 41433545El total de observaciones de la variable es de 35, y se simboliza con la letra n; en elejemplo n = 35 Tal como fueron enviados los datos, no prestan mucha utilidad para efectos depoder tomar las decisiones necesarias, que permitan eliminar las colas en los consultorios.Es necesario ordenar la informacin.Cada uno de los nmeros escritos en la tabla representa el nmero depacientes atendidos en un da cualquiera, o sea, representan un valor para la variable,siendo el total 35 (35 das). Por convencin le asignaremos a esta variable la letra X. X= nmero de pacientes atendidos en un da determinado Cada una de las 35 observaciones ser designada por xi ( X minscula), detal manera que x1 debe leerse como la i-sima observacin de la variable X. En elejemplo x1=40, lo que quiere decir que el primer da de observacin se atendi a 40pacientesParalelamente, estas observaciones estn presentadas sin ninguna ordenacinde precedencia. Disponerlas de menor a mayor ser el siguiente paso:35 35 35 37 3737 37 38 38 3939 40 40 40 4041 41 41 41 4142 42 42 42 4243 43 43 44 4545 45 45 45 45Ordenados los datos, es fcil formular las siguientes conclusiones: La variable asume un total de 9 valores El menor valor es 35 y el mayor 45 Cada uno de los valores que adopta la variable recibe el nombre de clase, y sedenota m; en este caso m=9, por haber nueve valores distintos de la variable. Sin embargo todava se pueden disponer los datos de mejor manera; para elloconstruiremos el cuadro de distribucin de frecuencias para esta variable. 4 5. Rodrigo Salas Apuntes de Estadstica Valores deFrecuenciasFrecuencias FrecuenciasFrecuencias la variableabsolutasrelativas absolutas relativasacumuladas acumuladasXi ni hi NiHiX1= 35 n1= 3 h1= 0,0857N1= 3H1= 0,0857X2= 36 n2= 0 h2= 0 N2= 3H2= 0,0857X3= 37 n3= 4 h3= 0,1143N3= 7H3= 0,2X4= 38 n4= 2 h4= 0,0571N4= 9H4= 0,2571X5= 39 n5= 2 h5= 0,0571N5= 11 H5= 0,3143X6= 40 n6= 4 h6= 0,1143N6= 15 H6= 0,4286X7= 41 n7= 5 h7= 0,1429N7= 20 H7= 0,5714X8= 42 n8= 5 h8= 0,1429N8= 25 H8= 0,7143X9= 43 n9= 3 h9= 0,0857N9= 28 H9= 0,80X10= 44n10= 1h10= 0,0286 N10= 29H10= 0,8286X11= 45n11= 6h11= 0,1714 N11= 35H11= 1 ni = 35 = n hi = 1 = 100%La primera columna de esta tabla contiene los valores que adopta la variable oclases; si bien es cierto en ninguno de los 35 das se atendieron 36 pacientes, para efectosde la correcta tabulacin la tabla debe contener esta clase. La segunda columna de la tabla recibe el nombre de frecuencias absolutas; Estasfrecuencias corresponden a las repeticiones que tiene cada valor de la variable para elejemplo. La frecuencia absoluta de la primera clase es de 3. Lo anterior debe interpretarsecomo que durante 3 das se atendi a 35 pacientes; La nomenclatura de frecuenciaabsoluta es ni. Como el lector deber suponer, la suma de todas las frecuencias absolutasdebe ser igual al nmero de observaciones n. Cualquier frecuencia absoluta tiene las siguientes propiedades 0 ni n ni = n Por otro lado, en el marco de una investigacin, muchas veces es mejor presentar lainformacin en trminos porcentuales. Para ello se calcula la tercera columna, la que recibe ni hi = nel nombre de columna de frecuencias relativas. La frecuencia relativa expresaporcentualmente, la importancia de cada clase en relacin con el total de las observacionesde la variable; cada frecuencia relativa se calcula utilizando la siguiente frmula: As, se puede afirmar que 8,57% de los das el consultorio atiende 35 consultas. Las siguientes son propiedades de las frecuencias relativas:5 6. Rodrigo Salas Apuntes de Estadstica hi = 1 0 hi 1Otra pregunta que suele surgir, al analizar datos, es cuantas de las observaciones sonmenores o mayores que un determinado valor de la variable; para ello se calcula la columnade frecuencias absolutas acumuladas. La frecuencia absoluta acumulada de una clasedeterminada se calcula sumndole a su frecuencia absoluta, las frecuencias absolutas detodas las clases anteriores. En el ejemplo, la frecuencia absoluta acumulada de la 4 clase es9, y que proviene de la suma de su frecuencia(2) absoluta mas todas las anteriores (3, 0, 4).SI a la Ministra de salud le interesara saber en cuantos das se atendi al menos a 40pacientes, slo debe remitirse a la tabla y observar la frecuencia absoluta acumulada de esevalor de la variable, en el ejemplo es 15.La frecuencia relativa acumulada se calcula con el mismo razonamiento con quese calcula la frecuencia absoluta acumulada, con la diferencia de que para ella se utilizanlas frecuencias relativas.b) Estadsticas de variable continua Como Ud. ya podr intuir, las variables continuas tambin requieren de serordenadas, para ser adecuadamente analizadas; El Ministerio de educacin realiza unestudio para determinar el monto de las subvenciones anuales entregados a colegios deSantiago. Para ello selecciona una muestra de 40 de ellos; los montos por subvencin sonlos que a continuacin de se detallan (expresados en millones de pesos)8,5 9,310,4 6,6 7,97,6 8,4 9,37,610,1 13,3 12,1 10,6 12,411,5 11,3 13,1 13,5 14,612,39,4 7,8 8,3 9,1 7,9 10,2 11,3 11,7 12,813,4 11,3 12,1 13,6 14,113,2 14,4 11,8 13,8 11,310,6La tabla de distribucin de frecuencias para esta muestra, es bsicamente la misma.La diferencia fundamental radica en que dada la gran cantidad de valores que adopta unavariable continua, es prudente definir intervalos para efectos prcticos. De otra manera, ydada la naturaleza de las variables continuas, esta tabla podra tener infinitas clases(infinitas lneas)11En el caso de las variables discretas, tambin puede tabularse la informacin en intervalos; Sin embargo latabulacin en intervalos se justifica sobre todo en la ordenacin de datos de variables continuas, puesto quelos valores que esta puede tomar son infinitos.6 7. Rodrigo Salas Apuntes de Estadstica Intervalos Marcas de clase FrecuenciasFrecuencias Frecuencias Frecuencias absolutasrelativas absolutas relativas acumuladasacumuladas Xi-1-Xi Xinihi Ni Hi 6-6,99 6,510,025 1 0,025 7-7,99 7,550,125 60,15 8-8,99 8,530,075 9 0,225 9-9,99 9,54 0,1 13 0,32510-10,99 10,550,125180,4511-11,99 11,570,17525 0,62512-12,99 12,550,125300,7513-13,99 13,570,17537 0,925 14-15 14,530,075401 ni = 40 = n hi = 1 = 100% Antes de continuar, enunciemos algunas reglas o indicaciones a considerar para lacorrecta tabulacin de datos en intervalos: a) Buscar el menor y mayor valor de la variable en las observaciones b) Escoger una amplitud de intervalo adecuada; la amplitud de losintervalos se denota por la letra c; Esta amplitud debe ser la misma, en lamedida de lo posible para todos los intervalos c) Para efectos de facilitar la tabulacin, debe procurarse que el lmiteinferior de los intervalos sea un nmero entero.La interpretacin de las columnas de esta tabla es la misma que para la tabla dedistribucin de frecuencias de la variable discreta. La nica diferencia la constituyen laprimera y la segunda columnas. La primera columna tiene el encabezado Xi-1-Xi Xi-1 representa la nomenclatura del lmite inferior del intervalo i-simo X1 representa la nomenclatura del lmite superior de cada intervalo La segunda columna recibe el nombre de columnas de marcas de clase. Esta columna se calcula debido a que las tablas de distribucin de frecuencias que poseen intervalos, no existe un solo valor que represente la clase. La marca de clase es el punto medio de un intervalo. Para ello se suman los lmites de cada intervalo(redondeando el nmero superior), y dividiendo la suma por 2. 7 8. Rodrigo Salas Apuntes de Estadstica1.4 REPRESENTACION GRAFICA DE DATOSEn pro de la consecucin de su objetivo, la estadstica descriptiva, utilizarepresentaciones grficas del comportamiento de las variables que le interesa investigar. Ungrfico no es mas que la representacin pictrica de un conjunto de datos. La idea es quelas personas que observan un grfico, puedan obtener rpidamente las conclusionespertinentes, y as poder tomar correctas decisionesPor sus caractersticas en este apunte slo haremos referencia a un reducido nmero degrficos. El lector podr encontrar una cantidad mayor de representaciones en un diario,revista, o bien en programas computacionales como Excel, Q-pro, E-views, etc. a) Representacin de variable discretas A continuacin se presentan los grficos que representan las frecuenciasabsolutas(izquierda), y relativas (derecha), para la distribucin de la variable Nmero depacientes atendidos anteriormente tratada. hini 0,17146 0,14295 0,11434 0,08573 0,05712 0,02861 0 35 36 37 38 39 40 41 42 43 44 45 Xi0 35 36 37 38 39 40 41 42 43 44 45 XiEn ambos casos el grfico resultante es una lnea que recibe el nombre de poligonal.Para la construccin de polinomiales deben tomarse en cuenta las siguientesrecomendaciones:En el eje vertical se grafican las frecuencias absolutas y relativas respectivamente, respetando siempre la escala con que se trabaja. (de uno en uno en el caso de las frecuencias absolutas.En el eje horizontal se representan los valores de la variable; observe que debido a que el mnimo valor de la variable es 35, el grfico comienza en ese punto. Lo anterior se puede hacer siempre y cuando se deje expresado un salto en la escala, mediante dos rayas ().En el grfico siempre debe presentarse el valor =, tanto para la variable como para las frecuencias.En los ejes siempre debe escribirse la magnitud que se est representando (valores de la variable, frecuencias relativas, frecuencias absolutas, etc.8 9. Rodrigo Salas Apuntes de EstadsticaSiguiendo estas recomendaciones, se puede esperar que las personas que observanel grfico den una adecuada interpretacin a los datos representados.Como puede observarse, ambas polinomiales son exactamente iguales, de talmanera que es posible representarlas en un mismo grfico como sigue: nihi 60,1714 50,1429 40,1143 30,0857 20,0571 10,0286 Xi0 35 36 37 38 39 40 41 42 43 44 45 El nico cambio en este grfico, es que a la derecha se agregan los valores de lasfrecuencias relativas Las frecuencias absolutas acumuladas y relativas acumuladas se representan en supropio grfico NiHi35130 0,857125 0,714320 0,571415 0,428610 0,285750,1429 Xi035 36 37 38 39 40 41 42 43 44 45 La lnea resultante es una poligonal siempre ascendente, que recibe el nombre deojiva. 9 10. Rodrigo Salas Apuntes de Estadsticab) Representacin de variable continua La representacin grfica de variable de tipo continua implica algunasvariaciones. La mas importante de ellas radica en el hecho de que estos datos se tabulan enintervalos, por lo que la representacin grfica vara; Utilicemos el ejemplo de lassubvenciones: nihinihi40 17 0,175 35 0,8756 0,150 30 0,7505 0,125 25 0,6254 0,100 20 0,5003 0,075 15 0,3752 0,050 10 0,2501 0,025 50,125Xi Xi0 6 7 8 9 10 11 12 13 14 15 0 6 7 8 9 10 11 12 13 14 15 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,56,5 7,5 8,59,5 10,5 11,5 12,5 13,5 14,5Como puede observarse, cuando los datos se encuentran tabulados en intervalos,el grfico resultante es de barras. La base de cada barra corresponde a los lmites de cadaintervalo. Es interesante sealar, que es posible tambin construir poligonales y ojivas. Paraello slo basta con unir los puntos medios de cada barra (marcas de clase). Otro aspecto de mucha importancia radica en el hecho de que si se trata conpoblaciones lo suficientemente grandes, y se tabulan los datos con intervalos pequeos, lapoligonal u ojiva resultante tiende a suavizarse, formando prcticamente curvas. nini ial nc ne po ex rva Curva normal CuXi Xi Estas curvas son de gran importancia en estadsticas, ya que en la prctica sonfunciones, y como tales permiten describir probabilidades de que la variable tenga un valordeterminado, mediante el uso de integrales. Ms adelante nos adentraremos ms en elestudio de ellas y sus usos.10 11. Rodrigo Salas Apuntes de Estadstica1.5 ESTADIGRAFOS DE POSICION Prosiguiendo en nuestro esfuerzo por obtener conclusiones a partir del anlisis dedatos, analizaremos ahora la posibilidad que brindan las estadsticas de poder resumir elcomportamiento de una variable, a partir del clculo de ciertos valores de la misma. Estadgrafos: Es un valor de la variable que resume el comportamiento de la misma En estadstica es posible distinguir dos tipos de estadgrafos: Estadgrafos de posicin Estadgrafos de dispersinVeamos en detalle ahora que significan, y como se trabaja con cada uno de ellos ypara ello repasemos el ejemplo del nmero de personas atendidas a diario en el HospitalStero del Ro. A pesar de que se ya se ha avanzado notablemente al ordenar los datosmediante la tabla de distribucin de frecuencias, es necesario seguir caracterizando a ladistribucin de dicha variable. Por ejemplo sera interesante determinar un nmero(expresado en unidades de la variable), que permita describir el valor en torno al cul seconcentran las observaciones. Esa cifra es un buen dato a tomar en cuenta para lasdecisiones que permitan acabar con las colas y las largas esperas de los usuarios.Definamos entonces a los estadgrafos de posicin.Estadgrafos de posicin: Valor de la variable que indica una tendencia central en elcomportamiento de la misma Son muchos los estadgrafos de posicin que se utilizan; trabajaremos acontinuacin con el ms conocido de ellos.A) MEDIA ARITMETICA La media aritmtica, promedio o simplemente media, es el estadgrafo de mscomn utilizacin. Su calculo es bastante conocido: la suma de todos los valores de lavariable, dividida por el nmero total de observaciones. De todos los estadgrafos deposicin la media es el mas estable de todos, si se calcula para diferentes muestras de unamisma poblacin. La frmula de comn uso para el clculo de la media es la suma de los valores de lavariable dividida por el total de observaciones, es decir:X = = E[X] = xi n11 12. Rodrigo Salas Apuntes de EstadsticaEl problema principal que implica la utilizacin de esta frmula, radica en el hechode que al haber una gran cantidad de observaciones, se hace muy sencillo cometer erroresen la suma de las observaciones, de tal manera que se hace necesario un camino alternativopara su clculo. Para ello utilizaremos la tabla de distribucin de frecuencias, mediante lasiguiente frmula:X= x i *nin Multiplicando los valores de la variable, por su respectiva frecuencia, yposteriormente sumando los productos se obtiene el promedio de la variable. Recordemosla distribucin de frecuencias de las atenciones diarias del Hospital Stero del Ro.Xi ni xi*ni3531053600374148382 76 1425392 78 X= = 40,71personas35404160415205425210433129441 4445627035 1425 Recuerde que esta es una variable discreta. El resultado obtenido podra crearconfusin puesto que 40,71 personas es una cifra inverosmil. Sin embargo se acepta estanotacin para efectos del clculo de estadgrafos Otra frmula para el clculo de la media surge a partir de un pequeo despeje;Recuerde usted que las frecuencias relativas (hi), se calculan dividiendo la frecuenciaabsoluta de una clase (ni), por el total de observaciones (n), por lo tanto: X = hi * xiAs volviendo al ejemplo, calculemos el promedio utilizando las frecuenciasrelativas:12 13. Rodrigo Salas Apuntes de Estadstica xi hixi*hi 350,08573,00 36 00,00 370,11434,23 X = 40,72personas 380,05712,17 390,05712,23 400,11434,57 410,14295,86 420,14296,00 430,08573,69 440,02861,26 450,17147,71 1 40,72El promedio obtenido por esta forma no es exactamente el obtenido mediante laprimera frmula. Ello se debe solamente a un problema de aproximacin en los decimales.Los dos promedios obtenidos son exactamente iguales al promedio que se obtiene a partirde los datos no tabulados. La obtencin del promedio mediante este segundo mtodo es deextremada importancia, ya que implica que un promedio puede ser obtenido sin conocer eltamao de la poblacin relevante, conociendo tan slo la importancia relativa (elporcentaje) de cada valor de la variable.Analicemos ahora que ocurre cuando se tabula datos en intervalos, para lo cualrecurriremos al ejemplo de las subvenciones de colegios anteriormente expuesto. Elpromedio para datos no tabulados puede ser calculado de la misma manera que se calculpara los pacientes del Hospital. La diferencia en el clculo de la media para este ejemploest a partir de la tabulacin de los datos. Al tabularse en intervalos, la frmula de la mediadebe ser reinterpretada, debido a que en cada intervalo hay infinitos valores para lavariable. Es necesario entonces buscar un valor que represente a cada intervalo. Ese valorno es otro que la marca de clase. en la tabla:Xi-1-Xixi nini*xi6-6,996,5 1 6,57-7,99 7,5537,58-8,99 8,5325,5 441 X= = 11,03millones9-9,999,5 4 3840 10-10,99 10,5552,5 11-11,99 11,5780,5 12-12,99 12,5562,5 13-13,99 13,5794,5 14-1514,5343,5 40441Observe que el promedio obtenido en esta ocasin es levemente diferente alpromedio para datos no tabulados (10,95 millones). Esta diferencia se debe a que latabulacin de un conjunto de datos en intervalos implica necesariamente una prdida de la13 14. Rodrigo Salas Apuntes de Estadsticaexactitud en relacin con los datos originales. Por ejemplo saber que el intervalo que va de6 a 6,99 tiene una frecuencia absoluta de 5 no permite conocer que valor exacto tienen las 5observaciones incluidas en dicho intervalo. La solucin a este problema es la tabulacin enmayor cantidad de intervalos de menor amplitud cada uno, de los datos originales. Sinembargo es evidente que la cantidad de intervalos implica mayor trabajo (o por lo menosuna tabla de distribucin de frecuencias mas grande). El lector deber buscar la mejorrelacin entre exactitud y eficiencia. Propiedades de la media aritmtica Dada la importancia y el uso extendido que tiene la media aritmtica comoindicador de tendencia central de comportamiento de las variables, es necesario estudiaralgunas de sus propiedades mas importantes.1- La media aritmtica de una variable ms (o menos) una constante a es igual a la media aritmtica de la variable ms la constante; en trminos algebraicos:x+a = a+x2- La media aritmtica de una variable por una constante a, es igual a la media aritmtica de la variable multiplicada por la constantex*a = a*x Estas dos propiedades son de vital importancia porque en la prctica nos simplificanclculos y por supuesto ahorran tiempo; Retomando el ejemplo de las subvenciones,suponga que el Ministerio de Educacin decide aumentar 2 millones de pesos la subvencinde cada colegio; La nueva tabla de distribucin de frecuencias es la siguiente:Xi-1-Xi xi +ani ni*(xi +a)8-8,998,518,59-9,999,5547,5 10-10,9910,5331,5 521X= = 13,03millones 11-11,9911,5 44640 12-12,9912,5562,5 13-13,9913,5794,5 14-14,9914,5572,5 15-15,9915,57 108,5 16-17 16,5349,5 40521Al sumar dos millones de pesos a cada subvencin, evidentemente cambian loslmites de cada intervalo (aumentan dos unidades), y en consecuencia cada marca de clasetambin aumenta en dos unidades; Es fcil observar que la nueva media aritmtica (13,0314 15. Rodrigo Salas Apuntes de Estadsticamillones) es exactamente igual a la antigua (11,03 millones), ms la contante (2 millones).El lector podr realizar el mismo experimento para demostrar la segunda propiedad de lamedia.Detengmonos un momento y observemos el nuevo grfico que representa elcomportamiento de la variable (su poligonal): ni hi7 0,1756 0,1505 0,1254 0,1003 0,0752 0,0501 0,025 Xi0 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 15,5 16,5La nueva poligonal a partir del aumento en dos millones es exactamente igual a laanterior, slo que est desplazada hacia la derecha. Esto sucede en el caso en que a cadavalor de la variable se le sume una constante. En el caso de que la variable sea multiplicadapor una constante se produce algo distinto, que analizaremos con mas detalle cuandoestudiemos los estadgrafos de dispersin.Una tercera propiedad de la media surge como corolario de las dos anteriores3- La media aritmtica de una constante a es exactamente igual a la misma constante4- El promedio de las desviaciones (restas) de cada observacin con respecto a su mediaes igual a 0; Definamos la variable Z tal qu: z = xi x As, cada valor de esta nueva variable, no es ms que la resta o diferencia entre cadavalor de la variable y su media aritmtica. Calculemos el promedio de las z, a partir de laantigua tabla de distribucin de frecuencias15 16. Rodrigo Salas Apuntes de EstadsticaXi-1-Xi xinizi ni*zi6-6,996,5 1 -4,525 -4,5257-7,997,5 5 -3,525-17,6258-8,998,5 3 -2,525 -7,57509-9,999,5 4 -1,525-6,1z= = 0.millones40 10-10,9910,55-0,525 -2,625 11-11,9911,5 7 0,4753,325 12-12,9912,5 5 1,4757,375 13-13,9913,5 7 2,475 17,325 14-15 14,5 3 3,475 10,425 40 0 Con ello se comprueba la propiedad sealada.4- La suma de los cuadrados de las desviaciones respecto a un origen de trabajo es mnima, si este es la media aritmtica. Analizaremos la importancia de esta propiedad en el futuro cuando estudiemos los estadgrafos de dispersin.5- La media de una muestra es igual a la media ponderada de la media de las submuestras, cuyas ponderaciones son los tamaos de las submuestras, en lgebra: x1 * n1 + x 2 * n 2X=n1 + n 2En trminos generales(para ms de dos submuestras): X= x i *ninPara conocer el alcance de esta propiedad, veamos el siguiente ejemplo: El ao 99egresaron dos A y B, el curso A se compone de 20 personas y egres con un promedio 5,2,el B tiene 10 alumnos y su promedio fue 4,7. El promedio de la promocin en su conjuntoes: (20 * 5,2) + (10 * 4,7)X= = 5,03pts 20 + 10 Esta propiedad se utiliza frecuentemente en el manejo de datos; A continuacindaremos uso a algunas de las propiedades recin mencionadas, para explicar dos mtodosde clculo abreviados para el clculo de la media. 16 17. Rodrigo Salas Apuntes de Estadstica Mtodos de clculo abreviado para la media aritmtica1- Primer mtodo abreviado: Consiste en restar a todos los valores una cantidad constante, trabajar con el residuo, y posteriormente agregar la constante. Se trata de escoger un valor de la variable como origen de trabajo, restarlo de cada observacin calcular el promedio de estos residuos y posteriormente sumar el origen de trabajo al promedio. X = Ot + z*n i inEn la frmula zi es una variable definida como cada observacin (o marca de clase)menos el valor escogido como orgen de trabajo. Debe tenerse presente que si utiliza comoorgen de trabajo a la media aritmtica, esta variable arrojar como promedio 0.; En elejemplo de las subvenciones, utilicemos como orgen de trabajo el valor 10Xi-1-Xixi nizi ni*zi6-6,99 6,51 -3,5 -3,57-7,99 7,55 -2,5-12,58-8,99 8,53 -1,5 -4,5419-9,99 9,5 4-0,5-2x = 10 += 11,03.millones 40 10-10,9910,5 5 0,52,5 11-11,9911,5 7 1,5 10,5 12-12,9912,5 5 2,5 12,5 13-13,9913,5 7 3,5 24,5 14-15 14,5 3 4,5 13,5 40 4111,03 millones es el mismo promedio calculado con anterioridad. Se puede utilizarcomo orgen de trabajo cualquier valor de la variable (a excepcin de la misma media), y elresultado obtenido ser el mismo2- Segundo mtodo abreviado: Si se trabaja con unta tabla de distribucin de frecuencias con intervalos de igual amplitud se puede expresar las desviaciones como mltiplos de la amplitud de los intervalos (c). Al igual que en el primer mtodo abreviado, se escoge un orgen de trabajo y se calcula una nueva variable ui que corresponde al nmero de clases entre cada xi o marca de clase y el valor seleccionado como orgen de trabajo, de la siguiente manera: xi Otui =c17 18. Rodrigo Salas Apuntes de Estadsticay la media:X = Ot + c *u i *n i n De esta forma la media es igual al orgen de trabajo ms c por el promedio de lavariable ui.Revisemos nuevamente el ejemplo de las subvenciones, utilizando como orgen detrabajo el valor 9,5Xi-1-Xixini ui ni*ui6-6,99 6,5 1 -3 -37-7,99 7,5 5 -2-108-8,99 8,5 3 -1 -3 619-9,99 9,5 400 x = 9,5 + 1 *= 11,03.millones 40 10-10,99 10,55 15 11-11,99 11,5 72 14 12-12,99 12,5 52 15 13-13,99 13,5 74 2814-15 14,5 35 15 4061De nuevo hemos obtenido el mismo valor conocido. Lo mismo puede suceder si seutiliza cualquier otra marca de clase.Hasta ahora hemos estudiado la media aritmtica y sus propiedades, pero nonecesariamente el promedio es el valor que mejor resume el comportamiento de la variable.Uno de los ejemplos mas notorios en tal sentido es el ingreso percpita. Este valor quesirve como referencia sobre la riqueza de un pas, se calcula dividiendo al producto internobruto de un ao, por el nmero de habitantes del mismo. La idea es conocer una cantidad dedinero que sea representativa de lo que gana cada habitante de un pas. El ingreso percpitafunciona bien en la medida en que la distribucin de ingresos sea homognea, lo que no secumple bien en pases como Chile. En trminos generales la media aritmtica no resumebien a las distribuciones que tienen valores extremos de la variable que distorsionan sucomportamiento. Para ello necesitamos conocer otro estadgrafo.B) MEDIANA(Me)La mediana o valor mediano de un conjunto de datos corresponde a un valor de lavariable que supera a lo sumo a la mitad de las observaciones y que a la vez essuperada a lo sumo por la otra mitad, una vez ordenados los datos en forma crecienteo decreciente. Por definicin, la mediana divide a la poblacin o muestra que se estinvestigando en dos partes iguales, con igual nmero de observaciones cada una.18 19. Rodrigo Salas Apuntes de EstadsticaImaginemos por ejemplo que nos interesa conocer la mediana de las estaturas de 5personas; Las estaturas son las siguientes expresadas en centmetros y ordenadas de menora mayor.150154160 166168Por definicin la mediana es aquel valor de la variable que supera como mximo ala mitad de las observaciones y que al mismo tiempo es superado por la mitad de lasobservaciones como mximo. La mitad de 5 (el total de observaciones) es 2,5.Comenzamos a contar de izquierda a derecha y el primer lugar que supere a 2,5corresponder a la media. En este caso es el tercer valor, por lo tanto la mediana de estasobservaciones es 160 centmetros. Este valor debe ser interpretado como sigue: la mitad delas personas mide menos de 160 cms. y la otra mitad mide mas.La situacin se complica levemente si trabajamos con un nmero par deobservaciones. Suponga que se agrega una nueva persona a esta muestra de 5, estadistribucin presentara dos medianas (dos valores que son superados y superan comomximo a la mitad de las observaciones). La solucin para ello es calcular el promedio delos dos valores que cumplen con los requisitos de la mediana. El problema se complica un poco cuando se trata de datos tabulados. Es evidenteque la mediana est contenida en uno de los intervalos de la tabla. Retomemos nuevamenteel ejemplo de las subvenciones de los colegios. Esta vez ocuparemos la columna defrecuencias absolutas acumulados: Xi-1-Xini Ni 6-6,9911 7-7,9956 8-8,9939 9-9,994 1310-10,99 5 1811-11,99 7 2512-12,99 5 3013-13,99 7 3714-153 40 ni = 40 = n hi = 1 = 100%Lo primero que debe hacerse, al igual que con los datos no tabulados, es dividir lapoblacin en dos. En el ejemplo la mitad de las observaciones es 20. El primer intervalocuya frecuencia absoluta acumulada supera a la mitad de las observaciones es el intervalodonde est la mediana, o dicho de otra forma es el intervalo mediano. En la tabla elintervalo mediano es el que va de 11 a 11,99 millones. Para continuar el clculoutilizaremos la siguiente frmula: 19 20. Rodrigo Salas Apuntes de Estadstican N j1 Me = x j1 + c j * 2 nj Esta frmula que parece compleja en la prctica es muy sencilla de utilizar. Dehecho todos los datos que indica la frmula estn contenidos en la tabla de distribucin defrecuencias: xj-1 Lmite inferior del intervalo mediano cj Amplitud del intervalo mediano nNmero de observaciones Nj-1 Frecuencia absoluta acumulada del intervalo anterior al intervalo mediano nj Frecuencia absoluta del intervalo mediano Despejando en la frmula: 40 18 Me = 11 * 1 + 2 = 11,2857millones 7 La interpretacin de la mediana es la misma que para los datos no tabulados; en elejemplo La mitad de los colegios reciben menos de 11,2857 millones y la otra mitadrecibe ms de ello El lector podr preguntarse porque si se puede encontrar un valor de la variable quedivida a la poblacin en dos partes iguales, no se puede tambin dividirse a la poblacin en4, 5, 10 o infinitas partes de igual tamao cada una. Esta preguntara quedarcompletamente resuelta a continuacin. FractilasFractilas es el nombre que reciben las divisiones de la poblacin en partes iguales.Las primeras fractilas que estudiaremos reciben el nombre de cuartilas. Tal como sunombre lo indica las cuartilas dividen a la poblacin en 4 partes iguales, cada una de lascuales posee la cuarta parte de las observaciones o 25%; Si es necesario dividir a lapoblacin en 4 partes iguales, es necesario hacer 3 cortes. Cada corte es una cuartila, a laque denominaremos en letras como Qi. Q1 es el primer corte que separa al 25% de lasobservaciones con menor valor de la variable del 75% mayor. Q2 por construccin esexactamente igual que la mediana. Por ltimo Q3 separa al 25% mas alto del 25% restante,la siguiente figura representa lo aqu expresado20 21. Rodrigo Salas Apuntes de Estadstica ni25%25%25% 25%Q1 Q2 Q3 xi MePara el clculo de cada una de las cuartilas se utiliza la misma frmula que para lamediana, con algunas pequeas diferencias.n 3n N q 1 N q 1 Q1 = x q 1 + c q * 4 Q 3 = x q 1 + c q * 4 nq nq Para calcular la primera cuartla, es necesario identificar el intervalo en el cual seacumula el 25% de las observaciones, dividiendo el total de observaciones por cuatro. ElPrimer intervalo cuya frecuencia absoluta acumulada supere este valor, es el intervalo endonde se encuentra Q1. En el ejemplo la cuarta parte de las observaciones es 10, y el primerintervalo que supera este valor en su frecuencia absoluta acumulada es el cuarto que va de 9a 9,99; lo dems es tan sencillo como el despeje en la frmula reemplazando los datos de lamisma manera que se hace con la mediana. Este resultado debe interpretarse de la siguiente 10 9 manera 9,25 millones es la subvencin recibida Q1 = 9 + 1 * = 9,25millones 4 por el colegio que ms recibe del 25% de los colegios con menor subvencin Q3 se calcula de manera anloga utilizando el intervalo cuya frecuencia absolutaacumulada supere las 30 observaciones (el 75% de 40). Eso ocurre en el intervalo que va de13 a 13,99; reemplazando: Q3 significa que13 millones es la subvencin 30 30 Q 3 = 13 + 1 * = 13millones recibida por el colegio que menos dinero recibe 7 del 25% de los colegios que reciben mayor cantidad de recursos. Observe adems que Q3coincide exactamente con el lmite inferior del intervalo; ello se produce debido a que lafrecuencia acumulada anterior a la del intervalo donde est Q3 coincide con el 75% de lasobservaciones.De nuevo puede pensarse en que es posible dividir a la poblacin en todava maspartes iguales por ejemplo en cien partes. SI se hace eso cada una de las 100 partes recibe elnombre de percentila. Por definicin la percentila 50 corresponde exactamente a la21 22. Rodrigo Salas Apuntes de EstadsticaMediana y al valor de la 2 cuartila. De la misma manera P25 (la percentila25), es igual aQ1 y P75 es igual a Q3. A manera de ejemplo calcules calculemos la percentila 35, P35. 35 * nEn primer lugar se busca al intervalo cuya frecuencia N p 1 absoluta acumulada supere al 35% de las observacionesP35 = x p 1 + c p * 100 np(14). Esto ocurre en el intervalo que va desde 10 a 10,99. Observe que en la frmula lo nico que cambia en relacin con las cuartilas es el la fraccin (35*n)/100.De hecho es lo nico que cambia si se desea calcular cualquiera otra de las percentilas.Reemplazando:La interpretacin de este resultado es el colegio 14 13 P35 = 10 + 1 * = 10.2millones que mejor subvencin recibe del 35% de los 5 colegios con pero subvencin tiene unasubvencin de 10,02 millones. Antes de finalizar con el estudio de la mediana es necesario enunciar su defecto masimportante: Cuando una de las observaciones cambia de valor, no necesariamente esomodifica el valor de la mediana. De hecho slo la cambiara si es que la nueva observacinexcediera el valor de la mediana original. De tal manera que existe una suerte deinsensibilidad de la mediana a ciertos cambios en los valores de la variableC) MODA (Mo) La mediana es el tercer estadgrafo de posicin que estudiaremos. Su determinacines muy sencilla: La moda de un conjunto de observaciones es aquel valor de la variableque se repite mas veces. En otras palabras es el valor de la variable que tiene mayorfrecuencia absoluta. Esto es sencillo de determinar en datos no tabulados. En datostabulados en intervalos es necesario hacer una pequea observacin: la Moda es la marcade clase del intervalo con mayor frecuencia absoluta. En el ejemplo de las subvenciones existen dos intervalos con frecuencia mxima(7). En este caso se dice que la distribucin es Bimodal y las modas son 11,5 y 13,5.Evidentemente puede haber varias frecuencias mximas iguales en una misma tabla. Sedice entonces que esas distribuciones son multimodales. Por extensin tambin se puede hablar de los valores con menor frecuenciaabsoluta. Dichos valores (si es que hubiere mas de uno con frecuencia mnima) reciben elnombre de antimodas. Antes de pasar al siguiente estadgrafo de posicin, enunciaremos la siguientepropiedad en relacin con los tres estadsticos recin estudiados:Los valores de la media, mediana y moda sern exactamente iguales siempre y cuando setrate de una distribucin simtrica de una sola punta; en las distribuciones perfectamentesimtricas con mas de una punta solo sern la media y la mediana; observe los siguientesgrficos:22 23. Rodrigo Salas Apuntes de EstadsticaninixXi x Xi Me Me Mo Ala izquierda hay una distribucin perfectamente simtrica de una sola punta. Enella la media la mediana y la moda son iguales. En cambio a la derecha hay unaDistribucin perfectamente simtrica de tres puntas y por lo tanto tres modas (ambas con lamisma frecuencia). pero la media y la mediana son exactamente iguales.D) MEDIA GEOMETRICA (Mg) La media geomtrica es un estadgrafo de posicin que se utiliza para describirtendencias centrales en variables que tienen tasas de crecimiento relativamente constantes.Ello sucede con variables como la poblacin, el PIB, y muchos otros. Tambin se utilizapara conocer el valor medio de un conjunto de porcentajes mensuales, anuales, etc. La media geomtrica de un conjunto de n observaciones se define como la raz dendice n del producto de las observaciones. es decir:Mg = n x1 x 2 x 3 ..........x n Utilicemos un pequeo ejemplo: La poblacin de Chile en 1982 era 12 millones yen 1992 totaliz 14,6 millones. Encuentre la poblacin media del perodo y la tasa anual decrecimiento.Para calcular la poblacin media del perodo utilizaremos la media geomtrica.Despejando en la frmula:Mg = 2 12 * 14,6 = 13,23millones Observe que el valor obtenido es menor que el de el promedio (13,3 millones). Eneste caso la media geomtrica resume mucho mejor el comportamiento de la variablepuesto que en la prctica la poblacin tiene un crecimiento a una tasa constante. Observe elsiguiente grfico:23 24. Rodrigo Salas Apuntes de Estadstica14,60 La media aritmtica se encuentra en el punto13,30 central de la recta que une las poblaciones para el13,2382 y el 92. Ambas lneas comienzan y terminan donde mismo, pero si se pudiera realizar un censo diario durante esos diez aos, la resta resultante se12,00 asemejara mas una exponencial que a una recta.19821992La tasa de crecimiento anual de la poblacin a la que en primera instanciadefiniremos como i, se calcula mediante la frmula: 12 * (1 + i ) = 14,6 10 C * (1 + i ) = Mn Reemplazando (1 + i )10 = 1,2167i = 10 1,2167 1 = 0,0198 Esta es en definitiva la tasa de crecimiento anual. El crecimiento total del perodo esde 21,67%, es el producto de crecimientos de 1,98% cada ao que en el fondo es una mediageomtrica 24 25. Rodrigo Salas Apuntes de Estadstica1.6 ESTADIGRAFOS DE DISPERSION No siempre todas las respuestas con respecto al comportamiento de una variablequedan resueltas por el slo hecho de determinar algunos de los estadgrafos de posicinque recin hemos estudiado. La verdad sea dicha, queda mucho trabajo aun paracaracterizar adecuadamente a cualquier distribucin de frecuencias.Para seguir caracterizando adecuadamente al comportamiento de las variables,concentraremos nuestra atencin en la idea de la dispersin. La dispersin dice relacincon la concentracin ( o desconcentracin ) de los valores de la variable con respecto a unvalor central. Acabamos de conocer varios indicadores de tendencia central de la variable.Cualquiera de los estadgrafos de posicin, puede ser utilizado para determinar laconcentracin de las dems observaciones de la variable con respecto a l. En este textocuantificaremos dispersiones en relacin con la media aritmtica.2A) VARIANZA 2 Una idea que surge para cuantificar las dispersiones con respecto a la media esrestar a cada valor de la variable la media aritmtica previamente calculada yposteriormente calcular un promedio de esas diferencias; Veamos un pequeo ejemplo: Lasnotas obtenidas en una prueba por un curso de 5 personas son las siguientes:234 56El promedio de notas es 4. Si restamos este valor de cada una de las notasobtenemos lo siguiente:-2 -1 0 12 La suma de estas diferencias es 0, lo cual es consistente con las propiedades de lamedia enunciadas cuando explicamos a este estadgrafo. Este problema se supera sielevamos los valores de la variable al cuadrado. As los nmeros negativos se vuelvenpositivos y obtenemos lo siguiente:4 + 1 + 0 + 1 + 4 10 = =255 Este valor, que no es ms que un promedio de desviaciones con respecto a la mediaelevadas al cuadrado, recibe el nombre de varianza, nuestro primer estadgrafo dedispersin. La frmula para el calculo de la varianza es la siguiente:2 Tenga presente que los estadgrafos que estudiaremos en este texto son slo una parte de los mltiplesestadgrafos de dispersin susceptibles de ser calculados. Considere por ejemplo el promedio de lasdesviaciones con respecto a la Mediana. Este ltimo estadgrafo recibe el nombre de desviacin mediana25 26. Rodrigo Salas Apuntes de Estadstica (x) 2i x 2 = para datos no tabuladosn (x) 2i x * ni 2 = para datos tabuladosnVarianza: Es el promedio de las diferencias cuadrticas de cada valor de la variabley su respectiva media aritmtica. Si comparamos dos distribuciones en relacin con sus varianzas, diremos que la masdispersa o desconcentrada es aquella cuya varianza es mayor. Analicemos en extenso lavarianza a partir de otro ejemplo: Las siguientes tablas de distribucin de frecuencias representan los ingresosrecibidos por persona en dos pueblos (expresados en miles de pesos), en cada uno de loscuales habitan 200 personas:CIUDAD ACIUDAD Bxi-1-xi ni xi-1-xini0-99,9 15 0-99,938100-199,925 100-199,9 30200-299,942 200-299,9 21300-399,948 300-399,9 23400-499,930 400-499,9 25500-599,920 500-599,9 20600-699,913 600-699,9 25700-8007700-800 18Calculemos entonces el promedio y la varianza de los ingresos para cada una deestas dos ciudades, comenzando con la ciudad A:xi-1-xixi ni xi*nixi-x(xi-x)2(xi-x)2*ni0-99,950 15750-300 900001350000100-199,9150253750-20040000 1000000200-299,925042 10500-10010000420000300-399,935048 168000 00400-499,945030 13500 10010000300000500-599,955020 11000 20040000800000600-699,9650138450 30090000 1170000 700-800 750 75250 4001600001120000 20070.000 6.160.000La media de los ingresos es:26 27. Rodrigo Salas Apuntes de Estadstica70000xA == 350 miles de pesos200 2 6.160.000A = = 30.800 miles de pesos 2 200 Observe que las unidades de la varianza son pesos al cuadrado. Ello ocurre porquepara su clculo es necesario elevar los valores de las diferencias al cuadrado. En generalnadie esto es una dificultad ya que hablar de pesos al cuadrado no tiene ningn sentidoprctico. La solucin es calcular la raz cuadrada de la varianza. Este valor calculado es elsegundo estadgrafo de posicin que estudiaremos y se llama desviacin estndar. A = 30.800 pesos 2 = 175 ,5 miles de pesos A primera vista tanto la varianza como la desviacin estndar no tienen muchosentido. Es necesario indicar que estos dos estadgrafos cobran relevancia a la hora de hacercomparaciones entre distribuciones distintas. Para ello evidentemente calcularemos el valorde la media, la varianza y la desviacin estndar de los ingresos en la ciudad B:71700xB = = 358.5 miles de pesos 200 2 10.995.550B == 54.977 miles de pesos 2 200 B = 54977 = 234.47 miles de pesos Observe en primer lugar que las medias son relativamente similares, puesto que ladiferencia entre ambas ciudades es de slo de $8.500. Sin embargo, tanto la varianza y ladesviacin estndar son mayores para la ciudad B. En definitiva el hecho de que lavarianza y la desviacin estndar mayores para la ciudad B, indican que existe una mayordesconcentracin de los ingresos con respecto a la media en esta ciudad.Concluimos que la varianza (y la desviacin estndar evidentemente) sernmayores para aquellas distribuciones que presentan una mayor dispersin con respecto a sumedia. Expresado lo anterior, queda aun mas en evidencia (al menos por ahora) el hecho deque la varianza y la desviacin estndar se utilizan para comparar distribuciones. Consientes de lo anterior fijemos nuestra atencin en lo siguiente: A partir de lafrmula de la varianza se pueden hacer una serie de simplificaciones, puesto que el trminoentre parntesis est elevado al cuadrado. Utilizando las propiedades del cuadrado de unbinomio tenemos: (x) = x 2x i x + x 2 22 2 x 2 x i x + x x 2x x i2 22 i xi=i i nx 2== + nn nnnn x x 22 2 2 2 i 2n x nx nx i 2 222 = += 2x + x = x 2 x nnnn n 27 28. Rodrigo Salas Apuntes de EstadsticaEn consecuencia se llega a la conclusin de que la varianza de una variable, es iguala un promedio de cuadrados, menos el cuadrado de la media. Comprobemos la frmularecin obtenida para la ciudad A: xi-1-xi xi nixi2 xi2*ni 0-99,9 50 15 2500 37500 100-199,9 150 2522500562500 200-299,9 250 4262500 2625000 300-399,9 350 48 122500 5880000 400-499,9 450 30 202500 6075000 500-599,9 550 20 302500 6050000 600-699,9 650 13 422500 5492500700-800750 7562500 3937500200 30.660.00030.660.000 2 = 350.2 = 153.000 122.500 = 30.800 miles de pesos 2200 Tal como predijimos el valor de la varianza obtenido por este mtodo esexactamente igual al obtenido anteriormente para la ciudad A.B) Coeficiente de Variacin Si nuestro objetivo final es comparar distribuciones a partir de su variabilidad, esnecesario describir la relacin existente entre la desviacin estndar y la media aritmticade una distribucin. Para ello se utiliza el 3 estadgrafo de dispersin cuyo nombre esCoeficiente de Variacin (CV), o bien Coeficiente de Dispersin (CD). Su frmula es: CD = , en nuestro ejemplo :X 175.5CD A = = 0 ,5014350 234.47CD B == 0 ,6540358 ,5Observe nuevamente que el coeficiente de dispersin es mayor en aquelladistribucin mas desconcentrada; Observe tambin que el coeficiente de dispersin no tieneunidades, por lo que es especialmente til para comparar distribuciones en que las variablesestn expresadas en distintas unidades. Por ejemplo la variabilidad entre ingresosexpresados en pesos e ingresos expresados en dollares. Con esto completamos la tarea de caracterizar una distribucin a partir de ladispersin de las observaciones con respecto a su media aritmtica. Pero la caracterizacinde una distribucin no termina ac.28 29. Rodrigo Salas Apuntes de Estadstica1.7 MOMENTOS DE UNA VARIABLEHasta el momento hemos descrito el comportamiento de una variable a describiendoen torno a que valores se concentra (los estadgrafos de posicin) y como se desconcentraen relacin con dicho valor (los estadgrafos de dispersin).sin embargo nada hemos dichoen relacin con la simetra o asimetra en la distribucin de la variable; tampoco hemoscuantificado lo puntiaguda o aplanada que resulta ser la poligonal que describe unavariable . Nos falta camino por avanzar, y por ello estudiaremos los Momentos de unavariable.Momentos de una variable: Son los valores esperados o promedios de ciertas funciones de dicha variable; En particular, si X es una variable, el r-simo momento de X alrededor de 0 se define por: r= E(X ) = Xr r=x r inObserve que segn esta definicin el primer momento alrededor de 0, es elpromedio de la variable, al que denominaremos simplemente (Sin y sin subndice). 1 = E(X ) = X 11 ==x 1 i nPor otro lado el segundo momento con alrededor de 0, es el promedio de los valoresde la variable elevados al cuadrado. Este momento entonces corresponde al primermiembro de la 2 frmula para el clculo de la varianza. Observe tambin que tambin pueden calcularse momentos de una variable conrespecto a su mediaMomentos con respecto a la media: Si X es una variable el r-simo momento de la mismacon respecto a su media se define por: (x x) r= E(X X ) =r r n Si calculamos el primer momento de X con respecto a su media, obtendremos 0,independientemente de la variable de que se trate. Recuerde que la sumatoria de lasdiferencias de X con respecto a su media. El segundo momento alrededor de la media, se calcula elevando al cuadrado dichasdiferencias. Por lo tanto el valor obtenido no es ms que la varianza de la variable X.Recuerde la siguiente frmula:2 2 = x 2 x = 2 12 En conclusin. cualquier momento con respecto a la media puede ser expresado entrminos de los dems momentos de la variable con respecto a 0.29 30. Rodrigo Salas Apuntes de Estadstica Existen dos momentos con respecto a la media que resultan de particularimportancia, el tercero y el cuarto. De su anlisis nos preocuparemos a continuacin:A) Asimetra Un aspecto de fundamental importancia al momento de describir una variable, esdeterminar la simetra (o asimetra) en el comportamiento de la misma. Observe lassiguientes poligonales:A BC xixixi Observe que la poligonal A tiene una cola mas larga hacia la derecha o hacia losvalores positivos de la variable. Diremos entonces que esta es una variable con asimetra osesgo positivo. El grfico C representa una distribucin con asimetra o sesgo negativo y lafigura B representa una distribucin simtrica.. El tercer momento de una variable con respecto a su media cuantifica la simetra (oasimetra) de una variable. As tenemos que: (x x) 3(3 = E X X ) 3 =nSi 3 = 0 Perfecta simetraSi 3 > 0 Asimetra o sesgo positivoSi 3 < 0 Asimetra o sesgo negativo Al igual que lo ocurrido con la varianza (que no es ms que el segundo momentocon respecto a la media), el tercer momento puede ser expresado en trminos de losmomentos con respecto a 0, mediante la siguiente frmula: 3 = 3 3 2 +2 3El valor calculado de esta forma adolece del mismo defecto que en algn momentodijimos que tena la Varianza: No est expresada en las mismas unidades de la variable. Enel caso especial de 3, el valor obtenido estar elevado al cubo. La solucin a este problemaes calcular momentos adimensionales (sin unidades). Recuerde que algo similar hicimoscuando calculamos el coeficiente de variacin. El tercer momento adimensional de lavariable con respecto a su media recibe el nombre de coeficiente de asimetra o 3. Suclculo se realiza mediante la siguiente frmula:30 31. Rodrigo Salas Apuntes de Estadstica3 3 =22 3Este momento adimensional tiene exactamente las mismas propiedades que 3, paralos efectos de la cuantificacin de la asimetra.B) Curtosis La curtosis no es ms que la cuantificacin de lo puntiaguda o aplanada quepuede ser la poligonal que representa el comportamiento de una variable. Observe lassiguientes poligonales AB Cxixi xiLa distribucin A por ser la ms plana de las tres recibe el nombre de platocrtica.La distribucin C (la ms puntiaguda de las 3) la llamaremos leptocrtica. Y la B que es laintermedia entre ambas recibe el nombre de mesocrtica. La Curtosis de una variable semide con el cuarto momento con respecto a la media 4. (x x) 4= E(X X ) = 4 4n El cuarto momento con respecto a la media tambin puede ser expresado entrminos de los momentos con respecto a 0, como sigue: 4 = 4 4 3 +6 2 2 3 4 El coeficiente de curtosis es el siguiente:4 4 =de tal manera, que por convencin :2 2 Si 4 = 3 mesocrtica Si 4 < 3 platortica Si 4 > 3 leptocrtica As mientras mayor sea 4 mas leptocrtica ser la distribucin de frecuencias.31 32. Rodrigo Salas Apuntes de EstadsticaC) Ejemplo numrico Calculemos el tercer y cuarto momentos adimensionales de la variable con respecto a sumedia, utilizando para ello la distribucin de ingresos de la ciudad A. xi nizizi3zi3*ni xi2 xi2*ni xi3xi3*ni50 15-300 -27.000.000 -405.000.000 2.500 37.500 125.000 1.875.000 150 25-200 -8.000.000-200.000.00022.500562.500 3.375.000 84.375.000 250 42-100 -1.000.000 -42.000.00062.5002.625.00015.625.000656.250.000 350 48000 122.5005.880.00042.875.0002.058.000.000 450 30 100 1.000.000 30.000.000 202.5006.075.00091.125.0002.733.750.000 550 20 200 8.000.000160.000.000 302.5006.050.000 166.375.0003.327.500.000 650 13 300 27.000.000 351.000.000 422.5005.492.500 274.625.0003.570.125.000 750 7400 64.000.000 448.000.000 562.5003.937.500 421.875.0002.953.125.000 200342.000.000 30.660.000 15.385.000.000As 3 ser: (x x ) 3342.000.000 3 == = 1.710.000 miles de pesos 3 n200Calculando 3 mediante los momentos con respecto a 0, obtenemos lo siguiente:15.385.000.000 30.660.000 3 = 3 * 350 * 3 + 2 * 350 = 1.710.000 miles de pesos3 200 200Al mismo tiempo: 31.710.0003 = == 0 ,32 2 3 2 2 30.800 3 Por lo tanto podemos afirmar que esta distribucin tiene sesgo positivo, o sea tieneuna cola ms larga hacia la derecha.Alternativamente el clculo de la curtosis: xi ni zizi4zi4*ni50 15 -300 8.100.000.000121.500.000.000 150 25 -200 1.600.000.000 40.000.000.000 250 42 -100 100.000.0004.200.000.000 350 48 000 450 30 100100.000.0003.000.000.000 550 20 2001.600.000.000 32.000.000.000 650 13 3008.100.000.000105.300.000.000 750 7 40025.600.000.000179.200.000.000 200 45.200.000.000485.200.000.00032 33. Rodrigo Salas Apuntes de EstadsticaPor lo tanto: (x x )4485.200.000.0004 == = 2.426.000.000 miles de pesos 4 n200y 4 4 2.426.000.0004 == = 2 ,5622 30.800 2por lo que la distribucin de los ingresos en la ciudad A es levemente platocrtica; Lademostracin de que el cuarto momento con respecto a la media puede calcularse a partirde los momentos con respecto a 0, ser tarea del estudiante. 33 34. Rodrigo Salas Apuntes de Estadstica2. DISTRIBUCIONES BIDIMENSIONALESHasta ahora hemos analizado el comportamiento de diferentes variables,describiendo caractersticas de su comportamiento. En primer lugar describimos el valor entorno al cual se concentraba, mediante los estadgrafos de posicin, y luego que tanconcentrada o dispersa era la distribucin con respecto a ese valor central, mediante losestadgrafos de dispersin. Luego mediante los momentos logramos cuantificar la simetray la forma plana o puntiaguda que adopta la poligonal de una distribucin determinada. Sinembargo siempre hemos descrito el comportamiento de variables por separado. Eninnumerables ocasiones se vuelve necesario estudiar el comportamiento de dos variables almismo tiempo. Por ejemplo a los meteorlogos les interesa saber como se relaciona lapresin del aire con las lluvias. Por otro lado un mdico puede estar preocupado de cmoreacciona la presin arterial de sus pacientes a partir de la dosificacin de ciertomedicamento. Los economistas siempre estn interesados por cuantificar la relacinexistente entre el ingreso y los gastos de una persona. Son infinitas las ocasiones (y lasdisciplinas) en las que es necesario describir la relacin existente entre dos o ms variables.Esta ser precisamente la tarea a la que nos abocaremos en esta seccin. Considere Ud. elsiguiente ejemplo:La siguiente tabla representa los pesos y estaturas para un grupo de 15 hombres:Peso (Xi)55586375774581668847 567587 9066Altura (Yi) 160 165 169 180 181 155 180 170 181 158161 172 179181 172 Observe en primer lugar que con esta tabla se pueden calcular fcilmente tanto losestadgrafos de posicin y de dispersin como los momentos de tercer y cuarto orden decada variable considerada por separado. De hecho:Al mismo tiempo el sentido comn indica que la estatura y el peso de una personaestn ntimamente relacionados. Sin embargo en nuestro esfuerzo por describir lo masexactamente el comportamiento de los fenmenos que estudiamos, necesitamos cuantificarla relacin existente entre estas variables. Definamos en primer lugar un concepto que serde aqu en delante de fundamental importancia:COVARIANZA: Es el grado de variabilidad conjunta entre variables. Para los efectos deeste curso trabajaremos con dos variables, puesto que la incorporacinde mas variables en el anlisis, implica la utilizacin de lgebramatricial, situacin que escapa a los contenidos de este curso; sufrmula es: COV( X , Y ) = X * Y X * YCalculando la covarianza para la distribucin de pesos y estaturas obtenemos: 34 35. Rodrigo Salas Apuntes de EstadsticaXiYiX*Y X2 55 160 8.8003.025 58 165 9.5703.364 63 16910.6473.969 75 18013.5005.6251.0292.564 77 18113.9375.929 X == 68 ,6 kilosY== 170 ,93 centmetros 45 155 6.9752.0251515 81 18014.5806.561 66 17011.2204.356 177.714 COV(X.Y) = (69 * 171) = 121.6 88 18115.9287.74415 47 158 7.4262.209 56 161 9.0163.136 2 73.593 75 17212.9005.625 i = 68 ,62 = 200 ,24 kilos 2 87 17915.5737.569 15 90 18116.2908.100 66 17211.3524.3561.029 2.564 177.714 73.593El valor calculado no nos dice mucho. Por ahora nos conformaremos con el hechode que es diferente de =. El slo hecho de que sea diferente de 0 implica que existe algngrado de variabilidad conjunta entre el peso y la estatura de estas 15 personas; tambin sepuede afirmar que existe una relacin directa entre ambos (a mayor estatura mayor peso yviceversa), debido al valor positivo de la covarianza. Como podr observar el lector estoan es insuficiente para describir el comportamiento conjunto de ambas variables. Regresin Utilicemos un grfico en el que consideremos a las dos variables una en cada eje, elque nos permitir observar con mayor claridad como se relacionan las variables en cuestin 185 180ESTATURA 175 170 165 160 155 150 40 5060 708090 100 PESOTal como enunciamos en un principio, el grfico parece describir una relacindirecta entre ambas variables. Esta nube de puntos puede ser representada, mas o menosexactamente a travs de alguna relacin funcional. Esta relacin funcional implica laposibilidad de poder estimar el valor de una variable dado un valor de la otra. A partir de 35 36. Rodrigo Salas Apuntes de Estadsticaeste momento intentaremos predecir el valor de una variable (prediccin), dado un valor dela otra variable (predictora).La mejor forma de describir esta nube de puntos es a travs de una funcin. Estapuede adoptar cualquier forma. Por conveniencia utilizaremos una funcin lineal ( al menospor ahora). Por esa nube de puntos se pueden hacer pasar infinitas lneas. Sin embargo notodas se ajustarn de igual manera. Una vez trazada la recta de estimacin, la distanciavertical entre la lnea (que proporciona el valor estimado de la variable) y un puntodeterminado, dado un valor de la variable predictora, nos indican el error en la prediccini. Una estimacin ser de mejor calidad en la medida en que se minimiza la cuanta deestos errores.As, si Yi es el valor observado de la variable de prediccin Yi*, el valor estimado apartir de la recta de regresin, y i el error de estimacin, entonces:Yi = Yi* + i donde Yi* = 1 + 2 x iPor lo tanto : i = Yi (1 + 2 x i )Observe que el valor del error de prediccin i, es igual a la resta entre el valorobservado de la variable de prediccin, menos l valor observado a partir de la regresin (lafuncin lineal); en donde 1 y 2 representan respectivamente el intercepto y la pendientede la recta de regresin. Para escoger la mejor recta de regresin utilizaremos el criterio de escoger la rectade estimacin tal que minimice la sumatoria de los errores al cuadrado, o sea: = [Yi (1 + 2 X i )]22i resolviendo un parntesis : = [Yi 1 2 X i ]22i El valor mnimo de dicha sumatoria se puede encontrar derivando i2 con respectoa cada uno de los parmetros de la recta e igualando dicha derivada a 0; Hagamos esto enprimer lugar con 1 y luego con 2 i2 i2 [Y 1 2 X i ]* 2 [Yi 1 2 X i ] = 2 [Yi 1 2 X i ] = 02 1=i 11 i2 i2 [Y 2 Xi ]* 2 [Yi 1 2 Xi ]= 2 Xi [Yi 1 2 Xi ] = 0 2 1=i 1 2 2Trabajando con las dos igualdades recin obtenidas: 36 37. Rodrigo Salas Apuntes de Estadstica 2 [Yi 1 2 X i ] = 0 [] [] 2 Yi 1 2 X i = 0 2 Yi n 1 2 X i = 0 2 Yi = +2 n 1 + 2 2 X iA) Yi = n 1 + 2 X iy adems: 2 Xi [Yi 1 2 Xi ] = 0 [] 2 Xi Yi 1 X i 2 X i2 = 0 2 Xi Yi + 21 Xi + 22 Xi2 = 0 2 Xi Yi = 21 X i + 22 Xi2B) Y Xi i = 1 X i + 2 X i2Las dos ecuaciones obtenidas al final son de fundamental importancia en estadstica. Ambas reciben el nombre de ecuaciones normales. Realizando algunos despejes: Yi = n 1 + 2 X i Diviediendo por n Yi = n 1 2 X i + nn n Y = 1 + 2 XEsta ecuacin indica que la recta de estimacin pasa necesariamente por el punto donde se encuentra la media de cada una de las variables. Despejando la ecuacin: Y Xi i = 1 X i + 2 X i2Dividiendo por n Y Xi i = 1 Xi + 2 X i2= XY = 1 X + 2 X 2 despejando el valor de 1 n nn () XY = Y 2 X X + 2 X 2 XY = X * Y + 2 X + 2 X 2 2 XY X * Y COV [X,Y ] 2 =2 2 = X X2 2XYa hemos determinado los mtodos como obtener tanto el intercepto o coeficiente de posicin de la recta como su pendiente. En nuestro ejemplo de estaturas y pesos:37 38. Rodrigo Salas Apuntes de Estadstica 121,572 == 0,61 y 200.24 1 = 170,93 (0,61 * 68.6) = 129,28 por lo tanto la recta de estimacin es de y en x es :Yi* = 170 ,93 + 0.61XiHabiendo calculados los parmetros de la recta de regresin podemos estimar los valores deY, a partir de los valores de X: XiYi Yi*ii2 55,00 160,00 162,68-2,68 7,16 58,00 165,00 164,500,500,25 63,00 169,00 167,531,472,15 75,00 180,00 174,825,1826,84 77,00 181,00 176,034,9724,67 45,00 155,00 156,60-1,60 2,58 81,00 180,00 178,461,542,37 66,00 170,00 169,350,650,42 88,00 181,00 182,71-1,71 2,93 47,00 158,00 157,820,180,03 56,00 161,00 163,28-2,28 5,21 75,00 172,00 174,82-2,82 7,95 87,00 179,00 182,10-3,10 9,64 90,00 181,00 183,93-2,93 8,56 66,00 172,00 169,352,657,00 2564107,76 Observe que el promedio de los valores esperados de Y es igual al promedio de losvalores observados (2.564/15=170,93). Por otro lado estamos en lo cierto al indicar que lasumatoria de los cuadrados de los errores de estimacin es el mnimo posible. Ello, por quelos parmetros estimados se obtuvieron a partir del mtodo de mnimos cuadrados. Quedacomo tarea la determinacin de la estimacin de la recta de regresin de x en y Tal como estimamos los valores de Y a partir de los valores de X, se puede hacerexactamente lo contrario, construyendo la siguiente recta de estimacin: Xi*=1+2Yidonde 1y 2 son respectivamente el coeficiente de posicin y la pendiente de la recta deestimacin de X a partir de Y. Estos se obtienen as:38 39. Rodrigo Salas Apuntes de Estadstica XY X * YCOV [X,Y ] 2 = 2 2 =2 y 1 = X 2YY Y2 Y La determinacin de la recta de regresin de X en Y, ser entonces tarea delestudiante. Observe sin embargo que por construccin, ambas rectas se interceptan en elpunto en que se encuentran los dos medias.Observe que lo bien o mal que se adapta una recta de regresin a una nube depuntos depender de la cuanta de los errores de estimacin i. En la prctica tomaremos lasiguiente relacin como un cuantificador de lo bien que se adapta la recta a la nube depuntos: s 2 = (Y Y )i i * 2 para la recta de estimacin de Y en X Yn y (X) 2 2i X i* s X =para la recta de estimacin de X en Ynestos valores s2x y s2y reciben el nombre de varianzas residuales y mientras menores sean,indicarn que las rectas de estimacin se ajustan mejor a la nube de puntos, por lo que laspredicciones funcionaran mejor. De hecho si los valores predecidos a partir de la recta deregresin son exactamente iguales a los valores observados de la variable, la varianzaresidual es 0. La tarea no termina aqu. Hasta el momento no somos capaces de cuantificar larelacin existente entre las variables. De hecho, la covarianza slo indica que existe ciertarelacin entre las variable (si es 0) y que esta relacin es directa (si es >0) o inversa (si es