lectura 1 - estadística descriptiva y gráficos_jul- (1).pdf
TRANSCRIPT
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
1/43
- 1 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Mdulo 1:
1 ESTADISTICA: DEFINICIN
Definicin: Es el conjunto de mtodos y tcnicas que permiten determinar, de unamuestra debidamente representativa de una poblacin, los valores estadsticos, a finde poder inferir sobre los parmetros poblacionales con un cierto grado de bondad"
Esta definicin comprende tanto a la estadstica descriptiva como a la estadsticainferencial. Mark Berenson y David Levine1, definen Estadstica descriptiva como Elconjunto de mtodos que incluyen la recoleccin, presentacin y caracterizacin deun conjunto de datos con el fin de describir apropiadamente sus caractersticas.
Mientras que a la estadstica inferencial la definen como Conjunto de mtodos quehacen posible la estimacin de una caracterstica de la poblacin o la toma de unadecisin referente a una poblacin basndose solo en los resultados de una muestra.
La comprensin de estas definiciones se ve facilitada si se aclaran convenientementealgunos trminos de las mismas.
1.1 POBLACIN:
Qu se entiende por poblacin?
Definicin: El conjunto de datos cuantificable pertenecientes al sistema en estudioconstituye la poblacin."
Esto implica que si el sistema en estudio es la produccin agrcola ganadera de laProvincia de Crdoba, entonces el mismo estar constituido por todos losestablecimientos agropecuarios de la Provincia. Si en cambio se pretende estudiar laedad promedio de los estudiantes de la Universidad Empresarial Siglo 21, la poblacinestar conformada por todos los estudiantes de esa Institucin. Si se presenta en unEstudio Publicitario, la necesidad de plantear una campaa para promover la ventade un nuevo perfume en la ciudad de Crdoba, la poblacin a estudiar estarconstituida por todas las mujeres de dicha ciudad en condiciones de seleccionar yelegir un perfume. Si se pretendiere realizar un estudio sobre la calidad de los tomates
producidos en las quintas de los alrededores de la ciudad, entonces todas las quintascon produccin de tomates prxima a la ciudad de Crdoba se constituirn en lapoblacin.
Pudiere ser de importancia para un nuevo gobierno provincial prever elcomportamiento de los contribuyentes a las obligaciones impositivas, en caso dereducir el monto de los impuestos, en este caso la poblacin estar constituida portodos los contribuyentes
A fin de poder tomar las medidas ms adecuadas ser necesario contar con la mayorinformacin posible, si los datos informativos con los que contamos provienen delestudio de toda la poblacin, no sera necesario realizar ninguna inferencia, decimosque se ha efectuado un censo de la poblacin. Pero en ese caso dicha mayor
1Estadstica Bsica en Administracin pg.2
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
2/43
- 2 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
exactitud va acompaada por un mayor costo y tiempo que evidentemente encarece elproceso. Es decir, los resultados que puede entregarnos un censo tienen el carcter
de ser exactos, pero los costos que determinan los mismos pueden no justificardicha exactitud cundo, con muestras debidamente seleccionadas se determinanesos valores con un cierto grado de error que se puede regular y que ms adelanteveremos.
Por otra parte en algunas situaciones particulares el censo se presenta impracticable opuede no ser conveniente. Piense el lector que si el estudio se refiriere alcomportamiento de las abejas en un colmenar, la poblacin tendra el carcter deinfinita y por lo tanto sera imposible censarla.
Supongamos que se desata una epidemia en la poblacin y debemos analizar larespuesta a un cierto medicamento. Pretender estudiar la respuesta de toda lapoblacin a la nueva droga llevara un tiempo enorme tal que al cumplirse tal vez notendra sentido la aplicacin del medicamento.
Una Empresa automotriz recibe de una Autopartista una partida de 500 pernos depistn, Recepcin debe decidir su aceptacin. Dentro de los ensayos a realizar sobrelas piezas, adems de dimensiones y dureza se debe efectuar un ensayo de traccinpara el cual sera necesario destruir la pieza, en este caso sera entonces imposibleensayar todas ellas. Por otro lado, si el verificar las dimensiones constituyere otroensayo a realizar, genera en la cantidad de pernos verificados un efecto particularsobre el operario que lo realiza, lo cual lo lleva a cometer errores, en algunos casossuperiores a los que se cometeran efectuando un muestreo. Tendramos tambinque tener en cuenta el costo de mano de obra que representa la verificacin de esoselementos.
Esto que hemos expresado nos lleva a la necesidad de poder tomar decisiones enbase a las inferencias que sobre una poblacin podemos hacer de resultas del anlisisy estudio de una muestra de la misma.
1.2 MUESTRA:
De acuerdo a lo visto en el tem anterior, estudiar el comportamiento de una poblacina travs de un censo, se torna en la mayora de los casos impracticable, es por esarazn que el anlisis se efecta por medio de una muestra que est constituida poruna parte de todos los valores poblacionales.
Definicin: Una muestra estar constituida por un subconjunto de la poblacin."
Cada uno de los elementos que forman parte de la muestra se denominanobservacin.
MUESTRA DEBIDAMENTE REPRESENTATIVA
Si bien es cierto que una muestra est constituida por elementos pertenecientes a lapoblacin, tendremos que comprender que no todo subconjunto de la poblacin seconstituye en una muestra debidamente representativa. Vale tal vez recordar que en
1936 en vsperas a las elecciones presidenciales de EE.UU., la encuestadoraLITERARY DIGEST pronostic el triunfo del candidato Republicano con un apreciable
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
3/43
- 3 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
margen por sobre su opositor Roosevelt. El pronstico se basaba sobre los resultadosde una encuesta hecha sobre una muestra de dos millones de habitantes. No
obstante el triunfo fue del candidato demcrata y el error en la inferencia se deba aque los encuestados fueron seleccionados entre los poseedores de automviles yabonados telefnicos. En esos momentos los que estaban mejor posicionados paraposeer automvil y lneas telefnicas correspondan a la clase media y alta, en sumayora con tendencias republicanas, pero el triunf qued en manos de Rooseveltapoyados por la masa poblacional de menores recursos.
Definic in: Una muestra se dice que es debidamente representativa de una poblacincuando presenta sus mismas caractersticas.
Presentar las mismas caractersticas que la poblacin implica que, si el 20% de la
poblacin cumple con una determinada propiedad, se espera que el 20% de lamuestra cumpla con esa misma propiedad.
Esto permite disminuir los errores que se cometen cuando se efecta la inferencia delos parmetros poblacionales a partir de los valores determinados en la muestra.
1.3. VALORES ESTADSTICOS
El estudio realizado sobre una muestra nos permite determinar valores cuyascaractersticas nos referiremos ms adelante y a los cuales se los denominaestimadores pudiendo tambin tomar el nombre de valores estadsticos, mediantelos cuales se podr efectuar una correcta estimacin sobre los valores de la
poblacin.Por otra parte, los valores propios de la poblacin toman el nombre de Parmetros.
Si se pretendiere determinar el salario de los empleados metalrgicos del Pas,tomaramos una muestra constituida por operarios de distintas empresas y distintasprovincias y siempre proporcional al nmero de operarios de cada lugar, el salariopromedio obtenido en la muestra se denomina estadstico, mientras que el salariopromedio de toda la poblacin obrera metalrgica se constituye en parmetro
1.4. PARMETROS
Definicin: Los valores en estudio, que en la muestra toman el nombre deEstadsticos, en la poblacin se los denominan Parmetros.
Definicin: Se define como bondad al margen de seguridad con que se realiza lainferencia de acuerdo a los estudios realizados sobre la o las muestras.
Aseverar que tal poltico ganar las prximas elecciones presidenciales no tiene pesocomo informacin si no se lo acompaa con un grado de seguridad. Indicar que lasencuestas los dan ganador por tal cantidad de puntos, solo es tomado en cuentacuando se acompaa esa informacin con una determinada seguridad.
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
4/43
- 4 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
2. Variable, DatosDebemos tener en cuenta que la Estadstica basa su aplicacin en el estudio y anlisis
de nmeros los que se denominan Datos. Si dichos datos son obtenidos a travs deuna muestra, se los llama observaciones, las que deben responder a unadeterminada caracterstica que es la que tenemos en estudio, puede ser laproduccin avcola en la provincia, la inversin de dinero en publicidad en los distintosmedios durante el ao 1998, o a la cantidad de precipitaciones en el sur de laprovincia, la concurrencia a un Centro Comercial, las temperaturas mximas diariasdurante el mes de marzo en una determinada localidad, el nmero de alumnosingresados en cada una de las Universidades de la provincia. De Crdoba en elcorriente ao, cada una de estas toma el nombre de Variable. En definitiva cada vezque nos aboquemos a un estudio estadstico debemos de tener en cuenta que dichoestudio corresponde a una Variable, y que de sta se tendrn Datos y los quecorresponden a Observaciones realizadas. Mediante la aplicacin de mtodos ytcnicas estadsticas se estudian estas observaciones y se determinan losestadsticos.
2.1 TIPO DE VARIABLE
En una fbrica de automotores puede considerarse necesario determinar el nmero deautomviles de cada modelo producidos durante el ltimo trimestre, a fin de podercompararlo con las unidades producidas durante el mismo perodo del ao anterior ypoder prever la produccin para los futuras perodos. Al Ministerio de Agricultura yGanadera, le ser imprescindible definir la cantidad de hectreas sembradas de maz
en todo el Pas y en condiciones de ser levantadas en la prxima cosecha. En lalocalidad de Embalse de Ro Tercero, se tienen piletas en donde se efecta la cra depejerreyes y por lo tanto le ser de suma importancia definir, para cada perodo delproceso el tamao promedio de los peces. Para una planta generadora de energaelctrica, le es necesario determinar los picos de consumo de energa durante el da yel consumo durante las diferentes pocas del ao. Puede ser deseable para laSecretara de Cultura de la Municipalidad de la ciudad de Crdoba, definir el grado decalidad que poseen los Artistas Plsticos, para lo cual ser necesario valorizar lasobras de cada uno de ellos. Observar el lector que el tipo de dato de cada una de lasincgnitas en estudio puede tener caractersticas diferentes. En el estudio de laproduccin de automviles, la cantidad de unidades producidas es un nmero enterodefinido, no es as en el caso de querer determinar la longitud de los peces que se
cran en Embalse, ya que la exactitud de la misma depender del instrumento con quese realice el proceso. En el caso de pretender determinar el grado de calidad de losmaestros plsticos de Crdoba, no hay la menor duda en que, la definicin de lamisma depender del criterio experiencia y capacidad de quien realice la valorizacinde cada obra. Es decir ser necesario efectuar una clasificacin de los tipos de datos:
Tipos de Datos
Cuantitativos
Cualitativos
Discretos
Continuos
Nominales
Jerarquizados
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
5/43
- 5 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Discretos: Se dice que un valor es discreto cuando es el resultado de un conteo.
Nmero de televisores por hogarCantidad de alumnos aprobados o reprobados en una evaluacinNmero de habitantes por mdicos en una localidad; etc.
Tmense stos como modelos de datos discretos
Continuos: Se dice que una variable es del tipo continuo cuando asumevalores dentro de un intervalo de nmeros reales.
Las alturas de los alumnos de un cursoLa longitud de peces en un lagoEl volumen de precipitaciones anuales etc.
Es decir en definitiva, cuando el valor del dato u observacin se mide en un intervalo,decimos que es del tipo continuo
Nominales: Cuando los valores que adopta la variable en estudio puede serclasificada de acuerdo a categoras, tal como lo sera el responder a una encuestaefectuada al personal de una Empresa automotriz y en la cual se plantea la situacinde cada uno en cuanto a su estado civil. Sabemos que en este caso se tendran lascategoras de:
Sol tero casado viudo d ivorciado
O el caso de realizar un estudio en un club social, en donde nos encontraremos conque sus asociados se encuentran categorizados por edad segn:
Infant i les cadetes m ayo res
En estos casos en donde los datos se pueden agrupar por categoras es necesariointroducir, a fin de poder realizar su estudio, una cierta codificacin. De cualquiermanera no se podrn hacer estudios matemticos entre ca tegoras.
Jerarquizados : Este tipo de dato se presenta cuando es necesario otorgarle a lavariable una cierta jerarqua de orden. Supongamos tener que estudiar el grado decalidad de las obras expuestas por un cierto nmero de plsticos de Crdoba a fin deasignar los correspondientes premios. A tal efecto ser necesario acudir al juicio deun perito que permita definir el grado de categora de cada uno de los participantes,esto implica que en el proceso de jerarquizar las obras de cada uno influir elcriterio de quin realiza el estudio, tal vez de ser otro el que efecte el anlisis pudieremodificar dicho orden. Como conclusin entonces no podr en este tipo de variableasegurar la exactitud del clculo
2.2. VALORES ESTADSTICOS
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
6/43
- 6 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Al definir los objetivos de la Estadstica, expresbamos la necesidad de poder inferirsobre las caractersticas de la poblacin, a travs del anlisis y estudio de la muestra.
Todos los valores que se determinan en la muestra se denominan estadsticos,mientras que los valores propios de la poblacin se denominan parmetros. Ademslos valores estadsticos se pueden clasificar de acuerdo a sus caractersticas de lasiguiente manera:
Media
Valoresestadsticos
De tendenciacentral o posicin
De dispersin
Mediana
Moda
Rango
Desvo medio
Varianza
Desviacin estndar
Coeficiente de variacin
SERIE SIMPLE
A los efectos de preparar un Congreso Internacional en una zona del Sur del Pas, seha solicitado el registro de las temperaturas mnimas de los ltimos once das del mesde julio del ao anterior, obteniendo como respuesta los siguientes datos:
-2 0 1 -1 -3 -1 -2 -2 1 0 -2
La primera operacin a realizar para el estudio de esa muestra es la de ordenarlas observaciones de menor a mayor.El conjunto de observaciones ordenadas de menor a mayor se denomina SerieSimple.
-3 -2 -2 -2 -2 -1 -1 0 0 1 1
En este caso, la variable en estudio est dada por las temperaturas y cada una de lasobservaciones corresponder a un nuevo valor adoptado por la incgnita.
x = temperaturan = nmero de observaciones = 11
La Serie simple se puede expresar como:
x1 x2 x3 x4 . . . . . . . . . . . . . . . . . . . . . . . . . . .x n
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
7/43
- 7 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
dnde:
x1= -3 y xn = 1
Con todos los valores que adopta la variable en estudio se genera una distribucin,denominada Distribucin de la Variable en estudio
2-3. MEDIA
Se define como media aritmtica o promedio de una distribucin al cociente entre la
suma de todas las observaciones dividido el nmero total de ellas:
Es conveniente aclarar que la media poblacional se define como:
x1 + x2 + x3 + . . . . + xN = --------------------------------
N
N tamao de la poblacin
Cuya denotacin general es
N
xi= 1
N
Mientras que en la muestra el estadstico x corresponde a la media de la muestra.x1 + x2 + . . . . . . . + xn
x = -------------------------------- n es el nmero de observaciones.n
Se denota como:
n
xix = 1
nEl siguiente diagrama representa la analoga entre la media poblacional para unapoblacin y la media muestral para una muestra:
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
8/43
- 8 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Poblacin
Tamao: N
Muestra
xTamao: n
En nuestro caso:
-3+ (-2)+ (-2)+ (-2)+ (-2)+ (-1)+ (-1)+0+0+1+1
x = ------------------------------------------------------ = -111
Dentro de los valores estadsticos de posicin central la media es el de mayorrepresentatividad, pero debemos tener presente que a su vez es el ms sensible alos valores extremos de la distribucinLos valores extremos de la distribucin pueden influir en el valor de la media y de esamanera hacerle perder su condicin de referente, tenga Ud. en cuenta el siguienteejemplo: En una Empresa con 9 operarios que ganan cada uno de ellos la cantidad de$1000 mensuales, y con un Gerente general cuyo sueldo es de $10.000, el sueldopromedio para esa distribucin ser:
1000 + 1000 + 1000 +. . . . + 10000 19.000 = ---------------------------------------------- = -------------
10 10
= $ 1900
Esto estara indicando que el sueldo promedio de los empleados de la empresa es de$1900, cifra esta que de ninguna manera representa la realidad.
Recordar
MEDIA Cantidad de elementosPoblacin
Muestra
x
N
n
2.4. MEDIANA
Se define como Mediana de una distribucin, al valor que ocupa el punto medio de ladistribucin
Ocupar el punto medio de la distribucin implica que la mediana deja a la izquierda la
misma cantidad de valores que a la derecha. Todos los valores que se encuentran a laizquierda son menores o eventualmente iguales a l, mientras que los valores que seubican a la derecha sern mayores o eventualmente iguales a l.
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
9/43
- 9 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Continuando con el ejemplo referido a las temperaturas en una localidad del Sur:
-3 -2 -2 -2 -2 -1 -1 0 0 1 1x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
Me = x6 = -1
Teniendo presente que el nmero de observaciones n = 11 el valor que ocupa ellugar central de la distribucin corresponder a x6 y por lo tanto la mediana toma elvalor de -1.Cuando el nmero de componentes de la distribucin es impar, la mediana est
perfectamente definida, pero para el caso de que n sea par, no se tiene un nico valorcentral, en este caso la mediana estar dada por el promedio de los dos valorescentrales. Suponiendo que se le quitara el ltimo valor a la distribucin detemperaturas que estamos analizando, el nmero de observaciones n = 10 y los dosvalores centrales seran x5 y x6.
-3 -2 -2 -2 -2 -1 -1 0 0 1x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
x5 + x6Se tendra en este caso que Me = -------------
2
Podemos generalizar el valor de la mediana para una distribucin de n valoresteniendo en cuenta que el nmero de observaciones sea par o impar:
Si n es impar Me = x i donde i = (n+1)/2
Mediana x(n/2)
+ x(n/2 +1)Si n es par Me = ------------------
2
Para determinar el valor de la mediana de una serie simple o distribucin defrecuencia es necesario tener en cuenta el nmero de observaciones, si n es impar, lamediana pertenece a la distribucin y est dada por el valor que ocupa el puntocentral de la misma. En el caso de que n sea impar, el valor de la mediana est dadopor el promedio de los dos valores centrales, esto implica que puede pertenecer a ladistribucin solo en el caso de que los valores centrales sean iguales:
a) 4 6 6 8 Me = 6b) 2 10 18 20 Me = 14
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
10/43
- 10 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
c) 4,3 5,8 6,2 7,2 8,5 9,6 Me = 6,7d) 2 3 3 6 9 Me = 3e) 3,5 4,7 6,8 7,3 9,6 10 12,5 Me = 7,3
Observe el lector que a diferencia de la media o promedio la cual se ve influenciadapor los valores extremos, segn ya vimos, no ocurre lo mismo con la mediana la cualse presenta como insensible a los valores extremos y por lo tanto describe con mayorexactitud las distribuciones en donde los valores extremos son sensibles .Son ejemplode este tipo de distribuciones:
a) los ingresos personalesb) Las retribuciones generales en una empresac) Gastos domsticosd) Ingresos netos por hogar, etc.
No obstante todo esto las propiedades que presenta la media y que veremosms adelante la hace ms atractiva para su utilizacin.
2.5. MODA
Se define como Moda de una distribucin al valor que ms veces se repite.En nuestro caso -2 se repite en cuatro oportunidades y por lo tanto ste valor seconstituye en moda de la distribucin.
Mo = -2
Con respecto a este valor es necesario aclarar que si en una distribucin se tiene msde un valor con el mismo mximo de repeticiones, cada uno de ellos se constituir enuna nueva moda, es decir que una distribucin puede tener ms de una moda. Encaso de tener dos modas se la denomina bimodal y en caso de tres t r imodal , etc .As mismo si se presentare el caso en que todos los valores de la distribucin tienenel mismo nmero de repeticiones, diremos que dicha distribucin no tiene moda.
FRECUENCIA
Dada una distribucin se define como Frecuencia de un valor, al nmero de veces queel mismo se repite.
Ejemplo:En la distribucin correspondiente a las temperaturas mnimos tomadas en unalocalidad del Sur del Pas durante los ltimos 10 das, defina para cada valor sufrecuencia:-2 -2 -4 -1 -1 -1 0 -3 -2 -1
para -4 su f = 1-3 su f = 1-2 su f = 3
-1 su f = 40 su f = 1
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
11/43
- 11 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Clase xi fi
1 0 2
2 1 5
3 2 7
4 3 8
5 4 16
6 5 5
7 6 48 7 3
f = 10
Tenga en cuenta que la suma de todas las frecuencias es igual al nmero total deobservaciones.
2.6. DISTRIBUCIN DE FRECUENCIA
En la mayora de los casos nos encontraremos con una cantidad de observaciones nque superan los 20, por lo tanto pretender operar con una serie simple se tornaraengorroso, en estos casos ser conveniente seleccionar los valores de acuerdo a unadeterminada clase y determinar de cada una de ellas su frecuencia, de all que escomn encontrar a este tipo de distribucin como
Distr ibu cin de intervalos,a los
efectos de facilitar el aprendizaje del alumno subdividiremos este tipo de distribucinen dos grupos:
1) cuando la amplitud de intervalo es igual a 12) cuando la amplitud del intervalo de clase toma un valor mayor a 1
Caso a analizarSupongamos tener que estudiar el nmero de accidentes que se producen en unaplaya de estacionamiento durante los ltimos 50 das. Los datos relevados son lossiguientes
5 6 4 4 4 3 2 7 5 4 4 10 4 2 1 3 2 2 0 1 4 4 74 3 2 1 4 2 5 4 3 5 6 74 4 5 2 3 6 4 3 1 3 4 45 6
Es observable que trabajar con todos los valores como lo presenta la serie simplesera por dems engorroso si no se dispusiera de una computadora, pero siclasificamos los valores, en este caso de acuerdo a su valor numrico y para cadauno de ellos determinamos su frecuencia, podramos confeccionar una tabla de lassiguientes caractersticas:
Tabla 1.1
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
12/43
- 12 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Clase xi fi xi * fi
1 0 2 0
2 1 5 5
3 2 7 14
4 3 8 24
5 4 16 646 5 5 25
7 6 4 24
8 7 3 21
50 177
8
fi =i 50
Si ahora analizamos la tabla de esta manera, se simplifica enormemente ladeterminacin de la media ya que en lugar de efectuar la suma de todas lasobservaciones, efectuaremos el producto de cada valor por su frecuencia y la suma deestos productos lo dividiremos por el nmero total de observaciones.
8
(Xi.fi)1
x = fi1
Nota: Debemos tener presente que estamos frente a una mues traA los efectos de facilitar los clculos, generemos en la tabla una nueva columnaconteniendo los productos de xi * fi.
Tabla 1.2
De esta manera podemos calcular la media como:n
(xi.fi)i=1
x == 177 / 50 = 3,54
nEl valor de la media o promedio de la distribucin es de
x = 3, 54
2.7. FRECUENCIA RELATIVA
Definicin: Se define como f recuenc ia relat iva de un valor y se expresa como f ri, alcociente entre su frecuencia y la suma de todas las frecuencias (la suma de todas lasfrecuencias es igual al nmero de elementos de la distribucin).
f
fri =i
=fi
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
13/43
- 13 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
fi = n por lo tanto tambin se puede expresar
fifr i = ---------
nPodemos ampliar la tabla de frecuencias con una nueva columna que contenga la fr decada clase:
Tabla 1-3
Clase xi fi xi * fi fri
1 0 2 0 0,04
2 1 5 5 0,13 2 7 14 0,14
4 3 8 24 0,16
5 4 16 64 0,32
6 5 5 25 0,1
7 6 4 24 0,08
8 7 3 21 0,06
50 177 1
Propiedad:La sumas de todas las frecuencias relativas correspondientes a los valoresclases de una distribucin es igual a 12:
fri = fr1 + fr2 + fr3 . . . . . . . . + fr n
Tener en cuenta:
El concepto de frecuencia relativa, la media de una distribucin poblacional tambin sepuede expresar como:
(xi. fi) = -------------- = (xi. fi/fi) es decir
fi
2Demostracin
fri = fr1 + fr2 + fr3 . . . . . . . . + fr n
f1 f2 f3 fn fi
= -- - + --- + ---- + + --- = ------- = 1fi fi fi fi fi
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
14/43
- 14 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Clase xi fi xi * fi fri fai
1 0 2 0 0,04 2
2 1 5 5 0,1 7
3 2 7 14 0,14 14
4 3 8 24 0,16 22
5 4 16 64 0,32 38
6 5 5 25 0,1 43
7 6 4 24 0,08 47
8 7 3 21 0,06 50
50 177 1
= (xi. fri)
2.8 FRECUENCIA ACUMULADA
Se define como f recuenc ia acumu lada de una clase (por ejemplo i) y se la denotacomo fai, a la suma de su frecuencia y la suma de las frecuencias de los valores quele anteceden.
Analicemos la tabla 1.3 de la pgina anterior,(corresponda al nmero de accidentes
que se produjeron durante los ltimos 50 das en una playa de estacionamiento),teniendo en cuenta la definicin de frecuencia acumulada tendremos:
Tabla 1.4
Cules son las bondades que nos brinda la frecuencia acumulada :a) Nos indica con su lectura el nmero de valores pertenecientes a la distribucin
que se ubican a la izquierda de cada uno de ellos. Si se quiere saber cuntosdas se registraron menos de 2 accidentes, se tendr la frecuencia acumuladadel 1, es decir 7, lo que implica que de los 50 das analizados solo en 7 de ellos
se tuvieron menos de dos accidentes diarios, pero con valores menores o igualesa 2 se tuvieron 14, quiere decir que, de los 50 das, en 14 de ellos se tuvieron 2 omenos de 2 accidentes diarios, este anlisis indica tambin que, del total de dasanalizados, 7 de ellos tuvieron exactamente 2 accidentes diarios.
b) Ms adelante cuando efectuemos su graficacin Ud. podr visualizar con mayorclaridad esta propiedad.
c) Tambin nos permite determinar rpidamente el valor de la mediana. Analizandonuestro caso, el nmero de observaciones es par, por lo que la mediana ser elpromedio de los dos valores centrales, el x n/2 y el x (n/2 + 1). . Para determinar elvalor que ocupa la posicin n/2 (en este caso 50/2 =25, el x25,nos ubicamos en lacolumna correspondiente a frecuencia acumuladas y determinamos a cul de lasclases le corresponde la menor frecuencia acumulada que contiene a n/2, en
este caso le corresponde a la quinta clase, cuyo valor es el 4, desde la x23 ,hasta la x38 le corresponden 4, por lo tanto la Me = 4
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
15/43
- 15 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Clase xi fi xi * fi fri fai fds1 0 2 0 0,04 2 48
2 1 5 5 0,1 7 43
3 2 7 14 0,14 14 36
4 3 8 24 0,16 22 28
5 4 16 64 0,32 38 12
6 5 5 25 0,1 43 7
7 6 4 24 0,08 47 3
8 7 3 21 0,06 50 0
50 177 1
2.9 FRECUENCIA DESACUMULADA
Se define como f recuenc ia d esacumulada de un valor, fds de una distribucin, a ladiferencia entre el nmero total de observaciones y su frecuencia acumulada.
Es decir que para un valor cualquiera se verifica que:fdsi = n - fai
Analicemos la Tabla 1.5 a la cual se le creo una nueva columna conteniendo lafrecuencia desacumulada, aplicando su definicin
Tabla 1.5
De la definicin se desprende que:fai + fdsi = n
Bien podemos decir que la frecuencia desacumulada es el complemento a n de laacumulada, es decir que para cada uno de los valores nos indica cuantos tenemos a laderecha de l. La frecuencia desacumulada del valor de x=2, nos indica que ladistribucin posee 36 observaciones mayores que ese valor. Tambin podramosvalernos de este parmetro para la determinacin de la mediana, dejamos para queUd. efecte el anlisis correspondiente a esa situacin Analizaremos ms adelante eldiagrama representativo de ambas frecuencias correspondientes a una distribucin
DISTRIBUCIN DE FRECUENCIAS PARA DATOS NOMINALES
Consideremos las ventas de los distintos tipos de sabor de gaseosas realizadas en elBar de una Universidad durante un da de concurrencia normal del alumnado.
Colas 55Naranja 63Limn 72Tnicas 44Agua c/gas 15Agua s/gas 18Jugos 33
En este caso no tiene sentido determinar el valor de la media de la dis tribucin,
tngase en cuenta que las clases estn dadas por los distintos tipos de bebidas, luegotiene sentido decir que la ms vendidas son las bebidas de limn, siguindole en
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
16/43
- 16 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Xi f i fr i fa fds
3 1 0,05 1 194 2 0,1 3 17
5 4 0,2 7 13
6 5 0,25 12 8
7 4 0,2 16 4
8 2 0,1 18 2
9 1 0,05 19 1
10 1 0,05 20 0
20 1
importancia las de naranja, es decir el valor de tendencia central que utilizaremos encasos como estos le corresponde a la Moda. S sera conveniente generar una tabla
de frecuencias y determinar los porcentajes de cada uno de los sabores.
Tabla 1.6
xi fi fri fi%
Agua c/gas 15 0,05 5Agua s/gas 18 0,06 6Jugos 33 0,11 11Tnicas 44 0,1467 14,67Colas 55 0,1833 18,33Naranjas 63 0,21 21Limn 72 0,24 24
fi = 300 fi% = 100
3-0 DIAGRAMASEl poder graficar los valores estadsticos nos permite realizar una lectura rpida de ladistribucin y sacar conclusiones inmediatas de la misma.Sera suficiente abrir una hoja de clculo para observar la cantidad variada de grficoscon que puede ser representada una distribucin: Diagramas de: Lneas, Barras,Barras acumuladas, de Sectores o circular, Diagramas x-y, de Bastones etc. En estetexto haremos referencia a los diagramas: Circular, de Bastones e Histogramas y auna combinacin de los grficos de Bastones, Barras y x-y Dispersin.
EjercicioSupongamos tener para analizar las notas obtenidas por 20 alumnos de una divisinen la asignatura de Estadstica:
9 7 6 6 6 5 3 4 5 5 87 8 7 7 6 5 6 4 10
Generaremos una distribucin de frecuencias complementndola con: Frecuenciasrelativas, Frecuencia acumulada y por ltimo Frecuencia desacumulada.
Tabla 1.7
Toda vez que se presenta una tabla tal como la 3.1, la primera pregunta que surge es,que se debe graficar debe de tenerse siempre en cuenta que cada vez que se
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
17/43
- 17 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Frecuencia
habla de graficar estamos deseando volcar en forma grfica una cierta relacin. En lapresente situacin, la variable en estudio es la calificacin, por lo cual se podra
graficar la relacin:Calificacin y frecuencia Calificacin yfrecuencia relativa Calificacin yfrecuencia acumulada Calificacin yfrecuencia desacumulada
3.1 Diagrama de bastones:
Llevaremos en el eje de las abscisas las calificaciones y en el eje de las ordenadas lasfrecuencias y representamos mediante un segmento centrado en cada una de lascalificaciones su correspondiente frecuencia; tendremos nuestro primer diagrama.Cada uno de los bastones corresponde a la frecuencia de cada calificacin y toma elnombre de densidad de frecuencia entendindose como tal al cociente:
fidfi = ---- es decir frecuencia por unidad de intervalo de clase
xGrfico 1.1
Diagrama de Bastones
6
5
4
3
2
1
0
3 4 5 6 7 8 9 10
Calificaciones
3.2 DIAGRAMA DE SECTORES
Para este grfico debemos tener presente que el ngulo central del crculo es de 360y que cada una de las clases estar dada por un sector cuyo ngulo ser proporcionala su frecuencia:
Supongamos la calificacin de 3 cuya frecuencia es 1 tendremos que:20 (suma de todas las frecuencias) ------------------------ 360
a 1 (frecuencia del 3) ----------------------- 1 = 360. 1 / 20 = 18
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
18/43
- 18 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Analicemos la calificacin del 4 cuya frecuencia es 2:
Si a 20 (frecuencia total) ---------------------------- 360A 2 (frecuencia del 4) ---------------------------- 2 = 360. 2 /20 = 36
Repitamos el procedimiento para el 5 el cual tiene frecuencia 4Si a 20 le corresponde ----------------------------360
A 4 ---------------------------- 4 = 360. 4/20 = 72
Debe tenerse en cuenta que en todos los casos la operacin que nos permitedeterminar el ngulo de cada sector est dado por el producto entre 360 y el cocien tede la frecuencia de la calificacin en estudio y la suma de todas las frecuencias (N) ,
cociente ste que segn ya vimos corresponde a la frecuencia relativa (fri = f / N), esdecir que el ngulo correspondiente a un determinado sector est dado por el productoentre 360 y su frecuencia relativa:
i = 360. fri
Grfico 1.2
Diagrama de Sectores
10 39
4
8
5
7
6
En realidad es ms interesante plantear este mismo diagrama pero expresado enporcentajes, para lo cual el anlisis es muy similar al anterior. Al total deobservaciones, 20 en este caso, le corresponder el 100% y por lo tanto paracualquiera de las observaciones con frecuencia fi le corresponde ser:
Si a 20 --------------------------- 100%fi --------------------------- %i = 100. fi / 20
Nuevamente nos encontramos con que el porcentaje correspondiente a cada una delas calificaciones estar dado por el producto entre 100 y la frecuencia rela tivacorrespondiente a cada una de ellas. El grfico tiene la misma estructura anterior.
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
19/43
- 19 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Grfico 1.3
Diagrama de Sectores Calificacionesen porcentajes
810%
109 5%
5%
35% 4
10%
720%
520%
625%
3.2-HISTOGRAMA DE FRECUENCIAS:
ste es otro de los diagramas de gran utilizacin para el cual es necesario considerarun sistema de ejes cartesianos ortogonales, debiendo representar en el eje de lasabscisas las calificaciones y en el de las ordenadas la frecuencia, las clases es tndadas por las calificaciones. El intervalo entre dos clases sucesivas se denominaamplitud de intervalo, en este caso es la unidad y se la expresa como x = 1. Siconsideramos el diagrama de bastones y a partir del extremo inferior de cada uno deellos llevamos tanto a izquierda como a derecha la mitad del intervalo, en nuestrocaso 1 / 2 = 0,5 y levantamos las ordenadas correspondientes, nos encontramos conun diagrama de barras sin discontinuidades al que denominaremos Histograma, eneste caso de Histograma de Frecuencias.
Grfico 1.4
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
20/43
- 20 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Frecuenc
ia
Histograma de Frecuencias
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
Calificaciones
La superficie encerrada por cada una de las barras est dada por el producto entre labase x por la altura que segn ya vimos estaba dada por la densidad de frecuencia.
dfi = fi /x por lo tanto:
Si = x. dfi = x. fi / x = fi
Cada una de ellas tendr un valor igual a su frecuencia y el rea total del diagramaser entonces la suma de todas las frecuencias e igual a N.
Si = fi = N
3.4 - POLGONO DE FRECUENCIAS
Si se unen los puntos medios superiores de cada una de las barras del histograma yse considera cero las frecuencias de las clases adyacentes a los extremos de ladistribucin, se formar con el eje de las abscisas un polgono denominado, en estecaso, como Polgono de Frecuencias:
Grfico 1.5. Polgono de frecuencias
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
21/43
- 21 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
fi
6
5
4
3
2
1
0
2 3 4 5 6 7 8 9 10 11
xi
El rea encerrada por el polgono de frecuencias es igual al rea encerrada por elhistograma de frecuencias.Consideremos la barra del histograma correspondiente al valor de la variable x = 6.Observamos que mientras que la superficie del tringulo superior de la barra quepertenece al histograma no pertenece al polgono, la superficie del tringulo inferior noperteneciente al histograma si pertenece ahora al polgono, como las superficies deambos tringulos son iguales3, lo son tambin las superficies del polgono y delhistograma de frecuencias.
3.5 - HISTOGRAMA DE FRECUENCIAS RELATIVASSi en el eje de ordenadas se representan a las frecuencia relativas en lugar de lasfrecuencias, se obtiene el Histograma de Frecuencias Relativas que tendr lasmismas caractersticas que el diagrama de frecuencias ya que fri = fi / N, es decir quese divide a los valores de la ordenada por un valor constante N y por lo tantogrficamente representa un cambio de escalas.En este caso la altura de cada barra esta dada por la densidad de frecuencia relativa
dfri = fri / xY por lo tanto al igual que en el diagrama anterior, la superficie encerrada por cadauna de las barras del Histograma ser igual a su frecuencia relativa:
Si = x. fri / x = friDe tal manera que el rea encerrada por el Histograma de frecuencias relativas serahora igual a la suma de todas las frecuencias relativas y por tal razn igual a 1 :
Si = fri = 1
Grfico 1.6
3Dos tringulos rectngulos en A y A con los ngulos y iguales por opuestos por el vrtice, y
alternos internos entre paralelas y el lado 11= 22= x / 2 por lo tanto son iguales.
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
22/43
- 22 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
fr
Histograma de Frecuencia Relativas
0,3
0,25
0,2
0,15
0,1
0,05
02 3 4 5 6 7 8 9 10 11
x
3.6 POLGONO DE FRECUENCIAS RELATIVAS
De la misma manera en que definimos al polgono de frecuencias, se define tambin alpolgono de frecuencias relativas. Tanto la superficie encerrada por el polgono defrecuencias relativas como el del Histograma de esas mismas frecuencias son iguales
a 1.
Grfico 1.7
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
23/43
- 23 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
5 4 6 3 4 5 3 7 3 4 2 02 1 3 4 2 5 6 1
xi fi fai
0 1 1
1 2 3
2 3 6
3 4 104 4 14
5 3 17
6 2 19
7 1 20
Histograma y Polgono de Frecuencias Relativas
0,3
0,25
0,2
0,15
0,1
0,05
0
2 3 4 5 6 7 8 9 10 11
3.7 FRECUENCIA ACUMULADA
Supongamos analizar el nmero de accidentes de trabajo que se producendiariamente en una empresa metalrgica local, para lo cual se han considerado los
detectados durante los ltimos veinte das.
Confeccionaremos una tabla de frecuencias:
Tabla 1.8
fi = 20
Para confeccionar el grfico de frecuencias acumuladas llevaremos sobre el eje de lasabscisas los valores observados y en el eje de las ordenadas las frecuenciasacumuladas.Para el primer valor de la distribucin cero, la frecuencia acumulada vale 1, este valor
se mantendr constante hasta 1 en donde la frecuencia acumulada toma el valor de 3,se mantiene constante hasta el valor observado de 2 en donde la fa adopta el valor de
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
24/43
- 24 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Frecuen
cia
acumu
lad
6 y as sucesivamente hasta el valor de 7 en donde fa toma el valor de 20 y semantiene constante con este valor. Siga esto en el grfico 1.8.
Grfico 1.8
FRECUENCIA ACUMULADA
222018161412108
6420
0 1 2 3 4 5 6 7 8 9
OBSERVACIONES
Observe el lector con que claridad este diagrama le entrega informacin. Por ejemploanalizando la observacin 4, el punto inferior de la barra indica que menores a 4accidentes diarios se han producido en 10 oportunidades mientras que el puntosuperior indica que en 14 oportunidades se han producido 4 o menos accidentesdiarios. De igual manera en 17 oportunidades se produjeron menos de 6 accidentes enun da y que en solo 2 oportunidades se produjeron 6 accidentes.De igual manera podemos graficar la frecuencia desacumulada conjuntamente con laacumulada tal como lo muestra el Grfico 1.8 denominado comnmente como gr ficode escalones. Debe tenerse en cuenta que para cualquier valor observado la suma dela frecuencia acumulada y la desacumulada es igual al nmero total de observaciones.
fa + fds = n
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
25/43
- 25 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Frecuencia
Grfico 1.9
22201816141210
864
20
0 1 2 3 4 5 6 7 8 9
Observaciones
Frecuencia acumulada
Frecuenciadesacumulada
La interseccin de ambas grficas debe de verificarse para fa = fds = n/2.En el punto de interseccin ambas frecuencias son iguales por lo que podemos decirque:
por lo que
y
fa + fds = fa + fa = n
2 fa = n
fa = n / 2
RELACIN ENTRE MEDIA, MEDIANA Y MODA
Cuando nos referimos al histograma de frecuencias relativas decamos que el reaencerrada por cada una de las barras nos entregaba el valor de la frecuencia relativadel valor correspondiente a dicha barra... Si este concepto lo extendemos a toda ladistribucin podemos asegurar que considerando un determinado intervalo de las
observaciones el rea encerrada por el histograma en dicho intervalo ser igual a sufrecuencia relativa, valor que segn ya vimos multiplicada por 100 nos entrega elporcentaje de observaciones comprendidas en ese intervalo. Adems demostramosque la superficie encerrada por el histograma de frecuencias relativas era igual a lasuperficie del polgono de fr. Simplificando, el rea encerrada por el polgono defrecuencias relativa es igual a 1 y esto implica tambin que encierra el 100% de lasobservaciones.
Analicemos las distribuciones correspondientes a las calificaciones obtenidas por tresdivisiones que denominaremos como A, B y C en la asignatura de Estadstica:
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
26/43
- 26 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
A B C
xi fi fi fi
1 6 0 0
2 8 1 0
3 5 2 1
4 4 4 1
5 3 5 2
6 2 6 4
7 1 5 5
8 1 4 7
9 0 2 510 0 1 2
30 30 27
Tabla 1.9
Las tres distribuciones tienen caractersticas distintas, veamos:
A) =.(xi.fi) / N = 3,1667
Me = (x15 + x16) / 2 = 3
Mo = 2
B) =.(xi.fi) / N = 6
Me = x16 = 6
Mo = 6C) = (xi.fi) / N = 7,296
Me = x14 = 8
Mo = 8
Si graficamos los histogramas y polgonos de las frecuencias relativas de cada una delas distribuciones relativas suavizando convenientemente los lados del polgono, nosencontraremos con los siguientes grficos:
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
27/43
- 27 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Frecuencia
Grfico 1.10 (Divisin A)
Histograma y polgono de frecuenciasrelativas
0,3
0,25
0,20,15
0,1
0,050
1 2 3 4 5 6 7 8 9 10
Observaciones
Grafico 1.11 (Divisin B)
Histograma y polgono de frecuenciasrelativas
0,25
0,2
0,15
0,10,05
0
1 2 3 4 5 6 7 8 9 10 11
Observaciones
Grafico 1.12 (Divisin C)
Histograma y polgono de frecuenciasrelativas
0,3
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 6 7 8 9 10 11
Observaciones
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
28/43
- 28 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
3,1 3,4 3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,9 3,94 4 4,1 4,2 4,2 4,3 4,3 4, 4,5 4,6
En el caso de la divisin B se observa una cierta simetra respecto a un eje verticalcoincidente con la mediana la moda y la media, decimos entonces que la distribucines del tipo Normal, y que en ese caso coinciden los tres valores ; Me y Mo.En el A la distribucin se presenta en forma asimtrica y en este caso decimos quecorresponde a una asimtrica derecha asignndosele un signo positivo. A su vez, laobservacin de mayor ordenada le corresponder a la moda y la media tendr quedividir al rea total en dos reas iguales, de acuerdo a su grfica y a sus valores seobserva que la media tiene un valor mayor a la mediana y que a su vez sta se ubicaentre la media y la moda.Al analizar la ltima distribucin C observamos que la misma es asimtrica, tiene sesgoizquierdo y se le asigna signo negativo. Nuevamente la moda queda definida porcorrespndele a la abscisa de mayor ordenada, la mediana Me si bien en este casocoincidira con el valor de la moda, la media se ubica a la izquierda de la moda, no
olvidemos que la distribucin pivotea en ese punto. La mediana se ubica en generalentre la media y la moda aunque en este caso por tratar con variable discreta, la Mecoincide con la Mo.En toda distribucin sesgada ya sea a la derecha o a la izquierda, el segmentocomprendido por la media y la mediana es aproximadamente un tercio del segmentocomprendida entre la media y la moda.
Una distribucin puede ser:
Simtrica = Me = Mo
Distribucin Derecha < Me < = Mo
AsimtricaIzquierda > Me > = Mo
3.2 DISTRIBUCIN DE INTERVALOS DE CLASEEn una unidad militar de entrenamiento para futuros oficiales, se han determinado lostiempos que tardan los integrantes de un pelotn en cruzar la pista de combate. Estosvalores expresados en minutos son los siguientes:
El jefe de pelotn necesita realizar un estudio estadstico sobre estos tiempos a losefectos de determinar:
a- Qu proporcin de hombres tardan menos de 3,5 en cruzar la pista decombate
b- Qu proporcin de los hombres del pelotn tardan menos de 4 en cruzar lapista
En casos como el presentado, donde el nmero de observaciones es mayor a 20 y lavariable en estudio es del tipo continua, se hace necesario definir como clases aintervalos y determinar como frecuencia de cada uno de ellos al nmero deobservaciones que contienen. En este caso la distribucin toma el nombre dedistribucin de intervalos de clase.Para generar una distribucin de intervalos de clase debe tener en cuenta:
a) La cantidad de intervalos: La determinacin del nmero de intervalos, a los quellamaremos como k est relacionada con el nmero de observaciones n.Mientras que algunos operadores definen:
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
29/43
- 29 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
k = n
Otros deciden optar por la expresin:
k = 1+ log2(n)
Pero en general se puede definir el valor de k teniendo en cuenta que:
5
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
30/43
- 30 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Podemos ahora confeccionar la tabla de distribucin de intervalos de clase, teniendoen cuenta que, a los efectos de referenciar a cada intervalo, definiremos al punto
medio de cada uno de ellos como el valor representativo e igual a la semisuma de suslmites, toma el nombre de marca de clase y se lo denota como x mi.
3,09 3,39 3,69 3,99 4,29 4,6[`---------------)[--------------)[-----------------) [-----------------)[------------------- ]
3,24 3,54 3,84 3,14 3,44
3.2 DETERMINACIN DE LA MEDIA
Para determinar la media de la distribucin consideramos que todos los valorespertenecientes a cada intervalo estn uniformemente distribuidos en dicho intervalo,de esta manera la suma de todos ellos estar dada por el producto entre la marca declase por la frecuencia de ese intervalo.
=(xmi *fi)
NPara su determinacin creamos una nueva columna conteniendo los productos dexmi*fi:
Tabla 1.10
Li ls fi xmi xmi * fi3,09 3,39 1 3,24 3,243,39 3,69 4 3,54 14,163,69 3,99 6 3,84 23,043,99 4,29 5 4,14 20,74,29 4,6 5 4,445 22,225
21 83,365
83,365 =
21= 3,9697
Esto nos indica que el tiempo promedio empleado por los integrantes del pelotn paracruzar la pista de combate es de 3,9697
HISTOGRAMA DE FRECUENCIAPara confeccionar el Histograma y Polgono de frecuencias debemos tener presenteque las frecuencias de los intervalos adyacentes a los extremos de nuestra distribucinson nulas, adems se representa en el eje horizontal las marcas de clase.
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
31/43
- 31 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Li ls fi xmi Xmi * fi fai fdsi2,79 3,09 0 2,94 0 0 213,09 3,39 1 3,24 3,24 1 203,39 3,69 4 3,54 14,16 5 163,69 3,99 6 3,84 23,04 11 103,99 4,29 5 4,14 20,7 16 5
4,29 4,6 5 4,445 22,225 21 04,6 4,39 0 4,74 0 21 0
f
Grfico 1.13
7
6
5
4
3
2
1
0
2,94 3,24 3,54 3,84 4,14 4,445 4,74
x
3.3 DETERMINACIN DE LA MEDIANA
La mediana tendr que estar ubicada en el intervalo cuya menor frecuenciaacumulada contiene a la observacin X (n/2), es por lo tanto conveniente determinar lascolumnas que contengan a las frecuencias acumuladas y desacumuladas.
Tabla 1. 11
De acuerdo a la tabla, la mediana se ubica en el intervalo [3,69 ; 3,99) al quedenominaremos intervalo medial, y para el cul la frecuencia acumulada es de 11 ypor lo tanto contiene a los valores correspondientes a x10 y x11, pero faltaradeterminar el valor que ms se aproxime al rea l.Para la determinacin de la mediana en una distribucin de intervalos de clasetendremos dos mtodos:
a) Mtodo grficoTracemos los diagramas correspondientes a la frecuencia acumulada:
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
32/43
- 32 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
fa
fa
-fds
Analizando dicho diagrama podemos observar que de los 21 integrantes del pelotnsolo 5 de ellos cruzan la pista en menos de 3,54, es decir que, mediante anlisis del
diagrama podemos reconstruir la tabla.
Grfico 1.14
25
20
15
10
5
0
2,94 3,24 3,54 3,84 4,14 4,445 4,74
x
Combinemos en un mismo diagrama, las representaciones de frecuencia acumulada y
desacumulada. Este grfico toma el nombre de Ojiva.
Grfico 1.15
25
20
15
10
5
0
2 2,5 3 3,5 4 4,5 5
-5
x
Como ambas frecuencias se representan en el eje vertical, en el punto interseccinambas son iguales y como su suma
Fa + frds = N
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
33/43
- 33 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
1212
1010
88
66
44
22
00
33,,6699 Me 33,,9999
Debe verificarse que el valor de esas frecuencias, en ese punto es igual a N/2 .
Como la mediana es el valor que ocupa el punto medio, la abscisa correspondiente alpunto interseccin tendr su valor. Por lo tanto las coordenadas del punto interseccinsern (Me; n/2).
b) MtodoAnaltico
Analizaremos el intervalo medial:
Grfico 1.16
12
10
8
6
4
2
0
3,69
Li x
Me 3,99
Ls
Al iniciar el intervalo 3,69 su frecuencia acumulada tiene el valor de 5 (quedenominaremos frecuencia acumulada inferior y la denotaremos como fai). De lamisma manera al finalizar ese intervalo (x = 3,69) su frecuencia acumulada es de 11 (a
la denominaremos frecuencia acumulada superior y la denotaremos como fas). Esavariacin de frecuencia acumulada de 5 a 11 es justamente la frecuenciacorrespondiente al intervalo medial (fm = 6). Adems como el total de observacioneses de 21, N/2 = 10,5.Consideremos los tringulos 123 y 123ambos rectngulos en 2 y 2respectivamente.Esos tringulos son semejantes y por lo tanto sus lados homlogos sonproporcionales.
Si reemplazamos tendremos:
23 1 - 2---------- = -------------23 12
fm x
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
34/43
- 34 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
3,54 3,84
x
4,14
f
Despejando Me tendremos:
------ ------- = ---------(N/2fai) MeLi
x (N/2fai)Me = Li + -----------------
fm
En este caso particular, la Me = 3,69 + 0,3 *((10,5 - 5) / 6
Me = 3,965
3.4- DETERMINACIN DE LA MODA
Se define como intervalo modal al intervalo de mayor frecuencia, en este casocorresponder a [3,69; 3,99) con frecuencia 6, coincide con el medial, pero bien podrano coincidir, para la determinacin de la moda, consideremos en el histograma defrecuencia, el intervalo modal y los intervalos adyacentes.
Grfico 1.17
7
6
5
4
3
2
1
0
Li Ls
Si definimos a d1 = (frecuencia del intervalo modal) (frecuencia del intervalo que leantecede):
di = 6-4 = 2Y como d2 = (frecuencia del intervalo modal) (menos la frecuencia del intervalo quele sucede):
d2 = 6-5 = 1
Como li se define al inicio del intervalo modal (3,69), el valor de la moda de unadistribucin de intervalos de clase esta dada por la expresin:
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
35/43
- 35 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
X2 F2
0 01 62 83 44 35 26 27 18 0
26
Mo = Li + x. ( d1/(d1+d2) )
En este caso tendremos:Mo = 3,69 + 0,3 (2 / (2+1)) = 3,89
Conclusiones:En una distribucin de intervalos de clase, la moda se encuentra siempre ubicada enel intervalo modal, pero desplazada hacia el intervalo adyacente de mayor frecuencia.Los valores determinados para la media, mediana y moda, indican que la distribucintiene un leve sesgo derecho:
Media = 3,9697
Mediana Me = 3,965Moda Mo = 3,89
> Me > Mo
4- VALORES DE DISPERSIN
Son suficientes los valores de posicin central para determinar las caractersticas de
una distribucin? Para responder a esta pregunta observemos la siguiente situacin:
Tenemos tres distribuciones que presenten la misma media, la misma moda y lamisma mediana pero no obstante ello las tres son distintas.
Pueden tenerse dos distribuciones mismo nmero de elementos o tambinconformadas por los mismos elementos y no obstante ello ambas son distintas.
Tabla 1. 12
X1 F1
0 01 32 43 74 55 46 27 18 0
26
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
36/43
- 36 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Grfico 1.19
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10
Grfico 1.20
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
Es necesario entonces considerar valores que nos determinen cuan dispersos estn.Estos valores se denominan valores de dispersin:
4.1 RANGO O AMPLITUD
DefinicinLa diferencia entre los valores extremos de una distribucin se denomina Alcance oRango y se lo denota como R
Si definimos a xn como el mayor valor observado y a x1 como el ms pequeo,entonces:
R = xnx1
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
37/43
- 37 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Si bien, una vez ordenados todos los valores, el clculo de la amplitud o recorrido essimple e inmediata, no nos brinda ninguna informacin sobre las caractersticas de los
valores intermedios. Veamos las siguientes distribuciones:
A) 0 1 1 2 4 6 8 10 12 14
B) 50 50,1 50,2 50,3 50,5 50,6 50,7 50,8 60 64
En la distribucinAR = 140 = 14
En la distribucin B
R = 6450 = 14
Ambas tienen el mismo nmero de elementos, el mismo alcance, no obstante ello sondistintas, es decir que el Rango o Amplitud de una distribucin nos entrega unainformacin limitada.
4.2 DESVO MEDIOPara determinar el grado de dispersin de los valores de la distribucin, debemosdefinir con respecto a qu punto de referencia se toman las distancias, el punto dereferencia ms utilizado es la media de la de la distribucin
Considerando el ejercicio de pgina 39 (Los tiempos que los integrantes de unpelotn tardan en cruzar la pista de combate), la distribucin de intervalos larepresentbamos como:
3,09 3,39 3,69 3,99 4,29 4,6[`---------------)[--------------)[-----------------) [-----------------)[------------------- ]
3,24 3,54 3,84 3,14 3,44
d1 = 3,9697
d2
En el primer intervalo se encuentra una sola observacin, la cual consideramos escoincidente con la marca de clase, luego su distancia respecto a la media ser:
d1 = xm1 -
La dispersin de los valores ubicados en el segundo intervalo, en este caso son 4 yhabiendo considerado que los mismos se encuentran uniformemente distribuidos endicho intervalo, la dispersin respecto a la media estar dada por el producto de ladistancia de la marca de clase por el nmero de observaciones
d2 = xm2 -
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
38/43
- 38 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Podramos intentar considerar como un valor representativo de la dispersin de los
valores respecto a la media, al promedio de los desvos medios:
pdm =(mxi ).fi
N
Pero nos encontramos con que la suma de todos los desvos es nula y siempre losern por considerar como punto de referencia a la media. Todas las distancias de lasmarcas de clase que se ubiquen a la izquierda de la media sern negativas, mien trasque las distancias de los que se ubiquen a la derecha sern positivas. El problemaradica en anular los signos negativos, para ello podemos:
a) considerar los desvos absolutos medios, de esta manera no se tendra ningndesvo negativo y la suma de los desvos absolutos medios sera distinta de cero ,salvo el caso en que todas las observaciones sean iguales. La expresin matemticaquedara como:
DM =mxi
N
.fi
Esta expresin se define como Desvo medio (Promedio de los desvos absolu tosmedios).
En nuestro caso en estudio conformaremos la tabla correspondiente a la distribucinde intervalos pero incluiremos una nueva columna conteniendo los desvos absolutosmedias.
Tabla 1. 13
Li ls fi xmi Xmi * fi fai fdsi !xi - media!.fi2,79 0 0 2,94 0 0 21 0,0003,09 3,39 1 3,24 3,24 1 20 0,7303,39 3,69 4 3,54 14,16 5 16 1,7193,69 3,99 6 3,84 23,04 11 10 0,779
3,99 4,29 5 4,14 20,7 16 5 0,8514,29 4,6 5 4,445 22,225 21 0 2,3764,6 4,99 0 4,74 0 21 0 0,000
21 83,365 6,455
Aplicando la frmula correspondiente, el desvo medio ser:6,455
DM = ------------------21
DM = 0,3074
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
39/43
- 39 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
2
2
4.3 VARIANZAOtra forma de obtener todos los desvos positivos, sera elevndolos al cuadrado es
decir:
pdmc =(mxi ) .if
NEsta expresin que definimos como: el promedio de los desvos cuadrticos medios yse denomina Varianza.Es conveniente entonces considerar una nueva columna conteniendo la suma de losdesvos cuadrticos medios tal como la tabla:
Tabla 1. 14
Li ls fi xmi Xmi * fi fai fdsi !xi -media!.fi (xi-media)2.fi2,79 0 0 2,94 0 0 21 0,000 03,09 3,39 1 3,24 3,24 1 20 0,730 0,532552443,39 3,69 4 3,54 14,16 5 16 1,719 0,738781183,69 3,99 6 3,84 23,04 11 10 0,779 0,101028913,99 4,29 5 4,14 20,7 16 5 0,851 0,144905054,29 4,6 5 4,445 22,225 21 0 2,376 1,129256244,6 4,99 0 4,74 0 21 0 0,000 0
21 83,365 6,455 2,647
Var(x) =2,647 / 21 = 0,126 minutos al cuadrado
Tambin se la denota como:
2 = 0,126 minutoscuadrados
4.4 DESVIACIN ESTANDAR
La Varianza es un valor que determina un cierto grado de dispersin, pero en relacina lo que nosotros buscbamos, nos encontramos con que no tenemos el promedio delos desvos medios, si no que contamos con el promedio de los desvos cuadrticosmedios. Una aproximacin estara obteniendo la raz cuadrada de la varianza:
=
O abreviando
(xi ) fiN
= Var(x) =
= 0,126 = 0,3549
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
40/43
- 40 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Frecuencia
Definimos a la desviacin estndar como la raz cuadrada de la varianza yprcticamente entrega el grado de dispersin de los valores de una distribucin con
respecto a la media.Para dos distribuciones con la misma media, tendr ms dispersin aquella que tieneuna mayor desviacin estndar, tal como lo indica la grfica
Grfico 1.21
Desvo estndar = 2
Desvo estndar =0,5
Desvo estndar =1
x
4.4 COEFICIENTE DE VARIACIN
En muchas oportunidades es conveniente comparar distribuciones de distinta media ode distinto tipo, por ejemplo si analizamos alturas y peso de los alumnos de un cursode una Universidad, los valores de posicin central y de dispersin de una de ellasestarn dados en metros o centmetros, pero los de la otra sern en Kg. , luego enprincipio sera incorrecto pretender comparar las dispersiones de esas distribuciones,a fin de poder comparar se opera con el Coeficiente de Variacin, que est dado por elcociente entre el desviacin estndar de la distribucin y su media, expresada demanera porcentual:
CV =
. 100%
Como tanto la desviacin estndar y la media tienen las mismas unidades, al dividirlasse simplifican y nos queda un coeficiente, es adimensional. Por otra parte el CVentrega la proporcin de la desviacin estndar respecto de la media. En el caso quenos ocupa el:
CV =0,3549
3,9697'.100 = 8,94
CV = 8,94%
Supongamos que se realiza el estudio de altura y peso de los alumnos de un curso, yque los resultados arrojados son:
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
41/43
- 41 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
Desviacin estndar Media CVDel Peso = 10Kg 71 k.o. 14,08%
Altura = 6cm 168 cm 3,57%
Estos ltimos valores del CV indican que, la distribucin correspondiente a la alturatiene menos dispersin que la correspondiente a los pesos.
4.5 CUARTILES Y PERCENTILES
En muchas ocasiones es necesario contar con una subdivisin de los datos endeterminadas fracciones, llamados en de manera general como fractiles. De estamanera una fraccin o proporcin de datos caen en un fractil o por debajo de ste. De
acuerdo al nmero de subdivisiones los fractiles toman un nombre determinado, asestas pueden ser:a) en 10 partes. En este caso cada una de esas partes toman el nombre de
decilb) en cuatro partes: En ese caso cada una de ellas toma el nombre de cuartilc) en cambio si la subdivisin es en 100 partes, se la denomina a cada una de
ella como centil.El alcance interfractil, dada por la diferencia entre dos fractiles constituye una medidade dispersin entre ellos.En general los fractiles ms utilizados lo constituyen los cuartiles y percentiles .Subdividir a los datos en cuatro fractiles implica que el 50% de los datos estn pordebajo del segundo cuartil y el 75% de las observaciones estn por debajo del tercer
cuartil, representados grficamente implica:
X1 Q1 Q2 Q3 Xn
Una cuarta parte de las observaciones se encuentran por debajo de Q1, como quetambin estn por debajo de Q2. Entre Q3 y Q1 se concentra el 50% de lasobservaciones. Es necesario aclarar que Q1 como Q2 y Q3 son los puntos fractiles,por debajo de cada uno de ellos se encuentran los porcentajes los correspondientesporcentajes de datos.Cuando el nmero de valores no es lo suficientemente grande la determinacin exactade los cuartiles puede ser complicada, ya que es factible que el valor del cuartil quedeentre observaciones, de cualquier manera en general podemos decir que ladeterminacin de cada cuartil quede satisfecha con las expresiones:La determinacin de los cuartiles para datos no agrupados est dada por las expresiones :
Q1 =
Q2 =
Q3 =
X(1 / 4N +1 / 4)
X(1 / 2N +1 / 2)
X(3 / 4N +1 / 4)
Observe que el valor del segundo cuartil corresponde al valor de la mediana. Si
recordamos que, el rea encerrada por el polgono de frecuencias era igual al nmero
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
42/43
- 42 -Materia: HERRAMIENTAS MATEM TICAS III (ESTAD STICA I)Profesor: MARIO MARN
de observaciones, sera lgico suponer entonces que en un diagrama correspondienteal polgono de frecuencias suavizado, las superficies encerradas por dicho diagrama
sern proporcionales al nmero de observaciones correspondientes a la misma. Coneste concepto definimos los cuartiles grficamente segn grfico 1.22.
Grfico 1.22
Q1 Q2 Q3
Se define como Rango Intercuartil o propagacin media a la diferencia:R I = Q3Q1
Percentiles: De la misma manera en que la distribucin en estudio la podemos dividir
en cuatro partes, en el caso de hacerlo en 100 cada una de ellos tomar el nombre depercentil, un percentil z cualquiera es un valor tal que z por ciento de lasobservaciones quedan a su izquierda mientras que (100 - z) porcientos de losvalores quedan a su derecha. El percentil 80 est dejando a su izquierda el 80% de losvalores de la distribucin, es decir todos aquellos menores a l, y por lo tanto el 20%de la distribucin lo superan, es decir quedan a su derecha.
Grfico 1.23fdp
xi 80
-
7/24/2019 Lectura 1 - Estadstica descriptiva y grficos_jul- (1).pdf
43/43
4.6 REGLA EMPRICA
Segn vimos en el punto anterior, dada una distribucin, el valor de su desviacinestndar nos indica el grado de dispersin de sus valores con respecto a la media,pero es en realidad la Regla Emprica, quien relaciona a los dos parmetros : y conel siguiente enunciado:En el intervalo centrado en la media y tal que su origen izquierdo est dado por lamedia menos un desviacin estndar y el derecho por la media ms un desviacinestndar, se agrupa el 68 % de los valores de la distribucin; En el in tervalocomprendido por la media menos dos desviaciones estndar y ms dos desviacionesse ubica el 95% de los valores de la distribucin, por ltimo en el intervalocomprendido por la media menos tres desviaciones estndar y la media ms tresdesvos estndar se tendr el 99,7% de N (suele considerarse en muchas
oportunidades en este intervalo el 100% de N).Debe de tener en cuenta que, entre el inicio de la grfica y su fin, se encuen tranubicados todos los valores de la distribucin N.
Grfico 1.24
fdp
- 3 - 2 -1 +1 +2 +3 xi
68% N
95%N
99,72% N
Resumen Regla Emprica
( 1) se tiene el 68% de N( 2) se tiene el 95% de N( 3) se concentra el 100% de N