estadística descriptiva - resumen de contenidos.doc

Upload: jose-amable-medina-oblitas

Post on 01-Mar-2016

15 views

Category:

Documents


0 download

TRANSCRIPT

Modulo #1: DISTRIBUCIN DE FRECUENCIAS

PAGE

ESTADISTICA I

UNIDAD 1: ESTADISTICA DESCRIPTIVA

Carlos Maggi y Mariano Lanza1. CONCEPTOS GENERALESSi bien no hay una definicin de estadstica exacta, se puede decir que la "estadstica es el estudio de los mtodos y procedimientos para recoger, clasificar, resumir, analizar datos y para hacer inferencias cientficas partiendo de tales datos".

Esta definicin cubre gran parte de la actividad del cientfico. Es importante observar que el objeto del que realiza el anlisis estadstico son los datos y las observaciones cientficas por s mismos, mas que el material que interviene en el estudio.

La estadstica se puede dividir en 2 categoras, la "estadstica descriptiva" y la "inferencia estadstica".

La estadstica descriptiva implica la abstraccin de varias propiedades de conjuntos de observaciones, mediante el empleo de mtodos grficos, tabulares numricos. Entre estas propiedades, estn la frecuencia con que se dan varios valores en la observacin, la nocin de un valor tpico o usual, la cantidad de variabilidad en un conjunto de datos observados y la medida de relaciones entre 2 mas variables.

El campo de la estadstica descriptiva no tiene que ver con las implicaciones o conclusiones que se puedan deducir de conjuntos de datos. La estadstica descriptiva sirve como mtodo para organizar datos y poner de manifiesto sus caractersticas esenciales con el propsito de llegar a conclusiones.La inferencia estadstica se basa en las conclusiones a la que se llega por la ciencia experimental basndose en informacin incompleta. Por ejemplo, Mendel al estudiar la manera como diferan entre s las plantas de guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo que hacer sus conclusiones necesariamente basndose en un grupo de plantas relativamente poco numeroso comparado con toda la poblacin de plantas de guisantes de un tipo particular.Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las conclusiones de Mendel dependan de la muestra particular de plantas disponibles para este estudio.En la terminologa estadstica, el procedimiento inductivo implica el hacer inferencias acerca de una poblacin adecuada universo a la luz de lo averiguado en un subconjunto aparte o muestra.

La inferencia estadstica se refiere a los procedimientos mediante los cuales se pueden hacer tales generalizaciones inducciones.

Es importante por todo lo dicho anteriormente, que el proceso de la inferencia cientfica, implica el grado mas elevado de cooperacin entre la estadstica y el estudio experimental.

2. ELEMENTOS CONCEPTUALES DE ESTADSTICA DESCRIPTIVAComo se ha sealado anteriormente, el objetivo de la estadstica descriptiva, es la descripcin mediante el empleo de tcnicas que permitan obtener una sntesis de la informacin con el objetivo de conocer el fenmeno en estudio y extraer los aspectos importantes. Todo estudio estadstico ha de estar referido a un conjunto o coleccin de elementos. Al conjunto de todas las unidades objeto de estudio es lo que se denomina poblacin. En sentido estadstico un elemento puede ser algo con existencia real (tangible y observable), como un automvil o una casa, o algo ms abstracto como la temperatura, un voto, o un intervalo de tiempo.

A su vez cada elemento de la poblacin tiene una serie de caracterstica que puede ser objeto del estudio estadstico. As por ejemplo, si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: sexo, edad, nivel de estudios, profesin, peso, altura, color de cabellos, etc. Luego por tanto de cada elemento de la poblacin podremos estudiar uno o ms aspectos cualidades o caracteres. La poblacin puede ser segn su tamao de dos tipos: Poblacin finita: cuando el nmero de elementos es finito, por ejemplo el nmero de estudiantes de la Universidad de Panam, o de una facultad o especialidad.

Poblacin infinita: cuando el nmero de elementos es infinito, o tan grande que pudiese considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos disponibles en el mercado, hay tantos y de tantas cualidades y precios que esta poblacin podra considerarse infinita.

Cuando se toman todas las unidades o elementos de la poblacin, se habla de una investigacin exhaustiva o censo. Si slo se investiga una parte, se le considera como investigacin parcial o muestra.

Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino que se realiza sobre un subconjunto de la misma. Este subconjunto se denomina muestra, cuando se toman para realizar un estudio solo a un determinado nmero de elementos de la poblacin. Por ejemplo de los alumnos de la UNRN se realiza una encuesta a una parte de los alumnos mediante una eleccin aleatoria para conocer, por ejemplo, su nivel socioeconmico. El objetivo de trabajar con muestras es que muchas veces no se dispone de toda la informacin o es muy costosa obtenerla, por lo tanto, se intenta obtener una muestra que sea representativa de la poblacin, lo cual requiere que las unidades o elementos sean seleccionadas al azar, en tal forma que cada elemento de la poblacin (alumnos de la UNRN) tengan la misma posibilidad de ser seleccionados en la muestra.

Por lo general, para las medidas obtenidas en poblaciones se usan letras maysculas o griegas, en cambio para las muestras, se emplean letras minsculas.

2.1- Tipos de variables:

Los tipos de variables fundamentales, por lo menos para este tema, sern los siguientes:a. Variables Cuantitativas o Cardinales: susceptibles de medicin cuantitativa; o sea son las que se describen por medio de nmeros y las que a su vez comprenden:

i. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a lo sumo numerable. Sus valores pueden representarse siempre por X1, X2, , Xn.; y slo se pueden asociar a un nmero entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad Ejemplos:

Nmero de hijos en el hogar .Pginas de un libroii. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los valores de un intervalo de nmeros reales, o sea que no se pueden expresar mediante un nmero entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable puede tomar cualquier valor intermedio. Ejemplos:

variable temperatura en grados Celsius (escala de intervalos). variable longitud en cm. (escala de razn). variable peso. variable tiempo

b. Variables Cualitativas (Atributos) o Ordinales: susceptibles de ordenacin, pero no de medicin cuantitativa, reflejan generalmente los atributos del fenmeno. Los atributos son aquellos caracteres que para su definicin precisan de palabras, es decir, no le podemos asignar un nmero, y a su vez las podemos clasificar en:

i. Ordenables: aquellas que sugieren una ordenacin, por ejemplo la graduacin militar, el nivel de estudios, etc.ii. No Ordenables: aquellas que slo admiten un ordenamiento alfabtico, pero no establece orden por su naturaleza,, por ejemplo el color del cabello, sexo, estado civil, etc.

Nota: en muchos casos el tratamiento estadstico hace que a variables discretas las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las personas variable continua- se trabaja en aos cumplidos variable discreta-. En otros casos las variables cualitativas (atributos) se trabajan como variables cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de calificacin por puntos.2.2- Escalas de medicin:a. Escala Nominal:

Es una escala en que se establece un nmero determinado de clases o categoras de tal modo que cada elemento de la poblacin pertenece a una y slo una clase. Matemticamente se dice que se ha establecido una relacin de equivalencia entre los elementos de la poblacin. Si slo existen dos clases se denomina escala dicotmica. La nica operacin matemtica que se puede realizar con las clases de cualquier escala nominal es determinar las cantidades de elementos que les corresponden determinar sus frecuencias.Por ejemplo:

Sexo: las clases son masculino o femenino.

Especialidad: las diferentes especialidades (carreras) del CRUSAM.

Nmero de cedula de identidad personal. Temperatura de una persona: sanguneo, flemtico, melanclico, colrico.

Nmero de placa de automviles del pas.b. Escala Ordinal:

Es una escala nominal entre cuyas clases est definido un orden, de modo que cualquiera que sean dos de ellas, una ser mayor o superior, en algn sentido, que la otra.

Por ejemplo:

Evaluaciones en un examen: 5, 4, 3 y 2.

Grado de satisfaccin de una necesidad: alto, medio, bajo

Conocimiento de un idioma: excelente, bien, regular, mal

c. Escala de Intervalos:

No es ms que una escala ordinal con una distancia, una unidad de medida entre sus clases de modo tal que, dado dos puntajes cualesquiera, se puede saber cuan distante est uno del otro. La unidad de medida es arbitraria, pero comn y el punto de inicio (cero) es tambin arbitrario.

Cuando se tiene una escala de intervalo se pueden realizar las operaciones de adicin y sustraccin, pero no necesariamente la multiplicacin y divisin dentro de la escala.

Por ejemplo:

La temperatura del aire. (caluroso, fresco, agradable, etc.)

d. Escala de Razones:

Es una escala de intervalos donde existe un cero absoluto que marca la ausencia total del atributo en estudio. La proporcin entre los atributos de dos individuos cualesquiera es independiente de la escala de medida utilizada. En ella la razn entre dos clases (puntajes) cualesquiera permanece invariable ante toda la transformacin de la escala de razn, o sea ante toda transformacin del tipo y=(x). De aqu que siempre el cero de la escala transformada coincide con el cero de la escala original.

En las escalas de razones es posible realizar todas las operaciones aritmticas con los puntajes.

Por ejemplo:

Estatura de los alumnos: la estatura en metros es proporcional a la estatura en pulgadas. Peso de los alumnos: (en libras o kilogramos)

El tiempo invertido en una prueba de velocidad en educacin fsica (en minutos o segundos).2.3- La representacin de los datos: FRECUENCIAS.Cuando se rene gran cantidad de datos primarios es til distribuirlos en clases y categoras y determinar las frecuencias de las clases, o sea, el nmero de elementos que pertenecen a una clase. El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de clases se denomina distribucin de frecuenciasEl caso que se describe a continuacin, variables discretas se denomina distribucin por conteo de valores individuales. Supongamos que un determinado colectivo, representado por la variable estadstica Xi, que para mayor sencillez consideraremos como unidimensional; sean los datos de esta variable (representativo cada uno de ellos de un suceso) X1, X2, , Xn (supuesto que sean n los valores de la variable considerada.)

Definiremos como frecuencia de un dato el nmero de veces que este aparece en el colectivo; consecuentemente, si una variable estadstica toma r valores, cada uno de los cuales puede repetirse un cierto nmero de veces, podramos decir que el nmero de datos representado por la variable seran N, siendo N la suma de las respectivas frecuencias de cada dato (N=Xi).

Este valor N ser denominado como frecuencia total, mientras que la frecuencia de cada dato recibir el nombre de frecuencia absoluta o simplemente frecuencia (fi). La frecuencia absoluta nos habla del nmero de veces que un dato aparece en un colectivo, ms ello no nos dice demasiado en orden al establecimiento de comparaciones sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en el seno de un colectivo, puesto que no es suficiente concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se definir como: el coeficiente entre la frecuencia absoluta del dato considerado y la frecuencia total (fr=fi/Xi).Para efectos prcticos, asumiremos las siguientes definiciones de frecuencias:

frecuencias absolutas: es el nmero de veces que aparece en la muestra dicho valor de la variable y se representa por fi. frecuencias relativas: es el cociente entre la frecuencia absoluta y el tamao de la muestra. La denotaremos por hi frecuencias absoluta acumulada: para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadstica ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el nmero de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por Fi, se puede acumular, en la tabla estadstica) en orden ascendente (Fi) o descendente (Fi).

frecuencia relativa acumulada: al igual que en el caso anterior se calcula como el cociente entre la frecuencia absoluta acumulada dividido por el tamao de la muestra (N) y la denotaremos por Hi.Resumiendo lo expuesto, si Xi es un valor de la variable, podemos representar por fi a su frecuencia y por fi/Xi a su frecuencia relativa (siendo Xi=N o la frecuencia total). Para el conjunto de los valores de la variable Xi tendramos, as la tabla #1, compresiva de la informacin sobre dicha variable, a travs de las respectivas frecuencias:Tabla 1: Variables Discretas

Valores de la variable Xi(datos)frecuencias absolutasfifrecuencias relativashi=fi/N

X1F1f1/N

X2F2f2/N

Xnfnfn/N

Donde: N=fi y fi/N=1

Otro es el caso de las clases representadas en forma de intervalos, variables continuas, llamados intervalos de clases que poseen extremos llamados limite inferior y limite superior, Un intervalo se dice que es abierto o no cerrado, por un extremo si no contiene el lmite correspondiente.

La longitud, tamao o amplitud de un intervalo de clases (C) es la diferencia entre los limites superior e inferior (C=lim sup lim inf). El Recorrido (R) es la diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=Xn X1)

En el caso de variables continuas ser necesario fijar intervalos de frecuencias para llegar a un resumen efectivo de la informacin original. A menudo es necesario representar una clase, o ms particularmente, un intervalo por un nico valor, este representar a todo el intervalo y se denominar marca de clases. Matemticamente el punto medio de cada intervalo corresponde a lo que denominamos marca de clase, se denotar por Xi, y constituir el valor representativo de cada intervalo. El nmero de observaciones que correspondan a cada intervalo se denominar frecuencias absolutas.Tabla 2: Variables Continuas

Intervalos

(C)Marcas de Clases

XiFrecuencias Absolutas

fi

X1-X2X1f1

X2-X3X2f2

Xn-1-XnXnfn

Donde X X

Xmi = ------------- = Marca de clases 2

N = fi = Nmero de observaciones

C = X X = Amplitud del intervalo

Por ltimo, en el caso de variables no mensurables, dicha tabla adoptar una forma como la siguiente:

Tabla3: Variable Ordinales

VariableFrecuencias

Caracterstica AfA

Caracterstica BfB

Caracterstica ZfZ

2.4- Mtodo para agrupar la informacin en intervalos de clase

La forma de cmo agrupar los datos muchas veces depende del objeto de estudio para el cual se realiza el anlisis de los datos, con lo cual, no hay una nica manera de presentar los datos en intervalos de clase.

Sin embargo, si a priori no se sabe como agruparlos, existe una tcnica que sirve para determinar la forma en que podramos presentar dichos datos de manera agrupada (o en clases).

Dicha tcnica es la siguiente:

El primer paso consiste en determinar la cantidad de intervalos (k). Por lo general se utilizan 2 formas, que dependen del tamao de la muestra, es decir, de n.

Si n < 100, entonces

Si n > 100, entonces

(Como dichas formas no garantizan un n entero, se recomienda aproximar por derecha)

Luego, se debe obtener el rango de variacin de los datos (w), que no es ms que obtener la diferencia entre el mayor valor observado y el menor.

w = max (xi) min(xi), para todo i = 1, 2, .,n (n= N de observaciones)

Una vez ello, se puede obtener la amplitud de cada intervalo de clase, que lo llamamos h. En el caso que se busquen amplitudes regulares, entonces la amplitud de cada intervalo se obtiene de la siguiente manera:

Por ltimo, debe definirse el lmite inferior de la primear clase (. Por lo general se toma el valor mnimo observado, aunque ello tambin depender de la conveniencia, ya que tal vez sea mejor recurrir a otro valor. Por ejemplo, si tenemos un mnimo de 1,503 m, tal vez convenga empezar con 1,5m.

Nota aclaratoria: como los valores verdaderos a utilizar de k, h y no siempre son exactamente los valores que surgen de las relaciones antes planteadas (ya sea por temas de redondeo en el caso de k o por aproximacin, segn conveniencia, en los casos de h o ), entonces para garantizar que los intervalos cubran todo el rango de variacin de los datos observados, necesariamente debe cumplirse que:

k * h + > max(xi)

Ejemplo:

La tienda CANTORAS Y ASOC. estaba interesada en efectuar un anlisis de sus cuentas por comprar. Uno de los factores que ms interesaba a la administracin de la tienda era el de los saldos de las cuentas de crdito. Se escogi al azar una muestra aleatoria de 30 cuentas y se anot el saldo de cada cuenta (en unidades monetarias) como sigue:

77.9713.0217.9789.1912.18 8.1534.4043.1379.6190.99

43.6629.75 7.4293.9120.6421.1017.6481.5960.9443.97

32.6743.6651.6953.4068.1311.1012.9838.7470.1525.68

Solucin:

1- Efectuar el arreglo ordenado de la poblacin o muestra:

A= ( 7.42, 8.15, , , , 90.99, 93.91 )

donde: X1 = valor mnimo = 7.42

Xn= valor mximo = 93.91

2 - Encontrar el rengo o recorrido de los datos: ww = valor mayor valor menor = Xn X1 = 93.91 7.42 = 86.49

3- Encontrar en nmero de clases k, segn la frmula del logaritmo, dado que n mo). Las desviaciones positivas superan a las negativas.

As < 0, la distribucin es asimtrica negativa (m < mo). Las desviaciones negativas superan a las positivas.

Si bien la anterior frmula es la general, en muchos paquetes estadsticos se utilizan otras como:

1 coeficiente de Pearson: = , donde si Cam - me

La distribucin es simtrica

La distribucin presenta asimetra positiva.

La distribucin presenta asimetra negativa.

2 coeficiente de Pearson: = ,

En este caso el rango de variacin es (-3;3), donde:

La distribucin es simtrica

La distribucin presenta asimetra positiva.

La distribucin presenta asimetra negativa.

Paquetes estadsticos:

,

Los valores significan lo mismo que para los casos anteriores.

CURTOSIS (o KURTOSIS): Se refiere al apuntamiento de una distribucin comparada con el de una normal. Permite comparar la altura de la distribucin con la de una normal. Para calcular la curtosis, normalmente se utiliza la siguiente frmula:

Resultados posibles:

K = 0 la distribucin es MESOCTICA (posee la misma altura que una distribucin normal estndar).

K > 0 la distribucin es LEPTOCRTICA (posee MAYOR altura que una distribucin normal estndar).

K < 0 la distribucin es PLATOCRTICA (posee MENOR altura que una distribucin normal estndar).

As < 0, la distribucin es asimtrica negativa (m < mo). Las desviaciones negativas superan a las positivas.

Al igual que en la asimetra, en algunos paquetes estadsticos la curtosis se calcula como:

, cuyos resultados representan lo mismo que el caso anterior.

8. DATOS MULTIVARIADOS

A veces, los elementos de una poblacin pueden tener algunos valores asociados entre si. Por ejemplo, si en cada observacin se analizan varias caractersticas estamos ante la presencia de datos multivariados. En el caso particular que se analicen dos caractersticas, de dice que los datos son BIVARIADOS.

En el caso particular de datos bivariados, tendremos entonces por cada observacin, un par de valores, cada uno correspondiente a la caracterstica que se desea estudiar. Por ejemplo, al analizar el largo y el ancho del caparazn de las tortugas, tendremos que por cada tortuga dos valores (largo; ancho). De esta forma, si los datos constan de pares de arreglos (x1; y1); (x2; y2);.; (xn; yn). Podemos entonces representar dichos datos mediante un diagrama de dispersin, que consiste en representar cada par ordenado en un sistema coordenado bidimensional.

De esta forma el grafico nos permite ver si visualmente puede hallarse algn tipo de asociacin entre los valores de x e y. Por ejemplo, puede verse que los datos no siguen ningn patrn de comportamiento general (relacin entre x e y), se sigue una relacin casi lineal o tal vez una relacin no lineal (parbola, hiprbola, logartmica, exponencial, etc).

A parte de esta representacin grfica puede establecerse analticamente si existe algn tipo de asociacin entre las variables. Una de las medidas que generalmente se utiliza para saber si existe algn grado de asociacin entre variables es la Covarianza.

Se defina la covarianza entre X e Y como:

o alternativamente:

Es una medida que sirve para diagnosticas si dos variables son independientes. En este sentido, se entiende que la variable X es independiente de Y, si no existe relacin entre los valores que toma la variable X con respecto a los valores que toma la variable Y (asociar con eventos independientes en probabilidad).De este modo, la covarianza da idea del grado de asociacin lineal entre variables. Es como una medida de intensidad de asociacin lineal. Si Cov(X;Y) = 0, entonces se entiende que no existe asociacin lineal entre las variables lo cual indica que son independientes.

Cov(X;Y) > 0, nos indica una asociacin lineal positiva, es decir, que si los valores de X crecen, por lo general tambin lo harn los valores de la variable Y.

Cov(X;Y) < 0, nos indica una asociacin lineal negativa, es decir, que si los valores de X crecen respecto a su media, por lo general los valores de Y caern respecto de su media.

La Covarianza posee la caracterstica que posee unidades, las cuales est dada por la multiplicacin de las unidades de la variable X e Y. Ello en la prctica genera algunas desventajas dado que a los efectos de comparar covarianzas para variables diferentes, no es posible determinar cual de los dos pares de variables aleatorias est mas relacionado, dado que las dos covarianzas presentan unidades diferentes.

Para ello, se utiliza el concepto de correlacin, que no posee unidades.

Correlacin:

Para dos variables aleatorias X e Y:

Es evidente que si Cov(X;Y)=0, entonces =0, lo cual indica que X e Y no estn correlacionadas.

As, entonces diremos que si dos variables aleatorias (X e Y) son independientes, entonces X e Y no estn correlacionadas. EMBED Equation.3

Bibliografa consultada:

Spiegel M. R y Stephens L. J. (2001): Estadstica. McGraw-Hill. Mxico.

Lind D. A, Marachal W. G. y Mason R. D. (2004): Estadstica para Administracin y Economa. Ed. Alfaomega. Mxico.

De la Horra Navarro J. (2003): Estadstica Aplicada. Ediciones Daz de Santos. Espaa.

Moore D. S. ( 2000): Estadstica Aplicada Bsica. Antoni Bosch Editor S.A. Espaa.

Navidi William (2006): Estadstica para Ingenieros y Cientficos. Ed. McGraw-Hil.

PAGE 12

_1313061992.unknown

_1332156860.unknown

_1332164114.unknown

_1332232643.unknown

_1497548230.unknown

_1497548274.unknown

_1497548433.unknown

_1497548248.unknown

_1332233312.unknown

_1332226876.unknown

_1332227188.unknown

_1332227216.unknown

_1332228981.unknown

_1332227159.unknown

_1332226854.unknown

_1332160436.unknown

_1332163979.unknown

_1332164090.unknown

_1332160608.unknown

_1332158773.unknown

_1332158825.unknown

_1332156898.unknown

_1332152756.unknown

_1332153564.unknown

_1332154368.unknown

_1332154736.unknown

_1332153653.unknown

_1332153018.unknown

_1313062164.unknown

_1332152630.unknown

_1332152713.unknown

_1313062564.unknown

_1313067001.unknown

_1313067030.unknown

_1313062788.unknown

_1313062459.unknown

_1313062074.unknown

_1313062084.unknown

_1313062062.unknown

_1313062063.unknown

_1313062036.unknown

_1312808013.unknown

_1313060195.unknown

_1313061922.unknown

_1313061955.unknown

_1313061860.unknown

_1313059913.unknown

_1313059989.unknown

_1312808055.unknown

_1312622048.unknown

_1312807528.unknown

_1312807539.unknown

_1312622096.unknown

_1312805920.unknown

_1312622086.unknown

_1312621045.unknown

_1312621068.unknown

_1312621994.unknown

_1312621113.unknown

_1312621052.unknown

_1312055128.unknown

_1312621035.unknown

_1312620877.unknown

_1312022312.unknown

_1312027973.unknown