estadistica descriptiva.pdf

Upload: cazuaje40

Post on 03-Mar-2016

222 views

Category:

Documents


0 download

TRANSCRIPT

  • Probabilidad y Estadstica (I.I.) Tema 1

    1

    Tema 1 ESTADSTICA DESCRIPTIVA

    Cuando coloquialmente se habla de Estadstica, se suele pensar en una relacin de datos numricos presentada de forma ordenada y sistemtica. Esta idea es la consecuencia del concepto popular que existe sobre el trmino y que cada vez est ms extendido debido a la influencia de nuestro entorno, ya que hoy da es casi imposible que cualquier medio de difusin, peridico, radio, televisin, etc, no nos aborde diariamente con cualquier tipo de informacin estadstica sobre accidentes de trfico, ndices de crecimiento de poblacin, turismo, tendencias polticas, etc. Slo cuando nos adentramos en un mundo ms especfico como es el campo de la investigacin de las Ciencias Sociales: Medicina, Biologa, Psicologa, ... empezamos a percibir que la Estadstica no slo es algo ms, sino que se convierte en la nica herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrnseca, no puedan ser abordadas desde la perspectiva de las leyes determistas. La ESTADSTICA es la ciencia que se ocupa de la ordenacin y anlisis de datos procedentes de muestras y de la realizacin de inferencias sobre las poblaciones de las que stas proceden. Generalmente se pueden distinguir dos fases en la realizacin de cualquier experimento o estudio cientfico. Una primera, que consiste en la observacin y anlisis de los hechos que acontecen (recogida de informacin, colecciones de datos) y otra segunda, de interpretacin y obtencin de conclusiones. La estadstica descriptiva es la primera herramienta para el manejo de los datos y proporciona mtodos para resumirlos y organizarlos.

    Describe, analiza y representa un grupo de datos utilizando mtodos numricos y grficos que resumen y presentan la informacin contenida en ellos. Es la 1 fase de toda investigacin. Implica realizar inferencias acerca de la poblacin a partir de los datos muestrales y requiere clculo de probabilidades.

    1.- Conceptos Bsicos. Tipos de variables

    Veamos los conceptos generales necesarios para estructurar de alguna forma la informacin.

    Poblacin: Es el conjunto de referencia sobre el que van a recaer las observaciones, todos los elementos que porten informacin sobre el fenmeno que se estudia (por ejemplo, si

  • Probabilidad y Estadstica (I.I.) Tema 1

    2

    estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total de las viviendas de dicha ciudad). Generalmente este conjunto viene definido por comprensin, es decir, citando la propiedad que lo caracteriza (habitantes de Telde con edades comprendidas entre 3 y 7 aos inclusive). Las poblaciones pueden ser finitas o infinitas, dependiendo del nmero de elementos que las forman.

    Individuo: Es cada uno de los elementos que componen la poblacin estadstica en estudio. As, si estudiamos la altura de los nios de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Es un ser observable que no tiene por qu ser una persona, puede ser un objeto, un ser vivo, etc

    Muestra: Es un subconjunto de individuos que seleccionamos de la poblacin. Se suelen tomar muestras cuando es muy difcil o costosa la observacin de todos los elementos de la poblacin. El nmero de elementos de la misma se llama tamao de la muestra. Se deben escoger los individuos de la muestra de manera que sean representativos de la poblacin de la que proceden, es decir, que conserven las propiedades de aquella. As, si se estudia el precio de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

    Caracteres o variables estadsticas: El carcter es cualquier cualidad o propiedad inherente al individuo. Por ejemplo, si el individuo observado es un libro, podremos describirlo mediante los caracteres peso, tamao, nmero de hojas, color de las pastas, etc A cada una de estas caractersticas la llamamos variable estadstica y la representamos normalmente por las letras maysculas X, Y, Z,

    Hay caracteres que son medibles, esto es, se pueden cuantificar, como por ejemplo la edad, el peso y la estatura de las personas, el precio de un producto, los ingresos anuales, etc Pero hay otros que no se pueden cuantificar como el color de los ojos, el partido votado en unas elecciones, el estado civil, el sexo, la nacionalidad, etc A los primeros se les llama caracteres cuantitativos (y a las variables que los representan variables cuantitativas) y a los segundos caracteres cualitativos o categricos (y variables cualitativas a las variables que los representan).

    Una clasificacin que podemos hacer de las variables estadsticas es:

    Variables cualitativas: cuando las modalidades posibles son de tipo nominal. Por ejemplo, el grupo sanguneo tiene por modalidades A, B, AB, O ; o bien una variable A de color:

    Variables cuasicuantitativas: son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos la llegada a la meta de un corredor en una competicin de 20 participantes, su clasificacin C es tal que:

    Otro ejemplo de variable cuasicuantitativa es el nivel de dolor, D, que sufre un paciente ante un tratamiento mdico:

  • Probabilidad y Estadstica (I.I.) Tema 1

    3

    Variables cuantitativas: son las que tienen por modalidades cantidades numricas con las que podemos hacer operaciones aritmticas. Dentro de este tipo de variables podemos distinguir dos grupos:

    Discretas: Toman valores aislados y no pueden tomar ningn valor entre dos consecutivos fijados, slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede ser 1, 2, 3...., etc, pero nunca podr ser 3,45); n de monedas que una persona lleva en el bolsillo (0, 1, 2, ). Es obvio que cada valor de la variable es un nmero natural X N.

    Continuas: Pueden tomar cualquier valor real dentro de un intervalo real. Siempre pueden tomar valores entre dos consecutivos, por muy prximos que los fijemos. Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h; altura de las personas, medida del tiempo,...etc. En este caso los valores de las variables son nmeros reales X

    Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisin del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisin, podemos obtener

    En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio . Por tanto cada una de las observaciones de X representa ms bien un intervalo que un valor concreto.

    Modalidades o valores de las variables: Es cada uno de los posibles valores que puede tomar una carcter y se representan con las letras minsculas x1, x2, , xn. Por ejemplo, el carcter o variable estadstica cualitativa estado civil puede tomar los valores o modalidades: casado, soltero o viudo. El carcter o variable estadstica cuantitativa edad puede tomar las modalidades o valores: 10 aos, 12 aos, 15 aos, etc

    Una variable estadstica puede tomar distintos valores y cada uno de ellos puede aparecer repetido ms de una vez en la muestra que se estudia de la poblacin.

    A veces el conjunto de modalidades o valores que puede tomar una variable son muy numerosas (v.g. cuando una variable es continua) y conviene reducir su nmero, agrupndolas en una cantidad inferior de clases. Estas clases deben ser construidas de modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a una y slo una de las clases.

    Las variables estadsticas tambin se pueden clasificar en:

    Variables unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los alumnos de una clase).

  • Probabilidad y Estadstica (I.I.) Tema 1

    4

    Variables bidimensionales: recogen, a la vez y sobre el mismo individuo, informacin sobre dos caractersticas de la poblacin, que pueden o no estar relacionadas, (por ejemplo: edad y altura de los alumnos de una clase).

    Variables pluridimensionales: recogen, a la vez y sobre el mismo individuo, informacin sobre tres o ms caractersticas de la poblacin, que pueden o no estar relacionadas (por ejemplo: edad, altura y peso de los alumnos de una clase).

    2.- Organizacin de los datos. Tablas de frecuencias.

    Antes de trabajar con cualquier conjunto de datos obtenidos de un experimento debemos organizarlos. La tabla de frecuencias es la representacin estructurada, en forma de tabla, de toda la informacin que se ha recogido sobre la variable que se estudia.

    Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada

    x1 n1 N1= n1 f1 = n1 / N F1= f1 x2 n2 N2= n1 + n2 f2 = n2 / N F2= f1 + f2 ... ... ... ... ...

    xn-1 nn-1 Nn-1= n1 + n2 + ...+ nn-1

    fn-1 = nn-1 / N Fn-1= f1 + f2 + + f n-1

    xn nn Nn = n = N fn = nn / N Fn = f =1 en la cual utilizamos la siguiente notacin:

    - N = tamao de la muestra = nmero total de observaciones

    - xi = cada uno de los distintos valores discretos de la variable. Si las modalidades o valores posibles de la variable en estudio son muy numerosas y estn agrupadas en clases c1, c2, c3, cn, los valores xi, i = 1, , n corresponden a las marcas de cada una de las clases (punto medio del intervalo de clase).

    - ni = frecuencia absoluta de xi = nmero de observaciones en la muestra que toman el valor xi

    - fi = frecuencia relativa de xi = proporcin de observaciones en la muestra que toman el valor xi .

    Las siguientes frecuencias acumuladas se calculan sobre variables cuantitativas o cuasi cuantitativas. No tienen sentido para variables cualitativas. Para su clculo se requiere que los valores estn ordenados en orden ascendente.

    - Ni = frecuencia absoluta acumulada de xi = nmero de observaciones en la muestra que toman valor menor o igual que xi

    - Fi = frecuencia relativa acumulada de xi = proporcin de observaciones en la muestra que toman valor menor o igual que xi Observar que se cumplen las siguientes igualdades: Veamos un ejemplo: Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):

  • Probabilidad y Estadstica (I.I.) Tema 1

    5

    Alumno Estatura Alumno Estatura Alumno Estatura

    Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21 Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1,29 Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26 Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22 Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28 Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27 Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26 Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23 Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22 Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21

    Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencias:

    Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada

    1,20 1 1 3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0%

    Si la variable que intentamos estudiar no es discreta (como en el ejemplo anterior), sino que es continua (puede tomar cualquier valor de la recta real), o bien, siendo discreta, los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces; entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis. Veamos un ejemplo.

    Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes resultados (cm):

    Habitante Estatura Habitante Estatura Habitante Estatura Habitante 1 1,15 Habitante 11 1,53 Habitante 21 1,21 Habitante 2 1,48 Habitante 12 1,16 Habitante 22 1,59 Habitante 3 1,57 Habitante 13 1,60 Habitante 23 1,86

  • Probabilidad y Estadstica (I.I.) Tema 1

    6

    Habitante 4 1,71 Habitante 14 1,81 Habitante 24 1,52 Habitante 5 1,92 Habitante 15 1,98 Habitante 25 1,48 Habitante 6 1,39 Habitante 16 1,20 Habitante 26 1,37 Habitante 7 1,40 Habitante 17 1,42 Habitante 27 1,16 Habitante 8 1,64 Habitante 18 1,45 Habitante 28 1,73 Habitante 9 1,77 Habitante 19 1,20 Habitante 29 1,62 Habitante 10 1,49 Habitante 20 1,98 Habitante 30 1,01

    Si presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de 30 lneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportara escasa informacin. En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacin queda ms resumida (se pierde, por tanto, algo de informacin), pero es ms manejable e informativa:

    Estatura Frecuencias absolutas Frecuencias relativas Cm Simple Acumulada Simple Acumulada

    1,01 - 1,10 1 1 3,3% 3,3% 1,11 - 1,20 3 4 10,0% 13,3% 1,21 - 1,30 3 7 10,0% 23,3% 1,31 - 1,40 2 9 6,6% 30,0% 1,41 - 1,50 6 15 20,0% 50,0% 1,51 - 1,60 4 19 13,3% 63,3% 1,61 - 1,70 3 22 10,0% 73,3% 1,71 - 1,80 3 25 10,0% 83,3% 1,81 - 1,90 2 27 6,6% 90,0% 1,91 - 2,00 3 30 10,0% 100,0%

    El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla. Hemos de elegir un nmero de intervalos que equilibre estos dos aspectos y que en cada caso el investigador los acomodar a la forma y cantidad de informacin obtenida.

    A la diferencia entre el extremo superior e inferior del intervalo se le llama amplitud del intervalo y puede ser constante o variable. Al punto medio de cada intervalo se le llama marca de clase. Es el valor que representa la informacin que contiene el intervalo. Se entiende que cuando se hace una agrupacin en intervalos de clase, se est interesado slo en el nmero de observaciones que caen dentro del mismo y no en la distribucin de stos en su interior, que siempre se supone homognea, de ah la prdida de informacin a que nos referamos antes.

    La divisin de los intervalos se puede hacer de forma automtica o atendiendo a la divisin natural del recorrido de la variable en estudio. Existen varias reglas automticas para determinar el nmero de intervalos a usar en la construccin de una tabla. Los programas

  • Probabilidad y Estadstica (I.I.) Tema 1

    7

    estadsticos de uso habitual, las usan a menudo en su configuracin estndar, aunque tambin permiten que el usuario decida por su cuenta las caractersticas de los intervalos que desea usar.

    Una de las reglas ms conocidas fue propuesta por Herbert Sturges y calcula el nmero k de intervalos mediante la expresin

    k = 1 + log2(n) = 1 + 3.322 * log(n)

    donde n es el tamao de la muestra.

    Ejemplo:

    Tenemos las siguientes calificaciones obtenidas en un examen por 15 alumnos diferentes (evaluadas entre 1 y 7 puntos, se aprueba a partir de 4).

    1.9, 2.3, 2.5, 3.2, 3.5, 3.7, 3.9, 4.1, 4.3, 4.9, 5.3, 5.5, 5.8, 6.5, 6.8.

    Al aplicar la Regla Sturges con n = 15, se obtiene un total de 5 intervalos. Su aplicacin automtica dara lugar a la siguiente tabla:

    Notas N de alumnos

    1.8 2.8 3

    2.8 3.8 3

    3.8 4.8 3

    4.8 5.8 4

    5.8 6.8 2

    TOTAL 15

    Si, por otra parte, se analizan los datos segn el punto de vista del usuario, resulta mejor construir esta otra tabla

    Notas N de alumnos

    1.0 2.0 1

    2.0 3.0 2

    3.0 4.0 4

    4.0 5.0 3

    5.0 - 6 .0 3

    6.0 - 7.0 2

    TOTAL 15

  • Probabilidad y Estadstica (I.I.) Tema 1

    8

    Esta segunda tabla se puede interpretar en forma mucho ms til, en particular, porque la nota cuatro tiene un sentido especial dentro del sistema de calificaciones, ya que es la menor nota para aprobar. En este caso el resumen estadstico permite determinar ms fcilmente el nmero de aprobados y suspensos en un examen.

    3.- Descripciones grficas de los datos:

    Hemos visto que la tabla estadstica resume los datos que disponemos de una poblacin, de forma que sta se puede analizar de una manera ms sistemtica y resumida. Para darnos cuenta de un slo vistazo de las caractersticas de la poblacin resulta an ms esclarecedor el uso de grficos y diagramas, cuya construccin abordamos en esta seccin. La representacin grfica de una distribucin de frecuencias depende del tipo de datos que la constituya.

    Datos correspondientes a un carcter cualitativo

    La representacin grfica de este tipo de datos est basada en la proporcionalidad de las reas a las frecuencias absolutas o relativas. Veremos dos tipos de representaciones:

    a. Diagrama de sectores (tambin llamados de tarta o de queso):

    Est representacin grfica consiste en dividir un crculo (360) en tantos sectores circulares como modalidades presente el carcter cualitativo, asignando un ngulo central a cada sector circular proporcional a la frecuencia absoluta ni, ,o relativa fi, consiguiendo de esta manera un sector con rea proporcional tambin a ni o fi .

    El arco de cada porcin se calcula usando una regla de tres: N

    nx

    xnN i

    iii

    *360360 =

    Si se comparan dos poblaciones de diferente tamao es conveniente usar frecuencias relativas en la representacin para no llevarse a engaos. Ejemplo: As, los ngulos que corresponden a las cuatro modalidades de la tabla adjunta sern:

    Nmero de casos ngulo(grados)

    Rehusaron ciruga 26 234

    Rehusaron radiacin 3 27

    Empeoraron por una enfermedad ajena al cncer

    10 90

    Otras causas 1 9

    Y su representacin en un diagrama de sectores ser:

  • Probabilidad y Estadstica (I.I.) Tema 1

    9

    b. Diagrama de rectngulos:

    Esta representacin grfica consiste en construir tantos rectngulos como modalidades presente el carcter cualitativo en estudio, todos ellos con base de igual amplitud. La altura se toma igual a la frecuencia absoluta o relativa (segn la distribucin de frecuencias que estemos representando), consiguiendo de esta manera rectngulos con reas proporcionales a las frecuencias que se quieren representar. Igual que antes, si se comparan dos poblaciones de diferente tamao es conveniente usar frecuencias relativas en la representacin ya que en otro caso podran resultar engaosas. Ejemplo: La representacin grfica de la distribucin de frecuencias absolutas del ejemplo anterior ser de la forma:

  • Probabilidad y Estadstica (I.I.) Tema 1

    10

    c. Pictogramas:

    Actualmente, y mucho en los medios masivos de comunicacin, se utilizan grficos para ilustrar los datos o los resultados de alguna investigacin. Regularmente se utilizan dibujos alusivos al tema de estudio para representar dicha informacin, y el tamao o el nmero o de estos dibujos dentro de una grfica queda determinado por la frecuencia correspondiente. Estos son dos ejemplos:

    El de la izquierda representa la poblacin de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene ms 17 veces ms masa que la Tierra).

    Datos correspondientes a un carcter cuantitativo

    Para las variables cuantitativas, consideraremos dos tipos de grficos, en funcin de que para realizarlos se usen las frecuencias simples (absolutas o relativas) o las frecuencias acumuladas: Diagramas diferenciales:

    Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el nmero o porcentaje de elementos que presenta una modalidad dada.

    Diagramas integrales:

    Son aquellos en los que se representan el nmero de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a grficos crecientes, y es obvio que este tipo de grficos no tiene sentido para variables cualitativas.

  • Probabilidad y Estadstica (I.I.) Tema 1

    11

    Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuacin las diferentes representaciones grficas que pueden realizarse para cada una de ellas as como los nombres especficos que reciben. Grficos para variables discretas:

    a. Diagrama de barras:

    Consiste en levantar, para cada valor de la variable, una barra cuya altura sea su frecuencia absoluta o relativa, dependiendo de la distribucin de frecuencias que estemos representando.

    Ejemplo: As, la representacin grfica de la distribucin de frecuencias del ejemplo del n de hijos ser:

    b. Diagrama de frecuencias acumuladas:

    Esta representacin grfica se corresponde con la de una funcin constante entre cada dos valores de la variable a representar, e igual en cada tramo a la frecuencia relativa acumulada (o absoluta acumulada si se trata de representar una distribucin de frecuencias absolutas) hasta el menor de los dos valores de la variable que construyen el tramo en el que es constante.

    Ejemplo: Tambin para el ejemplo del Nmero de Hijos, se tendr un diagrama de frecuencias acumuladas como el del siguiente grfico:

  • Probabilidad y Estadstica (I.I.) Tema 1

    12

    Grficos para variables contnuas:

    Al igual que antes, existen tambin dos tipos de representaciones grficas dependiendo de si la distribucin de frecuencias en estudio es de datos acumulados o de datos sin acumular.

    a. Histograma:

    Al ser esta representacin una representacin por reas, hay que distinguir si los intervalos en los que aparecen agrupados los datos son de igual amplitud o no.

    Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse como unidad y al ser

    Frecuencia (rea) = amplitud del intervalo altura

    la altura correspondiente a cada intervalo puede tomarse igual a la frecuencia.

    Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad (generalmente la menor) y se levantan alturas para cada intervalo de forma que la ecuacin anterior se cumpla.

    Ejemplo;

    En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos igual amplitud, la representacin grfica ser:

  • Probabilidad y Estadstica (I.I.) Tema 1

    13

    Ejemplo: Si tuviramos una distribucin de frecuencias como la siguiente, correspondiente a puntuaciones obtenidas en un test psicolgico y en la que los intervalos son de diferente amplitud

    Ii ni fi

    0-20 8 8/70

    20-30 9 9/70

    30-40 12 12/70

    40-45 10 10/70

    45-50 9 9/70

    50-60 10 10/70

    60-80 8 8/70

    80-100 4 4/70

    ?ni= 70 ?fi=1

    Tomando la amplitud 5 como unidad, deberemos levantar para el primer intervalo una altura de 2/70 para que el rea sea la frecuencia relativa 8/70. Procediendo de la misma manera con el resto de los intervalos obtendramos como representacin grfica la figura siguiente:

  • Probabilidad y Estadstica (I.I.) Tema 1

    14

    Obsrvese que la suma de todas las reas debe ser 1, tanto si los intervalos de la distribucin de frecuencias relativas son o no de igual amplitud.

    b. Polgono de frecuencias acumuladas:

    Se utiliza para representar distribuciones de frecuencias (relativas o absolutas) acumuladas. Consiste en representar la grfica de una funcin que una por segmentos las alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos igual amplitud, siendo dicha altura igual a la frecuencia acumulada, dando una altura cero al extremo inferior del primer intervalo y siendo constante a partir del extremo superior del ltimo.

    Ejemplo:

    As, para el ejemplo de los Niveles de Colinesterasa, el polgono de frecuencias relativas acumuladas tendr una representacin grfica de la forma:

  • Probabilidad y Estadstica (I.I.) Tema 1

    15

    3.- Descripciones numricas de una variable:

    Al analizar los datos contenidos en una muestra, un paso importante es presentar diversos resmenes numricos (estadsticas) de la informacin que contiene. De los muchos aspectos de los datos, que intentamos representar numricamente con estadsticas, tres son los ms importantes:

    su posicin,

    su dispersin,

    su forma.

    Medidas de posicin Las medidas de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas caractersticas de esta serie de datos. Son de dos tipos:

    a) Medidas de posicin central

    Informan sobre los valores medios de la serie de datos. Las principales medidas de posicin central son las que definiremos a continuacin. Para ver ejemplos de clculo, utilizaremos la tabla de distribucin de frecuencias con los datos de la estatura de los alumnos que ya hemos visto anteriormente.

    Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada

    1,20 1 1 3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0%

    1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las ms utilizadas:

    a) Media aritmtica: La media aritmtica de una variable estadstica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es

  • Probabilidad y Estadstica (I.I.) Tema 1

    16

    X ni fi

    x1 n1 f1

    ... ... ...

    xk nk fk

    la media es el valor que podemos escribir de las siguientes formas equivalentes:

    Si los datos no estn ordenados en una tabla, entonces

    Observacin: Hemos supuesto implcitamente en la definicin de media que tratbamos con una variable X discreta. Si la variable es continua tendremos que cambiar los valores de xi por las marcas de clase correspondientes. En general, la media aritmtica obtenida a partir de las marcas de clase ci, diferir de la media obtenida con los valores reales, xi. Es decir, habr una perdida de precisin que ser tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las longitudes ai, de los intervalos. A pesar de las buenas propiedades que ofrece la media, sta posee algunos inconvenientes:

    Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el clculo de la media, la aparicin de una observacin extrema, har que la media se desplace en esa direccin. En consecuencia,

    no es recomendable usar la media como medida central en las distribuciones muy asimtricas;

    Depende de la divisin en intervalos en el caso de variables continuas. Si consideramos una variable discreta, por ejemplo, el nmero de hijos en

    las familias de Mlaga el valor de la media puede no pertenecer al conjunto de valores de la variable; Por ejemplo hijos.

    Ejemplo:

    253.130

    3) * (1,30 3) * (1,29 ......... 2) * (1,23 4) * (1,22 4)*(1,21 1)*(1,20 =++++++=x Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.

  • Probabilidad y Estadstica (I.I.) Tema 1

    17

    b) Media geomtrica: La media geomtrica , es la media de los logaritmos de los valores de la variable:

    Luego

    Si los datos estn agrupados en una tabla, entonces se tiene:

    Se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raz "n" (siendo "n" el total de datos de la muestra).

    Ejemplo:

    ( ) 253.130.1*29.1*...*22.1*12.1*20.1 30133441 ==X En este ejemplo la media aritmtica y la media geomtrica coinciden, pero no tiene siempre por qu ser as.

    Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la media geomtrica. La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida de posicin central ms utilizada.

    2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). Es una medida de posicin central que resulta ser un caso particular de percentil (es el percentil 50).

    Entre las propiedades de la mediana, vamos a destacar las siguientes:

    Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimtricas.

    Es de clculo rpido y de interpretacin sencilla. A diferencia de la media, la mediana de una variable discreta es siempre un valor de

    la variable que estudiamos (ej. La mediana de una variable nmero de hijos toma siempre valores enteros).

    As, si en la siguiente distribucin de frecuencias,

    xi ni Ni

  • Probabilidad y Estadstica (I.I.) Tema 1

    18

    0 3 3

    1 2 5

    2 2 7

    7

    ordenamos los valores en orden creciente, 0 0 0 1 1 2 2 el 1 ser el valor que cumple la definicin de mediana.

    Datos sin agrupar: Para datos sin agrupar, la Mediana ser la primera observacin que deja debajo de s estrictamente a las [N/2] observaciones menores, x[N/2] + 1.

    Ejemplo: La distribucin de frecuencias acumuladas del ejemplo del nmero de hijos era

    N de hijos(xi) 0 1 2 3 4

    Frecuencias Acumuladas(Ni) 5 11 19 23 25

    y como es n/2=12'5 y en consecuencia 11 < 12'5 < 19 la mediana ser Me= 2.

    Datos Agrupados: Las grficas siguientes, correspondientes a polgonos de frecuencias absolutas acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar:

    El ms sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal que n/2 = Nj, la mediana es Me = xj. Si la situacin es como la que se representa en la figura de la izquierda, en la que Nj-l < n/2 < Nj entonces, la mediana, est en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomndose en ese caso, por razonamientos de proporcionalidad, como mediana el valor

    siendo cj la amplitud del intervalo [xj-1, xj).

    Ejemplo: La distribucin de frecuencias del ejemplo de los niveles de colinesterasa es:

    Intervalo Ii 7'5-9 9-10'5 10'5-12 12-13'5 13'5-15 15-16'5

  • Probabilidad y Estadstica (I.I.) Tema 1

    19

    Frecuencia ni 3 8 10 10 1 2

    Frecuencia Acumulada Ni 3 11 21 31 32 34

    Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estar en el intervalo [10'5 , 12), y aplicando la frmula anterior, ser

    Ejemplo:

    La mediana de esta muestra es 1,26 cm, ya que por debajo est el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas.

    En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la mediana se situara exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la divisin entre el 50% inferior y el 50% superior.

    3.- Moda: es el valor que ms se repite en la muestra.

    Ejemplo:

    Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta serie cuenta con 3 modas.

    b) Medidas de posicin no centrales

    Informan de como se distribuye el resto de los valores de la serie. Permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales. Vamos a utilizar los mismos datos anteriores para calcular los cuartiles. Los deciles y percentiles se calculan de igual manera, aunque haran falta distribuciones con mayor nmero de datos.

    Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.

    1 cuartil: es el valor 1,22 cm, ya que por debajo suyo se sita el 25% de la frecuencia (tal como se puede ver en la columna de la frecuencia relativa acumulada).

    2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se sita otro 25% de la frecuencia.

  • Probabilidad y Estadstica (I.I.) Tema 1

    20

    3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita otro 25% de la frecuencia. Adems, por encima suyo queda el restante 25% de la frecuencia.

    Atencin: cuando un cuartil recae en un valor que se ha repetido ms de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posicin no central sera realmente una de las repeticiones.

    Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.

    Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. O ms formalmente:

    Para una variable discreta, se define el percentil de orden k, como la observacin, Pk, que deja por debajo de si el k% de la poblacin. Esta definicin nos recuerda a la mediana, pues como consecuencia de la definicin es evidente que Med = P50 En el caso de una variable continua, el intervalo donde se encuentra Pk (li-1, li], se calcula buscando el que deja debajo de si al k% de las observaciones. Dentro de l, Pk se obtiene segn la relacin:

    Ejemplo (variable discreta) Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus cuartiles.

    xi ni Ni

    0 14 14

    1 10 24

    2 15 39

    3 26 65

    4 20 85

    5 15 100

    n = 100

    Solucin:

    1. Primer cuartil:

    2. Segundo cuartil:

  • Probabilidad y Estadstica (I.I.) Tema 1

    21

    3. Tercer cuartil: Ejemplo (variable continua) Calcular los cuartiles en la siguiente distribucin de una variable continua:

    li-1 - li ni Ni

    0 - 1 10 10

    1 - 2 12 22

    2 - 3 12 34

    3 - 4 10 44

    4 - 5 7 51

    n = 51

    Solucin: 1. Primer cuartil:

    2. Segundo cuartil:

    3. Tercer cuartil :

    Comentario. No hay slo un criterio para calcular percentiles. De hecho, importantes paquetes estadsticos para ordenador devuelven resultados diferentes debido a que usan criterios similares, pero no iguales. No debe causar sorpresa, entonces, encontrar estas diferencias originadas por la falta de un procedimiento universalmente aceptado. Esta tcnica explicada anteriormente sirve para calcular los deciles y la mediana igualmente. Medidas de dispersin

    Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms o menos dispersos. Supongamos que tenemos los tres conjuntos

  • Probabilidad y Estadstica (I.I.) Tema 1

    22

    de datos indicados. Si calculamos la media, la mediana y la moda para cada uno de ellos tenemos lo siguiente:

    Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe

    Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30

    Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30

    A la vista de estas medidas podramos llegar a la conclusin equivocada de que los tres conjuntos de datos son muy similares. Sin embargo, si dibujamos los histogramas:

    vemos claramente la diferencia entre los tres conjuntos: en el primero, la dispersin de los datos es total, en el tercero es la mxima concentracin y el segundo es una situacin intermedia.

    Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las siguientes. Para ver ejemplos de clculos volveremos a utilizar la tabla de la estatura de los alumnos de una clase usada anteriormente.

    1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms bajo. Muchas veces esta medida no es suficiente. En los conjuntos 1 y 2 anteriores el rango resulta ser el mismo: 50 40 = 10.

    Ejemplo: la diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20), y por tanto su rango es 10 cm.

    2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamao de la muestra.

  • Probabilidad y Estadstica (I.I.) Tema 1

    23

    La varianza siempre ser mayor o igual que cero, y slo ser cero si todas las observaciones son idnticas (y por tanto la media es igual a cualquiera de las observaciones). Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn. Otra forma de expresar la varianza es la siguiente. Tomemos el numerador:

    Si la varianza en lugar de aparecer dividida por n, aparece dividida por n-1, la llamamos cuasivarianza.

    Tanto la varianza como la cuasivarianza se expresan en el cuadrado de las unidades de la variable observada.

    Ejemplo: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la frmula:

    Por lo tanto, la varianza es 0,0010

    3.- Desviacin tpica o desviacin estndar: Se calcula como raz cuadrada de la varianza. A la raz cuadrada de la cuasivarianza se la conoce como cuasidesviacin tpica. La desviacin tpica y la cuasidesviacin tpica se miden en las mismas unidades que la variable observada.

    Ejemplo:

    Luego:

    4.- Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin

    tpica y la media de la muestra. x

    Cv =

    Ejemplo:

    0255.0253.10320.0 ==Cv

  • Probabilidad y Estadstica (I.I.) Tema 1

    24

    El inters del coeficiente de variacin es que al ser un porcentaje permite comparar el nivel de dispersin de dos muestras. Esto no ocurre con la desviacin tpica, ya que viene expresada en las mismas unidades que los datos de la serie.

    Por ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones tpicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variacin son ambos porcentajes, por lo que s se pueden comparar.

    Medidas de forma

    Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes caractersticas de la curva:

    a) Asimetra

    El concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central, considerado el centro de simetra (media aritmtica)

    Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, que viene definido:

    Los resultados pueden ser los siguientes:

    g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media)

    g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda)

    g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha)

    Ejemplo: Vamos a calcular el Coeficiente de Asimetra de Fisher de la serie de datos referidos a la estatura de un grupo de alumnos que ya hemos utilizado. Recordemos que la media de esta muestra es 1,253

  • Probabilidad y Estadstica (I.I.) Tema 1

    25

    (xi - xm)3 *ni (xi - xm)2 *ni 0,000110 0,030467

    Luego: 1586.0030467.0

    301

    000110.0301

    3 21 =

    =g

    Por lo tanto el Coeficiente de Fisher de Simetra de esta muestra es -0,1586, lo que quiere decir que presenta una distribucin asimtrica negativa (se concentran ms valores a la izquierda de la media que a su derecha).

    b) Curtosis

    El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona central de la distribucin o cuan aplastada o apuntada es la forma de la distribucin respecto de la distribucin normal.

    Se definen 3 tipos de distribuciones segn su grado de curtosis:

    Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal).

    Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable.

    Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

    El Coeficiente de Curtosis viene definido por la siguiente frmula:

    Los resultados pueden ser los siguientes:

    g2 = 0 (distribucin mesocrtica).

    g2 > 0 (distribucin leptocrtica).

  • Probabilidad y Estadstica (I.I.) Tema 1

    26

    g2 < 0 (distribucin platicrtica).

    Ejemplo: Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos:

    Recordemos que la media de esta muestra es 1,253

    (xi - xm)4 *ni (xi - xm)2 *ni 0,00004967 0,03046667

    Luego: 39.1303046667.0

    301

    00004967.0301

    22 =

    =g

    Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribucin platicrtica, es decir, con una reducida concentracin alrededor de los valores centrales de la distribucin.