estadistica descriptiva una variable

8
CognoSfera www.ugr.es/local/rruizb/cognosfera ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE X a) Población , o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de datos de una o más variables sobre la población completa, o se puede acceder a ellos, la Estadística tendrá como misión que la recogida sea adecuada, se ordenen, se estructuren y se resuman dichos datos para su mejor comprensión, es decir, que se describan. Ello nos llevará a hablar de Estadística Descriptiva. or ejemplo, el conjunto de los varones mayores de !" a#os y residentes en una provincia sería una población.  b) Muestra, o conjunto de elementos de los que e$ectivamente se dispone de datos, y que es una parte %a menudo peque#a) de la población. &uando no se puede acceder a los datos de toda la población, que es lo más $recuente, y se debe trabajar con sólo los de la muestra, a la simple descripción de los datos se a#ade el inter's por valorar hasta qu' punto los resultados de la muestra son e(trapolables o generaliables a la  población* en consecuencia, será necesario utiliar no sólo las t'cnicas de la Estadística +escriptiva, siempre obligadas en todo caso para la comprensión de los resultados, sino tambi'n otras que permiten in$erir a$irmacio nes sobr e la po bla ció n a par tir de los datos de la mue stra y que con sti tuy en la Estadística Inferencial o n$erencia Estadística. or ejemplo, el grupo de los varones mayores de !" a#os y residentes en una provincia que son usuarios de bibliotecas p-blicas sería una muestra de la población citada en el párra$o anterior %otra cosa es que la muestra $uese o no representativa del conjunto de tal población). os elementos $undamentales de la descripción de una variable son los que siguen en los apartados siguientes, que se pueden resumir de esta $orma/ 0 En primer lug ar, s e hará hin capi ' en que lo q ue se estudia so n en real ida d las var iab les , lo qu e nos obligará a distinguir los tipos básicos de ellas, porque tienen un tratamiento distinto en todo lo que sigue. 0 as distribucio nes de $r ecu enc ia son nece sar ias en el paso sig uie nte para e(p resar los res ult ados obtenidos mediante tablas estadísticas. 0 as g rá$ic as es tadís ticas dan una in$ ormac ión similar a la d e las tabla s, per o de $orm a más dir ecta* de ellas trata otro apartado. 0 1inalmente, el res umen de la in$ormacn se reali a me dia nt e las me didas de cen tra li ación, dispersión y posición. 2. TIPOS DE V AIA!"ES. o que se estudia en una muestra o población es una serie de variables en cada individuo o elemento. o usual es considerar primero las variables una a una, sin plantearse problemas de asociación entre ellas, por lo que podemos pensar sólo en una variable de cuyos datos imaginamos disponer en una muestra %el n-mero de datos es el llamado 2ama#o de 3uestra , para el que habitualmente se utilia la letra #

Upload: ela-diaz

Post on 20-Feb-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 1/8

CognoSferawww.ugr.es/local/rruizb/cognosfera

ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE

X

a) Población, o conjunto de todos los elementos cuyo estudio nos interesa. Si se dispone de datos de una omás variables sobre la población completa, o se puede acceder a ellos, la Estadística tendrá como misión quela recogida sea adecuada, se ordenen, se estructuren y se resuman dichos datos para su mejor comprensión,es decir, que se describan. Ello nos llevará a hablar de Estadística Descriptiva. or ejemplo, el conjunto delos varones mayores de !" a#os y residentes en una provincia sería una población.

 b) Muestra, o conjunto de elementos de los que e$ectivamente se dispone de datos, y que es una parte %amenudo peque#a) de la población. &uando no se puede acceder a los datos de toda la población, que es lomás $recuente, y se debe trabajar con sólo los de la muestra, a la simple descripción de los datos se a#ade elinter's por valorar hasta qu' punto los resultados de la muestra son e(trapolables o generaliables a la

 población* en consecuencia, será necesario utiliar no sólo las t'cnicas de la Estadística +escriptiva, siempreobligadas en todo caso para la comprensión de los resultados, sino tambi'n otras que permiten in$erir a$irmaciones sobre la población a partir de los datos de la muestra y que constituyen la Estadística

Inferencial o n$erencia Estadística. or ejemplo, el grupo de los varones mayores de !" a#os y residentes enuna provincia que son usuarios de bibliotecas p-blicas sería una muestra de la población citada en el párra$oanterior %otra cosa es que la muestra $uese o no representativa del conjunto de tal población).

os elementos $undamentales de la descripción de una variable son los que siguen en los apartadossiguientes, que se pueden resumir de esta $orma/

0 En primer lugar, se hará hincapi' en que lo que se estudia son en realidad las variables, lo que nosobligará a distinguir los tipos básicos de ellas, porque tienen un tratamiento distinto en todo lo quesigue.

0 as distribuciones de $recuencia son necesarias en el paso siguiente para e(presar los resultadosobtenidos mediante tablas estadísticas.

0 as grá$icas estadísticas dan una in$ormación similar a la de las tablas, pero de $orma más directa*de ellas trata otro apartado.

0 1inalmente, el resumen de la in$ormación se realia mediante las medidas de centraliación,dispersión y posición.

2. TIPOS DE VAIA!"ES.

o que se estudia en una muestra o población es una serie de variables en cada individuo oelemento. o usual es considerar primero las variables una a una, sin plantearse problemas de asociaciónentre ellas, por lo que podemos pensar sólo en una variable de cuyos datos imaginamos disponer en unamuestra %el n-mero de datos es el llamado 2ama#o de 3uestra , para el que habitualmente se utilia la letra

#

Page 2: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 2/8

n). os tipos de variables, y consecuentemente las clases de datos que se pueden encontrar, son básicamentelas siguientes/

4) 5ariables $%A"ITATIVAS, tambi'n llamadas &464&2E6ES, 54647ES &42E896&4S o4267:2;S, que son aquellas que no necesitan n-meros para e(presarse* cada $orma particular en que

 pueden presentarse se denomina modalidad. or ejemplo, el se(o de una persona es una variable cualitativay <varón= o <mujer= son sus -nicas modalidades. En consecuencia, para una variable cualitativa, cada dato

no es más que la in$ormación de que un determinado elemento de la muestra presenta una determinadamodalidad. Entre la variables cualitativas cabe distinguir/

a>) las variables cualitativas ODI&A"ES, que son las que teniendo más de dos modalidadestienen establecido un orden natural entre las mismas, de $orma que sus modalidades se enuncian siguiendouna cierta ordenación ascendente o descendente y no de otra manera. or ejemplo, la variable <gravedad del

 pronóstico de lesiones traumáticas= podría tener como orden natural entre sus modalidades <leve=,<moderado=, <grave=, etc., pero nunca diríamos <grave=, <leve=, <moderado=, etc. en este orden.

a?) las variables cualitativas P%AS, que no tienen un orden natural preestablecido entre susmodalidades, y podemos utiliar cualquier ordenación para ellas, como por ejemplo el grupo sanguíneo o lanacionalidad de una persona %no hay que con$undirse con ordenaciones arbitrarias, como el orden al$ab'tico,

 pensando que convierten en ordinales a las variables, ya que no signi$ican una verdadera ordenación naturalde las modalidades).

a@) las variables DI$OTOMI$AS, que tienen sólo dos modalidades posibles, y en las que nisiquiera tiene sentido plantearse si son o no ordinales* El hecho de tener sólo dos modalidades les con$ierecaracterísticas especiales. &abe citar como ejemplos el ya citado del se(o, el pertenecer o no a unaasociación, o en general cualquier situación que sólo admita una respuesta <sí o no=.

7) 5ariables $%A&TITATIVAS  o A:3E6&4S, que son aquellas que necesitan n-meros para ser e(presadas, como la edad de alguien o el n-mero de páginas de un libro. &ada $orma particular en que se

 presentan es un valor num'rico, y un dato es en estas variables un n-mero que re$leja el valor de la variableen un elemento de la muestra. 2ambi'n pueden distinguirse al menos dos subtipos/

 b>) las variables cuantitativas DIS$ETAS, cuyos valores son aislados %habitualmente n-merosenteros), de $orma que pueden enumerarse y e(isten valores <consecutivos= entre los que no puede haber otro* or ejemplo, un resumen puede tener @BC ó @"D, pero no @BC.> palabras.

 b?) las variables cuantitativas $O&TI&%AS, que pueden tomar cualquier valor num'rico, entero odecimal, de $orma que teóricamente entre dos valores posibles siempre se pueden encontrar otros %entre !".@Fg. y !".B Fg. de peso siempre está !".@ Fg., por ejemplo), aunque en la práctica el n-mero de ci$rasdecimales está limitado y la variable se maneja en cierto modo como discreta.

a distinción entre los distintos tipos de variables es importante porque las t'cnicas a aplicar a cadauno pueden ser muy di$erentes, y muchos parámetros y cálculos tienen sentido para las variables de un tipo yno para las de otro. Gay que tener en cuenta tambi'n que una misma variable de la realidad puede venir e(presada de diversas maneras, incluso como cualitativa o como cuantitativa, dependiendo de que usemosvalores num'ricos o sólo modalidades* pi'nsese, por ejemplo, en que la estatura puede darse en centímetros%variable cuantitativa continua) o diciendo de alguien que es <bajo=, <mediano= o <alto= %variable cualitativaordinal). En estos casos, debe quedar claro que la variable es en esencia cuantitativa y que su tratamiento

como cualitativa supone una p'rdida de calidad en la in$ormación, sólo admisible si no podemos disponer delos datos num'ricos.

'. DISTI!%$IO&ES DE (E$%E&$IA ) TA!"AS ESTADISTI$AS.

Sea cual sea el tipo de variable, lo que se tiene como in$ormación de una variable en una muestra esun n-mero $inito n de datos, es decir, de valores o de anotaciones sobre qu' modalidad %cualitativas) o qu'valor %cuantitativas) tiene cada elemento de la muestra* a este conjunto de datos se le llama distribución y,

2

Page 3: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 3/8

salvo cuando el tama#o de muestra n sea muy peque#o, se debe resumir para que el lector pueda comprender  bien los resultados.

:n primer y obligado paso de ese resumen de datos es el simple recuento de las repeticiones de unmismo valor o modalidad* ello nos conduce al concepto $undamental de $recuencia, con dos en$oques/

* (recuencia absoluta es el n-mero de veces que una modalidad o un valor de una variable aparece entre los

datos de una muestra* si en una muestra de la variable <nivel de estudios= aparecen >BH personas con nivelde estudios <superiores=, diremos que >BH es la $recuencia absoluta de la modalidad <superiores=.

 Aaturalmente, el n-mero total de datos es n y, por tanto, la suma de las $recuencias absolutas de todas lasmodalidades o valores debe ser igual al tama#o muestral n.

0 (recuencia relativa de una modalidad o valor de una variable es su $recuencia absoluta dividida entre eltama#o muestral, es decir, la proporción de veces que aparece esa modalidad o valor entre todos los datos dela muestra* si la $recuencia absoluta >BH del ejemplo anterior corresponde a una muestra de ?DDD personas,diremos que la $recuencia relativa de la modalidad 47 es >BHI?DDD J D.DB. Es claro que la suma de las$recuencias relativas de todas las modalidades o valores debe ser >, ya que las absolutas suman n y estamosdividiendo entre n. Es muy habitual e(presar las $recuencias relativas como porcentajes %multiplicándolas

 por cien) y entonces la $recuencia relativa del ejemplo sería .B K y la condición de la suma sería que debensumar >DD K, lo que se entiende mejor %la $recuencia relativa es la parte del total de datos que corresponde acada valor o modalidad).

as $recuencias absolutas y relativas son aplicables a cualquier tipo de variable, y de ahí suimportancia* además, pese a su simplicidad, dan lugar a conceptos muy importantes, como el de proporción,y son la base sobre la que se construye cualquier resumen de los datos. :sando como ejemplo el gruposanguíneo en una muestra de doscientas personas, la tabla siguiente sirve para resumir lo que, si no, seríauna tediosa lista de doscientos grupos sanguíneos/

8rupo sanguíneo de una muestra de ?DD personas.

3odalidades 1recuencia absoluta 1recuencia relativa %K); H" D.B?" %B?."K)4 "@ D.?!" %?!."K)7 BH D.?BD %?B.DK)

  47 >B D.DD % .DK)2otales ?DD >.DDD %>DDK)

:na tabla como esta se denomina distribución de $recuencias, y puede incluir tambi'n las llamadas$recuencias acumulativas, que son la suma de las $recuencias del valor o modalidad que se considere y detodos los anteriores* puede haber $recuencias acumulativas absolutas o relativas, y en todo caso sólo tienensentido con variables cuantitativas o cualitativas ordinales, ya que hay que poder $ijar cuales son los valoreso modalidades <anteriores=. 4sí, por ejemplo, las $recuencias acumulativas no son de$inibles en el ejemplodel grupo sanguíneo, que es una variable cualitativa pura. 5eamos un ejemplo donde sí lo son, de unavariable cuantitativa discreta.

En este segundo ejemplo, cuya tabla se encuentra a continuación, el n-mero n de datos es "DD y la

variable toma seis valores distintos %D,>,?,@,B y ") en la muestra. Ao se deben con$undir los valores de lavariable, que son el n-mero de visitas %ninguna, una, dos, etc.) de cada persona a la biblioteca en ese mes,con las $recuencias absolutas, que son el n-mero de personas cuyo n-mero de visitas es uno determinado/que ?>D sea la $recuencia absoluta del valor D quiere decir que de entre las "DD personas consideradas en elestudio ?>D no han ido ninguna ve a la biblioteca en ese mes, es decir, que el valor de la variable es LceroL

 para ellas* esta $recuencia absoluta ?>D supone el B?K de "DD, por lo que D.B? ó B?K es la $recuenciarelativa del valor D de la variable.

5isitas mensuales a una biblioteca de una muestra de "DD usuarios inscritos

'

Page 4: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 4/8

Valores (rec. absoluta (rec. relativa(rec. absol.acu+ulativa

(rec.relat.acu+ulativa

D ?>D B?.DK ?>D B?.DK> >H @".!K @HH .!K? !H >@.!K B"! C>.?K@ ?B B.HK BHD C!.DKB >B ?.HK BCB CH.HK

" ! >.?K "DD >DD.DK2otales "DD >DDK

or lo que se re$iere a las $recuencias acumuladas o acumulativas %es lo mismo), y usando comoejemplo las que se recogen en la tabla, podemos observar que las $recuencias acumuladas del primer valor coinciden con las ?>D y B?K ya comentadas para ese valor, lo que es lógico porque no hay ning-n valor anterior con cuyas $recuencias sumarlas* a partir del segundo renglón sí tenemos acumulación%@HHJ?>DM>H y .!K J B?.DK M @".!K), para el tercer valor se suman tres sumandos y asísucesivamente. Aótese que las -ltimas $recuencias acumuladas tienen que coincidir con el n-mero de datosválidos total %en este ejemplo "DD) y con el >DDK, ya que se han sumado todas las $recuencias absolutas yrelativas, respectivamente.

En el caso de las variables continuas, el n-mero de valores distintos que puede tomar la variable esin$inito, teóricamente, y en la práctica puede ser bastante grande/ pi'nsese que si medimos, por ejemplo, laestatura en centímetros de una muestra de personas adultas podemos tener $ácilmente sesenta o setentavalores distintos. Esto provoca que a menudo las tablas tuvieran que ser muy e(tensas, con muchísimosrenglones, lo que las haría in-tiles por incomprensibles. ara evitarlo, se hacen agrupaciones de variosvalores % por ejemplo, las estaturas >!D, >!>, >!?, >!@ y >!B se pueden agrupar en el intervalo >!D0>!B)* deesta $orma, se pueden encontrar tablas construídas agrupando los valores en intervalos cuando hay muchosvalores entre el mínimo y el má(imo* el concepto importante es entonces el de marca de clase o valor mediodel intervalo, que es, por ejemplo, >!? en el caso citado del intervalo >!D0>!B. 4demás, es muy convenienteque los intervalos tengan todos la misma longitud.

En las tablas así, con clases, las $recuencias se dan para cada intervalo, pero no para cada valor dela variable* podemos saber, por ejemplo, que en una muestra hay @? personas que miden entre >!D y >!Bcm., pero no cuántas de ellas miden en particular >!@ cm.* hay, por tanto, una p'rdida de in$ormación con

respecto a lo que sería una tabla detallada. or esta raón, y gracias a los avances de la n$ormática que permiten almacenar muchos valores y trabajar con ellos rápidamente, las tablas con intervalos ya no se usan,como hasta hace pocos a#os, para realiar cálculos sobre la variable, sino que su utilidad queda reducida a lamejor comprensión de las tablas y a la elaboración de grá$icos. 2odo ello signi$ica que las ganancias encomprensión al hacer intervalos se corresponden necesariamente con p'rdidas de in$ormación %se pierde eldetalle) y por ello para los cómputos num'ricos se usan los datos originales de uno en uno, mientras que

 para tablas y grá$icas es $recuente usar intervalos.

,. -A(I$AS ESTADISTI$AS

as distribuciones de $recuencias se presentan en tablas como las anteriores, o bien en grá$icas. arepresentación grá$ica se utilia para $acilitar al lector la comprensión de los resultados, pero no a#adeninguna in$ormación sobre la que contendría una tabla de $recuencias* el objetivo de las grá$icas es que la

in$ormación <impacte= directamente al lector y que se e(prese el <per$il= de la distribución, pero no debeolvidarse el rigor en aras de la est'tica/ las grá$icas deben re$lejar $ielmente lo que tratan de representar,$undamentalmente las $recuencias de cada modalidad o valor. or ello la regla $undamental para laconstrucción de una grá$ica es que/

"as reas /o lon0itudes1 an de ser proporcionales a las frecuencias3

condición ine(cusable para que una grá$ica sea correcta.

,

Page 5: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 5/8

4demás, con carácter general puede recomendarse que el pie de la grá$ica e(pliqueconvenientemente de qu' se trata, que no se intente representar demasiada in$ormación en una sola grá$ica,que los detalles sean lo su$icientemente visibles, etc.

E(isten diversos tipos de grá$icas, cada uno de ellos adecuado a un cierto tipo de variables, por loque podemos clasi$icar las grá$icas atendiendo a estos tipos.

4sí, para caracteres o variables &:424254S se pueden mencionar/

0 El dia0ra+a de barras o rectn0ulos, consistente en asociar a cada modalidad de la variable unrectángulo cuya super$icie re$leje su $recuencia/ las modalidades se suelen situar en horiontal y laescala de $recuencias absolutas o relativas en vertical. Si las bases de los rectángulos se dibujantodas iguales, par cumplir la regla $undamental antes citada basta tomar como alturas de losrectángulos directamente las $recuencias, sin mayor complicación %el rectángulo de una modalidadcon $recuencia tendrá altura y así con todas). os rectángulos suelen representarse separados eneste tipo de grá$icas, que tambi'n pueden aparecer con las barras horiontales y las modalidadessituadas verticalmente.

0 El dia0ra+a de sectores, que re$leja como sectores de un círculo las $recuencias de cadamodalidad. &omo el radio es constante en un círculo, para cumplir la regla $undamental de

 proporcionalidad basta hacer al ángulo de cada sector proporcional a la $recuencia, lo que seconsigue multiplicando los @!DN del círculo por la $recuencia relativa de cada modalidad. Este tipode grá$icas es muy -til para comparar los resultados de una variable cualitativa en dos o másmuestras.

Gay otras grá$icas menos $recuentes pero igualmente válidas para variables cualitativas* cabe citar lospicto0ra+as, en los que se representa una misma $igura para cada modalidad pero con tama#o

 proporcional a las $recuencias %pictograma por e(tensión) o una misma $igura repetida tantas vecescomo sea necesario para re$lejar la $recuencia de cada modalidad %pictograma por repetición), loscarto0ra+as, en los que se representa cada modalidad sobre puntos o regiones de un mapa, o losdia0ra+as de superficie, en los que se divide una $igura geom'trica, generalmente un rectángulo, entroos proporcionales a las $recuencias.

or su parte, para variables &:4A224254S los tipos de grá$icas más importantes son lossiguientes/

0 ara variables discretas, el dia0ra+a de se0+entos. as variables discretas toman valores aislados,como puntos sueltos, en la <recta de los n-meros=* 'sta suele representarse horiontalmente con losvalores negativos a la iquierda del cero y los positivos a la derecha* por esos puntos sueltos, lagrá$ica adecuada para las variables discretas es el diagrama de segmentos, en el que sobre cadavalor de la variable se coloca verticalmente un segmento que tiene una longitud proporcional a su$recuencia* así se consigue que la abscisa %horiontal) re$leje los valores y que la ordenada %vertical)e(prese las $recuencias de la variable. Es lo mismo usar para ello $recuencias absolutas o relativas,ya que las dos clases de $recuencias son a su ve proporcionales por la propia de$inición de$recuencia relativa* por ello podemos hacer el diagrama con $recuencias absolutas o relativas, avoluntad. Ounto con el diagrama de segmentos, puede dibujarse una línea quebrada que una lose(tremos superiores de los segmentos, que se llama polí0ono de frecuencias* a veces este polígono%que matemáticamente no es tal, sino una <poligonal=) se representa sólo, como si se hubieran

 borrado los segmentos verticales. El polígono de $recuencias tambi'n puede usarse junto con/0 El isto0ra+a o isto0ra+a de rectn0ulos, que es la grá$ica adecuada para representar  variables

cuantitativas continuas. Estas variables cubren teóricamente con sus valores a la recta de losn-meros reales, o al menos de un cierto intervalo, de manera que <in$initamente= junto a un valor se encontraría otro y no se producen <saltos= entre ellos. En la práctica, esto se traduce en que casisiempre se maneja un gran n-mero de valores distintos y ello hace poco adecuado para estasvariables un diagrama de segmentos* por ello, y para respetar la continuidad de la variable, lo quese hace es agrupar los valores en intervalos y grá$icamente se representan rectángulos yu(tapuestoscuyas bases descansan sobre la horiontal y cuyas alturas son tales que el área de cada rectángulo

4

Page 6: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 6/8

sea proporcional a la $recuencia de cada intervalo. 4 veces estos histogramas son llamadoserróneamente diagramas de barras.

4. PAAMETOS DE %&A DISTI!%$IO&

Se trata de resumir más la in$ormación de una tabla o de una grá$ica, y de encontrar algunos valores

lo más simples posible que nos permitan dar in$ormación sobre la muestra o comparar dos muestras entre sí.ara hacer ese resumen o in$ormación de los datos hay tres en$oques $undamentales/

0 En primer lugar, dar un valor lo más representativo posible de todos los valores de la muestra, que nosea, por tanto, ni de los más bajos ni de los más altos. 4sí se crean las medidas ó parámetros decentraliación, tendencia central o posición central.

0 En segundo lugar, y como complemento a lo anterior, dar una valoración de hasta qu' punto los datos se parecen entre sí o bien están muy di$erenciados %dispersos)* además, cuanto más se parecan entre sí losvalores que nos salen, más se parecerán al representante o parámetro de centraliación que elijamos, ymejor sería 'ste. or todo esto conviene medir las di$erencias internas de los datos mediante las medidasó parámetros de dispersión.

0 1inalmente, en tercer lugar, se puede tambi'n tratar de medir qu' valor supera a una cierta porción o proporción de valores, o lo que es lo mismo, tratar de in$ormar sobre la distribución de la variablediciendo a cuántos de sus valores supera uno dado. ara ello se usan los cuantiles como medidas ó

 parámetros de posición.

+e$iniremos a continuación los más importantes entre todos los parámetros de estos tres tipos y para ilustrar su cálculo usaremos el ejemplo siguiente, donde los datos son el n-mero de hermanos %e(cluido 'l mismo) deuna muestra de >@ ni#os* presentamos los datos ordenados de menor a mayor para mejor comprensión, peroen principio los datos nos vendrían en cualquier orden. Supongamos que son los siguientes/

D D D D > > > ? ? @ B "

5amos a de$inir ahora las medidas más importantes/

rimer grupo/ PAAMETOS DE $E&TA"I5A$IO&.

Entre los parámetros de centraliación, tambi'n llamados de tendencia central o de posición central,tres son las de$iniciones destacables/

a MODA/ es el valor de la variable que tiene mayor $recuencia en la muestra, es decir, el que se repite más%moda se asocia con lo más $recuente). En nuestro ejemplo es el valor D, que tiene una $recuencia absolutade cuatro, que es la más grande. a moda puede de$inirse para cualquier tipo de variables. 2ambi'n se puedehablar de moda local o secundaria, que sería cualquier valor más $recuente que sus adyacentes, es decir, conmás $recuencia que la que tengan el anterior y el posterior, lo que requiere al menos orden en los datos* nohay ninguna moda secundaria en nuestro ejemplo.

a MEDIA&A/ es el valor que está en el centro de la distribución, es decir, el valor que supera a la mitad de

los de la muestra y se ve superado por la otra mitad %salvo empates en ambos casos)* se calcula buscando elvalor de la muestra que ocupa el lugar %nM>)I?, con los datos ordenados. En nuestro ejemplo es el valor >,que corresponde al s'ptimo lugar %que deja seis por debajo y seis por encima). a mediana no puedede$inirse para variables cualitativas puras, sino sólo para ordinales y cuantitativas, ya que necesita un ordenen los datos.

a MEDIA ó 3E+4 4623E2&4/ es el centro de gravedad de la distribución, o $iel de la balana entretodos los datos. Se calcula sumando los datos y dividiendo entre el tama#o de la muestra, esto es, entre eln-mero de datos. En nuestro ejemplo, la suma de los datos es ?! y el n-mero de ellos >@, de $orma que lamedia vale ?!I>@ J ?.DD * por su propia naturalea, la media sólo es de$inible para variables cuantitativas, ya

6

Page 7: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 7/8

que si no hay n-meros no se puede sumar. Es la más importante de las medidas de centraliación y engeneral de todos los parámetros estadísticos y al ser centro de gravedad tiene la propiedad de que si hallamoslas di$erencias de cada dato con ella %llamadas desviaciones), la suma de estas di$erencias o desviaciones esSE36E &E6; para cualquier distribución de cualquier variable, lo que resulta clave para la de$inición delas medidas de dispersión. En nuestro ejemplo, con media de ?, las desviaciones %que se obtienen restandocada dato menos la media) son/

0? 0? 0? 0? 0> 0> 0> D D M> M? M @ M"

que como puede calcularse suman cero %las negativas, que proceden de datos in$eriores a la media, suman P >>, y las positivas, que proceden de datos superiores a la media, suman M>>, de modo que todas suman D).

E(isten otras medidas de centraliación de uso menos $recuente, como la media ponderada %que esuna media aritm'tica con distintos pesos de importancia para los distintos datos), la media geom'trica %raíen'sima del producto de los datos) o la media armónica %la inversa de la media aritm'tica de los inversos delos datos).

Segundo grupo/ PAAMETOS DE DISPESIO&.

or su parte, las medidas de dispersión se basan en la idea de medir las di$erencias entre unos datos y otrosmidiendo las di$erencias de cada dato con la media, esto es, usando las desviaciones* sin embargo, como'stas siempre suman cero, es preciso considerar su valor absoluto o su cuadrado para que ello no ocurra%serían ya todas positivas). as más importantes medidas de dispersión son las siguientes/

a DESVIA$IO& A!SO"%TA MEDIA/ es la media aritm'tica de los valores absolutos de lasdesviaciones, por lo que se calcula tomando como positivas todas las desviaciones, sumándolas y dividiendoentre n* en nuestro ejemplo la suma de los valores absolutos %no con$undir con $recuencias absolutas, que notiene nada que ver) sale ?? y por tanto la desviación absoluta media vale ??I>@ J >.!C * el tener que usar valores absolutos complica los desarrollos matemáticos con este parámetro y por eso se usa poco, pese a suvalor intuitivo. Es mucho más importante/

a VAIA&5A/ es la media aritm'tica de los cuadrados de las desviaciones, por lo que se calcula elevandoal cuadrado cada desviación, sumando esos cuadrados y dividiendo entre n* en nuestro ejemplo resulta "H lasuma de cuadrados de las desviaciones, con lo que la variana es "HI>@ J B.B! * el cuadrado esmatemáticamente mucho más manejable que el valor absoluto, lo que hace de la variana la reina de los

 parámetros de dispersión desde un punto de vista teórico. Sin embargo, el hecho de que careca deinterpretación intuitiva y que sus unidades sean cuadradas %Qhermanos cuadradosR) hace que es la práctica seuse mucho más su raí cuadrada, la DESVIA$IO& STA&DAD o DESVIA$IO& TIPI$A, con mucho lamás usada de las medidas de dispersión, y que en nuestro ejemplo valdría ?.>>, con lo que el in$orme máshabitual para nuestros datos daría una media de ?.DD y la desviación típica de ?.>> como parámetros másin$ormativos. or motivos di$íciles de e(plicar aquí, relacionados con cuestiones de in$erencia estadística, esmás recomendable usar el denominador n0> en lugar del n al calcular la variana y la desviación típica deuna muestra, quedándose el n para el caso en que se conoce toda la población* en nuestro ejemplo, pues,sería mejor calcular como variana "HI>? J B.H@ y como desviación standard su raí cuadrada ?.?D %estos-ltimos serían la variana muestral o quasivariana y la desviación típica muestral y serían los utiliados enla práctica, aunque la de$inición teórica sea con denominador n por ser la variana una LmediaL). 4 e$ectoscomparativos entre distintas muestras e incluso entre distintas variables, se de$ine/

El $OE(I$IE&TE DE VAIA$IO&, que es el cociente, a menudo e(presado en tanto por ciento, entre ladesviación típica y la media de una distribución. Es una especie de desviación típica <relativa=, y en nuestroejemplo valdría ?.?D>>I?.DD J >.>DDD"" ó bien >>DD".D"K %nótese que no es un verdadero porcentaje,

 porque puede valer más del >DDK)* este resultado indicaría mucha dispersión en los datos del ejemplo enrelación con la media.

4demás de las citadas, la más simple de las medidas de dispersión es el A&-O, E$OIDO óAMP"IT%D, que es la di$erencia entre el valor má(imo y el mínimo de la muestra, y que indica qu'e(tensión de la recta de los n-meros ocupan los datos de nuestra muestra.

7

Page 8: Estadistica Descriptiva Una Variable

7/24/2019 Estadistica Descriptiva Una Variable

http://slidepdf.com/reader/full/estadistica-descriptiva-una-variable 8/8

2ercer grupo/ $%A&TI"ES ; 4643E26;S +E ;S&;A

os cuantiles completan el cuadro de los parámetros de una distribución. En cierto modo pueden ser considerados como medidas de centraliación %de hecho la mediana es uno de ellos) y tambi'n comomedidas de dispersión %algunas pueden construirse a partir de ellos) pero en realidad son medidas de

 posición. Se de$ine el cuantil p como aquel valor de la variable %que puede estar o no en la muestra) quesupera al pK de los datos de la muestra* resultan -tiles sólo cuando la muestra es numerosa y permiten saber en que <posición= se encuentra un valor dado con respecto al conjunto de una muestra o población. Sede$inen entre los más importantes/

os $%ATI"ES, que de$inen las cuartas partes de la muestra mediante tres <cortes=/ el primer cuartil deja por debajo al ?"K de la distribución, el segundo coincide con la mediana y el tercero deja por debajo al "Kde la distribución. Ao tienen mucho sentido en muestras peque#as, pero en nuestro ejemplo valdríanrespectivamente D, > y @." %que están situados en las posiciones <tercera y media=, s'ptima y <d'cima ymedia= de los datos ordenados).

os DE$I"ES, que dan nueve cortes para de$inir de die en die por ciento los valores de la distribución*así, el primer decil deja por debajo una d'cima parte de la distribución, el segundo dos d'cimas partes, etc.,hasta nueve deciles.

os PE$E&TI"ES, que son como los deciles pero de uno en uno por ciento, y por tanto son noventa ynueve* por ejemplo, el percentil @ deja por debajo al @K de la distribución, y está claro que no tienensentido en muestras tan peque#as como la de nuestro ejemplo, ya que trece elementos no se pueden <partir=en cien partes.

2odos los cuantiles son de$inibles sobre variables cuantitativas o sobre cualitativas ordinales, porquerequieren siempre que los datos est'n ordenados.

os cuantiles más pró(imos al percentil "D, como la propia mediana o los cercanos a ella, puedenconsiderarse como parámetros de centraliación y sin embargo los más lejanos al centro ayudan a medir ladispersión* por ejemplo, si restamos el tercer cuartil menos el primero obtenemos el A&-OI&TE$%AT8"I$O, que es una medida de dispersión. &on el rango intercuartílico estamos midiendo lae(tensión que nos cubre la mitad central de nuestros datos* recu'rdese que el 64A8; era la e(tensióncubierta por toda la muestra ordenada %se de$ine como má(imo menos mínimo), mientras que el 64A8;A2E6&:462&; es la e(tensión cubierta por la mitad central de los datos ordenados, e(cluyendo lacuarta parte inicial %los que son in$eriores al primer cuartil) y la cuarta parte $inal %los que son superiores altercer cuartil).

CognoSfera

www.ugr.es/local/rruizb/cognosfera

9