estadiatica unidimensional y bidimensional

12
ESTADÍSTICA DESCRIPTIVA Concepto v finalidad En los municipios existen unos censos de los ciudadanos con datos de su edad, sexo, residencia, trabajo, etc. Pero si se desea conocer, para lanzar un producto nuevo, el gusto de los consumidores, esto no se puede obtener del censo, hay que realizar una encuesta a los ciudadanos. La Estadística se ocupa de una vez recogidos los datos, ordenarlos y clasificarlos para extraer conclusiones. E inclusa tratar de encontrar las leyes que explique un determinado comportamiento de un fenómeno. Podemos distinguir dos aspectos de la Estadística: - Estadística Descriptiva: estudia las técnicas de ordenación, clasificación, recuento y presentación de datos en tablas y gráficas, y de obtener valores que resuman la información. - Estadística Inferencial: estudia las técnicas de obtención de conclusiones a partir de los datos de una muestra. Elementos de la Estadística Al realizar un estudio estadístico tenemos que conocer: - Población : Es el conjunto de elementos que poseen una determinada característica que deseamos medir o estudiar. - Muestra : Muchas veces nos será imposible estudiar a todos !os individuos de una población. Lo que hacemos entonces, es seleccionar un subconjunto de esa población. A este subconjunto es a lo que llamamos muestra. Este subconjunto debe elegirse al azar, es decir, aleatoriamente. Al nº de elementos de una muestra se le denomina tamaño de la muestra . - Carácter : Es la característica que se va a estudiar en la población. Según como sea esa característica, se pueden dividir en: - Cuantitativos: son aquellas que se pueden cuantificar, como la edad, peso, n° de hijos, etc.. Estas a su vez se dividen en dos: - Cualitativos: cuando se refiere a atributos(algo no medible), lugar de nacimiento, color pelo, año de edición de un obro, etc.. - Modalidad : cada una de las diferentes situaciones posibles de un carácter. Si el carácter es carrera que vais a estudiar tenemos, derecho, económicas, informática, matemáticas, ingeniería,… - Variable estadística: es el conjunto de valores que toma un carácter estadístico. Las variables estadísticas suelen ser: Discretas: cuando sólo toma valores enteros, o un n° finito de valores reales. Continuas: cuando pueden tomar cualquier valor real dentro de un intervalo Recogida de datos Veamos con un ejemplo qué significa seleccionar la muestra aleatoriamente. Supongamos que en una envasadora de botellas queremos comprobar que el proceso es correcto, para ello vamos a escoger una muestra. Si diariamente se envasan 300 cajas con 24 botellas cada caja y nosotros queremos escoger una muestra de 50 botellas, no vamos a tomar ni las primeras 50 botellas, ni botellas de las 10 primeras cajas.

Upload: aerandres

Post on 29-Jun-2015

2.265 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Estadiatica unidimensional y bidimensional

ESTADÍSTICA DESCRIPTIVA

Concepto v finalidad En los municipios existen unos censos de los ciudadanos con datos de su

edad, sexo, residencia, trabajo, etc. Pero si se desea conocer, para lanzar unproducto nuevo, el gusto de los consumidores, esto no se puede obtener del censo,hay que realizar una encuesta a los ciudadanos. La Estadística se ocupa de una vezrecogidos los datos, ordenarlos y clasificarlos para extraer conclusiones. E inclusatratar de encontrar las leyes que explique un determinado comportamiento de unfenómeno.

Podemos distinguir dos aspectos de la Estadística:- Estadística Descriptiva: estudia las técnicas de ordenación, clasificación,

recuento y presentación de datos en tablas y gráficas, y de obtener valores queresuman la información.

- Estadística Inferencial: estudia las técnicas de obtención de conclusiones apartir de los datos de una muestra.

Elementos de la Estadística Al realizar un estudio estadístico tenemos que conocer: - Población : Es el conjunto de elementos que poseen una determinada

característica que deseamos medir o estudiar.- Muestra : Muchas veces nos será imposible estudiar a todos !os individuos

de una población. Lo que hacemos entonces, es seleccionar unsubconjunto de esa población. A este subconjunto es a lo que llamamosmuestra. Este subconjunto debe elegirse al azar, es decir, aleatoriamente.Al nº de elementos de una muestra se le denomina tamaño de la muestra.

- Carácter : Es la característica que se va a estudiar en la población. Segúncomo sea esa característica, se pueden dividir en:

- Cuantitativos: son aquellas que se pueden cuantificar, como la edad,peso, n° de hijos, etc.. Estas a su vez se dividen en dos:

- Cualitativos: cuando se refiere a atributos(algo no medible), lugar denacimiento, color pelo, año de edición de un obro, etc..

- Modalidad : cada una de las diferentes situaciones posibles de un carácter.Si el carácter es carrera que vais a estudiar tenemos, derecho, económicas,informática, matemáticas, ingeniería,…

- Variable estadística: es el conjunto de valores que toma un carácterestadístico. Las variables estadísticas suelen ser:

Discretas: cuando sólo toma valores enteros, o un n° finito de valoresreales.

Continuas: cuando pueden tomar cualquier valor real dentro de unintervalo

Recogida de datosVeamos con un ejemplo qué significa seleccionar la muestra aleatoriamente.

Supongamos que en una envasadora de botellas queremos comprobar que elproceso es correcto, para ello vamos a escoger una muestra. Si diariamente seenvasan 300 cajas con 24 botellas cada caja y nosotros queremos escoger unamuestra de 50 botellas, no vamos a tomar ni las primeras 50 botellas, ni botellas delas 10 primeras cajas.

Page 2: Estadiatica unidimensional y bidimensional

Lo que se puede hacer es un sorteo, de entre todas las cajas se eligen 50, y decada caja se elige una botella, por ejemplo, la botella nº 13 de cada caja escogida.

Recuento y clasificaciónSupongamos que tenernos ya elegida una muestra de tamaño N y tenemos los

datos de la variable que vamos a estudiar. Si N no es muy grande. a simple vistapodríamos sacar conclusiones, pero si es muy grande, así no podemos observarnada.

Lo que hacemos es ordenar los valores obtenidos según algún criterio, aunque

nos aparezcan repetidos. Si a la variable le llamamos X, cada valor observado se

denota por xi. Surgen los siguientes conceptos:

Frecuencia absoluta del valor xi de una variable X, es el n° de veces que dicho valor

aparece en la muestra. Se representa por fi y se tiene que verificar que:

f 1 f 2.....=N

Frecuencia relativa del valor xi al cociente

fr i=f i

N Frecuencia absoluta acumulada del valor xi, al n° de veces que se han presentado

valores inferiores o iguales a xi; es la suma de todas las frecuencias absolutas

inferiores o iguales y se denota por Fi.

Frecuencia relativa acumulada del valor xi a la suma de todas las frecuencias

relativas de todos los valores inferiores o iguales a xi. Se representa

por Fri. Además como vimos que

f 1 f 2.....=N fr1 fr2......=f 1

N

f 2

N......=

fr1 fr2.....N

=1

Ejemplo: En una encuesta hecha a 115 matrimonios sobre el n° de hijos se han obtenido lossiguientes resultados:

N° hijos O 1 2 3 4 5 6

Matrimonios 4 19 43 33 12 3 1

En este caso la variable X es el n° de hijos, es por tanto una variable discreta.Veamos todas las frecuencias.

Xi fi fri % Fi Fri

0 4 0.035 3.5 4 0.0351 19 0.165 16.5 23 0.1992 43 0.374 37.4 66 0.5743 33 0.287 28.7 99 0.861

Page 3: Estadiatica unidimensional y bidimensional

4 12 0.104 10.4 111 0.9655 3 0.026 2.6 114 0.9916 1 0.009 0.9 115 1

En este ejemplo hemos estudiado una variable discreta, sólo toma un número finitode valores. Veamos que ocurre si la variable es continua, es decir, tomo muchosvalores y no son enteros.

Ejemplo: Los contenidos en cc de las 50 botellas que hemos elegidos de la envasadora son:197, 187, 202, ... Los datos, como son muchos y muy distintos los agrupamos en intervalos. Miramoslos datos, el mayor es 213 y el menor 182, podemos considerar los datos de 180 a215 y tomamos intervalos de amplitud 5.

Clase xi fi fri

[180, 185) 182.5 3 0.06[185, 190) 187.5 6 0.12[190, 195) 192.5 5 0.1[195, 200) 197.5 16 0.32[200, 205) 202.5 15 0.3[205, 210) 207.5 3 0.06[210, 215) 212.5 2 0.04

Todos los valores que están en un intervalo o clase se identifican con el valor centralde éste, que se denomina marca de clase.

Representación gráficaUna vez clasificados los datos, para verlos mejor, se usa la representación

gráfica, que es más impactante y puede llegar a ser más comprensiblePara el caso de variable discreta tenemos las siguientes representaciones:

Diagrama de barras: consideramos unos ejes de coordenadas, donde en un eje seponen los valore de la variable y en otro la frecuencia absoluta. En cada valor de lavariable levantamos un segmento o barra de longitud igual a la frecuencia absoluta.

0 1 2 3 4 5 60

5

10

15

20

25

30

35

40

45

Título principal

Page 4: Estadiatica unidimensional y bidimensional

Véase la figura adjunta que corresponde al ejemplo anterior, donde se observa conmás facilidad que valor de la variable predomina.

Polígono de frecuencias: es el que se obtiene al unir los extremos del diagrama de

barras. Lo podemos observar en la figura que sale a continuación:

Igualmente se pueden hacer los diagramas de barras con las frecuenciasacumuladas y los polígonos de frecuencias acumuladas.

Histogramas: son las representaciones que se hacen cuando la variable escontinua. En cada intervalo o clase se levanta un rectángulo de área proporcional a lafrecuencia absoluta. Cuando los intervalos son de la misma longitud la altura deltriángulo se toma como la frecuencia absoluta, pero cuando son de amplitud distinta,se toma la frecuencia absoluta dividida entre la amplitud de cada intervalo.

Diagrama de sectores: es la representación que se usa cuando la variable escualitativa, por ejemplo color del coche, aunque también se puede usar en variablediscreta. Para este tipo de variable existe otro tipo de representación que se llamaPictograma.

0 1 2 3 4 5 60

5

10

15

20

25

30

35

40

45

Título principal

Título principal

0

1

2

3

4

5

6

Page 5: Estadiatica unidimensional y bidimensional

Parámetros de centralización Las representaciones que hemos visto, producen un impacto visual, pero nos

puede interesar muchas veces dar la información en valores. Existen los llamadosparámetros estadísticos, que se dividen en 3 tipos: de centralización, posición  y dedispersión. Nos ocupamos ahora de los primeros, que son ciertos valores numéricosque tienden a situarse en general hacia el centro del conjunto de datos ordenados.

Page 6: Estadiatica unidimensional y bidimensional

- Media: es la medía aritmética. De un conjunto de N observaciones de unavariable cuantitativa X, es el valor que se obtiene al dividir la suma de todos losvalores de la variable por el n° total N. Se denota como x .

Si x1 , x2 , x3, , xn son los valores de la variable tenemos:

x=x1⋯x1x2⋯x2⋯xn

N, como cada valor lo estamos sumando una serie de

veces, que coincide con la frecuencia absoluta, podemos multiplicar cada valor por sufrecuencia:

x=x1⋅f 1x2⋅f 2⋯xn⋅f n

N=∑i=1

n

xi⋅f i

N

En el caso en que la variable sea continua, como no tenemos los valoresconcretos de la variable, tomamos como xi las marcas de clase. El cálculo es elmismo.

Propiedad: Si tenemos otra variable Y que verifica, Y=aX+b, entonces para lamedia se verifica la misma relación: y=a xb

- .Moda: es el valor más frecuente de la variable estadística, el que más se repite. Si la variable es discreta, la moda corresponde al valor de mayor frecuencia

absoluta. Puede ocurrir que este valor sea único, en ese caso la variable se llamaunimodal, o puede ser que halla más de uno, se llama entonces bimodal si hay dos omultimodal si hay más.

Si la variable es continua, sólo podemos definir aquel intervalo que tiene mayorfrecuencia, que se llama intervalo modal o dar cual es la clase modal.

- .Mediana: es el valor de la variable que divide a la muestra en dos partes iguales,supuesta la muestra ordenada. Veamos el cálculo para cada uno de los casos.

V. Discreta: Encontramos el valor central de la muestra, dividiendo el tamaño

de ésta en dos; N2

.Aquí tenemos que distinguir dos casos, que el tamaño sea par o

sea impar: - N par: Tomamos el valor xi cuya frecuencia absoluta acumulada

corresponde a N2

y el valor que ocupa el siguiente lugar y hacemos la

media de los dos.- N impar: tomamos como mediana el valor que tiene por frecuencia absoluta

acumulada N1

2

V. continua: Al igual que con la moda, aquí determinamos un intervalo de claseque ocupe el lugar central de la muestra, al que denominamos intervalo mediano, y apartir de él, mediante una fórmula, determinamos un valor exacto para la mediana.

M e=Lic⋅

N2−F i−1

f i

, donde tenemos:

Page 7: Estadiatica unidimensional y bidimensional

Li : es el límite inferior del intervalo c: es la amplitud del intervalo de clase N2

: el lugar que ocupa la mediana en la muestra

F i−1 : la frecuencia absoluta acumulada del intervalo anteriorf i : la frecuencia absoluta del intervalo mediano.

Parámetros de posición Hemos visto que la mediana divide a la muestra en dos partes iguales, se sitúa en elcentro de ella. Igualmente podemos encontrar valores que se sitúen en otrasposiciones determinadas de la muestra. Cuartiles: dividen a la muestra en cuatro partes iguales, y son 3: Q1 ,Q2 yQ3 , dondeQ2=M e . Qué significan, por debajo del primer cuartil está el 25% de la muestra, delsegundo el 50% y del tercero el 75%.

Deciles: la dividen en 10 partes iguales, D1 , D2 ,.... D10

Percentiles: la dividen en 100 partes, P1 , P2 , , P100

El cálculo de estos parámetros es similar al cálculo de la mediana, lo único que hayque hacer es ir mirando la posición que tiene que ocupar cada uno, y eso es lo quevaría en la fórmula de cada uno respecto de la de la mediana.

Parámetros de dispersión Ocurre muchas veces que dos muestras distintas de una misma variable, tienen losmismos parámetros de centralización, pero una está más repartida a lo largo de losposibles valores que puede tomar la muestra, mientras que la otra se concentra másalrededor de los valores centrales. - Rango: o recorrido, es la diferencia entre el mayor y el menor de los valoresobservados, R=xn−x1  Si los valores extremos están muy alejados, lo que se usa es el rango intercuartílico,Q=Q3−Q1

- Desviación media: Si tenemos calculada la media x ,la desviación de un valor xi

respecto de la media es la diferencia que hay con la media: xi - x .  La desviación

absoluta, es el valor absoluto de las desviaciones: ∣x ­xi∣Definimos ya la desviación media como la media aritmética de todas las desviacionesabsolutas:

DM=∑i=1

n

∣xi−x∣

N

-Varianza: un modo natural de medir la dispersión en torno a la media es calcular la

media de las diferencias. ∑i=1

n

xi−x ⋅f i

NPero hay un inconveniente, que puede haber compensación, al ser unas positivas yotras negativas, con lo cual tomamos esas diferencias al cuadrado y obtenemos:

Page 8: Estadiatica unidimensional y bidimensional

S2=∑i=1

n

xi−x 2⋅f i

N- Desviación típica: es la raíz cuadrada de la varianza:

S=∑i=1

n

xi−x 2⋅f i

N

- Coeficiente de variación: para poder comparar la dispersión de dos poblacionesdistintas, no nos sirve la desviación típica. Para ello definimos esta nueva medida dedispersión que se llama coeficiente de variación:

CV=sx

Esta medida no tiene unidades.Ejemplo: Toros de lidia de una ganadería, x1=510 kg y s1=25 kg

Perros de una exposición canina, x2=19 kg y s2=10 kgLa desviación típica de los toros es mayor, pero si miramos el peso medio es unainsignificancia. Hacemos entonces el coeficiente de variación:

CV1=0.049 CV2=0.526Luego hay mayor dispersión en los perros.

Page 9: Estadiatica unidimensional y bidimensional

DISTRIBUCIONES BIDIMENSIONALES

Sobre una misma muestra se pueden estudiar 2 o más variablessimultáneamente. variando ambas a la vez. Este estudio se realiza para averiguar siexiste alguna relación entre las variables estudiadas, es decir, si conociendo una sepuede predecir la otra.

Como ejemplos podemos considerar: peso y altura de un grupo de personas, grosor y peso de monedas, punto de fusión y punto de ebullición de productos químicos notas de matemáticas y filosofía de un grupo de alumnos. Si notamos que existe una relación entre las dos variables que se miden,

intentaremos dar una medida que nos de el grado de relación existente. Ademásdaremos una ecuación matemática que describa con más o menos exactitud larelación.

Cuando estamos en estos casos, para representar los datos tenemos dosposibilidades:

- Cuando el número de observaciones es pequeño, nos basta con una tablaigual que hemos visto en el tema anterior, donde añadimos una columna más para laotra variable. Por ejemplo, los pesos y alturas de lO alumnos de Bachilleratoseleccionados al azar:

Peso 76 86 77 86 65 46 46 60 60 60 Altura 191 178 177 167 181 165 1 66 168 174 168 - Pero cuando el número de observaciones es muy grande, no terminaríamos

nunca así, con lo cual se toma una tabla de doble entrada, en la que en la casilla decruce se pone el nª de veces que se repite cada par de valores. Por ejemplo, el n° dehijos e hilas de 100 matrimonios:

HijosHijas

0 1 2 3 4

0 10 12 9 6 11 9 10 8 2 22 6 8 4 2 13 2 3 2 1 04 0 1 0 1 0

Así, podemos decir que hay 12 matrimonios que tienen un hijo, pero no tienen hijas.

La relación que ruede haber entre dos variables es: una total independencia una de laotra, una dependencia funcional, o una relación intermedia que se denominacorrelación. - Diagramas de dispersión: El primer paso para ver si hay correlación consiste enrepresentarla gráficamente. Este gráfico recibe el nombre de nube de puntos.Podemos verlo en el ejemplo de los pesos y estaturas:

Page 10: Estadiatica unidimensional y bidimensional

Parámetros estadísticosLo que pretendemos es obtener una medida numérica que nos de el grado decorrelación existente y con ellas intentar dar la mejor relación funcional, ecuaciónmatemática, que se usa para describirla.Las variables las denotamos por X e Y y los valores son los pares xi , yi

• Medidas marginales: son los parámetros estadísticos de cada una de lascomponentes por separado.

- Media: las medias marginales, x , y son las medias de la primera y segundacoordenada, y x , y es el centro de gravedad de la distribución.

- Desviación típica: las desviaciones típicas marginales son las desviaciones decada variable, sx y sy

• Covarianza: es la varianza conjunta de la distribución bidimensional, y secalcula del siguiente modo:

S xy=∑i=1

n

xi−x yi−y N

=∑i=1

n

xi yi

N−x y

Con la covarianza podemos ver ya si la correlación será directa o inversa yademás si es un número muy grande, veremos si es fuerte.

• Coeficiente de correlación: se denota por r y se calcula del siguiente modo:

r=sxy

sx sy

Tiene las siguientes propiedades:- No tiene dimensión, es decir, no depende de las unidades en las que se

expresen las dos variables, si estas cambian, r no cambia.- Es un valor entre 1 y –1. Si se acerca a estos valores la correlación es

fuerte. Si está próximo a cero es débil. Si es 1 o –1 entonces es perfecta.

• Regresión: se llama línea de regresión a la curva que mejor se ajusta a la nubede puntos, es una línea ideal en torno a la cual se distribuyen los puntos de lanube. Nos limitaremos al cálculo de una recta, que recibe el nombre de rectade regresión de Y sobre X, y se calcula del siguiente modo:

Peso Altura

0

50

100

150

200

250

0 20 40 60 80 100

Peso Altura

Page 11: Estadiatica unidimensional y bidimensional

y−y=S xy

S x2 x−x

Y la de X sobre Y sería:

x−x=S xy

S y2 y−y

La recta de regresión se amolda a la regresión y describe más o menos sutendencia, por ello, se usa para predecir la variable dependiente a partir de laindependiente, normalmente x. Al predecir un valor a partir de otro, podemos cometerun error, este será mayor, mientras más nos alejemos de la media y más débil sea lacorrelación.

Page 12: Estadiatica unidimensional y bidimensional

Ejemplo 1: Los pesos y las alturas de 12 alumnos son las siguientes:

Peso 70 63 72 60 66 70 74 65 62 67 65 68 Altura 15

5 150 180 135 156 168 178 160 132 145 139 152

a) Hallar el coeficiente de corre1ación lineal.( x= 66.83 y y= 154.16)b) Calcular la recta de regresión.c) Representar el diagrama de dispersión y la recta de regresión.d) Estimar la altura de un estudiante que pesa 64kg.

Ejemplo 2: Los gastos mensuales (en miles de pesetas) de 50 familias según el número de hijosse expresan en la tabla siguiente:

HijosGastos

0 1 2 3

50-80 4 3 1 080-100 6 7 8 4

100-150 2 3 3 4150-300 0 1 1 3

a) Calcula el gasto medio de una familia con 3 hijos y de una familia sin hijos,b) Utiliza la recta de regresión adecuada para calcular el gasto esperado de

una familia de 4 hijos. c) Razona la fiabilidad de la predicción anterior .