tema 6. estadÍstica · pictograma. para variables cualitativas o cuantitativas discretas. es como...

11
2º GES T.6 - ESTADÍSTICA 1 TEMA 6. ESTADÍSTICA La estadística, a nivel primario, es una actividad que todo el mundo hace desde muy pequeño. El mero hecho de contar y/o clasificar tus juguetes (tus coches, muñecas/os, canicas, videojuegos,…) ya es una actividad estadística. En esta sociedad resulta imprescindible disponer de técnicas que permitan obtener, de forma sencilla y fiable, información de los diferentes conjuntos de datos con los que nos encontramos. Uno de los objetivos de la estadística es extraer información de un conjunto de observaciones (recogidas mediante experimentos o encuestas). Y el procedimiento habitual es resumir los datos. Estos resúmenes pueden ser gráficos (como los diagramas de barras o los histogramas) o numéricos (como la media, mediana o desviación típica). Recordemos algunos conceptos básicos: Población y Muestra Cuando se hace un estudio estadístico el investigador decide si analizará toda la población o una muestra elegida previamente. POBLACIÓN es el conjunto de individuos sobre el que se hace un estudio estadístico. Desde el punto de vista estadístico, una población podría ser tanto los habitantes de una ciudad como los coches que se fabrican en una determinada factoría. MUESTRA es un subconjunto (una parte) de la población. Muchas veces es imposible estudiar el total de los elementos de una población, bien porque es una cantidad extremadamente grande, bien porque depende de procesos aleatorios, etc… Por eso, en la mayoría de los casos nos limitamos a estudiar un grupo de elementos de la población, que llamamos muestra. El estudio de una muestra sirve para sacar conclusiones sobre toda la población. Debe elegirse que sea representativa de toda la población en la característica estudiada. Generalmente elegimos muestras aleatorias, es decir, en las que sus elementos se escogen al azar, mediante algún tipo de sorteo. De esta forma, la muestra es representativa de toda la población. CENSO: Cuando se estudia toda la población, se dice que estamos haciendo un censo de la misma. INDIVÍDUO: Es cada uno de los elementos que forman la población o la muestra.

Upload: others

Post on 11-Mar-2020

23 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

1

TEMA 6. ESTADÍSTICA La estadística, a nivel primario, es una actividad que todo el mundo hace desde muy pequeño. El mero hecho de contar y/o clasificar tus juguetes (tus coches, muñecas/os, canicas, videojuegos,…) ya es una actividad estadística.

En esta sociedad resulta imprescindible disponer de técnicas que permitan obtener, de forma sencilla y fiable, información de los diferentes conjuntos de datos con los que nos encontramos.

Uno de los objetivos de la estadística es extraer información de un conjunto de

observaciones (recogidas mediante experimentos o encuestas). Y el procedimiento habitual es resumir los datos. Estos resúmenes pueden ser gráficos (como los diagramas de barras o los histogramas) o numéricos (como la media, mediana o desviación típica).

Recordemos algunos conceptos básicos:

Población y Muestra

Cuando se hace un estudio estadístico el investigador decide si analizará toda la población o una muestra elegida previamente.

POBLACIÓN es el conjunto de individuos sobre el que se hace un estudio estadístico.

Desde el punto de vista estadístico, una población podría ser tanto los habitantes de

una ciudad como los coches que se fabrican en una determinada factoría.

MUESTRA es un subconjunto (una parte) de la población. Muchas veces es imposible

estudiar el total de los elementos de una población, bien porque es una cantidad

extremadamente grande, bien porque depende de procesos aleatorios, etc… Por eso,

en la mayoría de los casos nos limitamos a estudiar un grupo de elementos de la

población, que llamamos muestra. El estudio de una muestra sirve para sacar

conclusiones sobre toda la población.

Debe elegirse que sea representativa de toda la población en la característica estudiada. Generalmente elegimos muestras aleatorias, es decir, en las que sus elementos se escogen al azar, mediante algún tipo de sorteo. De esta forma, la muestra es representativa de toda la población. CENSO: Cuando se estudia toda la población, se dice que estamos haciendo un censo de la misma. INDIVÍDUO: Es cada uno de los elementos que forman la población o la muestra.

Page 2: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

2

Atributos y Variables.

Cada una de las propiedades o características que podemos estudiar es una variable estadística. Dependiendo de los posibles valores que puedan tomar se clasifican en:

• Variables cualitativas o atributos. Los valores de la variable no son números sino cualidades, se expresan con palabras (categorías). El color, la forma, el sexo,...son ejemplos de variables cualitativas. • Variables cuantitativas. Los datos se expresan numéricamente y pueden ser:

- Discretas. Cada una de las variables solo puede tomar valores enteros (1, 2, 3...). El nº de hermanos, el nº ventanas de casa, el nº colegios de tu población,...

- Continuas. Pueden tomar cualquier valor de un intervalo dado. Nuestro peso, altura, fuerza, no es posible medirlas con números enteros, la densidad del aire, la velocidad media de un coche…

Ejemplo: Todos los habitantes de España mayores de edad forman una

población, la de los ciudadanos con derecho a voto. Cada uno de esos ciudadanos es un individuo de la población.

Cuando se realiza un sondeo electoral para estimar los resultados de unas

elecciones, se toma una muestra aleatoria (por ejemplo, 10.000 personas elegidas al azar) a las que se les pregunta su intención de voto (que sería una variable aleatoria cualitativa en la que las diferentes modalidades serían cada uno de los partidos que se presentan a las elecciones).

Recuento de los datos

La realización de un trabajo estadístico suele generar grandes conjuntos de datos. Las tablas de frecuencias sirven para ordenarlos y organizarlos.

Supongamos que se ha realizado una encuesta a 30 matrimonios de un cierto

barrio. Se les ha preguntado cuántos hijos tienen y hemos anotado las respuestas: 0 1 2 3 1 2 0 1 2 3 2 2 4 0 1 3 1 0 1 3 0 2 0 3 1 4 2 4 1 4

Vamos a ver cómo realizaríamos la tabla de frecuencia de los datos anteriores.

Las columnas de la tabla son las siguientes: Variable (xi): Dónde aparecen todos los posibles valores de la variable que

estamos estudiando. En este ejemplo, la variable es el número de hijos y sus posibles valores son 0, 1, 2, 3 y 4

Page 3: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

3

Frecuencias absolutas (fi): Es el número de veces que se repite cada uno de los valores de la columna de la variable (xi). En el ejemplo anterior, la frecuencia correspondiente al valor de la variable 1 es 8, porque hay 8 matrimonios con 1 hijo.

Frecuencias relativas (ni): Nos da el porcentaje en “tantos por uno”, y se calcula

dividiendo la frecuencia absoluta entre el número total de individuos estudiados (N). ni = fi / N La frecuencia relativa también se puede expresar en “tantos por cien” con tan

sólo multiplicarla por 100.

En ocasiones, para calcular algunas medidas necesarias para el estudio

estadístico conviene añadir también las frecuencias absolutas acumuladas que se

calculan sumando sucesivamente las frecuencias.

Frecuencias absolutas acumuladas (Fi) es la suma de las frecuencias absolutas de los valores que son menores o iguales que él, la indicaremos con Fi. También se pueden calcular las frecuencias relativas acumuladas (Ni).

Veamos cómo quedaría la tabla de frecuencias del ejemplo anterior:

xi fi ni Fi Ni

0 6 0,2 6 0,2

1 8 0,27 14 0,47

2 7 0,23 21 0,70

3 5 0,17 26 0,87

4 4 0,13 30 1

30 1

Gráficos estadísticos

Los datos estadísticos suelen representarse de forma gráfica, ya que de esta forma podemos hacernos una idea de su distribución de un solo golpe de vista.

Diagrama de Barras. La representación gráfica más común a partir de una

variable cualitativa o cuantitativa discreta es el diagrama de

barras, que se construye dibujando sobre cada valor de la

variable una barra vertical cuya altura representa la

frecuencia.

Page 4: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

4

Diagrama de Sectores. También puede aplicarse a cualquier tipo de

variable, aunque es más adecuado en variables cualitativas y cuantitativas discretas. Es un círculo dividido en sectores. Para calcular el ángulo de cada sector multiplicaremos 360 por la frecuencia relativa.

Grados del sector = 360 · ni

Otros gráficos estadísticos

Polígono de frecuencias. Se construye uniendo con segmentos los puntos más altos de las líneas del diagrama de barras.

Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio sobre los datos de la vivienda, en lugar de barras, se pueden utilizar edificios. En estos casos, el tamaño de cada figura es proporcional a su frecuencia.

Page 5: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

5

Datos agrupados en intervalos

Cuando el número de datos distintos es muy grande, para poder estudiarlos, se hace necesario agruparlos en intervalos o clases, habitualmente de la misma amplitud y como mínimo cuatro.

Por ejemplo, en una población hay casi tantas alturas diferentes como

individuos, pero podemos agruparlos para que nos resulte más sencillo el recuento. En altos, medios y bajos; también en bajos, medio-bajos, medio-altos y altos; o clasificarlos de 10 cm. en 10 cm…

Para representar todos los datos de un intervalo elegimos un valor, el punto

medio del intervalo, y se llama marca de clase.

Ejemplo: Ejemplo: Supongamos que tenemos los siguientes datos. Como hay un número

grande de valores que casi no se repiten, es adecuado agruparlos en intervalos. Si los

agrupamos en intervalos de 200 de amplitud, quedarían 5 intervalos de la siguiente

forma:

55 829 153 690 14 737 499 326 161 240 491 798 533 652 751 473 109

209 329 640 42 254 945 476 47 452 694 729 975 319 465 155 878 110

211 352 308 651 848 526 653 427 230 87 341 246 933 397 823

A la hora de elegir el número de intervalos y la amplitud de los mismos, hemos de

tener en cuenta que todos los valores estén incluidos. Para ello, miraremos el valor

más pequeño (14) y el más grande (975) e intentaremos buscar la agrupación más

adecuada.

Intervalos Marcas de clase (xi)

fi ni Fi Ni

[0, 200) 100 10 0.2 10 0.2

[200,400) 300 13 0.27 23 0.47

[400, 600) 500 9 0.18 32 0.65

[600, 800) 700 10 0.2 42 0.85

[800, 1000) 900 7 0.15 49 1

49 1

Page 6: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

6

HISTOGRAMA

Cuando los datos vienen agrupados en intervalos se usa para representarlos gráficamente el histograma. Cada valor se representa con un rectángulo de anchura la del intervalo correspondiente y con altura la de su frecuencia.

Medidas de posición

Los parámetros estadísticos son unos valores que nos resumen en un número

toda la distribución. Entre ellas cabe destacar las medidas de posición (que pueden ser

centrales o no) y las de dispersión.

LA MEDIA ARITMÉTICA

Todos los alumnos saben que con un 6 y un 4 tienen una media de 5. Pues la media en estadística es exactamente eso, aunque, habitualmente con más datos.

La media aritmética es una medida que nos describe básicamente el centro de un

conjunto de datos. Es la medida de centralización más usual.

La definición de esta medida es:

Para calcular la media, si son pocos datos, se suman todos y se divide entre el número total. Si son muchos datos y los tenemos en una tabla de frecuencias, añadiremos una nueva columna a la tabla (xi · fi) en la que multiplicaremos cada dato por su frecuencia y la sumaremos. Luego dividiremos esta suma por el número de datos. Se indica con .

Page 7: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

7

Ejemplo:

xi fi ni Fi Ni xi · fi

0 6 0,2 6 0,2 0

1 8 0,27 14 0,47 8

2 7 0,23 21 0,70 14

3 5 0,17 26 0,87 15

4 4 0,13 30 1 16

30 1 53

= 53 / 30 = 1.767 LA MODA

Cuando nos referimos a que un objeto está de moda queremos decir que un gran

número de personas lo usan o lo desean tener. En estadística, la moda es un concepto similar, ya que es el valor que más se repite, el que tenga mayor frecuencia. Y puede ocurrir que haya más de una moda.

Llamaremos moda (Mo) de una distribución estadística al valor (o valores) de la

variabe que más se repiten, el que tenga mayor frecuencia. En el ejemplo anterior, la moda es el 1, ya que hay ocho familias que tienen un

hijo, y es el valor más grande.

Mo = 1 LA MEDIANA La mediana, al igual que la media aritmética, sólo se puede calcular cuando la variable es cuantitativa.

Llamaremos mediana (Me) al valor que ocupa la posición central de los datos cuando éstos se encuentran ordenados de menor a mayor. Es decir, el 50% de los datos son menores que ella y el 50% mayores.

La mediana divide a la distribución en dos partes con igual número de datos en

cada una. Si hay un número par de observaciones se toma como mediana la semisuma de los dos datos centrales.

Si tenemos muchos datos, podemos calcularla fácilmente a partir de una tabla de

frecuencias. Para ello nos hemos de fijar en la columna de las frecuencias relativas

acumuladas, para ver dónde se encuentra el 50% (el 0,5).

Page 8: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

8

Ejemplo: En el caso que estábamos estudiando, si nos fijamos en la columna de las frecuencias relativas acumuladas (Ni) y buscamos el 0,5 (si no está, será el inmediatamente posterior), nos encontramos con 0,70 que corresponde al 2

xi fi ni Fi Ni

0 6 0,2 6 0,2

1 8 0,27 14 0,47

2 7 0,23 21 0,70

3 5 0,17 26 0,87

4 4 0,13 30 1

30 1

Por lo tanto, Me = 2

CUARTILES, DECILES Y PERCENTILES

Son unas medidas de posición no centrales.

Si en lugar de separar la totalidad de los individuos que forman la población por

la mitad como hacíamos con la mediana, los separamos en cuatro partes iguales, estos

nuevos puntos de separación se llaman cuartiles.

Q1 = cuartil inferior. Es el valor de la variable que deja por debajo un 25% de la población.

Q2 = Coincide con la mediana (Me)

Q3 = cuartil superior. Es el valor de la variable que deja por debajo un 75% de la población.

En una tabla de frecuencias, miraríamos la columna de las frecuencias relativas

acumuladas (Ni) y buscaríamos el 0,25, 0,5 y 0,75 (correspondiente a los tres cuartiles). Si esos números no están, al igual que hacíamos con la mediana, miraríamos los inmediatamente posteriores.

En el ejemplo anterior, el primer cuartil es 1 (Q1 = 1) , el segundo cuartil es 2 (Q2

= Me = 2) y el tercer cuartil es 3 (Q3 = 3).

Los deciles se definen como los cuartiles, pero dividiendo la población en diez

partes. Y los percentiles dividiéndola en cien.

Así, por ejemplo, D5 = P50 = Q2 = Me, o Q1 = P25.

Page 9: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

9

Medidas de dispersión

Las medidas de centralización no son suficientes para describir el conjunto de

datos. Conviene también utilizar otro valor que refleje la dispersión de las observaciones alrededor de la media. RANGO

Llamaremos rango o recorrido a la diferencia entre el mayor y el menor valor de la variable, e indica el intervalo en el que se hallan todos los datos. VARIANZA

Una manera adecuada de medir esa dispersión es considerar las desviaciones de

los valores con la media (xi - x ) y hallar la media de esas desviaciones. Pero habremos de evitar de alguna forma que valores negativos y positivos se compensen. Una opción es elevar esas desviaciones al cuadrado.

Así, definimos la varianza como:

N

fxxVar

ii

2

Cuanto mayor es el valor de la varianza, más dispersas están las observaciones. Para calcularla a partir de la tabla de frecuencias, añadimos tres columnas

nuevas:

1ª) xi - x

2ª) (xi - x )2

3ª) (xi - x )2 · fi Ahora sumaremos esta última columna y la dividiremos por el número total de

observaciones.

Page 10: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

10

Ejemplo:

xi fi xi - x (xi - x )2 (xi - x )2 · fi 0 6 -1.77 3.13 18.8

1 8 -0.77 0.59 4.74

2 7 0.23 0.053 0.37

3 5 1.23 1.51 7.56

4 4 2.23 4.97 19.89

30 51.36

71.130

36.51Var

DESVIACIÓN TÍPICA

Un inconveniente de la varianza es que no tiene las mismas unidades que los

datos (ya que éstos los elevamos al cuadrado). Por ello, resulta conveniente definir una

nueva medida de dispersión que venga dada con las mismas unidades que los datos.

Definimos Desviación Típica = σ = Var

En nuestro ejemplo, σ = 1,31.

Es importante que entiendas el significado de estas medidas. Cuanto mayor sean, más dispersos estarán los datos.

Ejercicios

1. Haz una tabla de frecuencias, un diagrama de barras y otro de sectores de los siguientes datos.

3 3 1 1 3 2 3 3 2 1 3 2 2 3 1 1 4 3 2 2 4 4 3 3

2. Agrupa los siguientes datos en 5 intervalos y calcula su tabla de frecuencias y su

histograma.

3 6 5 9 2 6 2 2 7 9 4 6 2 5 9 9 1 0

2 5 3 6 7 8 6 4 3 6 7 9 8 9 9 1 6 8

6 2 3 9 6 5 6 6 5 7 6 6 8 1 3 4 4 4

3. Determina la media, moda, mediana y primer cuartil de los siguientes datos:

0 2 3 4 3 1 4 3 3 4 1 3 4 1 3 0 0 3 2 2 1 3 4 1

Page 11: TEMA 6. ESTADÍSTICA · Pictograma. Para variables cualitativas o cuantitativas discretas. Es como un diagrama de barras, pero evoca los datos que se analizan. Así, para un estudio

2º GES T.6 - ESTADÍSTICA

11

4. Calcula la tabla de frecuencias, media, moda y mediana de los siguientes datos:

8 8 6 10 9 6 7 8 9 7 7 6 6 7 9 5 5 7 10 7

5. Calcula la tabla de frecuencias, medidas de centralización y de dispersión y gráfica estadística de los siguientes datos

3 1 1 3 1 4 4 4 4 1 1 4 4 2 2 2 3 2 4 2 4 2 1 3

6. Calcula la tabla de frecuencias, medidas de centralización y de dispersión y

gráfica estadística de los siguientes datos (agrúpalos en 4 intervalos)

25 29 40 9 32 4 15 35 26 24 16 2 11 16 37 10 30 2 35 17 8 40 38 5

7. Hemos preguntado a 100 personas sobre un líder político, pidiéndoles una valoración del 1 al 4. Los resultados han sido los siguientes:

Valoración 1 2 3 4

Frecuencia 25 30 40 5

Realiza una tabla de frecuencias y calcula la media aritmética, la mediana, la moda, la varianza y la desviación típica.

8. La siguiente tabla indica el tiempo dedicado al estudio por 50 alumnos.

Horas 1 2 3 4

Alumnos 22 18 9 1

Realiza una tabla de frecuencias y calcula la media aritmética, la mediana, la moda, la varianza y la desviación típica.

9. La media de las notas obtenidas en las tres pruebas realizadas en unas oposiciones ha sido de 6. Sé que dos de las notas eran 7 y 4. Calcula la tercera nota.