organización y representación de los de los datos datospersonales.unican.es/rasillad/tema 3.2...

44
Organización Organización y y representación representación de los de los datos datos TEMA 3.2

Upload: buixuyen

Post on 07-Oct-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

OrganizaciónOrganización y y representaciónrepresentación de los de los datosdatos

TEMA 3.2

Page 2: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Distribución de frecuencias (“tablas de frecuencias”)

� Representación gráfica� Representación gráfica

Page 3: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tablas de frecuencias◦ Las series estadísticas deben presentarse

ordenadas y clasificadas (criterios previos).◦ Resumen una variable de manera “sencilla” ◦ Resumen una variable de manera “sencilla” � agrupar mucha información en pocos datos)◦ Ordenación en clases o intervalos

consignando la frecuencia de cada dato◦ Distinguir entre variables

cualitativas/cuantivativas (discretas y continuas)

Page 4: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tablas de frecuencias◦ Variables cualitativas y cuantitativas

discretas� Ordenar los datos en dos columnas: � Ordenar los datos en dos columnas:

� Valores de la variable xi

� Frecuencias absolutas ni

xi ni

x1 n1

x2 n2

x3 n3

. .

. .

xK nk

Page 5: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos� Tablas de frecuencias◦ Variables continuas (datos agrupados)

� El campo de variación de la variable se agrupa en intervalos de clase � no un único valor sino un intervalo de valores (igual o

Li-1-Li ni xi

L -L n x valor sino un intervalo de valores (igual o diferente amplitud de clase (ai)

� Límites de la clase Li-1-Li � valores superior e inferior de una clase

� Cada clase es representada por un único valor � marca de clase x

i

L0-L1 n1 x1

L1-L2 n2 x2

L2-L3 n3 x3

. . .

. . .

LK-1-LK nk xk

Page 6: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias:◦ Construcción de tabla de frecuencias

(variables continuas) � Número de clases� Número de clases� Rango� Amplitud de cada clase� Marca de cada clase� Límites inferior y superior de cada clase

Page 7: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias:◦ Número de clases k (sugerencia: 10-15 �

redondear al entero más cercano)

� Criterio de Norcliffe� Criterio de Sturgess� Criterio de Huntsberger� Criterio de Brooks and Carruthers� Otros

N=

Nlog 3,31+=Nlog 5=<

N2log 1 +=

= 1 + 3.322(log N)

Page 8: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos� Tablas de frecuencias ◦ Rango de los datos

◦ Amplitud de cada clase ����� Número entero igual (opción A) o un poco mayor

(opción B) que el resultado. � La amplitud puede tener decimales � ¿Redondeo? (no necesariamente)

K*a ≥ R

Page 9: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tablas de frecuencias ◦ Amplitud de cada clase � dos posibles

opciones� OPCIÓN 1: Si no redondeamos, es decir, si

� Límites inferior y superior

min1 XLi =−

k

ra = rak =*

aLL ii +=−1

Page 10: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tablas de frecuencias ◦ Amplitud de cada clase � dos posibles

opciones� OPCIÓN 2: redondeamos por exceso �

"sobrante""sobrante"

� Este "sobrante" se reparte a partes iguales entre el primer y el último intervalo

rakSobrante −= *kra *>

2min1

sobranteXLi −=

aLL ii +=−1

Page 11: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tablas de frecuencias ◦ Marca de clase

1−+

=ii LL

m2

1−+

=ii LL

m

Page 12: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Datos agrupados � 168,180,171,156,170,179,164,165,185,170,� 175,165,180,162,160,172,178,167,187,155� 175,165,180,162,160,172,178,167,187,155

Page 13: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Datos agrupados

32155187minmax =−=−= XXR minmax

4.47,420 = →=== knkluego

84

32===

k

Ra

Page 14: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Datos agrupados (sin redondeo a = 8)

155min1 ==−

XLi16381551 =+=+=

−aLL ii

Li-1 -Li xi ni Ni fi Fi

[155, 163)

[163, 171)

[171, 179)

[179, 183)

min1−i 1−ii

Page 15: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Datos agrupados (con redondeo a= 10)

83210*4* =−=−= rakSobrante 83210*4* =−=−= rakSobrante

15141552

8155

2min1 =−=−=−=

sobranteXLi

161101511 =+=+=−

aLL ii

Page 16: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Datos agrupados (con redondeo a=10)

Li-1 -Li xi ni Ni fi Fi

[151, 161)

[161, 171)

[171, 181)

[181, 191)

Page 17: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Notación intervalos de clase con datos

agrupados � Paréntesis � excluye � Paréntesis � excluye � Corchetes � incluye

� (3,8) no incluye ni 3 ni 8 (pero si 4, 5, 6, 7).

� [3,8] incluye 3 y 8, además de los intermedios.

� (3,8] incluye 8, pero 3 (está abierto por el 3 y cerrado por el 8)

� [3,8) incluye al 3, pero no al 8 (está cerrado por el 3 y abierto por el 8)

Page 18: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias◦ Frecuencia absoluta:

� Número de veces que aparece un determinadovalor � n

i.

� La suma de las frecuencias absolutas es igual al número total de datos (N). Para indicar resumidamente estas sumas se utiliza la letra griega Σ (suma o sumatorio)

∑=

=

n

i

inN1

nnnnnN ++++= ...321

Page 19: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias◦ Frecuencia relativa (f

i)

� Cociente entre la frecuencia absoluta y el número total de datosnúmero total de datos

� La suma de las frecuencias relativas es igual a 1

� Se puede expresar en %

N

nf i

i =

Page 20: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias◦ Frecuencia (absoluta) acumulada (N

i)

� Suma de las frecuencias absolutas de todos los valores inferiores o iguales al todos los valores inferiores o iguales al valor considerado.

◦ Frecuencia relativa acumulada (Fi)

� Cociente entre la frecuencia acumulada de un determinado valor y el número total de datos.

Page 21: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias◦ Variable discreta◦ 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28,

29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29

Page 22: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Distribución de frecuencias◦ Variable discreta

xi ni Ni fi FiPrimera: variable ordenada de

xi ni Ni fi Fi

27 1 1 0.032 0.032

28 2 3 0.065 0.097

29 6 9 0.194 0.290

30 7 16 0.226 0.0516

31 8 24 0.258 0.774

32 3 27 0.097 0.871

33 3 30 0.097 0.968

34 1 31 0.032 1

31 1

Primera: variable ordenada de menor a mayor

Segunda columna: recuento Tercera: frecuencia absoluta

Cuarta: frecuencia acumuladaQuinta: frecuencia relativa

absolutaSexta: frecuencia relativa

acumulada

Page 23: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Variable continua

� 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

Page 24: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Variable continua ◦ Rango de los datos: sustracción del valor más

alto y más bajo (R = 48-3 = 45)alto y más bajo (R = 48-3 = 45)

◦ Número de clases k = 5/6 (ver criterios)

◦ Amplitud a = 45/6 = 7,5; a = 45/5 = 9 ó 10

◦ ¿Intervalos?

Page 25: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� Tabla de frecuencias ◦ Variable continua

Li-1 -Li xi ni Ni fi Fi

[0, 10) 7.5 2 2 0.05 0.05

[10, 20) 17.5 6 8 0.015 0.200

[20, 30) 27.5 9 17 0.225 0.425

[30, 40) 37.5 17 34 0.425 0.85

[40, 50) 47.5 6 40 0.15 1

40 1

Page 26: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica

◦ Otra forma de resumir información

◦ Diferentes tipos según � Variables cualitativas o cuantitativas� Variables discretas o continuas

Page 27: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Diagrama de barras

� Variables cualitativas o cuantitativas discretas� Cada valor de la variable: una barra� Altura barra: proporcional a la frecuencia del valor

� Ejes de coordenadas, � Abscisa: valores de la variable � Ordenada: frecuencias absolutas, relativas o

acumuladas

Page 28: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Diagrama de barras

� Ordenada: “orden de los valores”: � De izquierda a derecha� Variables cualitativas nominales: indiferente� Variables cualitativas nominales: indiferente� Variables cualitativas ordinales/cuantitativas � “orden

natural”

Page 29: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Diagrama de barras

� Grupo sanguíneo de alumnos (variable…) frecuencias absolutasfrecuencias absolutas

Grupo sanguíneo

ni

A 6

B 4

AB 1

0 9

20

Page 30: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Diagrama de barras

� Barras de frecuencias relativa acumuladas

Page 31: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Diagrama de Pareto

� Combinación de frecuencias relativas (barras) y acumuladas (línea)

� Orden de los valores: de más frecuente a menos frecuente

� Línea que representa las frecuencias acumuladas

Page 32: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Histograma

� Similar a diagrama de barras, excepto:� Rótulos corresponden a límites

entre clases

� Aplicable a � Variables cuantitativas

continuas � Variables cuantitativas discretas

con un gran número de datos (agrupadas en clases)

Page 33: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Histogramas con intervalos de amplitud

diferente� Calcular las alturas de los rectángulos del

histogramahistograma

� hi es la altura del intervalo� ni es la frecuencia del intervalo� ai es la amplitud del intervalo

i

i

ia

nh =

Page 34: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Intervalos de amplitud diferente

� Ejemplo: calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de alumnos.de alumnos.

Li-1, Li ni hi

[0, 5) 15 3

[5, 7) 20 10

[7, 9) 12 6

[9, 10) 3 3

50

Page 35: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Histograma

� Como en diagrama de barras, su forma no cambia por usar frecuencias absolutas o relativas

� La forma del histograma SÍ cambia según el número de las clases

� Ejemplo: 4 histogramas con 5, 10, 18 y 34 clases

Page 36: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Histograma

� Por tanto: a la hora de hacer un histograma es MUY IMPORTANTE la elección de las clases

� Regla empírica: empezar con pocas y a partir de resultados ir aumentando

� Para una población grande: el número de clases podrían ser muchas, y muy estrechas

� Tendencia: el histograma como una curva

Page 37: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Polígono de frecuencias

� Marca de clase que coincide con el punto medio de cada rectángulo

Li-1, Li xi ni Ni

[50, 60) 55 8 8

[60, 70) 65 10 18

[70, 80) 75 16 34

[80, 90) 85 14 48

[90, 100) 95 10 58

[100, 110) 110 5 63

[110, 120) 115 2 65

65

Page 38: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Diagrama de sectores (tartas)

� Para todo tipo de variables (cualitativas, cuantitativas discretas), pero de pequeño cuantitativas discretas), pero de pequeño tamaño

� El ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente

� Se construye con la ayuda de un transportador de ángulos.

inN

•=º360

α

Page 39: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Diagrama de sectores

Alumnos Ángulo

Baloncesto 12 124°Baloncesto 12 124°

Natación 3 36°

Fútbol 9 108°

Sin deporte 6 72°

Total 30 360°

Page 40: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Interpretación de los gráficos

� Informan sobre la distribución de una variable� Informan sobre la distribución de una variable� Dispersión/concentración de los valores

� Cuál es el más frecuente (la moda)

� Si hay valores muy alejados del valor más frecuente

� Simetría de la distribución: igual número de casos con valores mayores y menores que el valor más frecuente...

Page 41: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Interpretación de los gráficos

� Tipos de distribución� Histograma unimodal simétrico

� Simetría: un valor más común (moda) aproximadamente en el centro. Ejemplos: notas, altura, peso...

Page 42: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Interpretación de los gráficos

� Tipos de distribución� Histograma simétrico bimodal

� Dos valores con más casos (modas)� Dos valores con más casos (modas)� Simétrico en torno a valor con pocos casos� Extraño: ¿2 poblaciones?

Page 43: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Interpretación de los gráficos

� Tipos de distribución� Histograma unimodal asimétrico a la izquierda

� Un valor con más casos (moda)� Un valor con más casos (moda)� “Cola” hacia la izquierda� Ejemplo: esperanza de vida

Page 44: Organización y representación de los de los datos datospersonales.unican.es/rasillad/TEMA 3.2 Organizacion y... · de los datos Distribución de frecuencias Variable discreta x

Organización y representación Organización y representación de los datosde los datos

� La representación gráfica◦ Interpretación de los gráficos

� Tipos de distribución� Histograma unimodal asimétrico a la derecha

� Un valor con más casos (moda)� Un valor con más casos (moda)� “Cola” hacia la derecha� Ejemplos: ingresos o gastos