curso: estadística instrumentos y matriz de datos medidas ......estadística descriptiva medidas de...

38
Instrumentos y matriz de datos Curso: Estadística Profesor::Dina Ñuflo Valdivia Fecha: 26/09/2017 Estadística Descriptiva Medidas de Dispersión

Upload: others

Post on 28-Feb-2021

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Instrumentos y matriz de datos

Curso: Estadística

Profesor::Dina Ñuflo Valdivia

Fecha: 26/09/2017

Estadística Descriptiva

Medidas de Dispersión

Page 2: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

LOGRO DE LA SESIÓN

Al finalizar la sesión, elestudiante estará en lacapacidad de calcular einterpretar medidas dedispersión de datosnuméricos sin agrupar yagrupados en tablas defrecuencias.

Page 3: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Sesión 6: Medidas de dispersión

CONTENIDO SABERES PREVIOS

1. Rango.2. Rango intercuartílico.3. Varianza.4. Desviación estándar.5. Coeficiente de variación.

➲ Promedio aritmético.

Page 4: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Introducción

•¿Los promedios proporcionan suficiente informaciónpara una adecuada descripción de los datos?

•¿Por qué estudiar la dispersión?

•¿Qué medida de dispersión es la más adecuada paracomparar variabilidades entre dos conjuntos de datos?

Page 5: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Introducción•Los estudiantes de Estadística reciben diferentes calificaciones en laasignatura (variabilidad). ¿A qué puede deberse?

➢Diferencias individuales en el conocimiento de la materia.

•¿Podría haber otras razones (fuentes de variabilidad)?

•Por ejemplo supongamos que todos los alumnos poseen el mismo nivel deconocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

– Dormir poco el día del examen, no desayunaste,...

➢Diferencias individuales en la habilidad para hacer un examen.

– El examen no es una medida perfecta del conocimiento.

➢Variabilidad por error de medida.

Page 6: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

Page 7: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Medidas Resumen

Media Aritmética

Mediana

Moda

Descripción Numerica de Datos

Varianza

Desviación Estándar

Coeficiente de Variación

Rango

Rango Intercuartílico

Asimetría

Tendencia Central Variación Forma

Cuartiles

Percentiles

Page 8: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

¿Qué son las Medidas de Dispersión?

•Son las que miden el grado deconcentración o dispersión de losvalores de una variable en tornode un promedio.

Los más utilizados son:

•Rango o Recorrido

•Recorrido Intercuartílico (RIC)

•Varianza y Desviación estándar

•Coeficiente de Variación

¿Cómo sabré si unpromedio es confiable?,o si los datos estánconcentrados.

Page 9: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Variabilidad o Dispersión

▪Baja dispersión = Alta concentración=Datoshomogéneos.

▪Alta dispersión = Baja concentración=Datosheterogéneos.

Page 10: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Imagen visual de la Distribución de la variable

La media provee una buena

representación de los valores

en la base de datos.

Datos de baja variabilidad

Datos con alta variabilidad

La media ya NO provee una

buena información de los

datos.

Al incrementar datos

la distribución cambia..

Page 11: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Mismo centro,

Variación diferente

Medidas de Dispersión

Variación

Varianza Desviación

Estándar

Coeficiente

de Variación

Rango RangoIntercuartílico

• Medidas de dispersión

dan información sobre

la dispersión o

variabilidad de los

datos.

Page 12: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Variabilidad o DispersiónMiden el grado de dispersión de los datos.

•Rango (R):

Es la diferencia entre las observaciónes extremas.

– Ejemplo: Datos; 2,1,4,3,8,4.

– Es muy sensible a los valores extremos.

•Rango intercuartílico (RIC):– Es la diferencia entre el tercer y primer cuartil.

– No es tan sensible a valores extremos.

Page 13: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Ejemplo: DVD - Satisfacción

Niveles de satisfacción de 20 clientes:

1 3 5 5 7 8 8 8 8 8 8 9 9 9 9 9 10 10 10 10

Q1 = (7+8)/2 = 7.5

Me = (8+8)/2 = 8

Q3 = (9+9)/2 = 9

RIC = Q3 − Q1 = 9 − 7.5 = 1.5

n=20

25

%

25

%

25

%

25

%

Q3Q2Q1

Page 14: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Las puntuaciones de un exámen de15 estudiantes se listan abajo.

Halle el primer, segundo y tercer cuartíl de las puntuaciones, y el RIC.

28 43 48 51 43 30 55 44 48 33 45 37 37 42 38

Datos Ordenados:

28 30 33 37 37 38 42 43 43 44 45 48 48 51 55

Mitad inferior Mitad Superior

Q2Q1 Q3

Ejemplo: Rango Intercuartílico (RIC)

= 48 – 37

=

11

Las puntuaciones del exámen en la

parte media de los datos varian al

menos en 11 puntos.

n=15

Page 15: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

DESVIACIÓN ESTÁNDAR

•Mide la dispersión de los datos con respecto al promedio.Cuanto menor es la desviación estándar, menos dispersos estánlos datos con respecto al promedio.

•Llamada también desviación típica.

•En la práctica, la desviación estándar se utiliza con másfrecuencia que la varianza.

•Una de las razones es que se expresa en las mismas unidadesde medida de la variable.

Page 16: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

DESVIACIÓN ESTÁNDAR (s)

Interpretación del valor de “ s ”

• Tomemos como ejemplo las siguientes estadísticas de lasedades de pacientes atendidos en un consultorio médico:

Media = 39,80 años y s = 13,74 años

• La dispersión media de las edades de los pacientes conrespecto al promedio es de 13,74 años, o bien así:

• La variabilidad media de las edades de los pacientes enrelación al promedio es de 13,74 años.

Page 17: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Varianza y Desviación Estándar

Para facilitar los cálculos de s2 (la varianza)

utilizaremos la ecuación equivalente:

Desviación estándar muestral:

Es la raíz cuadrada de la varianza.

Page 18: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Fórmula alternativa para s2

Ejemplo: Los pesos (en libras) de una muestra de cinco

cajas que se envían por UPS (empresa de mensajería)

son los siguientes: 12, 6, 7, 3 y 10. Calcule la varianza y

la desviación estándar.

Varianza muestral S2 :

Desviación estándar muestral S:

Interpretación: En promedio, los pesos de las

cajas varian 3,51 libras respecto de la media de 7,6

libras.

Page 19: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

MEDIDAS DE DISPERSIÓN

RANGO VARIANZA DESVIACIÓN ESTANDAR

Page 20: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Coeficiente de Variación

Es la razón entre la desviación estándar y la media.

◻ También se la denomina variabilidad relativa.

◻ Es frecuente mostrarla en porcentajes.

• Si la media es 80 y la desviación estándar 20 entonces

CV=20/80=0,25=25% (variabilidad relativa).

■ Es una cantidad adimensional. Conveniente para comparar dos omás conjuntos de datos medidos en unidades diferentes.

◻ Si el peso tiene CV=30% y la altura tiene CV=10%, los individuospresentan mayor dispersión relativa en peso que en altura.

Page 21: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Se usa como estadístico de comparación respecto al cual se establece si un conjunto de datos es homogéneo o heterogéneo.

- Si CV ≤ 30% → los datos son homogéneos (baja dispersión).

- Si CV > 30% → los datos son heterogéneos. (alto grado de dispersión).

Coeficiente de Variación

Page 22: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Variabilidad o Dispersión▪¿Cuál de las siguientes variables presenta un menorgrado de dispersión?

▪¿Cuál de las siguientes variables presenta un mayorgrado de dispersión?

Page 23: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

• Solución:

• Media = 2.1667

• Desv. Estándar = 1.4035

Ejemplo 1: Variabilidad o Dispersión

Ante la pregunta sobre el número de hijos por familia, unamuestra de 12 hogares, marcó las siguientes respuestas:

2 1 2 4 1 32 3 2 0 5 1

Calcule el coeficiente de dispersión de los datos

Interpretación: Como C.V.= 64.78% > 30% concluimos que la

distribución del número de hijos por familia es heterogénea.

Page 24: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Ejemplo 2: Dos marcas de máquinas A y B, han sido diseñadas para cierto

tipo de producción. Tienen igual precio. Un fabricante para decidir cual comprar

ha observado 10 máquinas diferentes de cada marca en operación durante

una hora. El promedio y la desviación estándar de artículos producidos por

cada máquina es respectivamente: A; Media= 40.3, DE=4.27; B; Media= 40.8,

DE=10.22. Halle C.V. e indique cual de las dos máquinas tiene menor

dispersión en las unidades de artículos producidos.

• Máquina A:

• Media = 40.3

• Desv. Estándar = 4.27

• Máquina B:

• Media = 40.8

• Desv. Estándar = 10.22

Interpretación: Como C.V.= 10.60% < 25.05% concluimos que las

máquinas A tienen menor dispersión relativa que las máquinas B. Es

decir, el rendimiento de la marca A es mejor que el de la marca B.

Page 25: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Asimétrica

Negativa

Moda

Mediana

Media

Simétrica

(No Asimétrica)

Media

Mediana

Moda

Asimétrica

Positiva

Moda

Mediana

Media

• Si media=mediana=moda, la distribución es simétrica.• Si media<mediana, la distribución es asimétrica negativa.• Si media>mediana, la distribución es asimétrica positiva.

Relación entre la media, mediana y moda

Page 26: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Este diagrama permite determinar, en formagráfica, lo siguiente:

✵ Valores extremos o atípicos (outliers).

✵ La tendencia central.

✵ La variabilidad.

✵ La asimetría de la distribución.

Estos gráficos son bastante útiles para comparar doso más conjuntos de datos en cuanto a su tendenciacentral y variabilidad.

Diagrama de Cajas (Boxplot)

Page 27: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Estadísticos de Posición

Page 28: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Diagrama de Cajas (Boxplots)

Outlier o

Valor

Extremo

Page 29: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Forma de la Distribución y BoxPlot

Asimétrica

Derecha

Asimétrica

IzquierdaSimétrica

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

Page 30: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Boxplots: Aplicación

El índice fog se utiliza para medir la dificultad para leer un texto escrito:

cuanto más alto es el valor del índice, más difícil es el nivel de lectura.

Se toman muestras aleatorias independientes de 6 anuncios de

Scientific American, Fortune y New Yorker. Se miden los índices fog de

los 18 anuncios y se anotan en la Tabla siguiente.

Scientific American

Fortune New Yorker

15,75 12,63 9,27

11,55 11,46 8,28

11,16 10,77 8,15

9,92 9,93 6,37

9,93 9,87 6,37

8,20 9,42 5,66

Page 31: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Boxplots: Aplicación

Objetivo del investigador:

Comparar los niveles de dificultad (en índices fog) para leer un

texto escrito.

Grupos de comparación:

Grupo 1: Índice promedio de dificultad de la revista Scientific

American.

Grupo 2: Índice promedio de dificultad de la revista Fortune.

Grupo 3: Índice promedio de dificultad de la revista New Yorker.

Page 32: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Boxplots: Aplicación

Page 33: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

33

Tipo de Revista Estadístico

Índice fog

(Dificultad de

Lectura)

Scientific

American

Varianza 7,005

Desv. típ. 2,64665

Coeficiente

Variación 0,241229

Rango 7,55

Amplitud

intercuartil

3,63

Fortune

Varianza 1,445

Desv. típ. 1,20210

Coeficiente

Variación 0,112556

Rango 3,21

Amplitud

intercuartil

2,00

New Yorker

Varianza 1,994

Desv. típ. 1,41196

Coeficiente

Variación 0,192103

Rango 3,61

Amplitud

intercuartil

2,34

Boxplots: Aplicación

Page 34: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Boxplots: ProblemaSe llevó a cabo una encuesta entre los miembros del Club del libro del mes,

para verificar si pasan más tiempo viendo televisión que leyendo. Suponga

que en una muestra de 15 encuestados se obtuvieron las horas semanales

que se dedican a ver televisión y las que se dedican a la lectura.

Encuestados Televisión Leyendo

1 10 6

2 14 16

3 16 8

4 18 10

5 15 10

6 14 8

7 10 14

8 12 14

9 4 7

10 8 8

11 16 5

12 5 10

13 8 3

14 19 10

15 11 6

Page 35: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Boxplots: Problema

Comente que le indican los

Diagrama de Cajas (Boxplots)

¿Como se podrían comparar

estas dos actividades?

Encuesta entre los

miembros del Club del libro

del mes, para comparar si

pasan más tiempo viendo

televisión que leyendo.

Page 36: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Propiedades de la Varianza

Page 37: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

Conclusión:

•Las medidas de dispersión son necesarias para dos propósitos básicos:

•Para verificar la confiabilidad de los promedios, y

•Para que sirva como base para el control de la variación misma.

Ahora estamos listospara describir yanalizar datosestadísticos

Page 38: Curso: Estadística Instrumentos y matriz de datos Medidas ......Estadística Descriptiva Medidas de Dispersión. LOGRO DE LA SESIÓN Al finalizar la sesión, el estudiante estará

“Las estadísticas no sustituyen el juicio.”

Henry Clay