resumenes númericas de una muestra i: medidas basadas en...

39

Upload: others

Post on 21-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

  • Resumenes númericas de una muestra I:

    medidas basadas en percentiles

    Michael Wiper

    Departamento de Estadística

    Universidad Carlos III de Madrid

    M. Wiper Estadística 1 / 23

  • Objetivo

    Introducir medidas de localización y escala de una muestra basadas en la posicióny orden de los datos.

    M. Wiper Estadística 2 / 23

  • La moda

    Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.

    Es apropiada para muestras cualitativas o discretas.

    Una muestra puede ser unimodal o multimodal.

    No tiene tanto sentido para una muestra continua.

    Sólo podemos hablar de un intervalo modal.

    Buscamos una medida alternativa.

    M. Wiper Estadística 3 / 23

  • La moda

    Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.

    Es apropiada para muestras cualitativas o discretas.

    Una muestra puede ser unimodal o multimodal.

    No tiene tanto sentido para una muestra continua.

    Sólo podemos hablar de un intervalo modal.

    Buscamos una medida alternativa.

    M. Wiper Estadística 3 / 23

  • La moda

    Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.

    Es apropiada para muestras cualitativas o discretas.

    Una muestra puede ser unimodal o multimodal.

    No tiene tanto sentido para una muestra continua.

    Sólo podemos hablar de un intervalo modal.

    Buscamos una medida alternativa.

    M. Wiper Estadística 3 / 23

  • La moda

    Hasta ahora, la única medida de localización que hemos visto es la moda quemide el valor más frecuente en la muestra.

    Es apropiada para muestras cualitativas o discretas.

    Una muestra puede ser unimodal o multimodal.

    No tiene tanto sentido para una muestra continua.

    Sólo podemos hablar de un intervalo modal.

    Buscamos una medida alternativa.

    M. Wiper Estadística 3 / 23

  • Una medida del centro: la mediana

    Una alternativa a la moda es la mediana, es decir el valor más centrico de lamuestra.

    Con un número impar de datos es fácil de calcular ...

    5, 7, 4, 3, 2, 9 7

    M. Wiper Estadística 4 / 23

  • Una medida del centro: la mediana

    es el punto (n + 1)/2 de la muestra ...

    5, 7, 4, 3©, 2, 9 7

    M. Wiper Estadística 5 / 23

  • Una medida del centro: la mediana

    ... pero el resultado no tiene sentido

    5, 7, 4, 3©, 2, 9 7

    M. Wiper Estadística 6 / 23

  • Una medida del centro: la mediana

    ... si no ordenamos los datos:

    2, 3, 4, 5©, 7, 7 9

    M. Wiper Estadística 7 / 23

  • La mediana con un número par de datos

    Con un número par de datos, no existe un único dato más centrico ...

    1, 2, 4, 5, 7, 9, 11, 13

    M. Wiper Estadística 8 / 23

  • La mediana con un número par de datos

    ... sino dos valores. En nuestro ejemplo, (n + 1)/2 = 4,5 ...

    1, 2, 4, 5, 7, 9, 11, 13

    M. Wiper Estadística 9 / 23

  • La mediana con un número par de datos

    ... entonces tomamos el promedio

    1, 2, 4, 5, 7, 9, 11, 13

    La mediana es Me = (5+ 7)/2 = 6.

    M. Wiper Estadística 10 / 23

  • La mediana a través de la tabla de frecuencias

    Con datos discretas ...

    M. Wiper Estadística 11 / 23

  • La mediana a través de la tabla de frecuencias

    ... buscamos la primera vez que la frecuencia cumulativa sube a 0,5 o por arriba.

    En este caso hay la mediana es Me = tres accidentes mortales diarios.

    M. Wiper Estadística 12 / 23

  • La mediana a través de la tabla de frecuencias

    Con datos continuos ...

    M. Wiper Estadística 13 / 23

  • La mediana a través de la tabla de frecuencias

    podemos encontrar un intervalo mediano ...

    El intervalo mediano es (0, 350].

    Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36) pero puede ser imprecisa (163 es la verdadera mediana).

    M. Wiper Estadística 14 / 23

  • La mediana a través de la tabla de frecuencias

    podemos encontrar un intervalo mediano ...

    El intervalo mediano es (0, 350].

    Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36)

    pero puede ser imprecisa (163 es la verdadera mediana).

    M. Wiper Estadística 14 / 23

  • La mediana a través de la tabla de frecuencias

    podemos encontrar un intervalo mediano ...

    El intervalo mediano es (0, 350].

    Existe una fórmula para dar un valor aproximada a través de la interpolación (laaproximación es 224,36) pero puede ser imprecisa (163 es la verdadera mediana).

    M. Wiper Estadística 14 / 23

  • Otras medidas de localización: mínimo, máximo y

    percentiles

    De vez en cuando, no sólo el dato más centrico es de interés y queremos medirotras posiciones en la muestra:

    El mínimo es el valor más pequeña de la muestra.

    El máximo es el valor más grande.

    El percentil de p × 100% es el valor (n + 1) ∗ p en la muestra ordenada.

    La idea es dividir la muestra en dos grupos de proporción (aproximadamente)p y (1− p) respectivamente.Tipicamente, se tiene que utilizar interpolación para calcular el percentil.

    Los percentiles de 25% y 75% se llaman el primer cuartíl y el tercer cuartílrespectivamente.

    M. Wiper Estadística 15 / 23

  • Otras medidas de localización: mínimo, máximo y

    percentiles

    De vez en cuando, no sólo el dato más centrico es de interés y queremos medirotras posiciones en la muestra:

    El mínimo es el valor más pequeña de la muestra.

    El máximo es el valor más grande.

    El percentil de p × 100% es el valor (n + 1) ∗ p en la muestra ordenada.

    La idea es dividir la muestra en dos grupos de proporción (aproximadamente)p y (1− p) respectivamente.Tipicamente, se tiene que utilizar interpolación para calcular el percentil.

    Los percentiles de 25% y 75% se llaman el primer cuartíl y el tercer cuartílrespectivamente.

    M. Wiper Estadística 15 / 23

  • Otras medidas de localización: mínimo, máximo y

    percentiles

    De vez en cuando, no sólo el dato más centrico es de interés y queremos medirotras posiciones en la muestra:

    El mínimo es el valor más pequeña de la muestra.

    El máximo es el valor más grande.

    El percentil de p × 100% es el valor (n + 1) ∗ p en la muestra ordenada.

    La idea es dividir la muestra en dos grupos de proporción (aproximadamente)p y (1− p) respectivamente.Tipicamente, se tiene que utilizar interpolación para calcular el percentil.

    Los percentiles de 25% y 75% se llaman el primer cuartíl y el tercer cuartílrespectivamente.

    M. Wiper Estadística 15 / 23

  • Ejemplo1, 2, 4, 5, 7, 9, 11, 13

    El mínimo (o cero cuartíl) es Q0 = 1.

    El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

    Q1 = 2+ 0,25× (4− 2) = 2,5.

    La mediana es Q2 = 6.

    EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

    Q3 = 9+ 0,75× (11− 9) = 10,5.

    El máximo (o cuarto cuartíl) es Q4 = 13.

    El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

    40% percentil = 4+ 0,6× (5− 4) = 4,6.

    M. Wiper Estadística 16 / 23

  • Ejemplo1, 2, 4, 5, 7, 9, 11, 13

    El mínimo (o cero cuartíl) es Q0 = 1.

    El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

    Q1 = 2+ 0,25× (4− 2) = 2,5.

    La mediana es Q2 = 6.

    EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

    Q3 = 9+ 0,75× (11− 9) = 10,5.

    El máximo (o cuarto cuartíl) es Q4 = 13.

    El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

    40% percentil = 4+ 0,6× (5− 4) = 4,6.

    M. Wiper Estadística 16 / 23

  • Ejemplo1, 2, 4, 5, 7, 9, 11, 13

    El mínimo (o cero cuartíl) es Q0 = 1.

    El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

    Q1 = 2+ 0,25× (4− 2) = 2,5.

    La mediana es Q2 = 6.

    EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

    Q3 = 9+ 0,75× (11− 9) = 10,5.

    El máximo (o cuarto cuartíl) es Q4 = 13.

    El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

    40% percentil = 4+ 0,6× (5− 4) = 4,6.

    M. Wiper Estadística 16 / 23

  • Ejemplo1, 2, 4, 5, 7, 9, 11, 13

    El mínimo (o cero cuartíl) es Q0 = 1.

    El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

    Q1 = 2+ 0,25× (4− 2) = 2,5.

    La mediana es Q2 = 6.

    EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

    Q3 = 9+ 0,75× (11− 9) = 10,5.

    El máximo (o cuarto cuartíl) es Q4 = 13.

    El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

    40% percentil = 4+ 0,6× (5− 4) = 4,6.

    M. Wiper Estadística 16 / 23

  • Ejemplo1, 2, 4, 5, 7, 9, 11, 13

    El mínimo (o cero cuartíl) es Q0 = 1.

    El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

    Q1 = 2+ 0,25× (4− 2) = 2,5.

    La mediana es Q2 = 6.

    EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

    Q3 = 9+ 0,75× (11− 9) = 10,5.

    El máximo (o cuarto cuartíl) es Q4 = 13.

    El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

    40% percentil = 4+ 0,6× (5− 4) = 4,6.

    M. Wiper Estadística 16 / 23

  • Ejemplo1, 2, 4, 5, 7, 9, 11, 13

    El mínimo (o cero cuartíl) es Q0 = 1.

    El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

    Q1 = 2+ 0,25× (4− 2) = 2,5.

    La mediana es Q2 = 6.

    EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

    Q3 = 9+ 0,75× (11− 9) = 10,5.

    El máximo (o cuarto cuartíl) es Q4 = 13.

    El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

    40% percentil = 4+ 0,6× (5− 4) = 4,6.

    M. Wiper Estadística 16 / 23

  • Ejemplo1, 2, 4, 5, 7, 9, 11, 13

    El mínimo (o cero cuartíl) es Q0 = 1.

    El primer cuartíl es el punto número 0,25× (8+ 1) o 2,25, es decir un cuartode la distancia entre el segundo y tercer punto.

    Q1 = 2+ 0,25× (4− 2) = 2,5.

    La mediana es Q2 = 6.

    EL tercer cuartil es el punto 0,75× (8+ 1) = 6,75.

    Q3 = 9+ 0,75× (11− 9) = 10,5.

    El máximo (o cuarto cuartíl) es Q4 = 13.

    El 40% percentil es el punto 0,4× (8+ 1) = 3,6.

    40% percentil = 4+ 0,6× (5− 4) = 4,6.

    M. Wiper Estadística 16 / 23

  • Cuartiles a través de la tabla de frecuencia

    Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.

    Igual que la mediana, sólo se puede calcular un intervalo conteniendo el cuartilpara datos continuos.

    M. Wiper Estadística 17 / 23

  • Cuartiles a través de la tabla de frecuencia

    Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.

    Igual que la mediana, sólo se puede calcular un intervalo conteniendo el cuartilpara datos continuos.

    M. Wiper Estadística 17 / 23

  • Cuartiles a través de la tabla de frecuencia

    Q0 = 0, Q1 = 2, Q2 = 3, Q3 = 5, Q4 = 9.

    Igual que la mediana, sólo se puede calcular un intervalo conteniendo el cuartilpara datos continuos.

    M. Wiper Estadística 17 / 23

  • Midiendo la dispersión de los datos: el rango

    La mediana es una medida razonable de la localización típica de los datos.

    Queremos una medida de dispersión.

    Una posibilidad es el rango que mide la distancia entre el mínimo y el máximo:R = Q4 − Q0.

    1, 2, 4, 5, 7, 9, 11, 13

    El rango es 12.

    ¾Qué pasaría en presencia de un dato atípico?

    1, 2, 4, 5, 7, 9, 11, 130

    El rango sube a 129. Es una medida muy inestable.

    M. Wiper Estadística 18 / 23

  • Midiendo la dispersión de los datos: el rango

    La mediana es una medida razonable de la localización típica de los datos.

    Queremos una medida de dispersión.

    Una posibilidad es el rango que mide la distancia entre el mínimo y el máximo:R = Q4 − Q0.

    1, 2, 4, 5, 7, 9, 11, 13

    El rango es 12.

    ¾Qué pasaría en presencia de un dato atípico?

    1, 2, 4, 5, 7, 9, 11, 130

    El rango sube a 129. Es una medida muy inestable.

    M. Wiper Estadística 18 / 23

  • Midiendo la dispersión de los datos: el rango

    intercuartilico

    Una medida mucho más estable es el rango intercaurtilico RI = Q3 − Q1.Mide la distancia entre los 50% de la muestra más centrica.

    1, 2, 4, 5, 7, 9, 11, 131, 2, 4, 5, 7, 9, 11, 130

    En ambos casos: RI = 10,5− 2,5 = 8. El RI es robusto a atípicos.

    M. Wiper Estadística 19 / 23

  • Identi�cando atípicos y el diagrama de caja

    Una regla empírica dice que si un dato queda más de 1,5× RI por debajo de Q1 opor arriba de Q3, se lo puede identi�car como atípico de la muestra. Si queda másde 3× RI por debajo de Q1 o arriba de Q3, se lo identi�ca como fuertamenteatípico.

    El diagrama de caja (o de caja y bigotes es una manera grá�ca de visualizar losdatos y mostrar la asimetría y posibles datos atípicos.

    M. Wiper Estadística 20 / 23

  • Ejemplo de juguete

    1, 2, 4, 5, 7, 9, 11, 13

    Sin presencia de atípicos, los bigotes sonel mínimo y máximo.

    1, 2, 4, 5, 7, 9, 11, 130

    El bigote de arriba está en 11: el datomáximo menor que Q3 + 1,5RI .Observamos un fuerte atípico.

    M. Wiper Estadística 21 / 23

  • Ejemplo de datos forestales

    Se puede ver la típica forma deldiagrama de caja con datos asimétricos ala derecha.

    M. Wiper Estadística 22 / 23

  • Resumen y siguiente sesión

    Hemos introducido la mediana y el rango intercuartilico como medidas delocalización y dispersión de una muestra.

    Son medidas muy apropiadas para muestras asímetricas en presencia de datosatípicos.

    En la siguiente sesión consideramos medidas alternativas muy apropiadas paramuestras simétricas.

    M. Wiper Estadística 23 / 23