notas de clase estadistica descriptiva

Post on 14-Dec-2015

255 Views

Category:

Documents

9 Downloads

Preview:

Click to see full reader

DESCRIPTION

Estadistica Descriptiva

TRANSCRIPT

FENÓMENOS

Experimentos eficientes. Análisis de resultados. Variación. Conclusiones correctas.

Estadística, conjunto de métodos para planear estudios y experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos.

Datos, son las observaciones recolectadas (mediciones, géneros, respuestas de encuestas). Población, conjunto completo de todos los elementos (puntuaciones, personas, medidas, etc) que se va a estudiar. El conjunto es completo porque incluye a todos los sujetos que se estudiarán. Censo, es el conjunto de datos de cada uno de los miembros de la población. Muestra, es un subconjunto de miembros seleccionados de una población.

Datos cuantitativos, consisten en números que representan conteo o mediciones. DISCRETOS:

Datos cualitativos (o categóricos o de atributo) se dividen en diferentes categorías que se distinguen por alguna característica no numérica.

CONTINUOS:

Nivel de medición de intervalo, parecido al ordinal con la propiedad adicional que la diferencia entre dos valores de datos cualesquiera tiene un significado. Sin embargo no tienen un punto de partida o cero natural.

Nivel de medición de razón, similar al nivel de intervalo, pero con la propiedad adicional que sí tiene un punto de partida cero natural (donde el cero indica que nada de la cantidad esté presente).

DATOS. Estudios observacionales, vemos y medimos características específicas, pero no intentamos modificar a los sujetos que estamos estudiando.

Estudio transversal, los datos se observan, miden y reúnen en un solo momento. Estudio retrospectivo (o de control de caso), los datos se toman del pasado (mediante el examen de registros, entrevistas, otros). Estudio prospectivo (o longitudinal o de cohorte), los datos se reunirán en el futuro y se toman de grupos (llamados cohortes) que comparten factores comunes.

Muestreo sitemático, elegimos algún punto de partida y luego seleccionamos cada k-ésimo elemento en la población.

Muestreo de conveniencia, se usan resultados que sean muy fáciles de obtener. Muestreo estratificado, se subdivide a la población en al menos dos subgrupos (o estratos diferentes), de manera que los sujetos del mismo subgrupo compartan las mismas características (como el género o la categoría de edad), y después se obtiene una muestra de cada subgrupo.

Muestreo por conglomerados, se divide el área de la población en secciones (o conglomerados), luego se eligen al azar algunos de estos conglomerados, y después se eligen a todos los miembros de los conglomerados seleccionados.

Error de muestreo, es la diferencia entre el resultado de una muestra y el verdadero resultado de la población, este error es consecuencia de las fluctuaciones por el azar. Error que no es de muestreo, sucede cuando los datos muestrales se obtienen, registran o analizan de forma incorrecta.

CARACTERÍSTICAS IMPORTANTES DE LOS DATOS: CENTRO, Valor promedio o representativo que indica la localización de la mitad del conjunto de los datos. VARIACIÓN, Medida de la cantidad en que los valores de los datos varían entre sí. DISTRIBUCIÓN, La naturaleza o forma de la distribución de los datos (como en forma de campana, uniforme, sesgada). VALORES EXTREMOS, Valores muestrales que están muy alejados de la vasta mayoría de los demás valores de la muestra. TIEMPO, Características cambiantes de los datos

Cintura Pulso Sistólica Diastólica Colesterol IMC Muslo Codo Muñeca Brazo

cm latidos/minuto mmHg mmHg mg cm cm cm cm

90.6 68 125 78 522 23.8 42.5 7.7 6.4 31.9

78.1 64 107 54 127 23.2 40.2 7.6 6.2 31.0

96.5 88 126 81 740 24.6 44.4 7.3 5.8 32.7

87.7 72 110 68 49 26.2 42.8 7.5 5.9 33.4

87.1 64 110 66 230 23.5 40.0 7.1 6.0 30.1

92.4 72 107 83 316 24.5 47.3 7.1 5.8 30.5

78.8 60 113 71 590 21.5 43.4 6.5 5.2 27.6

103.3 88 126 72 466 31.4 40.1 7.5 5.6 38.0

89.1 76 137 85 121 26.4 42.1 7.5 5.5 32.0

82.5 60 110 71 578 22.7 36.0 6.9 5.5 29.3

86.7 96 109 65 78 27.8 44.2 7.1 5.3 31.7

103.3 72 153 87 265 28.1 36.7 8.1 6.7 30.7

91.8 56 112 77 250 25.2 48.4 8.0 5.2 34.7

75.6 64 119 81 265 23.3 41.0 7.0 5.7 30.6

105.5 60 113 82 273 31.9 39.8 6.9 6.0 34.2

108.7 64 125 76 272 33.1 45.2 8.3 6.6 41.1

104.0 84 131 80 972 33.2 40.2 6.7 5.7 33.1

103.0 76 121 75 75 26.7 46.2 7.9 6.0 32.2

91.3 84 132 81 138 26.6 39.0 7.5 5.7 31.2

75.2 88 112 44 139 19.9 44.8 6.9 5.6 25.9

87.7 72 121 65 638 27.1 40.9 7.0 5.6 33.7

77.0 56 116 64 613 23.4 43.1 7.5 5.2 30.3

85.0 68 95 58 762 27.0 38.0 7.4 5.8 32.8

79.6 64 110 70 303 21.6 41.0 6.8 5.7 31.0

103.8 60 110 66 690 30.9 46.0 7.4 6.1 36.2

103.0 68 125 82 31 28.3 41.4 7.2 6.0 33.6

97.1 60 124 79 189 25.5 42.7 6.6 5.9 31.9

86.9 60 131 69 957 24.6 40.5 7.3 5.7 32.9

88.0 56 109 64 339 23.8 44.2 7.8 6.0 30.9

91.5 84 112 79 416 27.4 41.8 7.0 6.1 34.0

102.9 72 127 72 120 28.7 47.2 7.5 5.9 34.8

93.1 84 132 74 702 26.2 48.2 7.8 6.0 33.6

98.9 88 116 81 1252 26.4 42.9 6.7 5.8 31.3

107.5 56 125 84 288 32.1 42.8 8.2 5.9 37.6

81.6 64 112 77 176 19.6 40.8 7.1 5.3 27.9

75.7 56 125 77 277 20.7 42.6 6.6 5.3 26.9

95.0 56 120 83 649 26.3 44.9 7.4 6.0 36.9

91.1 60 118 68 113 26.9 41.1 7.0 6.1 34.5

94.9 64 115 75 656 25.6 44.5 7.3 5.8 32.1

79.9 72 115 65 172 24.2 44.0 7.1 5.4 30.7

Conjunto de datos: Resultados de examen de salud obtenidos del Departamento de Salud y Servicios Humanos de Estados Unidos.

RESUMEN ESTADÍSTICO DATOS DE OSOS.

RESUMEN HEMBRAS Y MACHOS JUNTOS

Variable Mediana Q3 Máximo

Cabeza longitud pulgadas 13.000 14.500 17.000

Cabeza ancho pulgadas 6.000 7.000 10.000

Cuello circunferencia pu 20.000 24.500 31.500

Estatura pulgadas 60.75 66.63 76.50

Pecho circunferencia tor 34.00 44.00 55.00

Peso libras 150.0 242.5 514.0

Edad meses 34.00 58.00 177.00

RESUMEN HEMBRAS y MACHOS separado

Error

estándar

de la

Variable N N* Media media Desv.Est. Mínimo Q1

Peso libras 35 0 199.7 22.7 134.1 34.0 86.0

Pecho circunferencia tor 35 0 36.78 1.68 9.93 19.00 29.00

Estatura pulgadas 35 0 59.42 1.97 11.64 37.00 49.00

Cabeza ancho pulgadas 35 0 6.471 0.285 1.689 4.000 5.000

Cabeza longitud pulgadas 35 0 13.229 0.389 2.302 9.000 11.500

RESUMEN HEMBRAS y MACHOS separado

Error

estándar

de la

Variable N N* Media media Desv.Est. Mínimo Q1

Cabeza longitud pulgadas 19 0 12.447 0.404 1.763 9.000 11.500

Cabeza ancho pulgadas 19 0 5.684 0.220 0.960 4.500 5.000

Cuello circunferencia pu 19 0 18.42 1.14 4.95 10.00 15.00

Estatura pulgadas 19 0 57.13 2.02 8.81 36.00 52.00

Pecho circunferencia tor 19 0 33.55 1.85 8.07 19.00 28.00

Peso libras 19 0 151.8 20.7 90.4 26.0 76.0

Edad meses 19 0 51.21 7.09 30.90 8.00 17.00

Hogar Tamaño Metal Papel Plástico Vidrio Comida Patio Textos Otros Total

1 2 1.09 2.41 0.27 0.86 1.04 0.38 0.05 4.66 10.76

2 3 1.04 7.57 1.41 3.46 3.68 0 0.46 2.34 19.96

3 3 2.57 9.55 2.19 4.52 4.43 0.24 0.5 3.6 27.6

4 6 3.02 8.82 2.83 4.92 2.98 0.63 2.26 12.65 38.11

5 4 1.5 8.72 2.19 6.31 6.3 0.15 0.55 2.18 27.9

6 2 2.1 6.96 1.81 2.49 1.46 4.58 0.36 2.14 21.9

7 1 1.93 6.83 0.85 0.51 8.82 0.07 0.6 2.22 21.83

8 5 3.57 11.42 3.05 5.81 9.62 4.76 0.21 10.83 49.27

9 6 2.32 16.08 3.42 1.96 4.41 0.13 0.81 4.14 33.27

10 4 1.89 6.38 2.1 17.67 2.73 3.86 0.66 0.25 35.54

11 4 3.26 13.05 2.93 3.21 9.31 0.7 0.37 11.61 44.44

12 7 3.99 11.36 2.44 4.94 3.59 13.45 4.25 1.15 45.17

13 3 2.04 15.09 2.17 3.1 5.36 0.74 0.42 4.15 33.07

14 5 0.99 2.8 1.41 1.39 1.47 0.82 0.44 1.03 10.35

15 6 2.96 6.44 2 5.21 7.06 6.14 0.2 14.43 44.44

16 2 1.5 5.86 0.93 2.03 2.52 1.37 0.27 9.65 24.13

17 4 2.43 11.08 2.97 1.74 1.75 14.7 0.39 2.54 37.6

18 4 2.97 12.43 2.04 3.99 5.64 0.22 2.47 9.2 38.96

19 3 1.42 6.05 0.65 6.26 1.93 0 0.86 0 17.17

20 3 3.6 13.61 2.13 3.52 6.46 0 0.96 1.32 31.6

21 2 4.48 6.98 0.63 2.01 6.72 2 0.11 0.18 23.11

22 2 1.36 14.33 1.53 2.21 5.76 0.58 0.17 1.62 27.56

23 4 2.11 13.31 4.69 0.25 9.72 0.02 0.46 0.4 30.96

24 1 0.41 3.27 0.15 0.09 0.16 0 0 0 4.08

25 4 2.02 6.67 1.45 6.85 5.52 0 0.68 0.03 23.22

26 6 3.27 17.65 2.68 2.33 11.92 0.83 0.28 4.03 42.99

27 11 4.95 12.73 3.53 5.45 4.68 0 0.67 19.89 51.9

28 3 1 9.83 1.49 2.04 4.76 0.42 0.54 0.12 20.2

29 4 1.55 16.39 2.31 4.98 7.85 2.04 0.2 1.48 36.8

30 3 1.41 6.33 0.92 3.54 2.9 3.85 0.03 0.04 19.02

31 2 1.05 9.19 0.89 1.06 2.87 0.33 0.01 0.03 15.43

32 2 1.31 9.41 0.8 2.7 5.09 0.64 0.05 0.71 20.71

33 2 2.5 9.45 0.72 1.14 3.17 0 0.02 0.01 17.01

34 4 2.35 12.32 2.66 12.24 2.4 7.87 4.73 0.78 45.35

35 6 3.69 20.12 4.37 5.67 13.2 0 1.15 1.17 49.37

36 2 3.61 7.72 0.92 2.43 2.07 0.68 0.63 0 18.06

37 2 1.49 6.16 1.4 4.02 4 0.3 0.04 0 17.41

38 2 1.36 7.98 1.45 6.45 4.27 0.02 0.12 2.02 23.67

39 2 1.73 9.64 1.68 1.89 1.87 0.01 1.73 0.58 19.13

40 2 0.94 8.08 1.53 1.78 8.13 0.36 0.12 0.05 20.99

41 3 1.33 10.99 1.44 2.93 3.51 0 0.39 0.59 21.18

42 3 2.62 13.11 1.44 1.82 4.21 4.73 0.64 0.49 29.06

43 2 1.25 3.26 1.36 2.89 3.34 2.69 0 0.16 14.95

44 2 0.26 1.65 0.38 0.99 0.77 0.34 0.04 0 4.43

45 3 4.41 10 1.74 1.93 1.14 0.92 0.08 4.6 24.82

46 6 3.22 8.96 2.35 3.61 1.45 0 0.09 1.12 20.8

47 4 1.86 9.46 2.3 2.53 6.54 0 0.65 2.45 25.79

48 4 1.76 5.88 1.14 3.76 0.92 1.12 0 0.04 14.62

49 3 2.83 8.26 2.88 1.32 5.14 5.6 0.35 2.03 28.41

50 3 2.74 12.45 2.13 2.64 4.59 1.07 0.41 1.14 27.17

51 10 4.63 10.58 5.28 12.33 2.94 0.12 2.94 15.65 54.47

52 3 1.7 5.87 1.48 1.79 1.42 0 0.27 0.59 13.12

53 6 3.29 8.78 3.36 3.99 10.44 0.9 1.71 13.3 45.77

54 5 1.22 11.03 2.83 4.44 3 4.3 1.95 6.02 34.79

55 4 3.2 12.29 2.87 9.25 5.91 1.32 1.87 0.55 37.26

56 7 3.09 20.58 2.96 4.02 16.81 0.47 1.52 2.13 51.58

57 5 2.58 12.56 1.61 1.38 5.01 0 0.21 1.46 24.81

58 4 1.67 9.92 1.58 1.59 9.96 0.13 0.2 1.13 26.18

59 2 0.85 3.45 1.15 0.85 3.89 0 0.02 1.04 11.25

60 4 1.52 9.09 1.28 8.87 4.83 0 0.95 1.61 28.15

61 2 1.37 3.69 0.58 3.64 1.78 0.08 0 0 11.14

62 2 1.32 2.61 0.74 3.03 3.37 0.17 0 0.46 11.7

Pesos (libras) de desechos de basura de una semana DATOS

REALIDAD

PROBLEMA

Análisis descriptivo:

Análisis descriptivo:

Gráfica de puntos Utilice para evaluar y comparar distribuciones al graficar los valores a lo largo de una línea de números. Las gráficas de puntos son especialmente útiles para comparar distribuciones. El eje x de una gráfica de puntos se divide en muchos intervalos pequeños o secciones. Los valores de datos que quedan dentro de cada sección se representan con puntos.

Se utiliza para examinar la forma y dispersión de los datos de muestra. Los histogramas dividen los valores de las muestras en muchos intervalos denominados secciones. Las barras representan el número de observaciones que se ubican dentro de cada sección (su frecuencia).

No. de clase

Límites de clase

Frecuencia de clase

Frecuencia acumulada

Marca de clase

Frecuencia relativa

Frecuencia relativa acumulada

Rango Número de clases Ancho de clase Límite inferior de la clase Límite superior de la clase Frecuencia Frecuencia acumulada Frecuencia relativa Frecuencia relativa acumulada

Distribución normal si: Al inicio las frecuencias son bajas, después se incrementan hasta un punto máximo y luego disminuyen. La distribución debe ser aproximadamente simétrica y las frecuencias deben distribuirse de manera uniforme a ambos lados de la frecuencia máxima.

Análisis descriptivo:

Valor atípico - una observación inusualmente grande o pequeña. Los valores ubicados más allá de los bigotes son valores atípicos. La parte superior de la caja es el tercer cuartil (Q3) - 75% de los valores de datos son menores que o iguales a este valor. La parte inferior de la caja es el primer cuartil (Q1) - 25% de los valores de datos son menores que o iguales a este valor.

El bigote superior se extiende hasta el valor de datos más alto dentro del límite superior. Límite superior = Q3 + 1.5 (Q3 - Q1) Mediana (Q2) - el centro de los datos. La mitad de las observaciones son menores que o iguales a la mediana. El bigote inferior se extiende hasta el valor más bajo dentro del límite inferior. Límite inferior = Q1- 1.5 (Q3 - Q1)

Las gráficas de caja (también denominadas gráficas de caja y

bigotes) se utilizan para evaluar y comparar las distribuciones de

la muestra.

Gráficas de Pareto, es una gráfica de barras para datos cualitativos, donde las barras se ordenan de acuerdo con las frecuencias. La barra más alta se coloca a la izquierda y las más pequeñas a la derecha. Al ordena las barras por frecuencias, esta gráfica enfoca la atención en las categorías más importantes.

La gráfica circular se utiliza para visualizar datos cualitativos como si fueran rebanadas de un pastel. Se divide el círculo en las proporciones adecuadas.

Métodos de estadística descriptiva, con el objetivo de resumir o describir las características importantes de un conjunto de datos. Medida de tendencia centra, es un valor que se encuentra en el centro o a la mitad de un conjunto de datos. Media (aritmética), de un conjunto de valores es la medida de tendencia central que se calcula al sumar los valores y dividir el total entre el número de valores. Media ( X ) = (Ʃx)/n …Muestral Media (µ) = (Ʃx)/n … Poblacional

Mediana, de un conjunto de datos es la medida de tendencia central que implica el valor intermedio, cuando los valores de los datos originales se presentan en orden de magnitud creciente (o decreciente). La mediana suele denotarse con x.

Moda, de un conjunto de datos es el valor que se presenta con mayor frecuencia. Regla de redondeo, aumenta una posición decimal a las que hay en el conjunto original de datos.

Media, de una distribución de frecuencias se obtiene por la fórmula siguiente:

X = (Ʃ(F∙xj)/ƩF

Mediana, de una distribución de frecuencias se obtiene está representado por el Q2. Moda, de una distribución de frecuencias se define como el valor de la marca de clase (xj) que tiene la mayor

frecuencia.

Si sólo consideramos la media, no podremos reconocer ninguna diferencia entre las tres muestras.

El rango, de un conjunto de datos es la diferencia entre el valor máximo y el valor mínimo.

Desviación estándar (s) de un conjunto de valores muestrales, es la medida de variación de los valores con respecto a la media. Propiedades: 1. Es una medida de variación de todos los valores con

respecto a la media. 2. El valor de las desviaciones estándar s generalmente

es positivo. Sólo es igual a cero cuando todos los valores de los datos son el mismo número. Nunca es negativa. Los valores grandes de s implican mayores cantidades de variación.

3. El valor de s puede aumenta de manera drástica con la inclusión de uno o más valores extremos.

4. Las unidades de s son las mismas de los datos originales.

En una distribución normal (forma de campana), las desviaciones estándares sucesivas con respecto a la media proveen valores de referencia útiles para estimar el porcentaje de observaciones de datos.

El símbolo σ(sigma) se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra. La variación que no es aleatoria o natural de un proceso se conoce comúnmente como ruido.

La varianza de un conjunto de valores es una media de variación igual al cuadrado de la desviación estándar (s2 para varianza muestral y σ2 para varianza poblacional). Algunos métodos estadísticos relevantes, como el análisis de varianza (ANOVA) utilizan la varianza como estadístico importante. Una gran desventaja: las unidades de la varianza son diferentes a las unidades del conjunto original de datos.

¿min2?

INTERPRETACIÓN Y COMPRENSIÓN DE LA DESVIACIÓN ESTÁNDAR

La desviación estándar mide la variación entre los valores. Los valores cercanos producirán una desviación estándar pequeña, mientras que los valores muy dispersos producirán una desviación estándar más grande.

Banco 1 Banco 2 Banco 3 2 4 1 6 7 3 10 7 14

Para datos agrupados en una tabla de frecuencias. La desviación estándar se calcula por la siguiente fórmula:

es intervalo de confianza de 68% para µ

es intervalo de confianza de 90% para µ

es intervalo de confianza de 95% para µ

es intervalo de confianza de 99% para µ

es intervalo de confianza de 99.7% para µ

Determinación del sesgo de la distribución. Coeficiente de sesgo de Pearson.

REGLA PRÁCTICA DEL INTERVALO. Para estimar el valor de la desviación estándar s, utilice: s ≈ rango/4 Para interpretar un valor conocido de la desviación estándar: Si se conoce la desviación estándar s, utilice para calcular estimados de los valores muestrales mínimos y máximos “comunes” por medio de Valor mínimo “común” = Media – 2s Valor máximo “común” = Media + 2s

10987654321

0,9

0,8

0,7

0,6

0,5

0,4

0,3

Muestra

Pro

po

rció

n

_P=0,5425

UCL=0,7096

LCL=0,3754

1

1

1

1

Gráfica P de Cenizas E

En un contexto de manufacturas, no importa lo cuidadosamente que se hayan calibrado las máquinas, que se controlen los factores ambientales, se supervisen materiales y otros insumos, y se capaciten trabajadores, el diámetro variará de un tornillo a otro, algunas hojas de plástico serán más fuertes que otras, algunos fusibles serán defectuosos y otros no tendrán problemas. Se podría considerar que esta variaciones aleatorias naturales son ruido de fondo incontrolable.

Esta variación puede ser atribuible a materiales contaminados, ajustes incorrectos de máquinas, desgaste poco común en herramientas, y otros semejantes. Estas fuentes de variación se han denominado causas asignables en el control de calidad. Las gráficas de control son mecanismos para reconocer situaciones donde las causas asignables pueden estar afectando de manera adversa la calidad de un producto.

10987654321

0,9

0,8

0,7

0,6

0,5

0,4

0,3

Muestra

Pro

po

rció

n

_P=0,5425

UCL=0,7096

LCL=0,3754

1

1

1

1

Gráfica P de Cenizas E

La gráfica X basada en valores conocidos de parámetros. control, X tiene una distribución normal valor medio µ y desviación estándar σ. Se puede graficar X conjuntamente con el límite inferior de control y límite superior de control denominando al trazo gráfica de 3 sigmas. Cualquier punto fuera de los límites de control sugiere que el proceso puede haber estado fuera de control en ese tiempo, de modo que debe iniciarse una búsqueda de las causas asignables.

10987654321

0,9

0,8

0,7

0,6

0,5

0,4

0,3

Muestra

Pro

po

rció

n

_P=0,5425

UCL=0,7096

LCL=0,3754

1

1

1

1

Gráfica P de Cenizas E

LIC = µ - 3(σ/ ) LSC= µ + 3(σ/ )

Muestra media rango desviación estándar

Semana 1 2 3

1 152 137 86

2 115 131 131

3 140 116 139

4 131 166 154

5 123 106 107

6 99 116 130

7 176 155 171

8 134 150 176

9 111 126 111

10 146 127 124

11 153 89 225

12 128 120 146

13 128 120 146

14 112 116 109

15 115 137 196

GRAFICO DE CONTROL R (rangos)

GRAFICO DE CONTROL

GRAFICO DE CONTROL S

n A2 A3 B3 B4 D3 D4 2 1.880 2.659 0.000 3.267 0.000 3.267

3 1.023 1.954 0.000 2.568 0.000 2.575

4 0.729 1.628 0.000 2.266 0.000 2.282

5 0.577 1.427 0.000 2.089 0.000 2.114

6 0.483 1.287 0.030 1.970 0.000 2.004

7 0.419 1.182 0.118 1.882 0.076 1.924

8 0.373 1.099 0.185 1.815 0.136 1.864

9 0.337 1.032 0.239 1.761 0.184 1.816

10 0.308 0.975 0.284 1.716 0.223 1.777

El coeficiente de variación (CV), de un conjunto de datos muestrales o poblacionales, expresado como porcentaje, describe la desviación estándar en relación con la media. El CV está dado de la siguiente forma: Muestra: CV = (s / x )100% Población: CV = (σ / µ )100%

Comparación

top related