esta d stica descript iva

Post on 11-Dec-2015

231 Views

Category:

Documents

12 Downloads

Preview:

Click to see full reader

DESCRIPTION

estadistica

TRANSCRIPT

ESTADÍS

TICA

DESCRIPTI

VA

Sandra

Mac

hado

EJEMPLO

La directora ele producción de una empresa debe informar a su superior sobre el número de días promedio que los empleados de la empresa se ausentan del trabajo. Sin embargo, la planta emplea más de dos mil trabajadores, y la directora de producción no tiene tiempo de revisar los registros personales de cada empleado. Como asistente, usted debe decidir cómo puede ella obtener la información necesaria. ¿Qué consejo podría darle?

Estadística

Recolectar

Organizar

Resumir

Presentar

AnalizarInterpret

ar

Generalizar

Contrastar

¿QUÉ ES LA ESTADÍSTICA?

Significa técnica o método científico usado para recolectar, organizar, resumir, presentar, analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.

¿POR QUÉ USTED NECESITA CONOCER ESTADÍSTICA?

Presentar y describir la información en forma adecuada.

Inferir conclusiones sobre poblaciones grandes basándose solamente en la información obtenida de subconjuntos de ellas.

Utilizar modelos para obtener pronósticos confiables.

DEFINICIONES

Una POBLACIÓN es el conjunto total de objetos que son de interés para un problema dado. Los objetos pueden ser

personas, animales, producto fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo

Una MUESTRA es un subconjunto de la población.

Los DATOS u Observaciones son números o denominaciones que podemos asignar a un individuo o elemento de la

población.Un PARÁMETRO es cualquier característica medible de una

población.

Un ESTADÍSTICO es cualquier característica medible de una muestra.

Un CENSO (palabra derivada del latín censere, que significa "valuar o tasar") es la enumeración completa de la población.

La ESTADÍSTICA DESCRIPTIVA se compone de aquellos métodos que incluyen técnicas- para recolectar, presentar, analizar e

interpretar datos.

La ESTADÍSTICA INFERENCIAL abarca aquellos métodos y conjuntos de técnicas que se utilizan para obtener

conclusiones sóbrelas leyes de comportamiento de una población basándose en los datos de muestras tornadas de esa

población.

MUESTREO ALEATORIO 5%

MUESTREO ALEATORIO 10%

ORGANIZACIÓN DE DATOS DE ACUERDO AL TIPO

Como se ilustra en la figura, existen dos tipos de datos: categóricos (o cualitativos) y numéricos (cuantitativos).

TIPOS DE VARIABLES

ORGANIZACIÓN DE DATOS MEDIANTE TABLAS

En esta forma de organización de datos es importante el concepto de frecuencia de un dato.

Ejemplo: En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro sólo aparece una vez (por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el 7 tiene frecuencia f = 3, etc.

La frecuencia (absoluta) de un dato, simbolizado con la letra f, es el número de veces que aparece ese dato en una colección de datos.

DATOS ORIGINALES

TABLAS DE FRECUENCIA

TABLAS DE FRECUENCIA

NO AGRUPADAS

AGRUPADAS

TABLA DE FRECUENCIA NO AGRUPADAS

Tablas de frecuencias: variables cuantitativas discretas

Distribución del número de hermanos (excluido él mismo) de una muestra de 500 alumnos varones de

una UniversidadNúmero de hermanos f fr % F FR

% acumulado

0 72 0.1440 14.4 72 0.144 14.4

1 155 0.3100 31 227 0.454 45.4

2 97 0.1940 19.4 324 0.648 64.8

3 81 0.1620 16.2 405 0.81 81

4 30 0.0600 6 435 0.87 87

5 27 0.0540 5.4 462 0.924 92.4

6 20 0.0400 4 482 0.964 96.4

más de 6 18 0.0360 3.6 500 1 100

Total 500 1.0000 100

TABLA DE FRECUENCIAS NO AGRUPADAS

Ejemplo:

Se clasificó a los estudiantes de un programa universitario de acuerdo con el semestre que cursan y sus preferencias deportivas. Los resultados están registrados en la siguiente tabla:

¿Qué porcentaje de los estudiantes de primer semestre prefieren el fútbol?

¿Qué porcentaje de los aficionados a la natación son de segundo semestre?

¿Qué porcentaje del total de los estudiantes prefieren el basquetbol?

¿Qué porcentaje de los estudiantes son de cuarto semestre?

¿Qué porcentaje del total de estudiantes son de tercero o cuarto semestre?

¿Qué porcentaje prefiere la natación, el voleibol o el béisbol?

Primero Segundo Tercero Cuarto TOTAL

Fútbol 15 14 5 9 43

Béisbol 12 22 6 6 46

Voleibol 5 5 9 5 24

Basquetbol 26 7 6 7 46

Natación 7 8 4 2 21

TOTAL 65 56 30 29 180

TABLA DE FRECUENCIAS AGRUPADAS

Ejemplo: La tabla es un ejemplo de una tabla de frecuencias agrupada y 10-14 y 15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los datos de tiempo de auditorías de fin de año.

Tiempo de auditoría (días)

Frecuencia

10 - 14 415 - 19 820 - 24 525 - 29 230 - 34 1

Intervalo de Clase o Clase

Frecuencias de Clase

Datos Agrupados

Limite inferior de Clase

Limite superior de

Clase

AMPLITUDES

LÍMITES DE CLASES TEÓRICOSL ÍMITES REALES DE CLASE O

FRONTERA DE CLASEDistribución de frecuencias para los datos de tiempo de auditoría:Tiempo de auditoría

(días)Fronteras inferior -

superior Frecuencia

10 - 14 9,5 - 14,5 4

15- 19 14,5 - 19,5 8

20- 24 19,5 - 24,5 5

25- 29 24,5 - 29,5 2

30- 34 29,5 - 34,5 1

DIAGRAMA DE TALLO Y HOJA

Un TALLO es el primer dígito o parte del numeral, mientras que una HOJA está formada por el o los dígitos restantes.

Por ejemplo, el numeral 534 se puede descomponer en dos formas:

5 | 34 53 | 4

tallo hoja tallo hoja

EJEMPLOConstruye una tabla de frecuencias

agrupadas considerando los siguientes datos:

Paso 1. Organizamos los datos en un diagrama de tallo y hoja

Paso 2. Primero determinamos el rango R. Como la medida mayor menos la medida menor.

14 21 23 21 16 19 22 25 16 1624 28 15 22 24 20 22 24 22 2016 17 18 23 25 20 23 16 20 1924 24 25 19 16 19 18 19 21 12

Paso 3. El ejemplo no nos dice con cuántas clases debemos construir la tabla de frecuencias agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar la regla de Sturges

c = 3, 3 (log n) + 1

donde n es el número de medidas y log n es el logaritmo de n en base 10. El valor de c es común redondearlo al entero más cercano.

Otra regla razonable para el número de clase es:

c = √n

Paso 4. Ahora, determinamos w, la amplitud de cada clase. En este caso,

Paso 5: A continuación se construye la primera clase con un ancho de w = 3. Para ello, primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como la unidad de medida es 1 (porque todos los datos son enteros) y como el "punto medio" de cada unidad de medida es

Paso 6. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que la frontera inferior de la clase siguiente coincide con la frontera superior de la clase anterior y que la amplitud del intervalo es w = 3.

Paso 7. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta. Si uno de los datos cae en una clase, anotamos una marca (\) en la columna correspondiente a esa clase.

Paso 8. Calculamos la frecuencia relativa, Frecuencia acumulada y frecuencia acumulada relativa.

DIAGRAMAS CIRCULARES (O DE PASTEL)

Se utilizan para hacer representaciones porcentuales y se emplean generalmente para datos categóricos.

EJEMPLO: La siguiente tabLa presenta los datos sobre la cantidad de refrescos de marca A, B, C, D y E que se vendieron en una tienda:Refresco Frecuencia

Frecuencia relativa

A 19 0,38B 8 0,16C 5 0,10D 13 0,26E 5 0,10

A38%

B16%

C10%

D26%

E10%

PICTOGRAMAS O PICTÓGRAFOS

Un PICTOGRAMA es la representación de datos estadísticos por medio de símbolos que por su forma sugieren la naturaleza del dato.

DIAGRAMA DE BARRAS

Es una representación gráfica en la que cada una de las modalidades del aspecto de interés se representa mediante una barra.

A B C D E0

2

4

6

8

10

12

14

16

18

20

REFRESCOS

DESCRIPCIÓN

En este gráfico se suelen disponer los datos en el primer cuadrante de unos ejes coordenados, y se levanta sobre el eje de las abscisas una barra para cada modalidad del dato observado. La altura de la barra ha de ser proporcional a la frecuencia absoluta o relativa, que se representa en el eje de las ordenadas. Este tipo de diagramas se utilizan tanto para datos categóricos como numéricos.

HISTOGRAMAS

Los histogramas son una forma de representación gráfica de una distribución de frecuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas) por medio de áreas de rectángulos (barras). Cuando utilizamos frecuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse para distribuciones de frecuencias agrupadas y no agrupadas.

EJEMPLO

La tabla de frecuencias (absolutas, acumuladas y relativas).Clase Punto Medio f fr F Fr

5.95 7.95 6.95 4 0.2000 4 0.2000

7.95 9.95 8.95 2 0.1000 6 0.3000

9.95 11.95 10.95 9 0.4500 15 0.7500

11.95 13.95 12.95 2 0.1000 17 0.8500

13.95 15.95 14.95 3 0.1500 20 1.0000

POLÍGONO

OJIVA

MEDIDAS E

STADÍS

TICAS

ANÁLISIS DE DATOS EN TABLAS DE FRECUENCIAS NO AGRUPADAS

MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIÓN

MEDIDAS DE TENDENCIA CENTRAL O DE CENTRALIZACIÓN

MediaLa media aritmética de cierto conjunto de

números se encuentra sumando los números y dividiendo después entre la cantidad de datos. En otras palabras, si x1... ,xn son

números, entonces la media aritmética de este conjunto de números está dada por

EJEMPLO

Supongamos que tenemos la muestra siguiente de edades en año de principiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media aritmética de estos datos es:

MEDIA ARITMÉTICA PONDERADA

Generalmente, para calcular la media de un conjunto de datos es más cómodo utilizar la llamada media aritmética ponderada, la cual es un caso especial de la media aritmética. Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que puede ocurrir si se han organizado los datos en una tabla de frecuencias.

Sea dada siguiente tabla de frecuencias no agrupadas:

en donde fi es la frecuencia del dato Xi. Entonces, la MEDIA aritmética PONDERADA o, simplemente, media artimetica, de los datos Xi,...,xn se define como

Dato Xi X2 xnFrecuencia f1 f2 fn

EJEMPLO

La media aritmética de los siguientes datosDato 18 19 20 21Frecuencia 4 3 2 1

DESVENTAJA DE LA MEDIA

La media tiene una seria desventaja: se ve afectada por los valores extremos del final de una distribución. Como depende del valor de cada medida, los valores extremos pueden llevarla a representar defectuosamente los datos.

MEDIANA

Ejemplo 1 El conjunto de números 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto que ya los datos están ordenados, el número de datos es 9 (impar) y, en este caso, el 6 está ubicado en el centro (en el cuarto lugar).

Ejemplo 2 El conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana (9 + 11)/2 = 10, puesto que ya los datos están ordenados, el número de datos es 8 (par), el 9 y el 11 son los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos.

Para datos medidos en al menos una escala de intervalo, la MEDIANA es el puntaje medio

ordenado.

MEDIANA

Ejemplo 3: Encuentre la mediana para los datos organizados en la siguiente tabla de frecuencias:

Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la mediana

es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran en la tabla

Datos 0 1 2 3 4Frecuencia 10 10 8 4 8

Datos 0 1 2 3 4Frecuencia 10 20 28 32 40

Como el total de datos es n = 40 (par), entonces la mediana es el promedio de las medidas que están en las posiciones = 20 y + 1 = 21. Para encontrar la mediana recomendamos contar los datos en dirección de la medida menor a la mayor. En la tabla es fácil ver que el dato en lugar 20 es 1 y que el dato en la posición 21 es 2. Por tanto, la mediana es:

VENTAJAS Y DESVENTAJAS DE LA MEDIANAEl uso de la mediana para datos de intervalo posee tanto ventajas como desventajas. Una ventaja consiste en que la mediana no se ve afectada por valores extremos al final de la distribución. Su desventaja reside en que no es fácilmente determinable si el conjunto de datos es grande, puesto que las medidas deben ordenarse primero y ponerse en orden numérico de menor a mayor o al contrario.

MODA

Ejemplo 1. El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato con mayor frecuencia.

La MODA, si se da, es el dato con mayor frecuencia.

VENTAJAS DE LA MODATiene dos ventajas: Para ciertas muestras pequeñas, se le determina fácilmente y, en general, no se ve afectada por los valores extremos al final de un conjunto de datos ordenados. Cuando se analizan datos categóricos, la moda es el único dato de tendencia central que puede utilizarse. Además, la moda puede usarse como una medida de tendencia central para datos numéricos empleados en sentido categórico. Una moda para datos en una tabla de frecuencia se encuentra localizando el valor de frecuencia máxima, si no todas las frecuencias son iguales. El dato que corresponde al valor de frecuencia máxima se toma como la moda.

DESVENTAJAS

La moda tiene varias desventajas como medida de tendencia central: una de ellas consiste en que para un cierto conjunto de datos no puede haber moda. Esta situación surge cuando todos los datos tienen la misma frecuencia. Otra desventaja reside en que la moda puede existir pero no ser única.

TAREA

Indaga sobre: Media geométrica Media armónica

MEDIDAS DE COLOCACIÓN O DE POSICIÓN RELATIVA

Una medida de colocación o de posición relativa para una distribución de frecuencias es aquel valor para el cual una porción especifica de la distribución queda en o debajo de él.

PERCENTILES

El p-ésimo (punto) percentil es un valor tal que a lo más un p% de los datos tienen dicho o menos de ese valor y, al menos, un (100 — p)% de los datos tienen este valor o más.

PASOS PARA CALCULARLOS

Para calcular el p-ésimo (punto) percentil de un conjunto de n datos, es importante que tengamos en cuenta los siguientes pasos:

• Ordenemos los datos de manera ascendente.

• Calculemos un índice i a través de la fórmula i = np/100, siendo p el percentil de interés y n, la cantidad de datos.

• Decidamos de acuerdo a uno de los dos casos:

— Si el índice i no es entero, redondeamos al entero siguiente. Este valor aproximado de i indica la posición del p-ésimo percentil.

— Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en las posiciones i y i + 1.

EJEMPLO

Calcule (a) el 85-ésimo punto percentil y (b) el 50-ésimo punto percentil de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados en una empresa:

2,350 2,450 2,550 2,380 2,255 2,210 2,390 2,630 2,440 2,825 2,420 2,380

SOLUCIÓN:

Como primer paso fundamental debemos ordenar los datos de manera ascendente (preferiblemente con ayuda de un diagrama de tallo y hojas):

2,210 2,255 2,350 2,380 2,380 2,390 2,420 2,440 2,450 2,550 2,630 2,825

(a) Para determinar el 85-ésimo punto percentil, calculemos el índice i = np/100, con p = 85 y n = 12. Al reemplazar obtenemos que i = 10,2. En este caso, como i = 10,2 no es entero, entonces redondeamos a 11. Por lo tanto, el lugar del Sb-ésimo percentil es el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el 85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el 15% de estos empleados ganan $2.630.000 o más que este valor.

(b) En este caso, p = 50. Con ello y con n = 12 obtenemos que i = 6 (que es un número entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y séptimo (2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto de datos. En conclusión, podemos decir que el 50% de los empleados tienen un salario menor o igual (o mayor o igual) que $2.405.000.

CUARTILES

Los cuartiles son las medidas de posición relativa correspondiente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se definen asi:

• Q1 = primer cuartil o 25 - esimo percentil.

• Q2 = segundo cuartil o 50 - ésimo percentil o también mediana.

• Q3 = tercer cuartil o 75 - ésimo percentil.

EJEMPLO

Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.

SOLUCIÓN:

Como Q2 coincide con la mediana, entonces Q2 = 2,405. Calculando los percentiles como en el anterior ejemplo podemos verifícar que

Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa que el 25% de los empleados gana al menos $2.365.000 o el 75% gana más de este salario, y el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o el 25% gana más de este salario.

DECILES

Los deciles son las medidas de posición relativa correspondiente a un conjunto de datos (ordenado ascendentemente) que está dividido en diez partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.

Hay nueve deciles, denotados por D1, D2, ... y D9. Si Dn es el n-ésimo decil, entonces cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-ésimo punto percentil, D7 es 70-ésimo punto percentil, etc.

ANÁLISIS DE DATOS EN TABLAS DE FRECUENCIA AGRUPADAS

Media para datos agrupados

Ejemplo 1.4.1 Los datos siguientes representan el número de personas que han entrado a un establecimiento diariamente durante un periodo de 25 días:

60 36 61 56 19 35 51 42 21 28 33 67 30 49 57

61 54 59 28 63 38 15 24 35 46 53

Los datos han sido agrupados en la tabla de frecuencias agrupadasNúmero de personas Número de días

14,5 - 25,525,5 - 36,536,5 - 47,547,5 - 58,558,5 - 69,5

47363

(a) Calcule la media x del número de personas que entran por día.

(b) Calcule la media aproximada xa del número de personas que entran por día.

SOLUCIÓN:

(a) Se puede comprobar que la media de los datos es = 42,4.

(c) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su frecuencia correspondiente, como se muestra en la tabla

Número de personas

Número de días f

ni

Marca clase X

Mi

fXNi

14,5 - 25,5 25,5 - 36,5 36,5 - 47,5 47,5 – 58,5 58,5-69,5

47 3 6 5

2031 42 53 64

80 217 126 318 320

SUMAS 25 1061

Por consiguiente, la media aproximada es:

el cual es sólo un valor aproximado para la media de las 25 medidas muéstrales originales. La aproximación se considera buena comparada con el valor exacto x = 42,40, obtenido en la parte (a)

MEDIANA PARA DATOS AGRUPADOS

Clase FrecuenciaFrecuencia acumulada49,5 - 59,5 3 359,5 - 69,5 7 1069,5 - 79,5 18 2879,5 - 89,5 12 4089,5 - 99,5 8 4899,5 - 109,5 2 50

MODA PARA DATOS AGRUPADOS

PERCENTILES

VARIANZA Y DESVIACIÓN TÍPICA

RESUMEN DE LOS CINCO NÚMEROS

Un resumen de cinco números consiste en cinco cantidades que se emplean para resumir los datos: valor mínimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3) y valor máximo.

Con base en el resumen de cinco números se pueden obtener, entre otras, dos medidas de tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango intercuartil y el rango) para tener una mejor idea de la forma de la distribución. Si la distribución es simétrica, la relación entre las diversas medidas nos la da el siguiente teorema:

(SITUACIONES PARA RECONOCER LA SIMETRÍA DE LOS DATOS)Si la distribución es simétrica:

• La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3. Además, la distancia del valor mínimo a Q1 es igual a la distancia de Q3 al valor máximo.

• La mediana y el rango medio son iguales. (Estas medidas son iguales a la media de los datos)

DIAGRAMA DE CAJA Y BIGOTES

El DIAGRAMA de CAJA Y bigotes, como el que se muestra en la figura, proporciona una representación gráfica de los datos mediante el resumen de cinco números.

TALLER

Estaturas en centímetros de cuatro jugadores de fútbol.

El número de goles anotados por un futbolista en toda su carrera deportiva.

Los sueldos ganados por unos profesores universitarios,

Las temperaturas promedios diarias en el último mes.

Clasificación étnica de 30 empleados.

Números telefónicos de ciertas personas.

Calificaciones del primer parcial de Estadística de unos estudiantes universitarios.

Distancia (en metros) recorrido por un atleta en una temporada.

Peso perdido (en kilogramos) por 10 personas debido a una dieta.

Fecha de cumpleaños de determinadas personas.

Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.

Rango militar.

1. Clasifique los datos siguientes en cuantitativos (numéricos) y cualitativos (categóricos). En caso de ser numérico, como discretos o continuos:

2. Los siguientes datos representan los totales, en miles de pesos, gastados en fotocopias por una muestra de 25 estudiantes durante un semestre:

Construya una tabla de frecuencias agrupadas usando la regla de Sturges.

29 89 77 72 39 47 64 84 88 5728 63 38 42 36 72 69 68 41 5239 84 45 52 72

3. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la gasolina extra en una cierta ciudad a lo largo de un año en particular:

Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas,

123,9 127,9 130,9 121,9 132,9 120,8 115,9 117,9 131,9121,9 126,9 122,8 126,9 137,9 115,9 115,9 121,9 126,9119,9 118,9 119,8 116,9 129,9 122,8 119,9

top related