análisis de la información 1er c. 2019...significa que el 1er cuartil se encuentra en la posición...

26
Clase Nº4 Mg. Stella Figueroa Análisis de la Información 1er C. 2019

Upload: others

Post on 31-May-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Clase Nº4

Mg. Stella Figueroa

Análisis de laInformación 1er C.

2019

MEDIDAS DE TENDENCIA CENTRAL, DE ASIMETRÍA Y DE POSICIÓN

De Tendencia Central: Media, Mediana y Moda

De forma : Coeficiente de Asimetría

De posición: cuartiles y percentiles

1

n

i

i

x

Xn

4.87 4.76 4.63 4.62 5.49 4.67 5.40 5.20 4.51 5.26

4.82 5.35 4.70 5.21 4.97 5.34 4.79 5.40 4.51 4.88

5.39 4.66 5.22 4.69 5.43 4.92 4.86 4.73 5.06 4.72

Las mediciones de los diámetros

producidos por la máquina A tienen un

promedio de 4.97 cm

¿Qué es?

¿Cómo se

calcula?

¿Qué

significado

tiene?

Serie Simple:

La media es el promedio aritmético de un grupo de datos.

4.5 1 1 1

4.6 6 3 2 6 6

4.7 0 0 0 9 6 0 3

4.8 2 6

4.9 7 7 7 7

5.3 9 9 9 9 9

5.4 0 0 0 0

4.51 4.66 4.63 4.62 5.40 4.70 5.40 4,70 4.51 4,70

4.82 5.39 4.70 5.39 4.97 5.39 4.97 5.40 4.51 4.97

5.39 4.97 4,76 4.66 5.40 4,70 4.86 4.73 5.39 4.66

¿Cómo calcular la Media Aritmética en una serie de frecuencias?

1

k

i i

i

x f

Xn

Diagrama de Tallo-

Hoja

Diáme

tros

en cm

fi Fa

4.51 3 3

4.62 1 4

4.63 1 5

4.66 3 8

4.70 4 12

4.73 1 13

4.76 1 14

4,79 1 15

4,82 1 16

4.86 1 17

4.97 4 21

5,39 5 26

5.40 4 30

1

k

mi i

i

x f

Xn

4.6 5 4.76 3 4.92 3 5.09 2 5.25 7 5.42 8

30

5.07

X

X

Marca de clase

Es el valor de variable que se presenta con mayor frecuencia en la muestra.

En una serie simple:

Mo= 4.51 y 5.40 cm En una serie de frecuencias, es el valor de variable con mayor frecuencia.

4.51 4.51 4.58 4.62 4.63 4.66 4.67 4.69 4.70 4.72

4.73 4.76 4.79 4.82 4.86 4.87 4.92 4.97 5.06 5.20

5.21 5.22 5.26 5.34 5.35 5.39 5.40 5.40 5.43 5.49

En datos agrupados por intervalos

add

dLMo *

21

1inf

64.53 0.15 4.6586

6 1

25.16 0.15 5.26

2 1

Mo

Mo

a

D1

D2

MoLi

Es el valor de variable donde la muestra se divide en dos partes

iguales

La ventaja de la mediana es que los valores extremos no tienen influencia sobre ella.

4.97X

4.51 4.51 4.58 4.62 4.63 4.66 4.67 4.69 4.70 4.72

4.73 4.76 4.79 4.82 4.86 4.87 4.92 4.97 5.06 5.20

5.21 5.22 5.26 5.34 5.35 5.39 5.40 5.40 5.43 5.49

Posición de la

mediana: (n+1)/2

=31/2=15.5

Significa que la

mediana se

encuentra entre la

posición 15 y 16.

Comparamos

con la media

obtenida en la

serie simple

Me = 4,86+4,87 =4,865

2

3015

2 2

n

Me

Diámetros

en cm

fi Fa

4.51 3 3

4.62 1 4

4.63 1 5

4.66 3 8

4.70 4 12

4.73 1 13

4.76 1 14

4,79 1 15

4,82 1 16

4.86 1 17

4.97 4 21

5,39 5 26

5.40 4 30

Me = 4,79+4,82 = 4,805

2

inf2 *

aa

i

nF

Me L af

Cálculo de la Mediana para datos agrupados por intervalos (agrupados con GeoGebra)

Frecuencia absoluta acumulada inmediatamente mayor a la mitad de las observaciones

3015

2 2

n

3015

25 *0.16 54

Me

Cuando se divide un conjunto ordenado de datos en cuatro partes

iguales, los puntos de división se conocen como cuartiles.

Mínimo MáximoCuartil 1

Q1

Cuartil 3

Q3

Mediana Cuartil 2

Q2

25% 25% 25%25%

25% 75%

25%75%

Me= Q2 =4.865Q3=5.26

4.51 4.51 4.58 4.62 4.63 4.66 4.67 4.69 4.70 4.72

4.73 4.76 4.79 4.82 4.86 4.87 4.92 4.97 5.06 5.20

5.21 5.22 5.26 5.34 5.35 5.39 5.40 5.40 5.43 5.49

Posición de la mediana: (n+1)/2

=31/2=15.5 Significa que la

mediana se encuentra entre la posición 15 y 16.

Posición de la mediana de la 1era

parte: (n+1)/2

=16/2=8 Significa que el 1er cuartil se encuentra

en la posición 8

Q1=4.69

Posición de la mediana de la 2da parte: (n+1)/2

=16/2=8 Significa que el 3er cuartil se encuentra

en la posición 8

307.5

4 4

n

Q1

3 9022.5

4 4

n Q3

¿Cómo se interpretan estas medidas? (en términos del problema)

Diámetros

en cm

fi Fa

4.51 3 3

4.62 1 4

4.63 1 5

4.66 3 8

4.70 4 12

4.72 1 13

4.73 1 14

4,76 1 15

4,82 1 16

4.86 1 17

4.97 4 21

5,39 5 26

5.40 4 30

inf4 *

aa

i

i nF

Qi L af

CÁLCULO DE LOS CUARTILES PARA DATOS AGRUPADOS POR INTERVALOS (AGRUPADOS CON GeoGebra)

Frecuencia absoluta acumulada inmediatamente mayor en cada caso

307.5

4 4

n

1

306

44.68 *0.16 4.7285

Q

3 9022.5

4 4

n

3

9019

45.16 *0.16 5.2266

Q

Representación gráfica de los cuartiles

Q3=5.226

Q1=4.728

Me= 5

Análisis de la simetría

Coeficiente

de

asimetría

As <0 As =0 As >0

Desviación o

desvío

estándar

(medida de

dispersión)

Gráfico de caja y bigotes (en geogebra: diagrama de caja)

Este gráfico permite visualizar rápidamente la simetría y la variabilidad de los datos. El largo de la caja, es q3-q1 (rango intercuartílico), que

comprende el 50% central de los datos.

Q1=4.728

Me= 5

Q3=5.226

Mínimo 4.53Q1=4.53Me= 5Q3=5.226Máximo 5.47

Cómo detectar

valores atípicos?

ANÁLISIS DEL GRADO DE CURTOSIS

Coeficiente

de curtosis

K>0 K=0 K<0

Con esta medida se cuantifica la mayor o menor cantidad de datos

que se agrupan en torno a los valores centrales

Medidas

de Dispersión

Absolutas

Rango

Varianza

Desviación

estandar

Rango

intercuartílico

Relativas Coeficiente de variación

El rango de la muestra se define como la diferencia

entre la observación más grande y la más pequeña :

max minr x x

Rango intercuartílico

El rango intercuartílico de la muestra se define

como la diferencia entre el cuartil 3 y el cuartil 1.

Allí se encuentra la distribución del 50% central de

los datos.RIC= Q3 – Q1

Para el conjunto de datos x1, x2,….,xn de una población de tamaño N

Las diferencias de cada dato y la media, determinan los desvíos o desviaciones.

2

2 1

( )

1

n

i

i

x x

sn

Varianza Poblacional

siendo N el tamaño de la población.

Para datos sin agrupar (1) y agrupados (2)

Varianza muestral

siendo n el tamaño de la muestra. Para datos sin

agrupar (3) y agrupados (4)

(1) (2) (3) (4)

Si los datos se agrupan por intervalos, usamos Xmi en lugar de Xi

2

2 1

( )m

i i

i

x x f

N

2

2 1

( ) .

1

m

i i

i

x x f

sn

2

2 1

( )N

i

i

x x

N

Para datos agrupados por frecuencias

2

1

)(1

1

n

i

i Xxn

S

i

n

i

i fXxn

S 2

1

)(1

1

2

1

1( )

1

k

mi i

i

S x X fn

Para datos sin agrupar

Para datos agrupados por Intervalos

Desviación estándar

• Mide el grado de variabilidad en una muestra o población.

• Compara la variabilidad entre distintas variables y poblaciones.

• Está desprovisto de unidades.

• El valor expresado en términos porcentuales, se llama coeficiente de variación porcentual.

SCV

X

% 100%S

CVX

Consideraremos poca variabilidad, si el CV% es a lo sumo del 30 %

ALGUNOS RESULTADOS

Distribución A asimétrica positiva

Moda < me < media

El desvío Estandar muestral para las mediciones de los

diámetros de los rulemanes producidos por

la máquina A es 0.31 El Coeficiente de variación

porcentual es del 6%

RESULTADOS PARA COMENZAR A RESPONDER A LA PREGUNTA INICIAL

Ejercicio: Efectuar todo el análisis con calculadora por un lado, y también con GeoGebra.

¿Qué elementos le proporciona la estadística al ingeniero para poder concluir que los rulemanes tienen diámetros

significativamente diferentes?

• El análisis de los datos (los diámetros de rulemanes de las máquinas A y B), es decir :

• El cálculo de las medidas de tendencia central, sus interpretaciones en el contexto del problema.

• El análisis de la forma de la distribución, para decidir sobre las medidas calculadas.

• El análisis de la variabilidad, al calcular e interpretar el coeficiente de variación.

• La comparación de las dos distribuciones A y B a través de sus medidas descriptivas, de su forma y de su variabilidad

• El planteo de alguna hipótesis según los resultados obtenidos, que permitan ser contrastados más adelante, para poder concluir si los rulemanesproducidos por cada máquina tiene diámetros significativamente diferentes.