estadistica

50

Upload: doreligp21041969

Post on 29-Jun-2015

1.038 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estadistica
Page 2: Estadistica

ESTADÍSTICA

ESTADÍSTICA

DESCRIPTIVA

INFERENCIAESTADÍSTICA

Ciencia que se encarga de la recolección, estudio e

interpretación de los datos obtenidos en un estudio

Se dedica a los métodos de recolección,

descripción, visualización y resumen

de datos originados a partir de los fenómenos

en estudio

Se dedica a la generación de los

modelos, inferencias y predicciones asociadas a

los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las

observaciones.

Page 3: Estadistica

nh

f i

%100xn

h f i

Población: conjunto de personas, cosas o situaciones, que tienen alguna característica común que las permite agrupar.

Muestra: subconjunto representativo de una población.

Variable: Es la característica observable de una población.

Variable cualitativa: Cuando es un atributo o cualidad. Deporte preferido, sexo, lugar de nacimiento, etc.

Variable Cuantitativa: Son aquellas que pueden medirse. Discretas: Nº de estudiantes, nº de personas, etc. (cantidades enteras). Continuas: Edad, peso, talla, etc.(cantidades racionales)

Frecuencia Absoluta (fi ): nº de veces que se repite un dato. La suma de frecuencias es igual a número de muestras

(n N)

Frecuencia relativa (h): Se obtiene dividiendo la frecuencia absoluta fi y el número total de datos (n)

Frecuencia relativa porcentual

Frecuencia absoluta acumulada (Fi)

Frecuencia relativa acumulada (Hi)

Page 4: Estadistica

Medidas de estadística

Centralización– Indican valores con respecto a los que los datos

parecen agruparse.

Media, mediana y moda

Posición– Dividen un conjunto ordenado de datos en grupos

con la misma cantidad de individuos.

Cuartiles, deciles y percentiles.

Dispersión– Indican la mayor o menor concentración de los

datos con respecto a las medidas de centralización.

Desviación típica o estándar, coeficiente de variación, rango, varianza, desviación media.

Page 5: Estadistica

Es una de las medidas de tendencia central de mayor

uso. Es el valor que representa mejor el conjunto de

datos, es la medida de tendencia central mas estable y

confiable La media muestral se simboliza por y la

media poblacional de denota por .X

MEDIA ARITMÉTICA O PROMEDIO:

Page 6: Estadistica

MEDIA ARITMETICA PARA DATOS NO AGRUPADOS

Sea X una variable cuantitativa y x1, x2,…, xn unamuestra de tamaño "n" de valores de la variable, sedefine la media aritmética de X como:

n

xxxxX

n.....321

Esta expresión se puede escribir también , como

n

x

X

n

ii

1

Page 7: Estadistica

Ejemplo N 1

Consideremos la edad en años de ochopersonas10 18 25 32 12 5 7 7

En este ejemplo el promedio , media o media aritmética de la edad de estas personas está dada por:

8

7751232251810x

Es decir la edad promedio de estas personas es de 14,5 años.

Page 8: Estadistica

MEDIA ARITMETICA PARA DATOS AGRUPADOS

Sea X una variable cuantitativa y x1, x2,…, xn una muestra detamaño "n" de valores de la variable, y fi la frecuencia de cadavariable. Se define la media aritmética para datos tabuladoscomo:

n

fxfxfxfxX

nn.....332211

Esta expresión se puede escribir también , como:

n

fx

Xi

n

ii

1

fi = frecuencia

Xi = marca de clase

N= Nº datos

Page 9: Estadistica

Ejemplo: Datos sobre los puntajes obtenidos en un concurso de

lógico matemática.

Peso

[40 ; 50[

[50 ; 60[

[ 60 ; 70[

[ 70 ; 80[

[ 80 ; 90[

[ 90 ; 100[

[100 ; 110[

58

79,6858

31051055545 N

fxx

ii

minmax: xxRRango

nKervalosdeNúmero :int

k

RCervalodelAmplitud :int

40-46-49-42-40-50-54-55-52-53-55-54-54-56-57-60-65-66-66-64-63-63-62-68-69-67-65-65-64-67-69-68-61-61-62-66-76-78-78-75-71-71-75-74-78-78-79-80-82-82-85-85-90-99-91-100-109-110

7040110: RRango

616,758:int KervalosdeNúmero

19,9616,7

70:int CervalodelAmplitud

Xi

45

55

65

75

85

95

105

fi

5

10

21

11

5

3

3

Fi

5

15

36

47

52

55

58

Page 10: Estadistica

Ejemplo: Datos sobre los puntajes obtenidos en un concurso de

lógico matemática.

Peso

[40 ; 50[

[50 ; 60[

[ 60 ; 70[

[ 70 ; 80[

[ 80 ; 90[

[ 90 ; 100[

[100 ; 110[

58

79,6858

31051055545

N

fxx

ii

40-46-49-42-40-50-54-55-52-53-55-54-54-56-57-60-65-66-66-64-63-63-62-68-69-67-65-65-64-67-69-68-61-61-62-66-76-78-78-75-71-71-75-74-78-78-79-80-82-82-85-85-90-99-91-100-109-110

Xi

45

55

65

75

85

95

105

fi

5

10

21

11

5

3

3

Fi

5

15

36

47

52

55

58

hi

0,09

0,17

0,36

0,19

0,09

0,05

0,05

1

Hi

0,09

0,26

0,62

0,81

0,90

0,95

1,00

hi%

9

17

36

19

9

5

5

100

xi.fi

225

550

1365

825

425

285

315

3990

Page 11: Estadistica

Mediana (Me)

Page 12: Estadistica

MEDIANA PARA DATOS NO

AGRUPADOS

Ejemplo 1: Consideremos la edad en años de ocho personas

10 18 25 32 12 5 7 7

Para calcular la mediana , previamente se debenordenar las observaciones. En este caso lo haremosen forma creciente:

5 7 7 10 12 18 25 32

Como la cantidad de datos es par, entonces lamediana corresponde al promedio de los datoscentrales, por lo tanto la mediana es 11.

Page 13: Estadistica

Ejemplo N 2

Consideremos el peso en kilogramos de una muestra de 11 personas

65 76 48 48 68 78 90 87 67 72 78

Recordemos que para calcular la mediana debemos ordenar los datos:

48 48 65 67 68 72 76 78 78 87 90

El tamaño de la muestra es n=11, impar por lo tanto la mediana corresponde al valor central, es decir, 72 Kg.

Page 14: Estadistica

MEDIANA PARA DATOS AGRUPADOS

Si se tiene una distribución de frecuencias, la mediana es igualmenteese valor que tiene 50% de las observaciones por debajo y 50 % porencima. Geométricamente, la mediana es el valor de X sobre el eje de lasabscisas correspondiente a la ordenada que divide un histograma endos partes de igual área.

donde:Li = límite inferior de la clase mediana.N = frecuencia total o Σfi .Faa = frecuencia absoluta acumulada hasta la clase premediana fm = frecuencia absoluta de la clase medianaIc= amplitud de la clase mediana.

Icfm

FaaN

LiMd 2

Page 15: Estadistica

Ejemplo

Peso xi fi Fi

40 < 50 45 5 5

50 < 60 55 10 15

60 < 70 65 21 36

70 < 80 75 11 47

80 < 90 85 5 52

90 < 100 95 3 55

100 < 110 115 3 58

58

6,6621

15582

1

1060

2

11

i

i

if

FNIcLMediana

Clase de mediana: 58/2=29

Page 16: Estadistica

Moda o Modo (Mo)

Como su nombre lo indica es aquel valor de la variable que tiene una mayor frecuencia.

Si consideramos el ejemplo N 2 del peso de unamuestra de personas:

65 76 48 48 68 78 90 87

67 72 78

Mo = 48 kilos

Mo = 78 kilos.

Esto significa que la mayoría de estas personas

pesa 48 kilos y 78 kilos.

Esta distribución es bimodal.

Page 17: Estadistica

• La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula.

Moda para datos agrupados

IcLiMo .21

1

Donde;Li = límite inferior de la clase modal (clase

de mayor frecuencia absoluta (fa)∆1 = diferencia de las frecuencias absolutas

de la clase modal y pre-modal.∆2 = diferencia de las frecuencias absolutas

de la clase modal y post-modalIc = amplitud de la clase modal.

Page 18: Estadistica

La moda: se define como el valor que tiene una mayor

frecuencia en un conjunto de datos (es decir, aquel que más se

repite).

Para datos agrupados en intervalos

Mo= Li + c. D1

D1+D2

D1: fi – fi -1

D2: fi – f i +1

Peso M. Clase fi Fi.

40 < 50 45 5 5

50 < 60 55 10 15

60 < 70 65 21 36

70 < 80 75 11 47

80 < 90 85 5 52

90 < 100 95 3 55

100 < 110 115 3 58

58

Intervalo modal

24,651011

111060Mo

Page 19: Estadistica

Representaciones

gráficas DIAGRAMADE BARRAS

Page 20: Estadistica

Representaciones

gráficas

DIAGRAMA DE SECTORES

Page 21: Estadistica

Representaciones

gráficas

HISTOGRAMA Y POLÏGONO DE FRECUENCIAS

Page 22: Estadistica

=Md=Mox

Simétrica

Mo Md

x

x

Md Mo

Asimétrica: Sesgada a la izquierda, negativa

Asimétrica: Sesgada a la derecha, positiva.

Page 23: Estadistica
Page 24: Estadistica

Dividen un conjunto ordenado de datos en grupos con

la misma cantidad de individuos.

PERCENTILES : son 99 valores que distribuyen la serie de

datos, ordenada de forma creciente o decreciente, en cien

tramos iguales, en los que cada uno de ellos concentra el 1%

de los resultados

CUARTILES :son 3 valores que distribuyen la serie de

datos, ordenada de forma creciente o decreciente, en cuatro

tramos iguales, en los que cada uno de ellos concentra el 25%

de los resultados.

DECILES: son 9 valores que distribuyen la serie de datos,

ordenada de forma creciente o decreciente, en diez tramos

iguales, en los que cada uno de ellos concentra el 10% de los

resultados.

MEDIDAS DE POSICIÓN

Page 25: Estadistica

Medida de localización que divide la población o muestra en cuatro partes iguales.Q1= Valor de la variable que deja a la izquierda el 25% de la distribución.

Q2= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana.

Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.

CUARTILES

..4 Icfm

FaaaN

LiQa

4

aNPQa

Page 26: Estadistica

Medida de localización que divide la población o

muestra en 10 partes iguales

No tiene mucho sentido calcularlas para variables

cualitativas discretas. Por lo que lo vamos a ver

sólo para las variables continuas.

DECILES

10

aNPDa

Icfm

FaaaN

LiDa .10

Page 27: Estadistica

Medida de localización que divide la población o

muestra en 100 partes iguales

No tiene mucho sentido calcularlas para variables

cualitativas discretas. Por lo que lo vamos a ver sólo

para las variables continuas.

PERCENTILES

100

aNPPa

Icfm

FaaaN

LiPa .100

Page 28: Estadistica

EJEMPLO

Los siguientes son los resultados de la prueba de aptitud

académica tomada a 50 alumnos de la Facultad de Educación,

con esos datos calcular Q1,Q3, D3, y P45

I MC FA FAA FR FRA FR%

45-55 06

55-65 10

65-75 19

75-85 11

85-95 04

50 1,000 100

Page 29: Estadistica

EJEMPLOLos siguientes son los resultados de la prueba de aptitud

académica tomada a 50 alumnos de la Facultad de Educación,

con esos datos calcular Q1,Q3, D3, y P45

I MC FA FAA FR FRA FR%

45-55 50 06 06 0,12 0,12 12

55-65 60 10 16 0,20 0,32 20

65-75 70 19 35 0,38 0,70 38

75-85 80 11 46 0,22 0,92 22

85-95 90 04 50 0,08 1,00 08

50 1,000 100

Cálculo de Q1Buscamos en la columna de las frecuencias Acumuladas el valor

que supere al 25% de N=50, corresponde al 2º

intervalo.(50/4=12.5)

..4 Icfm

FaaaN

LiQa

4

aNPQa

Page 30: Estadistica

EJEMPLOLos siguientes son los resultados de la prueba de aptitud

académica tomada a 50 alumnos de la Facultad de Educación,

con esos datos calcular Q1,Q3, D3, y P45

I MC FA FAA FR FRA FR%

45-55 50 06 06 0,12 0,12 12

55-65 60 10 16 0,20 0,32 20

65-75 70 19 35 0,38 0,70 38

75-85 80 11 46 0,22 0,92 22

85-95 90 04 50 0,08 1,00 08

50 1,000 100

Cálculo de Q3

Buscamos ahora en la misma columna el correspondiente al 75 %de N que en

este caso es el 4º intervalo (3.50/4=37.5)

..4 Icfm

FaaaN

LiQa

4

aNPQa

Page 31: Estadistica

EJEMPLOLos siguientes son los resultados de la prueba de aptitud

académica tomada a 50 alumnos de la Facultad de Educación,

con esos datos calcular Q1,Q3, D3, y P45

I MC FA FAA FR FRA FR%

45-55 50 06 06 0,12 0,12 12

55-65 60 10 16 0,20 0,32 20

65-75 70 19 35 0,38 0,70 38

75-85 80 11 46 0,22 0,92 22

85-95 90 04 50 0,08 1,00 08

50 1,000 100

Cálculo de D3

(corresponde al 30 % 3 · 50 / 10 = 15) sería

el 2º intervalo.

10

aNPDa Ic

fm

FaaaN

LiDa .10

Page 32: Estadistica

EJEMPLOLos siguientes son los resultados de la prueba de aptitud

académica tomada a 50 alumnos de la Facultad de Educación,

con esos datos calcular Q1,Q3, D3, y P45

I MC FA FAA FR FRA FR%

45-55 50 06 06 0,12 0,12 12

55-65 60 10 16 0,20 0,32 20

65-75 70 19 35 0,38 0,70 38

75-85 80 11 46 0,22 0,92 22

85-95 90 04 50 0,08 1,00 08

50 1,000 100

Cálculo de P45

Ubicamos el percentil 45 (45·50/100 =

22.5) Corresponde al intervalo 3º

100

aNPPa

Icfm

FaaaN

LiPa .100

Page 33: Estadistica
Page 34: Estadistica

Las MEDIDAS DE DISPERSIÓN cuantifican la

separación, la dispersión, la variabilidad de los valores

de la distribución respecto al valor central.

Peso recién nacidos en partos gemelares

3.300

2.900

2.500

2.100

1.700

1.300900

500

50

40

30

20

10

0

Desv. típ. = 568,43

Media = 2023

N = 407,00

Page 35: Estadistica

• RANGO

• DESVIACION MEDIA

• VARIANZA

• DESVIACIÓN TÍPICA (S) O ESTÁNDAR

• COEFICIENTE DE VARIACIÓN

MEDIDAS DE DISPERSIÓN

Page 36: Estadistica

AMPLITUD O RANGO

Es la diferencia entre el valor de las observaciones mayor y

el menor. Re = xmax - xmin

2,1,4,3,8,4.

El rango es 8-1=7

150 160 170 180 190

0.0

00

.01

0.0

20

.03

0.0

40

.05

150 160 170 180 190

25% 25% 25% 25%

Mín. P25 P50 P75 Máx.

Rango intercuartílico

Rango

Page 37: Estadistica

DESVIACIÓN MEDIA. DATOS NO AGRUPADOS:

DESVIACIÓN MEDIA. DATOS AGRUPADOS:

Page 38: Estadistica

Es el promedio del cuadrado de las distancias entre cada

observación y la media aritmética del conjunto de

observaciones.

VARIANZA ( S2 ):

Es el cuadrado de la desviación estándar.

ianzafxxn

S ii

i var.)(1 22

Page 39: Estadistica

La varianza viene dada por las mismas unidades que

la variable pero al cuadrado, para evitar este problema

podemos usar como medida de dispersión la

desviación típica que se define como la raíz cuadrada

positiva de la varianza.

DESVIACIÓN TÍPICA / ESTÁNDAR (S):

estándardesviaciónfxxn

S ii

i .)(1 2

Page 40: Estadistica

Es la razón entre la desviación típica (estándar) y la

media. Mide la desviación típica en forma de

“qué tamaño tiene con respecto a la media”

COEFICIENTE DE VARIACIÓN

x

SCV

También se la denomina variabilidad

relativa.

Es frecuente mostrarla en porcentajes

Si la media es 80 y la desviación típica 20

entonces

CV=20/80=0,25=25% (variabilidad relativa)

. C.V. = S (100%)

X

Page 41: Estadistica
Page 42: Estadistica

EJEMPLO 1

El número de días que necesitan 10 equipos de

trabajadores de electricidad para terminar 10

instalaciones de iguales características han sido: 21,

32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular el

rango, la varianza , desviación típica y el coeficiente

de variación.

Page 43: Estadistica

SOLUCIÓN:

S2=

La varianza

La desviación típica S:

S = √ 427,61 = 20.67

El rango: 80 - 15 = 65 días

El coeficiente de variación: CV = 20,67/52,3 = 0,39

Page 44: Estadistica

INTERPRETACIÓN DE LOS

RESULTADOS DE LAS

MEDIDAS DE DISPERSIÓN

Page 45: Estadistica

• Es la medida de dispersión más sencilla ytambién, por tanto, la que proporcionamenos información. Además, estainformación puede ser errónea, pues elhecho de que no influyan más de dosvalores del total de la serie puede provocaruna deformación de la realidad.

• Comparemos, por ejemplo, estas dosseries:

• Serie 1: 1 5 7 7 8 9 9 10 17

• Serie 2: 2 4 6 8 10 12 14 16 18

• Ambas series tienen rango 16, pero estándesigualmente agrupadas, pues mientras laprimera tiene una mayor concentración enel centro, la segunda se distribuyeuniformemente a lo largo de todo elrecorrido. El uso de esta medida dedispersión, será pues, bastante restringido.

RANGO O RECORRIDO

Page 46: Estadistica

En teoría, la desviación puede referirse a

cada una de las medidas de tendencia

central: media, mediana o moda; pero el

interés se suele centrar en la medida de la

desviación con respecto a la media, que

llamaremos desviación media

La desviación media viene a indicar el

grado de concentración o de dispersión de

los valores de la variable. Si es muy alta,

indica gran dispersión; si es muy baja

refleja un buen agrupamiento y que los

valores son parecidos entre sí.

DESVIACIÓN MEDIA:

Page 47: Estadistica

Es otra de las variaciones

absolutas y la misma se define

como el cuadrado de la desviación

típica; viene expresada con las

mismas letras de la desviación

típica pero elevada al cuadrado.

VARIANZA

Page 48: Estadistica

La desviación típica como medida absoluta de

dispersión, es la que mejor nos proporciona la

variación de los datos con respecto a la media

aritmética, su valor se encuentra en relación directa

con la dispersión de los datos, a mayor dispersión

de ellos, mayor desviación típica, y a menor

dispersión, menor desviación típica.

Es sin duda la medida de dispersión más

importante, ya que además sirve como medida

previa al cálculo de otros valores estadísticos. Es la

medida de dispersión más utilizada en las

investigaciones por ser la más estable de todas, ya

que para su cálculo se utilizan todos los desvíos

con respecto a la media aritmética de las

observaciones.

DESVIACIÓN ESTÁNDAR / TÍPICA

Page 49: Estadistica

Existen varias medidas de

dispersión relativa, pero, la más

usada es el coeficiente de variación

de Pearson, este es un índice de

variabilidad sin dimensiones, lo que

permite la comparación entre

diferentes distribuciones de

frecuencias, medidas en diferentes

unidades.

COEFICIENTE DE VARIACIÓN: (%)

Page 50: Estadistica

Muchas Gracias

¿ Y Ahora ?