estadistica descriptiva presentación (ito)

Post on 12-Jul-2015

55 Views

Category:

Education

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ELEMENTOS DE ESTADÍSTICA DESCRIPTIVAProfr. Benito Santiago GuerraPRESENTA:

Aplicaciones de la estadística La Estadística es una ciencia

que facilita la solución de problemas en los cuales necesitamos conocer características sobre el comportamiento de algún suceso o evento.

Nos permite inferir el comportamiento de sucesos iguales o similares sin necesidad de que estos ocurran.

Da la posibilidad de tomar decisiones acertadas en tiempo y forma, así como realizar proyecciones del comportamiento del suceso.

Sólo se realizan cálculos y análisis con los datos obtenidos de una muestra de la población y no con toda la población.

Actualmente el INEGI es el encargado de concentrar y publicar la información estadística del estado y del país.

Conceptos básicos Estadística:

Es la ciencia que se encarga de recolectar, organizar, resumir y analizar datos para después obtener conclusiones y tomar decisiones . Se divide en:Estadística Descriptiva y Estadística Inferencial.

Estadística descriptiva:Se encarga de la recolección, organización, presentación y análisis de los datos de una población.

Estadística inferencial:Se encarga de analizar la información presentada por la estadística descriptiva mediante técnicas que nos ayuden a conocer, con determinado grado de confianza, a la población. formulando hipótesis y finalmente permite tomar decisiones.

Población:Conjunto definido de TODOS los INDIVIDUOS o elementos, de donde se observa cierta característica. Al número de integrantes de la población se llama tamaño de la población y se representa con la letra N.

Las poblaciones pueden ser finitas o infinitas. Muestra:

Subconjunto o elemento de una población, que intenta reflejar las características de la población lo mejor posible.

Variable:Característica o propiedad de los individuos que se desea estudiar y se puede medir o calificar

Tipos de datos para análisis

Datos Cuantitativos (números):Valores obtenidos al medir peso, estatura, temperatura, número de hijos.

Datos Cualitativos (categorías):Se obtienen al calificar la característica en cuestión como el sexo, estado civil, grado máximo de estudios.

Recopilación de datos:Encuesta

Experimentos Documentos Muestreo poblacional (aleatorio simple, sistemático,

estratificados o conglomerados) Ordenar datos

Hay dos métodos comunes:

Listado en orden ascendente Método de tallo y hojas

)

Ejemplo. Listado en orden ascendente

El proceso consiste en ordenarlos de menor a mayor

Peso de 25 estudiantes (en kg)

42 40 48 51 4956 44 43 55 5252 62 44 50 5963 50 56 55 4557 66 63 51 58

Peso de 25 estudiantes (en kg)

40 42 43 44 4445 48 49 50 50

51 51 52 52 5555 5656 57 5859 62 63 63 66

Método de tallo y hojas

Si los números de los datos están formados por dos dígitos, se hace una columna con el primer dígito (decenas) y a la derecha de cada uno de ellos se escribe, en fila, sólo el segundo dígito (unidades) de cada uno de los datos que tengan el mismo primer dígito.

Datos sin ordenar:

Datos ordenados:

456

456

0,2,3,4,4,5,8,90,0,1,1,2,2,5,5,6,6,7,8,92,3,3,6

Peso de 25 estudiantes (en kg)

42 40 48 51 4956 44 43 55 5252 62 44 50 5963 50 56 55 4557 66 63 51 58

2,0,8,9,4,3,4,51,6,5,2,2,0,9,0,6,5,7,1,82,3,6,3

Doble tallo

Una variante de este método es en lugar de dividir en un grupo las decenas, se divide en dos grupos. El primero abarcando los dígitos del 0 al 4 y el segundo del 5 al 9.

El ejemplo anterior queda:

4 0,2,3,4,44 5,8,95 0,0,1,1,2,2,5 5,5,6,6,7,8,96 2,3,36 6

Tabla de Frecuencia de Datos Una vez que se tenga ordenados los datos, se

acomodan en la “Ta bla d e d is tribuc ió n d e fre c ue nc ia s o ta bla d e fre c ue nc ia s ” .

La tabla es básicamente una tabla de valores x-y, dónde “x” representa el dato y “y” representa la frecuencia.

La frecuencia es el número de veces que aparece cada dato.

Hay dos clases de tablas de frecuencias: Para datos NO agrupados. Para datos agrupados.rosa azul blanco azul rosa

gris blanco café negro blancorosa azul café blanco blancogris azul blanco rosa grisgris blanco café negro verde

Color Frecuencia

AzulBlancoCaféGrisNegroRosaVerde

I I I II I I I I II I II I I II II I I II

Ejemplo (no agrupadas)

Tabla de frecuencias de los pesos en kg de 25 alumnos.

Peso de 25 estudiantes (en kg)

40 42 43 44 4445 48 49 50 50

51 51 52 52 5555 5656 57 5859 62 63 63 66

xi f

404243444548495051

xi f

525556575859626366

Total

1

1

12

1

1

1

2

2

2

2

2

11

1

1

21

25

Frecuencia relativa y acumulada Por lo regular, se agregan dos columnas: la

de la frecuencia relativa “fr” y la de la frecuencia acumulada “fa”.

La frecuencia relativa se obtiene mediante el cociente de la frecuencia y el número total de datos, esto es fr = f/n.

La frecuencia acumulada se obtiene sumando las frecuencias anteriores a las frecuencias de un dato dado.

Ejemplo

xi f fr fa

40 142 143 144 245 148 149 150 251 2

xi f fr fa

52 255 256 257 158 159 162 163 266 1

Total

25

0.04

0.040.04

0.040.040.04

0.040.04

0.040.04

0.04

0.08

0.080.08

0.08

0.080.08

0.08

1/25

2/25

1

2

3

5

6

78

10

12

14

1618

1920

21

22

2425

1

Siempre es el

número total

Siempre es 1

Intervalo de clase

En ocasiones es conveniente acomodar los datos en pequeños grupos de igual tamaño, llamados intervalos de clase.

El punto medio o marca de clase “xi”, se obtiene con:

El tamaño del intervalo se obtiene mediante la diferencia de los límites superior e inferior.

Marca de clase =

Límite inferior + límite superior 2

Ejemplo

Intervalo de clase Punto medio “xi”38 – 42 4043 – 47 4548 – 52 5053 – 57 5558 – 62 6063 – 67 65

Límite inferior Límite superior Lím inf + Lim sup2

Límite verdadero del intervalo (ajuste) Frontera de clase o límite verdadero del

intervalo:Intervalo de clase Punto medio “xi”37.5 – 42.5 4042.5 – 47.5 4547.5 – 52.5 5052.5 – 57.5 5557.5 – 62.5 6062.5 – 67.5 65

40 – 2.5 40 + 2.5

Tabla de intervalos con límites verdaderos

Usando símbolos de desigualdad

Usando paréntesis y corchetes

Intervalo de clase

Punto medio “xi”

37.5 ≤ x < 42.5 4042.5 ≤ x < 47.5 4547.5 ≤ x < 52.5 5052.5 ≤ x < 57.5 5557.5 ≤ x < 62.5 6062.5 ≤ x < 67.5 65

Intervalo de clase

Punto medio “xi”

[37.5 , 42.5) 40[42.5 , 47.5) 45[47.5 , 52.5) 50[52.5 , 57.5) 55[57.5 , 62.5) 60[62.5 , 67.5) 65

Está incluido No está incluido Está incluido No está incluido

El tamaño del intervalo es de 5

Si por alguna razón no es fácil decidir el ancho del intervalo y el número de ellos, se pueden utilizar las siguientes fórmulas:

K = 1 + 3.3 log (n) Donde K = número aproximado de clases

n = número de datos. Amplitud de los intervalos = Rango / K

Donde Rango = diferencia entre el dato mayor y el dato menor.

Ejemplo

Para el ejemplo de los datos de los pesos de 25 alumnos, el valor de K:

Y la amplitud de los intervalos sería:

K = 1 + 3.3 log (n) = 1 + 3.3 log (25) = 5.6.Por lo tanto se requieren aproximadamente 6 intervalos.

Amplitud = Rango / K = (66 – 40) / 5.6 = 4.64.Aproximadamente 5 unidades es la amplitud de los intervalos.

Tabla de distribución de frecuencias para datos

agrupados Se elabora con los intervalos de clase, sus

puntos medios y las frecuencias correspondientes para cada uno de los intervalos.xi f

40 142 143 144 245 148 149 150 251 2

52 255 256 257 158 159 162 163 266 1

Total 25

Dat

os s

in a

grup

ar

Intervalo de clase

Punto medio “xi”

f

38 – 42 4043 – 47 4548 – 52 5053 – 57 5558 – 62 6063 - 67 65

Total

Datos agrupados

24853325

Se agregan las columnas de frecuencia relativa “fr” y frecuencia acumulada “fa”:

Intervalo de clase

Punto medio “xi”

f fr Fa

38 – 42 40 243 – 47 45 448 – 52 50 853 – 57 55 558 – 62 60 363- 68 65 3

Total 25

0.080.160.320.200.120.12

1

2614192225

2/25

4/25

8/25

Por último se agregan las columnas: Frecuencia porcentual, “f%” ó “%f”, se obtiene

multiplicando la frecuencia relativa “fr” x 100. Frecuencia relativa acumulada “fra”, se

obtiene sumando las frecuencias relativas anteriores a un dato dado.

Frecuencia porcentual acumulada, “f%a”, se obtiene sumando las frecuencias porcentuales acumuladas a un dato dado.

Tablas de frecuencias absoluta, relativa y acumulada

Intervalo de clase

Punto medio “xi”

f fr f% fa fra f%a

38 – 42 40 2 0.08 243 – 47 45 4 0.16 648 – 52 50 8 0.32 1453 – 57 55 5 0.20 1958 – 62 60 3 0.12 2263- 68 65 3 0.12 25

Total 25 1

81632201212100

0.080.240.560.760.88

1

824567688

100

0.08 x 100

2/25

0.08 x 100

Gráfica de Datos

Existen dos tipos de gráficas mas usuales: Polígono de Frecuencias Histograma

Otros gráficos: Gráfica de barras Pictograma Gráfico Circular o de pastel.

Polígono de Frecuencias

Es la representación mediante un gráfico de línea. En él se muestra la distribución de frecuencias y está formado por segmentos de línea que unen los puntos correspondientes a la frecuencia de cada una de las clases.

El eje “x” representa el dato “xi” y el eje “y” las frecuencias. 0

10

2 0

3 0

4 0

50

6 0

EjemploIntervalo de

clasePunto medio

“xi”f

38 – 42 40 2

43 – 47 45 4

48 – 52 50 8

53 – 57 55 5

58 – 62 60 3

63 - 68 65 3

Total 25

Presion (kpa) Frecuencia98 2

99.5 2100 1101 3104 2

POLIGONO DE FRECUENCIA

0

0.5

1

1.5

2

2.5

3

3.5

97 98 99 100 101 102 103 104 105

Frecuencia

El eje “y” puede ser sustituido por las frecuencias relativas o porcentuales.

fr

xi

Polígono de Frecuencia Relativa

% f

xi

Polígono de Frecuencia Porcentual

Histograma

Es la representación gráfica de los datos mediante una sucesión

de rectángulos. Está formado por rectángulos cuya

anchura representa a cada uno de los intervalos y la altura corresponde a la frecuencia.

En el eje “x” estarán los límites verdaderos, los puntos medios y en el eje “y” las frecuencias.

0.95 2.95 4.950

2

4

6

8

10

12

14

Intervalo de clase

Punto medio “xi”

f

38 – 42 40 2

43 – 47 45 4

48 – 52 50 8

53 – 57 55 5

58 – 62 60 3

63 - 68 65 3

Total 25

Ejemplo (histograma)

También podemos usar la frecuencia relativa y la frecuencia porcentual.

fr

xi

% f

xi

Presion (kpa) Frecuencia98 2

99.5 2100 1101 3104 2

HISTOGRAMA DE FRECUENCIA

0

0.5

1

1.5

2

2.5

3

98 99.5 100 101 104

histograma de frecuencia individual

histograma de frecuenciaindividual

Pirámide Poblacional

Una variante en el histograma es colocar en el eje “x” de tal manera que las columnas quedarán en forma horizontal, es muy común en datos poblacionales.

Forma rá

pida de hacer

comparativas entre

dos

grupos

Ojiva Es la representación gráfica de las frecuencias

acumuladas mediante un gráfico de línea. Se muestra la distribución de frecuencias acumuladas de los datos.

En el eje “x” estarán los puntos medios y en el eje “y” las frecuencias acumuladas.

Intervalo de clase

Punto medio “xi”

f fr fa

38 – 42 40 2 0.08 243 – 47 45 4 0.16 648 – 52 50 8 0.32 1453 – 57 55 5 0.20 1958 – 62 60 3 0.12 2263 - 68 65 3 0.12 25

Total 25 1

Tiempo Temperatura8.00 188.50 18.59.00 199.30 22

10.00 2310.30 2311.00 2512.00 2613.00 2614.00 2715.00 27

OJIVAS

05

1015202530

6.00 8.00 10.00 12.00 14.00 16.00 18.00

Temperatura

Tiempo

Cronologia

Gráfico Circular

También es llamado gráfico de pastel.

Sólo se representan datos de frecuencias relativas o frecuencias porcentuales.

Se debe dividir el área del círculo de manera proporcional a las frecuencias.

13%

17%

57%

13%PERRO

PAJARO

HAMSTER

GATO

Ejemplo 1 (datos cuantitativos)

Intervalo de clase

Punto medio “xi”

f fr (fr ) (360°)

38 – 42 40 2 0.0843 – 47 45 4 0.1648 – 52 50 8 0.3253 – 57 55 5 0.2058 – 62 60 3 0.1263- 68 65 3 0.12

Total 25 1

28.8°

0.08 x 360°

0.16 x 360°

57.6°115.2°72°43.2°43.2°360°

Ejemplo 2 (datos cuantitativos)

Color Frecuencia Conteo

Azul 4Blanco 7Café 3Gris 4Negro 2Rosa 4Verde 1

I I I II I I I I II I I

I I I II II I I II

Otros Gráficos

La gráfica de barras se traza similar al Histograma, sólo que las barras se dibujan separadas unas de otras.

La escala en el eje “x” es para mostrar categorías o intervalos de números NO consecutivos.

0

10

20

30

40

50

60

PERRO PAJARO HAMSTER GATO

Fre

cuen

cia

abso

luta

Gráficos de barras ( cualitativos)

Carrera Alumnos

Medicina 8Mecánica 11

Civil 8Agronomía 3

Físico - Matemáticas 3Leyes 6

Contaduría 11

Pictograma

Similar al de barras, sólo que se sustituyen por figuras, generalmente relacionadas con la variable estudiada.

47

TIPOS DE VARIABLESTIPOS DE VARIABLES

Variables CuantitativasVariables Cuantitativas

VariableVariable: corresponde a la característica de la Unidad de Análisis: corresponde a la característica de la Unidad de Análisis

Intervalo Intervalo

DISCRETADISCRETA

Variables CualitativasVariables Cualitativas

CONTINUACONTINUA

Toma valores enteros Toma valores enteros Ejemplos: Ejemplos: Número de HijosNúmero de Hijos, , Número de Número de empleados de una empresaempleados de una empresa, , Número de Número de asignaturas aprobadas en un semestreasignaturas aprobadas en un semestre, etc., etc.

Toma cualquier valor dentro de un intervalo Toma cualquier valor dentro de un intervalo Ejemplos: Ejemplos: Peso; Estatura; Temperatura, etc.Peso; Estatura; Temperatura, etc.

Unidad de MedidaUnidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura

ORDINALORDINALNOMINALNOMINAL

Característica o cualidad Característica o cualidad cuyas categorías no tienen cuyas categorías no tienen un orden preestablecido. un orden preestablecido. Ejemplos: Ejemplos: Sexo, Deporte Sexo, Deporte FavoritoFavorito, etc., etc.

Característica o cualidad cuyas Característica o cualidad cuyas categorías tienen un orden categorías tienen un orden preestablecido. preestablecido. Ejemplos: Calificación (S, N, A); Ejemplos: Calificación (S, N, A); Grado de Interés por un tema, etc.Grado de Interés por un tema, etc.

VARIABLES ESTADÍSTICOS

48

OBSERVACIONESOBSERVACIONES* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.* El Gráfico debe contener un Título General y la identificación de cada eje * El Gráfico debe contener un Título General y la identificación de cada eje (variable en estudio y frecuencia).(variable en estudio y frecuencia).* En ocasiones resulta más ilustrativo un gráfico que una tabla de frecuencia.* En ocasiones resulta más ilustrativo un gráfico que una tabla de frecuencia.* Al igual que las tablas, los gráficos deben ser auto-explicativos.* Al igual que las tablas, los gráficos deben ser auto-explicativos.

Variables Cuantitativas

variable=x i individuo elen variablela devalor =ixni ,...,1=

nccccn

i

=++=∑=

1

∑∑==

=++=n

iin

n

ii xccxcxcx

11

1

bxabaxbaxbaxn

iin

n

ii +=++++=+ ∑∑

== 11

1

)()()(

221

1

2n

n

ii xxx ++=∑

=

21

2

1

)()( n

n

ii xxx ++=∑

=

)()()( 111

nn

n

iii yxyxyx ++++=+∑

=

)()()( 111

nn

n

iii yxyxyx ++=∑

=

variable=y i individuo elen variablela devalor =iy

constantes:,, cba

NOTACIÓN

49

MEDIDAS DE TENDENCIA CENTRALMEDIDAS DE TENDENCIA CENTRAL

-Media Aritmética (Promedio)Media Aritmética (Promedio)-MedianaMediana-ModaModa

n

xx

n

ii∑

== 1

Media Aritmética o PromedioMedia Aritmética o Promedio

MedianaMediana

)(EM kx=

2M )1()(

E++

= kk xx

x

1x

2x

nx

Datos CuantitativosDatos Cuantitativos

x

)1(x

)2(x

)(nx

Datos Cuantitativos ordenados de menor a mayorDatos Cuantitativos ordenados de menor a mayor

Si Si nn es par es par

Si Si n n es impares impar

centro del dato)( =kx

repite" se más que dato el"M o =ModaModaDatos Datos

Cualitativos y CuantitativosCualitativos y Cuantitativos

DESCRIPTIVA

50

Percentiles, Deciles o CuartilesPercentiles, Deciles o Cuartiles

-Percentil (ejemplo: 25, 50, 75)Percentil (ejemplo: 25, 50, 75)-Decil (ejemplo: 4, 5, 8)Decil (ejemplo: 4, 5, 8)-Cuartil (ejemplo: 1, 2, 3)Cuartil (ejemplo: 1, 2, 3)

El Decil va de 1 a 10El Decil va de 1 a 10El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datosEl Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datosEjemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34. Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando losPercentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los nn datos datos están ordenados de están ordenados de MenorMenor a a MayorMayor

Estadística

El Percentil va de 1 a 100El Percentil va de 1 a 100El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datosEl percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datosEjemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22. Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.

El Cuartil va de 1 a 4El Cuartil va de 1 a 4El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datosEl Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datosEjemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60. Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60. Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.

Los Cuartiles, que dividen a la distrib

ución en

cuatro parte

s (corresponden a los cuantile

s 0.25,

0.50 y 0.75 );

Los Quintiles, que dividen a la distrib

ución en

cinco partes (c

orresponden a lo

s cuantiles 0.20,

0.40, 0.60 y 0.80);

Los Deciles, que dividen a la distribución en diez

partes;

Los Percentiles, q

ue dividen a la distribución en

cien partes.

51

MEDIDAS DE DISPERSIÓNMEDIDAS DE DISPERSIÓN

-RangoRango-VarianzaVarianza-Desviación EstándarDesviación Estándar

RangoRango

VarianzaVarianzax

1x

2x

nx

Datos CuantitativosDatos Cuantitativos

Coeficiente de VariaciónCoeficiente de VariaciónComparación entre VariablesComparación entre Variables Se refiere al comportamiento de las variables cuantitativas en un Se refiere al comportamiento de las variables cuantitativas en un grupo. grupo. Por ejemplo: Si se tiene un conjunto de personas a las que se Por ejemplo: Si se tiene un conjunto de personas a las que se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta les mide Estatura, Peso, Edad: Entre estas variables ¿cuál presenta mayor variación? mayor variación?

)min()max( ii xxR −=

Desviación Típica o EstándarDesviación Típica o Estándar

2

1

21 1

22

1

2

2 1)(

1)(

xxnn

xn

x

n

xxs

n

ii

n

i

n

iii

n

ii

−=−

=−

= ∑∑ ∑∑

=

= ==

2ss =

x

scv =

Estadística

52

Estadística

Otras medidas o CoeficientesOtras medidas o Coeficientes-Asimetría (sesgo)Asimetría (sesgo)-Kurtosis o ApuntamientoKurtosis o Apuntamiento

Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias es la simetría y el apuntamiento o kurtosis.

Coeficiente de

Asimetría 3

1

3)(

sn

xxCA

n

ii

−=∑= Si CA=0 si la distribución es simétrica alrededor de la media.

Si CA<0 si la distribución es asimétrica a la izquierdaSi CA>0 si la distribución es asimétrica a la derecha

Coeficiente de Apuntamiento

41

4)(

sn

xx

CAp

n

ii

−=∑=

- Si CAp=0 la distribución se dice normal (similar a la distribución normal de Gauss) y recibe el nombre de mesocúrtica.- Si CAp>0, la distribución es más puntiaguda que la anterior y se llama leptocúrtica, (mayor concentración de los datos en torno a la media).- Si CAp<0 la distribución es más plana y se llama platicúrtica.

Mesocúrtica (CAp=0) Leptocúrtica (CAp>0 ) Platicúrtica (CAp<0)

31

3)(

sn

fixxCA

n

ii

−=∑=

41

4)(

sn

fixxCAp

n

ii

−=∑=

No agrupados

agrupados

No agrupados

agrupados

53

Estadística (análisis en SPSS)

Otras medidas o CoeficientesOtras medidas o Coeficientes-AsimetríaAsimetría-Kurtosis o ApuntamientoKurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetría y apuntamiento

V2

7,06,05,04,03,02,01,0

14

12

10

8

6

4

2

0

Desv. típ. = 1,67

Media = 3,9

N = 30,00

V4

2,01,00,0-1,0

30

20

10

0

Desv. típ. = ,64

Media = 0,0

N = 30,00

V5

9,08,07,06,05,04,03,02,01,0

6

5

4

3

2

1

0

Desv. típ. = 2,42

Media = 5,2

N = 28,00

54

Estadística

Otras medidas o CoeficientesOtras medidas o Coeficientes-AsimetríaAsimetría-Kurtosis o ApuntamientoKurtosis o Apuntamiento

Ejemplos

Media 3,9

Mediana 4

Moda 4

Desviación estándar 1,67

Varianza de la muestra 2,78

kurtosis -0,43

Coeficiente de asimetría -0,02

Rango 6

Mínimo 1

Máximo 7

Cuenta 30

V1

9,08,07,06,05,04,03,02,01,0

16

14

12

10

8

6

4

2

0

Desv. típ. = 1,77

Media = 5,4

N = 66,00

1 4 4

1 4 4

1 4 5

2 4 5

2 4 6

2 4 6

2 4 6

3 4 6

3 4 7

4 4 7

Datos Histograma Medidas descriptivas

55

Estadística

Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento para Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento para datos Agrupados (tabla de frecuencias)datos Agrupados (tabla de frecuencias)

Intervalo Centro de clase Amplitud F f FAA fra

I1 c1 a1

I2 c2 a2 . .

Ik ck ak n 1

Total n 1

f1

f2

fk

n1

n2

nk

Tabla de frecuencia (para variable cuantitativa)Tabla de frecuencia (para variable cuantitativa)

1) La Media para datos agrupados es igual a la suma de los productos de las marcas de clase por sus frecuencias relativas, de la forma:

∑=

==k

jjjcc fcxMedia

1

Sea cj la marca de clase (o centro de clase) y fj la frecuencia relativa de la clase j, donde j=1, 2,…, k.

2) La La Desviación típicaDesviación típica para datos para datos agrupados esta dada por:agrupados esta dada por:

∑=

−=k

jjcjc fxcs

1

2)(

3) El El Coeficiente de AsimetríaCoeficiente de Asimetría para datos para datos agrupados esta dado por:agrupados esta dado por:

3

1

3)(

c

k

jjcj

cs

fxc

CA∑

=

−=

4) El El Coeficiente de apuntamientoCoeficiente de apuntamiento para para datos agrupados esta dada por:datos agrupados esta dada por:

4

1

4)(

c

k

jjcj

cs

fxc

CAp∑

=

−=

56

MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL- Covarianza Covarianza - CorrelaciónCorrelación

x

1x

2x

nx

DatosDatosCuantitativosCuantitativos

Covarianza: Covarianza:

Recordemos que:Recordemos que: Hasta ahora hemos estudiado las medidas tendencia Hasta ahora hemos estudiado las medidas tendencia central (Media, Mediana, Moda) y dispersión central (Media, Mediana, Moda) y dispersión (Varianza y Desviación Estándar) para una Variable (Varianza y Desviación Estándar) para una Variable Cuantitativa (x).Cuantitativa (x).

Es una medida de Variabilidad Conjunta entre dos variables (xEs una medida de Variabilidad Conjunta entre dos variables (x11 , x , x22) o bien (x , y)) o bien (x , y)

x y

)1(x )(y 1

)2(x )(y 2

)(nx )n(y

Si Cov(x,y) es positivaSi Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional, es : la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa.decir que cuando x aumenta y también aumenta; y viceversa.Si Cov(x,y) es negativaSi Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional, : la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa.es decir que cuando x aumenta y disminuye; y viceversa.Si Cov(x,y) es ceroSi Cov(x,y) es cero: no existe asociación entre x e y.: no existe asociación entre x e y.

∑=

−−=n

iii )yy)(xx(

n)y,xcov(

1

1

Estadística (linealidad de datos y proyecciones)

57

MEDIDAS DE ASOCIACIÓN LINEALMEDIDAS DE ASOCIACIÓN LINEAL- Covarianza Covarianza - CorrelaciónCorrelación

DatosDatosCuantitativosCuantitativos

Coeficiente de Correlación de Pearson (Coeficiente de Correlación de Pearson (rr): ): Mide el grado de Asociación Lineal entre Mide el grado de Asociación Lineal entre dos variables Cuantitativasdos variables Cuantitativas

Se refiere al grado de asociación entre dos variables (xSe refiere al grado de asociación entre dos variables (x11 , x , x22) o bien (x , y)) o bien (x , y)

x y

)1(x )(y 1

)2(x )(y 2

)(nx )n(ySi Si rr es positivo es positivo: la asociación entre x e y es directamente proporcional, es decir que : la asociación entre x e y es directamente proporcional, es decir que cuando x aumenta y también aumenta; y viceversa. cuando x aumenta y también aumenta; y viceversa. Si Si rr=1=1: la asociación lineal es : la asociación lineal es perfecta.perfecta.Si Si rr es negativo es negativo: la asociación entre x e y es inversamente proporcional, es decir : la asociación entre x e y es inversamente proporcional, es decir que cuando x aumenta y disminuye; y viceversa. que cuando x aumenta y disminuye; y viceversa. Si Si rr=-1=-1: la asociación lineal es : la asociación lineal es perfecta.perfecta.Si Si rr es cero es cero: no existe asociación entre x e y.: no existe asociación entre x e y.

CorrelaciónCorrelación: :

11 ≤≤− ryxss

)y,xcov(r =

yx

n

iii

ss)n(

yxnyx

r1

1

−=

∑=

Estadística

58

r=1 r=-1

EJEMPLO : Representación gráfica de las variables x e yEJEMPLO : Representación gráfica de las variables x e y

Estadística

r= 0 r≠ 0 ≠ 1 ≠-1

59

Objetivo 2Estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra (pronostico o estimación)

REGRESION LINEAL SIMPLEREGRESION LINEAL SIMPLE

Datos CuantitativosDatos Cuantitativos

Determinar si existe relación entre las variables x e y: Coeficiente de Correlación

Objetivo 1Determinar si dos variables están Determinar si dos variables están asociadas y en qué sentido se da la asociadas y en qué sentido se da la asociaciónasociación..

Estudiar la dependencia de una variable respecto de la otra: Modelo de RegresiónModelo de Regresión

TérminosVariable Respuesta (=variable dependiente)Variable Explicativa (=variable Independiente)Relación Lineal (modelo lineal)Parámetros (intercepto y pendiente)Intercepto (respuesta media)Pendiente (efecto de la variable explicativa sobre la respuesta)Error (residuo)

x y

)1(x )(y 1

)2(x )(y 2

)(nx )n(y

Estadística

60

REGRESION LINEAL SIMPLEREGRESION LINEAL SIMPLE

Datos CuantitativosDatos Cuantitativos

NotaciónVariable Respuesta: y ó dependienteVariable Explicativa: x ó independienteModelo de Regresión Lineal Simple: yi=α+βxi+ei

Intercepto: α = aPendiente: β = bError: e

x y

)1(x )(y 1

)2(x )(y 2

)(nx )n(y

Modelo Estimado(recta de regresión)

bxay +=ˆ

xbya −=

2

11

2

111

−=

∑∑

∑∑∑

==

===

n

ii

n

i

n

ii

n

ii

n

i

xxn

yxxynb

Método de Estimación: Mínimos CuadradosMínimos Cuadrados

iii yye ˆ−=Residuos o Errores

Estadística

61

REGRESION LINEAL SIMPLEREGRESION LINEAL SIMPLE

DATOSDATOS

MODELO DE REGRESIÓN LINEAL SIMPLE yi=α+βxi+ei

x y

)1(x )(y 1

)2(x )(y 2

)(nx )n(y

MODELO ESTIMADO

bxay +=ˆ

xbya −=

2

11

2

111

−=

∑∑

∑∑∑

==

===

n

ii

n

i

n

ii

n

ii

n

i

xxn

yxxynb

ESTIMADORES

iii yye ˆ−=

ERRORES

Estadística

62

REGRESION LINEAL SIMPLEREGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

niño edad (meses) talla (cm) i xi yi

1 3 55 2 6 68 3 5 64 4 5 66 5 3 62 6 4 65 7 9 74 8 8 75 9 9 73

10 7 69 11 6 73 12 5 68 13 8 73 14 6 71

y=talla / x=edad / n=14

95614

1

=∑=i

iy 3,68=y 6,5=ys

8414

1

=∑=i

ix 6=x 2=xs

07,9),cov( =yx 88,0=xyr

586314

1

=∑=i

ii yx 55614

1

2 =∑=i

ix

Estadística

63

REGRESION LINEAL SIMPLEREGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

Modelo Estimado bxay +=ˆ

44,2=b 64,53=a

xy 44,264,53ˆ +=

Interpretación de los resultados- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a

medida que la edad aumenta la talla aumenta. - Desde los resultados del modelo de regresión lineal simple, se tiene que la talla

media de un niño es de 53,64 cm. Cuando la edad del niño (meses) aumenta en una unidad la talla se incrementa en 2,44 cm.

Estadística

64

REGRESION LINEAL SIMPLEREGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple

Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

De acuerdo al coeficiente de determinación, el modelo ajustado a los datos es adecuado (R2 cercano a 1)

Bondad de Ajuste del Modelo R2 = 0,77

niño edad (meses) talla (cm) Talla estimada error

i xi yi iy ie

1 3 55 61,0 -6,0 2 6 68 68,3 -0,3 3 5 64 65,8 -1,8 4 5 66 65,8 0,2 5 3 62 61,0 1,0 6 4 65 63,4 1,6 7 9 74 75,6 -1,6 8 8 75 73,2 1,8 9 9 73 75,6 -2,6

10 7 69 70,7 -1,7 11 6 73 68,3 4,7 12 5 68 65,8 2,2 13 8 73 73,2 -0,2 14 6 71 68,3 2,7

86,402)(14

1

2 =−∑=i

ii yy

7,92)ˆ(14

1

214

1

2 ∑∑==

==−i

ii

ii eyy

Estadística

PROGRAMA: SUPERCEP

PROGRAMA: SUPERCEP

Datos reales da regresion linealx y (xi- )Ẋ (yi- )Ẏ (xi- )*(yi- )Ẋ Ẏ (xi- )2Ẋ (yi- )2Ẏ x y´3.6 11.28 -1.77 -4.87 8.63 3.14 23.67 3.6 12.425.2 14.74 -0.17 -1.41 0.24 0.03 1.97 5.2 17.525.3 18.46 -0.07 2.31 -0.17 0.01 5.36 5.3 17.847.3 20.01 1.93 3.86 7.45 3.71 14.94 7.3 24.20

5 12.43 -0.37 -3.72 1.39 0.14 13.80 5 16.885.2 15.37 -0.17 -0.78 0.13 0.03 0.60 5.2 17.52

3 9.59 -2.37 -6.56 15.56 5.63 42.97 3 10.513.1 11.26 -2.27 -4.89 11.11 5.17 23.87 3.1 10.833.2 8.05 -2.17 -8.10 17.59 4.72 65.53 3.2 11.157.5 27.91 2.13 11.76 25.02 4.52 138.41 7.5 24.848.3 24.62 2.93 8.47 24.80 8.57 71.82 8.3 27.396.1 18.8 0.73 2.65 1.93 0.53 7.05 6.1 20.384.9 13.87 -0.47 -2.28 1.08 0.22 5.18 4.9 16.565.8 12.11 0.43 -4.04 -1.72 0.18 16.28 5.8 19.437.1 23.68 1.73 7.53 13.01 2.98 56.77 7.1 23.57

126.04 39.59 488.22 9 29.625.4 16.15 9.6 31.53

Ajuste por mínimos cuadradosPendiente m= ∑(xi- )*(yi- )Ẋ Ẏ c= -mẎ Ẋ

∑ (xi- )2Ẋ y= 3.183 x -0.962c= -0.962 R2= Correlación de lineal

m= 3.1838 R2= 1, significa ajuste perfectox=comisiones pagadas por vendedores de autos en un mes (%) R2= cero= sin ajuste y=ganacias netas por ventas, en el mismo mes (millones de pesos)

y = 3.1838x - 0.9621R² = 0.8219

0

5

10

15

20

25

30

0 2 4 6 8 10

y

y

Lineal (y)

y = 3.1838x + 0.9621R² = 1

0.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

0 2 4 6 8 10 12

Lineal (y´)

PROGRAMA: EXCEL

LOS ANÁLISIS DE DATOS ESTADISTICOS :SE PUEDE APOYAR EN HOJAS DE CALCULO EXCEL,

SPSS Y SUPERCEP

ING. BENITO SANTIAGO GUERRA

GRACIAS

top related