unidad 4 análisis de los datos. análisis exploratorio de los datos: estadística descriptiva de...

23
Unidad 4 Análisis de los Datos

Upload: gregorio-soto-peralta

Post on 25-Jan-2016

222 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Unidad 4

Análisis de los Datos

Page 2: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia central, variabilidad, representaciones gráficas. Se pretende conocer cada variable así como detectar errores, valores extremos, etc.

Estadística Bivariable: estudia las relaciones entre pares de variables, utilizando estadísticos como el coeficiente de correlación, chi-cuadrado,t de Student, y representaciones gráficas diversas.

12-3

Page 3: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis Multivariante: analiza simultáneamente dos o más variables. Los métodos pueden ser predictivos cuando existe una variable criterio o independiente que explica o identifica por un conjunto de variables independientes o explicativas.Ej:Regresión lineal, regresión logística, análisis discriminante, árboles de segmentación, análisis de la varianza o reductivos: cuando se estudian las relaciones entre un conjunto de variables sin que exista una variable a identificar. Ej: análisis factorial, correspondencias binarias, correspondencias múltiples, etc.

12-4

Page 4: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis Bivariante – relación entre dos variables.

Dos variables cuantitativas: Correlación. Regresión lineal simple.

Dos variables cualitativas: Tabulación cruzada. Porcentajes. Estadístico Chi-cuadrado y otros.

Una cuantitativa y una cualitativa: ANOVA ( análisis de la varianza). Se dividen a su vez en paramétrico para dos grupos (T Student) y más de dos grupos(Test F).

12-10

Page 5: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Regresión y correlación lineal simple y múltiple

Page 6: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis de correlación Análisis de correlación: se usa un grupo de

técnicas estadísticas para medir la fuerza de la relación (correlación) entre dos variables.

Diagrama de dispersión: gráfica que describe la relación entre las dos variables de interés.

Variable dependiente: la variable que se pronostica o estima.

Variable independiente: la variable que proporciona la base para la estimación. Es la variable predictora.

12-3

Page 7: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Coeficiente de correlación de Pearson, r

El coeficiente de correlación (r) es una medida de la intensidad de la relación entre dos variables. Indica si hay una relación lineal entre las mismas. Requiere datos con escala de intervalo o de razón

(variables). Puede tomar valores entre -1.00 y 1.00. Valores de -1.00 o 1.00 indican correlación fuerte y

perfecta. Valores cercanos a 0.0 indican correlación débil. Valores negativos indican una relación inversa y valores

positivos indican una relación directa.

12-4

Page 8: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Correlación negativa perfecta

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

12-5

Page 9: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Correlación positiva perfecta

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

12-6

Page 10: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Correlación cero

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

12-7

Page 11: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Correlación positiva fuerte

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

12-8

Page 12: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Coeficiente de determinación

El coeficiente de determinación, r2 - la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X. El coeficiente de determinación es el cuadrado del

coeficiente de correlación, y toma valores de 0 a 1.

12-10

Page 13: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis de regresión

Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X).

Procedimiento: seleccionar una muestra de la población y enumerar los datos por pares para cada observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la ecuación de regresión.

12-15

Page 14: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis de regresión

La ecuación de regresión: Y’= a + bX, donde: Y’ es el valor promedio pronosticado de Y para

cualquier valor de X. a es la intercepción en Y, o el valor estimado de Y

cuando X = 0 b es la pendiente de la recta, o cambio promedio

en Y’ por cada cambio de una unidad en X se usa el principio de mínimos cuadrados para

obtener a y b: b

n XY X Y

n X X

aY

nbX

n

( ) ( )( )

( ) ( )

2 2

12-16

Page 15: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Error estándar de la estimación

El error estándar de la estimación mide la dispersión de los valores observados alrededor de la recta de regresión.

Fórmulas usadas para calcular el error estándar:

SY Y

n

Y a Y b XY

n

Y X

( ' )

( ) ( )

2

2

2

2

12-18

Page 16: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis de

Regresión y Correlación Múltiples

Page 17: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis de regresión múltiple

Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es:

X1 y X2 son las variables independientes. a es la intercepción en Y. b1 es el cambio neto en Y por cada cambio unitario

en X1, manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

Y a b X b X' 1 1 2 2

13-3

Page 18: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Análisis de regresión múltiple

La ecuación general de regresión múltiple con k variables independientes es:

El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos.

Y a b X b X b Xk k' ... 1 1 2 2

13-4

Page 19: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Error estándar múltiple de la estimación

El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de regresión.

Está medida en las mismas unidades que la variable dependiente.

Es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error estándar.

13-5

Page 20: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

Error estándar múltiple de la estimación

La fórmula es:

donde n es el número de observaciones y k es el número de variables independientes.

13-6

)1(

)'( 2

12

kn

YYS kY

Page 21: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

EJEMPLO

Un estudio de mercado para la cadena de tiendas autoservicio Super Dollar analiza la cantidad anual que gastan en comida las familias de cuatro o más miembros. Se piensa que tres variables independientes se relacionan con los gastos en comida. Esas variables son: ingreso familiar total, tamaño de la familia y si la familia tiene hijos en la universidad.

13-13

Page 22: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

EJEMPLO continuación

1 3900 37.6 4 0

2 5300 51.5 5 1

3 4300 51.6 4 0

4 4900 46.8 5 0

5 6400 53.8 6 1

6 7300 62.6 7 17 4900 54.3 5 0

8 5300 43.7 4 0

9 6100 60.8 5 1

10 6400 51.3 6 1

11 7400 49.3 6 1

12 5800 56.3 5 0

FamiliaGastos en comida

Ingresos($1000)

Tamaño de la familia

Hijos en universidad

13-14

Page 23: Unidad 4 Análisis de los Datos. Análisis exploratorio de los datos: Estadística descriptiva de cada variable por separado. Se obtienen medidas de tendencia

EJEMPLO continuación

Use un software, para desarrollar la matriz de correlación.

Del análisis proporcionado por el software, la ecuación de regresión es:

¿Qué gastos en comida estima para una familia de 4 integrantes, sin hijos en la universidad y con ingresos de $50,000?

Y’= 954 + 10.9*50 +748*4+565*0= 4491

Y X X X' . 954 10 9 748 5651 2 3

13-15