anÁlisis exploratorio de datos Ángel m. ramos domínguez

19
ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Upload: raimundo-herrero

Post on 29-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

ANÁLISIS EXPLORATORIO DE DATOS

Ángel M. Ramos Domínguez

Page 2: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Análisis Exploratorio de Datos

La exploración de los datos puede ayudar a determinar si las técnicas estadísticas que estamos considerando utilizar en el análisis son apropiadas. El procedimiento EXPLORAR de SPSS proporciona una variedad de resúmenes númericos y visuales de los datos, tanto para todos los datos en su conjunto, como para grupos de casos separadamente. La variable dependiente debe estar medida en una escala cuantitativa, mienstras que las variables de grupo pueden ser ordinales o nominales.

Con el procedimiento EXPLORAR de SPSS podemos:

Escrutar los datos

Identificar casos atípicos (outliers)

Revisar los supuestos

Caracterizar las diferencias entre grupos de casos

Page 3: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Análisis Exploratorio de Datos

Queremos explorar la variable gasto por turista y día, para el conjunto de la muestra, cumple los supuestos exigidos para la mayoría de las técnicas estadísticas, así como, para cada uno de los grupos de turistas definidos según sexo.

Haremos uso de la base de datos Base Turistas.sav que se encuentra en la carpeta \\Escritorio\Asignaturas\Empresariales\Métodos\ de nuestro PC.

El fichero recoge la información referida a una muestra de 797 turistas entrevistados al término de sus vacaciones en Tenerife.

Page 4: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Análisis Exploratorio de Datos

Para empezar el análisis, de la barra de menús elegimos:

Analizar

Estadísticos Descriptivos

Explorar

Page 5: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Análisis Exploratorio de Datos

Elegimos como variable dependiente el gasto por turista y día, y como factor la variable sexo.Elegimos los estadísticos: descriptivos, intervalo de confianza para la media al 95%, estimadores robustos centrales, valores atípicos y percentiles.Elegimos los gráficos: diagrama de cajas, tallos y hojas, histograma, y gráficos con prueba de normalidadEstimación de la potenciaElegimos que nos muestre los valores perdidos.

Page 6: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

Resumen del procesamiento de los casos

360 90,2% 39 9,8% 399 100,0%

351 88,2% 47 11,8% 398 100,0%

Sexo del turistafemenino

masculino

GAsto por turista y díaN Porcentaje N Porcentaje N Porcentaje

Válidos Perdidos Total

Casos

La tabla de resumen del procesamiento de los casos muestra tres secciones: la primera recoge el número de casos válidos según sexo, la segunda muestra el número de casos perdidos según sexo, y por último, el número total de casos, también según sexo.

Page 7: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AEDDescriptivos

102,8162 5,53569

91,9298

113,7027

91,3787

76,9510

11031,778

105,03227

4,11

1252,11

1248,00

101,10

4,730 ,129

41,907 ,256

94,3822 4,50935

85,5133

103,2510

85,3265

74,2679

7137,326

84,48269

,32

750,06

749,74

92,30

2,859 ,130

14,334 ,260

Media

Límite inferior

Límite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. típ.

Mínimo

Máximo

Rango

Amplitud intercuartil

Asimetría

Curtosis

Media

Límite inferior

Límite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. típ.

Mínimo

Máximo

Rango

Amplitud intercuartil

Asimetría

Curtosis

Sexo del turistafemenino

masculino

GAsto por turista y díaEstadístico Error típ.

Page 8: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

Prueba de Kolmogorov-Smirnov para una muestra

711 711

4,2243 98,6526

,91246 95,46856

,062 ,162

,040 ,143

-,062 -,162

1,659 4,327

,008 ,000

N

Media

Desviación típica

Parámetros normales a,b

Absoluta

Positiva

Negativa

Diferencias másextremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

LNgtdGAsto por

turista y día

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Page 9: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

Los estimadores-M son medidas robustas de tendencia central que se pueden usar como alternativas a la media y la mediana.

Estimadores-M

81,6353 76,5716 82,9658 76,3414

77,2255 72,7408 77,7357 72,5968

Sexo del turistafemenino

masculino

GAsto por turista y día

Estimador-Mde Huber

aBiponderado

de Tukeyb

Estimador-Mde Hampel

cOnda deAndrews

d

La constante de ponderación es 1,339.a.

La constante de ponderación es 4,685.b.

Las constantes de ponderación son 1,700, 3,400 y 8,500.c.

La constante de ponderación es 1,340*pi.d.

Page 10: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

Los percentiles indican el porcentaje de casos que están por debajo de los valores mostrados.

Percentiles

14,5960 21,4647 37,5633 76,9510 138,6621 214,6472 255,4301

13,9091 21,4647 36,4900 74,2679 128,7883 185,0259 216,8151

37,5633 76,9510 137,0880

36,7377 74,2679 128,2517

Sexo del turistafemenino

masculino

femenino

masculino

GAsto por turista y día

GAsto por turista y día

Promedioponderado(definición 1)

Bisagras de Tukey

5 10 25 50 75 90 95

Percentiles

Page 11: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

La tabla de valores extremos muestra los casos con los 5 valores mayores y menores.

Valores extremos

593 Británica 1252,11

276 Italiana 601,01

501 Española 601,01

768 Belga 450,76

701 Alemana 425,72

46 Holandesa 4,11

440 Alemana 7,30

103 Francesa 7,51

68 Británica 7,51

12 Británica 8,59

467 Suiza 750,06

331 Británica 536,62

2 Española 515,15

767 Belga 450,76

698 Alemana 415,07

7 Holandesa ,32

86 Británica 1,50

19 Británica 4,65

24 Británica 6,26

441 Alemana 7,30

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

Mayores

Menores

Mayores

Menores

Sexo del turistafemenino

masculino

GAsto por turista y día

Númerodel caso

Nacionalidaddel turista Valor

Page 12: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

El estadístico de Kolmogorov-Smirnov contrasta la hipótesis de que los datos se distribuyen normalmente.

Pruebas de normalidad

,179 360 ,000 ,672 360 ,000

,141 351 ,000 ,772 351 ,000

Sexo del turistafemenino

masculino

GAsto por turista y díaEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Corrección de la significación de Lillieforsa.

Pruebas de normalidad

,061 360 ,003 ,990 360 ,015

,071 351 ,000 ,959 351 ,000

Sexo del turistafemenino

masculino

LNgtdEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Corrección de la significación de Lillieforsa.

Page 13: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

El estadístico de Levene contrasta la hipótesis de igualdad de varianzas de la variable dependiente para los grupos definidos por la variable factor categórica.

Prueba de homogeneidad de la varianza

2,821 1 709 ,094

2,110 1 709 ,147

2,110 1 663,860 ,147

2,430 1 709 ,119

Basándose en la media

Basándose en lamediana.

Basándose en lamediana y con glcorregido

Basándose en la mediarecortada

GAsto por turista y día

Estadísticode Levene gl1 gl2 Sig.

Page 14: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

0,00 200,00 400,00 600,00 800,00 1000,00 1200,00

GAsto por turista y día

0

20

40

60

80

100

120

140

Fre

cuen

cia

Mean = 102,8162Std. Dev. = 105,03227N = 360

para Sexo= femenino

Histograma

0,00 100,00 200,00 300,00 400,00 500,00 600,00 700,00

GAsto por turista y día

0

20

40

60

80

Fre

cu

en

cia

Mean = 94,3822Std. Dev. = 84,48269N = 351

para Sexo= masculino

Histograma

Page 15: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

2,00 3,00 4,00 5,00 6,00 7,00

LNgtd

0

10

20

30

40

50

Fre

cu

en

cia

Mean = 4,256Std. Dev. = 0,90132N = 360

para Sexo= femenino

Histograma

0,00 2,00 4,00 6,00

LNgtd

0

10

20

30

40

50

60

Fre

cuen

cia

Mean = 4,1919Std. Dev. = 0,9239N = 351

para Sexo= masculino

Histograma

Page 16: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AEDGAsto por turista y día Stem-and-Leaf Plot forSexo= femenino

Frequency Stem & Leaf

32,00 0 . 000011111111111 61,00 0 . 222222222222222333333333333333 59,00 0 . 44444444444444444444555555555 31,00 0 . 666666666777777 34,00 0 . 8888888888999999 30,00 1 . 00000000001111 23,00 1 . 22222222222& 13,00 1 . 444445 22,00 1 . 6667777777 15,00 1 . 8888889 12,00 2 . 01111 2,00 2 . 3 12,00 2 . 445555 ,00 2 . 1,00 2 . & 13,00 Extremes (>=292)

Stem width: 100,00 Each leaf: 2 case(s)

LNgtd Stem-and-Leaf Plot forSexo= masculino

Frequency Stem & Leaf

3,00 Extremes (=<1,5) 2,00 1 . & 11,00 2 . 1333& 13,00 2 . 7899& 46,00 3 . 000000001222334444444 63,00 3 . 555555666666777777788889999999 73,00 4 . 00001122222222222333333344444444444 75,00 4 . 555555666666666666677788888888889999 52,00 5 . 000111111122222333333334 8,00 5 . 557& 4,00 6 . 2& 1,00 6 . &

Stem width: 1,00 Each leaf: 2 case(s)

& denotes fractional leaves.

Page 17: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

0 500 1.000

Valor observado

-3

-2

-1

0

1

2

3

No

rma

l e

sp

era

do

para Sexo= femenino

Gráfico Q-Q normal de GAsto por turista y día

-200 0 200 400 600 800

Valor observado

-3

-2

-1

0

1

2

3

No

rmal

esp

erad

o

para Sexo= masculino

Gráfico Q-Q normal de GAsto por turista y día

Page 18: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

0 2 4 6 8

Valor observado

-3

-2

-1

0

1

2

3

No

rma

l e

sp

era

do

para Sexo= femenino

Gráfico Q-Q normal de LNgtd

0 1 2 3 4 5 6 7

Valor observado

-3

-2

-1

0

1

2

3

No

rmal

esp

erad

o

para Sexo= masculino

Gráfico Q-Q normal de LNgtd

Page 19: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez

Resultados del AED

femenino masculino

Sexo del turista

0,00

200,00

400,00

600,00

800,00

1000,00

1200,00

1400,00

GA

sto

po

r tu

ris

ta y

día

Alemana

FrancesaBritánica

FrancesaEspañolaFrancesa

Belga

Española

Británica

Alemana

Española

Suiza

El diagrama de cajas nos permite comparar cada grupo utilizando cinco valores resumen: la mediana, los percentiles 25 y 75, y los valores mínimo y máximo que no son estadísticamente atípicos. Los valores atípicos y extremos se les da una atención especial. La línea negra que está dentro de la caja marca el percentil 50 o mediana dicha distribución. Nótese que las medianas varían muy poco entre grupos de turistas según su sexo.Los bordes de las cajas marcan los percentiles 25 y 75 de cada distribución.Los bigotes que aparecen por encima y por debajo de cada caja, señalan los valores mínimo y máximo no considerados estadísticamente atípicos.Los valores atípicos se representan con un círculo y los extremos con un asterisco.