anÁlisis exploratorio de datos Ángel m. ramos domínguez
TRANSCRIPT
![Page 1: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/1.jpg)
ANÁLISIS EXPLORATORIO DE DATOS
Ángel M. Ramos Domínguez
![Page 2: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/2.jpg)
Análisis Exploratorio de Datos
La exploración de los datos puede ayudar a determinar si las técnicas estadísticas que estamos considerando utilizar en el análisis son apropiadas. El procedimiento EXPLORAR de SPSS proporciona una variedad de resúmenes númericos y visuales de los datos, tanto para todos los datos en su conjunto, como para grupos de casos separadamente. La variable dependiente debe estar medida en una escala cuantitativa, mienstras que las variables de grupo pueden ser ordinales o nominales.
Con el procedimiento EXPLORAR de SPSS podemos:
Escrutar los datos
Identificar casos atípicos (outliers)
Revisar los supuestos
Caracterizar las diferencias entre grupos de casos
![Page 3: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/3.jpg)
Análisis Exploratorio de Datos
Queremos explorar la variable gasto por turista y día, para el conjunto de la muestra, cumple los supuestos exigidos para la mayoría de las técnicas estadísticas, así como, para cada uno de los grupos de turistas definidos según sexo.
Haremos uso de la base de datos Base Turistas.sav que se encuentra en la carpeta \\Escritorio\Asignaturas\Empresariales\Métodos\ de nuestro PC.
El fichero recoge la información referida a una muestra de 797 turistas entrevistados al término de sus vacaciones en Tenerife.
![Page 4: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/4.jpg)
Análisis Exploratorio de Datos
Para empezar el análisis, de la barra de menús elegimos:
Analizar
Estadísticos Descriptivos
Explorar
![Page 5: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/5.jpg)
Análisis Exploratorio de Datos
Elegimos como variable dependiente el gasto por turista y día, y como factor la variable sexo.Elegimos los estadísticos: descriptivos, intervalo de confianza para la media al 95%, estimadores robustos centrales, valores atípicos y percentiles.Elegimos los gráficos: diagrama de cajas, tallos y hojas, histograma, y gráficos con prueba de normalidadEstimación de la potenciaElegimos que nos muestre los valores perdidos.
![Page 6: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/6.jpg)
Resultados del AED
Resumen del procesamiento de los casos
360 90,2% 39 9,8% 399 100,0%
351 88,2% 47 11,8% 398 100,0%
Sexo del turistafemenino
masculino
GAsto por turista y díaN Porcentaje N Porcentaje N Porcentaje
Válidos Perdidos Total
Casos
La tabla de resumen del procesamiento de los casos muestra tres secciones: la primera recoge el número de casos válidos según sexo, la segunda muestra el número de casos perdidos según sexo, y por último, el número total de casos, también según sexo.
![Page 7: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/7.jpg)
Resultados del AEDDescriptivos
102,8162 5,53569
91,9298
113,7027
91,3787
76,9510
11031,778
105,03227
4,11
1252,11
1248,00
101,10
4,730 ,129
41,907 ,256
94,3822 4,50935
85,5133
103,2510
85,3265
74,2679
7137,326
84,48269
,32
750,06
749,74
92,30
2,859 ,130
14,334 ,260
Media
Límite inferior
Límite superior
Intervalo de confianzapara la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Media
Límite inferior
Límite superior
Intervalo de confianzapara la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Sexo del turistafemenino
masculino
GAsto por turista y díaEstadístico Error típ.
![Page 8: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/8.jpg)
Resultados del AED
Prueba de Kolmogorov-Smirnov para una muestra
711 711
4,2243 98,6526
,91246 95,46856
,062 ,162
,040 ,143
-,062 -,162
1,659 4,327
,008 ,000
N
Media
Desviación típica
Parámetros normales a,b
Absoluta
Positiva
Negativa
Diferencias másextremas
Z de Kolmogorov-Smirnov
Sig. asintót. (bilateral)
LNgtdGAsto por
turista y día
La distribución de contraste es la Normal.a.
Se han calculado a partir de los datos.b.
![Page 9: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/9.jpg)
Resultados del AED
Los estimadores-M son medidas robustas de tendencia central que se pueden usar como alternativas a la media y la mediana.
Estimadores-M
81,6353 76,5716 82,9658 76,3414
77,2255 72,7408 77,7357 72,5968
Sexo del turistafemenino
masculino
GAsto por turista y día
Estimador-Mde Huber
aBiponderado
de Tukeyb
Estimador-Mde Hampel
cOnda deAndrews
d
La constante de ponderación es 1,339.a.
La constante de ponderación es 4,685.b.
Las constantes de ponderación son 1,700, 3,400 y 8,500.c.
La constante de ponderación es 1,340*pi.d.
![Page 10: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/10.jpg)
Resultados del AED
Los percentiles indican el porcentaje de casos que están por debajo de los valores mostrados.
Percentiles
14,5960 21,4647 37,5633 76,9510 138,6621 214,6472 255,4301
13,9091 21,4647 36,4900 74,2679 128,7883 185,0259 216,8151
37,5633 76,9510 137,0880
36,7377 74,2679 128,2517
Sexo del turistafemenino
masculino
femenino
masculino
GAsto por turista y día
GAsto por turista y día
Promedioponderado(definición 1)
Bisagras de Tukey
5 10 25 50 75 90 95
Percentiles
![Page 11: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/11.jpg)
Resultados del AED
La tabla de valores extremos muestra los casos con los 5 valores mayores y menores.
Valores extremos
593 Británica 1252,11
276 Italiana 601,01
501 Española 601,01
768 Belga 450,76
701 Alemana 425,72
46 Holandesa 4,11
440 Alemana 7,30
103 Francesa 7,51
68 Británica 7,51
12 Británica 8,59
467 Suiza 750,06
331 Británica 536,62
2 Española 515,15
767 Belga 450,76
698 Alemana 415,07
7 Holandesa ,32
86 Británica 1,50
19 Británica 4,65
24 Británica 6,26
441 Alemana 7,30
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Mayores
Menores
Mayores
Menores
Sexo del turistafemenino
masculino
GAsto por turista y día
Númerodel caso
Nacionalidaddel turista Valor
![Page 12: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/12.jpg)
Resultados del AED
El estadístico de Kolmogorov-Smirnov contrasta la hipótesis de que los datos se distribuyen normalmente.
Pruebas de normalidad
,179 360 ,000 ,672 360 ,000
,141 351 ,000 ,772 351 ,000
Sexo del turistafemenino
masculino
GAsto por turista y díaEstadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Corrección de la significación de Lillieforsa.
Pruebas de normalidad
,061 360 ,003 ,990 360 ,015
,071 351 ,000 ,959 351 ,000
Sexo del turistafemenino
masculino
LNgtdEstadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova
Shapiro-Wilk
Corrección de la significación de Lillieforsa.
![Page 13: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/13.jpg)
Resultados del AED
El estadístico de Levene contrasta la hipótesis de igualdad de varianzas de la variable dependiente para los grupos definidos por la variable factor categórica.
Prueba de homogeneidad de la varianza
2,821 1 709 ,094
2,110 1 709 ,147
2,110 1 663,860 ,147
2,430 1 709 ,119
Basándose en la media
Basándose en lamediana.
Basándose en lamediana y con glcorregido
Basándose en la mediarecortada
GAsto por turista y día
Estadísticode Levene gl1 gl2 Sig.
![Page 14: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/14.jpg)
Resultados del AED
0,00 200,00 400,00 600,00 800,00 1000,00 1200,00
GAsto por turista y día
0
20
40
60
80
100
120
140
Fre
cuen
cia
Mean = 102,8162Std. Dev. = 105,03227N = 360
para Sexo= femenino
Histograma
0,00 100,00 200,00 300,00 400,00 500,00 600,00 700,00
GAsto por turista y día
0
20
40
60
80
Fre
cu
en
cia
Mean = 94,3822Std. Dev. = 84,48269N = 351
para Sexo= masculino
Histograma
![Page 15: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/15.jpg)
Resultados del AED
2,00 3,00 4,00 5,00 6,00 7,00
LNgtd
0
10
20
30
40
50
Fre
cu
en
cia
Mean = 4,256Std. Dev. = 0,90132N = 360
para Sexo= femenino
Histograma
0,00 2,00 4,00 6,00
LNgtd
0
10
20
30
40
50
60
Fre
cuen
cia
Mean = 4,1919Std. Dev. = 0,9239N = 351
para Sexo= masculino
Histograma
![Page 16: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/16.jpg)
Resultados del AEDGAsto por turista y día Stem-and-Leaf Plot forSexo= femenino
Frequency Stem & Leaf
32,00 0 . 000011111111111 61,00 0 . 222222222222222333333333333333 59,00 0 . 44444444444444444444555555555 31,00 0 . 666666666777777 34,00 0 . 8888888888999999 30,00 1 . 00000000001111 23,00 1 . 22222222222& 13,00 1 . 444445 22,00 1 . 6667777777 15,00 1 . 8888889 12,00 2 . 01111 2,00 2 . 3 12,00 2 . 445555 ,00 2 . 1,00 2 . & 13,00 Extremes (>=292)
Stem width: 100,00 Each leaf: 2 case(s)
LNgtd Stem-and-Leaf Plot forSexo= masculino
Frequency Stem & Leaf
3,00 Extremes (=<1,5) 2,00 1 . & 11,00 2 . 1333& 13,00 2 . 7899& 46,00 3 . 000000001222334444444 63,00 3 . 555555666666777777788889999999 73,00 4 . 00001122222222222333333344444444444 75,00 4 . 555555666666666666677788888888889999 52,00 5 . 000111111122222333333334 8,00 5 . 557& 4,00 6 . 2& 1,00 6 . &
Stem width: 1,00 Each leaf: 2 case(s)
& denotes fractional leaves.
![Page 17: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/17.jpg)
Resultados del AED
0 500 1.000
Valor observado
-3
-2
-1
0
1
2
3
No
rma
l e
sp
era
do
para Sexo= femenino
Gráfico Q-Q normal de GAsto por turista y día
-200 0 200 400 600 800
Valor observado
-3
-2
-1
0
1
2
3
No
rmal
esp
erad
o
para Sexo= masculino
Gráfico Q-Q normal de GAsto por turista y día
![Page 18: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/18.jpg)
Resultados del AED
0 2 4 6 8
Valor observado
-3
-2
-1
0
1
2
3
No
rma
l e
sp
era
do
para Sexo= femenino
Gráfico Q-Q normal de LNgtd
0 1 2 3 4 5 6 7
Valor observado
-3
-2
-1
0
1
2
3
No
rmal
esp
erad
o
para Sexo= masculino
Gráfico Q-Q normal de LNgtd
![Page 19: ANÁLISIS EXPLORATORIO DE DATOS Ángel M. Ramos Domínguez](https://reader036.vdocuments.co/reader036/viewer/2022082714/5665b4731a28abb57c9191d7/html5/thumbnails/19.jpg)
Resultados del AED
femenino masculino
Sexo del turista
0,00
200,00
400,00
600,00
800,00
1000,00
1200,00
1400,00
GA
sto
po
r tu
ris
ta y
día
Alemana
FrancesaBritánica
FrancesaEspañolaFrancesa
Belga
Española
Británica
Alemana
Española
Suiza
El diagrama de cajas nos permite comparar cada grupo utilizando cinco valores resumen: la mediana, los percentiles 25 y 75, y los valores mínimo y máximo que no son estadísticamente atípicos. Los valores atípicos y extremos se les da una atención especial. La línea negra que está dentro de la caja marca el percentil 50 o mediana dicha distribución. Nótese que las medianas varían muy poco entre grupos de turistas según su sexo.Los bordes de las cajas marcan los percentiles 25 y 75 de cada distribución.Los bigotes que aparecen por encima y por debajo de cada caja, señalan los valores mínimo y máximo no considerados estadísticamente atípicos.Los valores atípicos se representan con un círculo y los extremos con un asterisco.