spss gestión de datos y prueba de hipótesis
DESCRIPTION
Tutorial SPSS: gestión de datos, prueba de hipótesis y regresiónTRANSCRIPT
![Page 1: SPSS Gestión de Datos y Prueba de Hipótesis](https://reader035.vdocuments.co/reader035/viewer/2022071806/55cf9258550346f57b95a777/html5/thumbnails/1.jpg)
Gestión de DatosMenú Datos y Transformar
* Abrir Editor de Sintaxis:
Archivo----Nuevo ----Sintaxis
Definir Variables:
*Nombre*Etiqueta *Etiqueta de Valores *Posibles Datos Perdidos: 1) hacer tabla de frecuencia y en el resumen revisar las variables que tienen valores
perdidos.
1.1) Transformar ----Recodificar en distintas variables: valores perdidos por el sistema o usuario (previo hay que definir que 9 es un valor perdido)
ó
1.2) Transformar --- Calcular variable: Variable de destino: (nombre ej: sexo perdidos) Grupo de Funciones: valores perdidos
Datos perdidos por el sistema: casilla en blanco; datos perdidos por el usuario: definido en vista de datos (9)
*Nivel de Medida: Nominal (Categórica): sexoOrdinal (Categórica): GSE, cantidad de hijosEscala (Intervalar o Razón): puntajes, horas.
Alineación : numérico a la derecha y alfabético (cadena) a la izquierda
Recodificar Variables: (Para convertirla en una nueva variable con grupos o dicotómica)Transformar ---recodificar en distintas variables (marcar perdidos por sistema o usuario)
Calcular Variable : (para convertirla en una nueva variable por ejemplo horas a minutos)Transformar --- calcular variable
Seleccionar Caso : (Para usar por ejemplo solo los adultos mayores de una base)Datos ----Seleccionar casos---ingresar condición (se puede poner & otra V y el criterio)
Segmentar Archivo: (Para comparar grupos, por ejemplo hombres y mujeres)Datos----dividir archivo---comparar grupos
![Page 2: SPSS Gestión de Datos y Prueba de Hipótesis](https://reader035.vdocuments.co/reader035/viewer/2022071806/55cf9258550346f57b95a777/html5/thumbnails/2.jpg)
Análisis de Datos
Variables categóricas: tablas de frecuenciasAnalizar ----Estadísticos Descriptivos ----FrecuenciasAl explorar: Buscar datos anómalos o irregulares. Revisar la homogeneidad (% válido)---lo que se busca es heterogeneidad, porque mientras más homogéneo, más difícil que se llenen las categorías (datos se reparten en pocas categorías).
Variables cuantitativas (DEPENDIENTES): diagramas de cajaAnalizar ----Estadísticos Descriptivos ---- Explorar ----- “Dependientes”: Variable Numérica: Robustos Centrales (Onda de Andrews)
Diagrama de caja: medida para explorar cuantos datos se alejan del 50% central (mediana)
InterpretaciónMediana = Q2 O=atípico *= atípico extremo
Distribución simétrica : datos se agrupan en el centro del diagrama
Elegir la medida de centro para representar al grupo: Revisar si existen casos atípicos
Si no hay = Media ----si la variable es escalar, la media aritmética siempre debe informarse junto a su correspondiente medida de dispersión (desviación estándar o típica).
Sí Hay: comparar media recortada con los M robustos. Si son similares = media recortada al 5%.Si no son similares= M robusta (Estimador M Onda de Andrews).
Explorar cómo se distribuye por sexo una variable:Analizar ----Estadísticos Descriptivos ---- Explorar ----- “Dependientes”: Variable Numérica----“Factores” Variable Categórica.
ENTONCES: para explorar, 1) ver si la V es categórica o Numérica--- Luego elegir Tabla de Frecuencia (con Histograma) o Diagrama de caja.
![Page 3: SPSS Gestión de Datos y Prueba de Hipótesis](https://reader035.vdocuments.co/reader035/viewer/2022071806/55cf9258550346f57b95a777/html5/thumbnails/3.jpg)
Descripción de DatosCentro: Moda, Media, Mediana
Dispersión: Desviación típica (se informa con la media), amplitud intercuartil (se informa con la mediana)
Forma: Coeficiente de asimetría, (Ej: -0,028 es casi 0, así que se considera casi simétrica).
Más: Gráficos de Frecuencia = Histograma
Más: Percentiles
Analizar ----Estadísticos Descriptivos----Frecuencias: Moda, Media, Mediana, desviación Típica, Asimetría, Gráficos (Histograma)
*Para complementar el análisis se pueden incluir medidas de orden (posición): Percentiles, cuartiles (mediana = Q2)
Distribución: Simétrica = media, mediana y moda coinciden
Asimetría Positiva= Carga a la izquierda. Concentran puntajes más bajos desde la mediana. Más cerca del Q1. Moda < Md < Media (Moda es más baja= Positiva). Da cuenta de bajos niveles en la variable y devela (por ej en educación: a los que tienen mejor rendimiento)
Asimetría Negativa= Carga a la derecha. Concentran puntajes más altos desde la mediana. Más cerca del Q3.Media < Md < Moda (Moda es más alta = Negativa). Da cuenta de altos niveles en la variable y devela (por ej en educación: a los que tienen peor rendimiento).
Para puntuaciones individuales= convertir a centiles (percentiles).
![Page 4: SPSS Gestión de Datos y Prueba de Hipótesis](https://reader035.vdocuments.co/reader035/viewer/2022071806/55cf9258550346f57b95a777/html5/thumbnails/4.jpg)
Prueba de Hipótesis
Variables Categóricas = Tablas de contingencia
Prueba de hipótesis: Variables Categóricas
CHI2: Prueba de Indepencia en Variables Categóricas
1) Analizar ---Estadísticos descriptivos----Tablas de ContingenciaFilas = variable con menos categoríasEstadísticos: CHI2Recuentos: observados y esperadosResiduos: tipificados corregidos (Residuo transformado a Z): si el residuo escapa al rango -1,96 /+1,96, entonces no es compatible con la Ho. Esto es importante porque el CHI2 no dice dónde ni cómo se dan las diferencias.
Valor gl Sig. asintótica (bilateral)
Chi-cuadrado de Pearson 79,277a 2 ,000
Significancia= indica la probabilidad de que se de el valor de Chi2 obtenido (en este caso la probabilidad es 0,0000 lo que es muy baja, por lo que se rechaza la Ho. Si la P o Significancia da 0,04 o menos, se rechaza Ho)
Nota: Interpretar Tabla de Contingencia: Tabla de contingencia (pedir % por columna)Si hay independencia, el total marginal debería repetirse en las casillas, si no, sospecho que las V no son independientes.Diferencia entre observado y esperado = Residuo. Residuos: pedir tipificados corregidos= Transformados a Z.
2) Luego que el Chi2 arroje que las variables no son independientes, se pasan los valores Chi2 a correlacionesTabla de contingencia----estadísticos---Si hay al menos una variable Nominal Phi y V de Cramer
Si son variables ordinales d de Somers
Entonces: V de Cramer 0,235 Sig 0,0000 = la significancia es tan baja que implica que no se puede obtener ese valor V de Cramer si las variables no están correlacionadas (osea, que sí hay correlación).
NOTA sobre Z= si quiero comparar dos variables con unidades de medida distinta (ingreso en miles de pesos con años de estudio hasta decenas) los transformo a unidad de medida común = Z
Analizar ----Descriptivos ---- (Ingresar variables y): Guardar valores tipificados.Se crean nuevas variables en puntaje Z que puedo comparar.
Z = Unidad en D.S. (+ sobre el promedio y – bajo el promedio).
Valor tipificado (pasado a Z): Promedio = 0 y D.S. = 1
Entonces : Z= -1.75 v/s Z= - 1,56; -1,56 está más cerca del promedio, porque está más cerca de 0.
![Page 5: SPSS Gestión de Datos y Prueba de Hipótesis](https://reader035.vdocuments.co/reader035/viewer/2022071806/55cf9258550346f57b95a777/html5/thumbnails/5.jpg)
OJO: en Variables categóricas se hace correlación desde tabla de contingencia. El menú correlación del spss es para variables cuantitativas.
Correlaciones: 0,2 -0,4 baja (pero hay)0,4 a 0,6 moderada0,6 a 0,8 alta o fuerte0,8 a 0,99 Muy alta o Muy fuerte
RESUMEN: Chi2 ver si es significativo V de Cramer o d de Somers para cuantificar qué tan fuerte es la relación Tabla de contingencia para ver dónde está la relación (ver residuos tipificados fuera del rango 1,96)
(Es más fácil interpretar los residuos positivos): Un residuo tipificado de 6,8 indicaría por ejemplo: ser hombre se asocia con trabajar como directivo ya que el residuo es mayor al que cabría esperar (0) bajo el supuesto de independencia.
Prueba de hipótesis: Variables Cuantitativas
Variables Cuantitativas: Correlaciones Bivariadas (directa o inversa): Correlaciones permiten predecir el comportamiento de una V a partir de otra V.Analizar---Correlaciones---Bivariadas
Para valorar el Coeficiente de Pearson se usa el Coeficiente de Determinación (R2).Pearson= 0,880: correlación alta y directa.R2 = 77,4: el 77,4% de los cambios en la variable Y se explican por cambios en la variable X
El R2 permite evaluar qué V tiene más peso para explicar la variabilidad de otra V.
Relaciones Inversas:
Pearson= -0,97: Menos variable X, más Variable YR2 Corregido= 1 (entonces es una mala variable predictora, porque explica solo el 1% de la varianza)
Gráfico
Gráficos….cuadro de diálogo antiguos…dispersión puntos…dispersión simple…definir:
Eje Y: Variable dependiente (la que me interesa predecir)Eje X: Variable predictora
Significación: Contraste de Hipótesis con CorrelacionesSi se quiere generalizar a población lo obtenido con pearson y R2, se debe hacer un Contraste de Hipótesis: lo da la significación de Pearson : menor a 0,05 la probabilidad de que ese valor ocurra en la población si la correlación es 0 es baja y se rechaza la Ho.
![Page 6: SPSS Gestión de Datos y Prueba de Hipótesis](https://reader035.vdocuments.co/reader035/viewer/2022071806/55cf9258550346f57b95a777/html5/thumbnails/6.jpg)
Regresión
Y = Bo + B1 x X1V a predecir = Constante + Pendiente x Valor en Variable Predictora
*Pendiente es el valor de un sujeto cuando la constante es 0
Regresión Lineal (modelo Predictivo)Analizar…Regresiones…Regresión Lineal:
Dependientes= Variable a predecirIndependientes= Variable predictora
OUTPUT: R= Pearson R2 Corregido= debe ser alto para explicar un porcentaje importante de la varianza Anova= Debe ser significativo (siempre lo es con R2 altos)
Tabla Coeficientes= Esta es la que importa:Entrega la constante y debajo de esta la pendiente
Para que el programa cree la nueva columna con los valores predichos:Analizar…regresión…Regresión Lineal…Guardar….Valores Pronosticados No TipificadosCrea una nueva Variable: PRE_1
Luego guardar residuos: Guardar….Residuos No TipificadosCrea una nueva Variable: RES_1
Residuos altos= mala variable predictora (en consecuencia un R2 bajo)
Interpretación de Regresión Lineal SimpleResumen del Modelo
R R2 R2Corregido 0,097 0,009 0,007(Correlación Muy Baja) Predice el 0,9% de la Varianza Predice el 0,7% de la Varianza
(Acá no vale la pena seguir= R2 Corregido muy bajo)
Importante para interpretar: R= positivo o negativo R2 C= Que explique un % importante de la Varianza
![Page 7: SPSS Gestión de Datos y Prueba de Hipótesis](https://reader035.vdocuments.co/reader035/viewer/2022071806/55cf9258550346f57b95a777/html5/thumbnails/7.jpg)
Regresión Lineal Múltiple
NOTA: Las Variables DEBEN ser Cuantitativas o Dicotómicas
Analizar…Regresión…Regresión Lineal:
Dependientes= Variable a predecirIndependientes= Variable predictoraMétodo= Pasos Sucesivos
SPSS= 1) Ubica en primer lugar la mejor Variable Predictora.2) Entrega otro modelo sumando a la mejor Variable otra variable que predice menos3) Si una Variable NO predice, la ubica en Variables eliminadas
OUTPUT:
Modelo R2C 1 0,435 2 0,439
No hay mucha diferencia, por lo que se recomendaría elegir el modelo con menos variables.