presentación barbwin v6 // v7

Software GandiaSoluciones a la gestión y análisis de datos

TESI, SLwww.tesigandia.com

/ 2

Familia de software Gandia

Gandia BarbWin Software para proceso de datos Productos derivados

Gandia DataEntry Gandia DataWin Gandia Visor Gandia Trans

Gandia Integra CatiNet, CapiNet y HapiNet integrados en una misma

aplicación web.

Gandia BarbWinVersión v6 y v7

TESIDepartamento de formación

/ 4

Gráfico de flujo del programa

Entrada de datos:-Interna-Externa

Adecuación de datos para el proceso

Proceso de datos:-Tablas-Proceso estadísticos

Impresión de resultados

Análisis de datos

Diseño detabla de datos

Gandia BarbWin

/ 5

Gandia BarbWin Variables o campos de

respuesto En Gandia BarbWin cada

variable tiene sus propiedades individualizadas, de forma que dos variables del mismo tipo pueden tener opciones diferentes

Esencialmente una variable tiene tres propiedades fundamentales: NOMBRE, TIPO y CODIGOS

Datos Se presentan en una

matriz de k*n celdas y se puede trabajar mediante la utilización de formularios o mediante la utilización de hoja de datos

/ 6

El escritorio de trabajo (v6)Panel de

vistas

Naveg

ador

de

varia

bles

Tabla de variables

Tabla de datos

/ 7

El escritorio de trabajo (v7)

Panel de vistas

Navegador de grupos

Tabla de variables

Tabla de datos

/ 8

Panel de vistas

El panel de vistas nos permite acceder a diferentes partes del software (grupos sólo versión 7)

El más importante es el acceso a ventanas, dado que nos permite realizar acciones múltiples con las mismas

/ 9

Input al programa: Abrir... Gandia BarbWin abre archivos de datos:

formato antiguos de BarbWin Barbro DOS y Barbro Catibar Archivos ASCII delimitados por tabuladores, blancos,

comas, etc Archivos ASCII sin delimitador (siempre que exista un

archivo *.str con las columnas -y opcionalmente códigos- que ocupan las variables

Archivos Dbase y Paradox (*.dbf y *.db) Archivos MsAccess Archivos IBM Bin

Gandia BarbWin abre otros archivos como: Archivos *.html (estando activa la ventana de informe) Archivos *.tab (librerías de tablas) Archivos de gráficos (extensión según versión)

/ 10

Output del programa: Guardar... Gandia BarbWin guarda archivos de datos:

formatos aniguos de BarbWin 1.0, 2.0 y 3.0 Barbro DOS Archivos ASCII delimitados por tabuladores, blancos,

comas, etc Archivos ASCII sin delimitador (siempre que exista un

archivo *.str con las columnas -y opcionalmente códigos- que ocupan las variables

Archivos Dbase y Paradox (*.dbf y *.db) Archivos MsAccess Archivos IBM Bin Sintaxis de SPSS

Gandia BarbWin guarda otros archivos como: Archivos *.html (estando activa la ventana de informe) Archivos de office (xls y doc) Archivos *.tab (librerías de tablas) Archivos *.chf y *.chd (gráficos Chart FX)

/ 11

Opciones del sistema

/ 12

Opciones de estudio

/ 13

Tipos de variables (datos)

Categoría (nivel de medición nominal o cualitativo)

Múltiples (nivel de medición nominal o cualitativo pero multi respuesta)

Numéricas ordinales (nivel de medición ordinal)

Numéricas métricas (nivel de medición de intervalo, métrica o de razón)

Alfanuméricas (texto) Otras

Fecha, hora, fecha grabación, hora grabación, etc.

/ 14

Diseño de variables Paso 1:

Definir características principales Nombre Tipo Texto extra Códigos permitidos (en categoría y múltiples) Valores permitidos (numéricas)

Paso 2: Definir propiedades de grabación

Valores por defecto Saltos, filtros y controles

Paso 3: (mientras se está produciendo la entrada de datos, el técnico puede realizar las siguientes tareas...) Definir etiquetas de códigos Definir variables especiales (necesarias para tabulación y/o

análisis) Virtuales Expresiones Sinónimos

/ 15

¿Cómo navegamos a través de las variables?

Una vez estamos en el diálogo de cada variable: Alt-Inicio sitúa en primera variable Alt-Fin sitúa en última variable Alt-Flecha izquierda sitúa en anterior variable Alt-Flecha derecha sitúa en posterior variable Alt-Flecha arriba sitúa en la siguiente pestaña de la

misma variable Alt-Flecha abajo sitúa en la anterior pestaña de la

misma variable Alt-N crea una nueva variable Alt-B borra la variable actual

/ 16

Operaciones con las variables Existen un conjunto de órdenes en Gandia

BarbWin que permiten crear o modificar variables, si tener en cuenta sus datos. En v6 están agrupadas bajo el epígrafe de Datos > Operaciones con variables, mientras que en v7 se agrupan en el menú contextual derecho de la tabla de variables. Algunas de estas opciones son: Nueva, que permite añadir nuevos variables a la tabla

actual Modificar accede a la edición de las propiedades

individuales de la variable Renombrar permite el cambio masivo y automático del

nombre de las variables (muy aconsejador para exportar a formatos externos)

Mover accede a un diálogo donde se indicará donde ubicar la variable seleccionada

/ 17

Propiedades de variable: Básicas

Características básicas Se definen aquellas propiedades sin las cuáles la

variable no existe. Generales

Varias propiedades que afectan a la visualización Grabación

Controlan la forma en la que se grabará la variable: nº de caracteres, valores por defecto, valor del NC, etc.

Tabulación Propiedades relacionadas con la apariencia y el tipo

de resultados a ofrecer de la variables al ser tabulada o analizada.

/ 18

Propiedades de Variable: Grabación Relacionadas con el dato de grabación

Valor por defecto, constante, dato con Intro al grabar... Relacionadas con el flujo y control del

cuestionario Saltos, filtros y controles

Relacionadas con el tamaño del campo de grabación Tamaño del campo (caracteres para que salte de campo

a campo) Relacionadas con la visualización en pantalla

Facilidades de identificación de la posición de grabación con el cuestionario en papel

Relacionadas con el control de códigos en grabación (“editing” y codificación) ¿Qué hacemos con un código que no está en la lista de

valores permitidos o códigos?

/ 19

Propiedades de Variable: Otras Tabulación / Análisis

Creación de bases de cálculo (%)

Rangos para cálculo de estadísticos

Bases y valores especiales (sacar de la base)

Propiedades relacionadas con mostrar o eliminar información en las tablas de contingencia y estadísticos

Ordenación de códigos por frecuencias

Cálculo de estadísticos básicos (casos, media y desviación)

Cálculo de estadísticos básicos en variables de tipo múltiple (casos y media menciones, y también % en base respuesta)

Relacionadas con las variables no codificadas

Generales Relacionadas con los

textos de los valores especiales Textos y valores de los

códigos especiales Relacionadas con el

tamaño del campo de la variable Longitud y número de

decimales en los procesos

Relacionadas con las menciones Dígitos no contemplados

en menciones (sólo múltiples)

/ 20

Valores especiales en Gandia BarbWin

ASCII “&” Valor de no contestación

ASCII “-” Valor de no procede o no grabado

ASCII “+” Valor de no sabe contestar

ASCII “ “ cualquier otro valor no codificado , que no sea + ó &

& - +& - +

/ 21

¿Cómo y dónde escribir condiciones?

Componentes de una condición… Variable Códigos Operadores Funciones

Ejemplos… EDAD=(55_99) VAR59>5 Y VAR50=3 EDAD=(0_18) Y SEXO=2 CIUDAD=5 O (CIUDAD=3 Y SUBV1=3) (XMEDIA(VAR1;VAR2;VAR3)>5 Y SEXO=1) O

(EDAD>18 Y CIUDAD=3)

/ 22

Operadores lógicos

Y, las dos proposiciones en la condición (operandos) han de ser verdaderos

O, una de las dos proposiciones o las dos proposiciones son verdaderas

NO, Y NO, la proposición que se niega es falsa O NO, una proposición es falsa y la otra es

verdadera

/ 23

Operadores aritméticos Suma +, Se usa para sumar dos operandos. Sólo se

pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación

Resta -, Se usa para restar dos operandos. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación

Multiplicación *, Se usa para multiplicar dos operandos. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación

División /, Se usa para dividir dos operandos. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación

Exponente ^,Se usa para elevar un operando a la potencia que marque otro operando. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación

/ 24

Operadores aritméticos Mayor que >, Se utiliza para comparar dos

operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.

Menor que <, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.

Mayor igual >=, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.

Menor igual <=, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.

Distinto < >, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.

/ 25

Funciones

Las funciones permiten al usuario calcular valores por registro a partir de valores de ese registro o constantes. Por ejemplo calcular la media de varias variables o el valor máximo de ciertas variables. Se debe diferenciar de los cálculos para todo el fichero que por ejemplo se obtienen en análisis univariante, codificar, etc.

Normalmente las funciones se utilizarán en: condiciones de tipo aritmético expresiones aritméticas (tipo de variable) la orden CALCULAR (donde se escriben tanto

condiciones como expresiones de tipo aritmético) la orden REEMPLAZAR

/ 26

Operadores aritméticos

=, se utiliza para comparar por igualdad dos operandos. En variables múltiples, un = permite que se cumpla individualmente las partes de la condición.

= =,en variables de tipo múltiple, se utiliza para seleccionar el cumplimiento estricto de una combinación múltiple, y no una de sus partes.

!=, se utiliza como incluido en… y siempre es el primer valor en el segundo

/ 27

Funciones más habituales En estos casos, si existe una variable entre las que

componen la función cuyo valor es especial (&, +, ) la función no se calcula. SUMA(exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;

exp.aritm.;...) MEDIA (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;

exp.aritm.;...) DESVTIP (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;

exp.aritm.;...) En estos casos, si existe una variable entre las que

componen la función cuyo valor es especial (&, +, ) la función se calcula, siendo N el número de variables que tiene valor para el cálculo de los estadísticos. XSUMA(exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;

exp.aritm.;...) XMEDIA (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;

exp.aritm.;...) XDESVTIP (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;

exp.aritm.;...)

/ 28

Operaciones con los datos

Una de las funciones esenciales de Gandia BarbWin es el manejo específico de los datos accedidos al sistema por medio de la entrada de datos o de importaciones de fuentes externas. En este segundo caso, se requiere de herramientas que permitan depurar la información

Estas dos diferentes situaciones dan lugar a unas operaciones localizadas en: v6 >>> Menú Datos > Operaciones con Datos v7 >>> Menú Datos > DataEntry

/ 29

Operaciones con los datos accedidos desde el sistema

Datos accedidos desde el DataEntry del sistema Registrar permite entrar los datos de forma asistida. Modificar, permite editar registros ya grabados. Verificar permite grabar contra lo ya grabado

controlando errores. Borrar, permite eliminar definitivamente registros

que cumplan una determinada condición. Registro aleatorios, crea una tabla de datos ficticia,

válida para preparar el análisis de datos o testar los controles de flujo.

Pulsaciones, calcula el nº de pulsaciones efectuadas en una entrada de datos.

/ 30

Operaciones para depuración de bases de datos externas

Conjunto de operaciones destinadas a reparar inconsistencias o errores de grabación en bases de datos externas, es decir bases grabadas con DataEntry diferente a BarbWin, sin controles, saltos o filtros. Validar Filtrar Depurar variable Depurar fichero

/ 31

Operaciones de gestión, agregación o generación de nuevos archivos de datos

Conjunto de operaciones que nos permite agregar o crear nuevas bases de datos. Unir ficheros permite sumar registros con la misma o

distinta estructura en un único fichero. Añadir datos externos, permite sumar registros a la

tabla actual si el fichero externo tiene las mismas variables y estructura que el actual.

Fusionar estudios, une registros con una misma identificación de ficheros distintos (fusionar con repeticiones).

Añadir datos mediante fusión, añade datos de varios registros de un fichero secundario en un registro primario.

Actualizar variables, crea nuevas informaciones. Crear subfichero, crea ficheros con otro nivel de

análisis. Recrear fichero principal (v7), crea una estructura

horizontal a partir de un fichero vertical.

/ 32

Operaciones de codificación

Conjunto de órdenes que nos permite realizar la codificación de preguntas abiertas Codificación automática, codificación tradicional de

Gandia BarbWin Codificación manual (v7), nuevo sistema de

codificación de abiertas literales para los ficheros que vienen de campo electrónico

Recodificación Recodificación masiva (v7) Reparación de codificaciones (v7) Limpiar códigos (v7)

/ 33

Operaciones de cálculo y reemplazo

Conjunto de operaciones que nos permiten realizar cálculos o reemplazos de informaciones ciertas en las bases de datos Calcular Calcular en grupo de registros Reemplazar Sustituir valores Reemplazar por acumulación

/ 34

Operaciones de transformación Conjunto de operaciones que

modifican los datos de la base por medio de cálculos o transformaciones específicas. Proporcionalizar permite

corregir el típico error de campo en la suma de porcentajes o recalcular en base a un valor de otra variable.

Unir permite crear una nueva variable suma lógica de las variables a unir según determinados parámetros.

Transponer, permite crear nuevas variables a partir de los códigos de las originales.

Anidar permite crear rápidamente variables multidimensionales y las prepara para una presentación adecuada generando grupos de códigos.

Binarizar permite crear variables binarias a partir de los códigos de una variable. Cada variable binaria muestra la presencia o no de un código en la variable original.

Jerarquizar permite reordenar los rangos de un conjunto de variables.

Combinar: crea distintas combinaciones entre los datos, de forma que se puedan analizar los grupos TURF con máximo porcentaje.

Desplazar Dicotomizar

/ 35

Otras opciones específicas de transformación Sobre cadenas

Agregar Desagregar Conversión de múltiples

Sobre múltiples Detectar Dividir Generar Agrupar binarias Crear combinaciones Renombrar con raíz

común (v7)

Sobre numéricas Formato fijo de

decimales Sobre categóricas

Cambiar de tipo

/ 36

Análisis de datos Univariante

Recuentos Descriptivos

Bivariante Tablas de contingencia

Pruebas de significación y asociación

Análisis de varianza Correlaciones Pruebas no

paramétricas Contrastes de hipótesis

Multivariante Regresión Reducción de datos

Anaco simple Anaco Múltiple Componentes

principales Clasificación

Segmentación Cluster

Fiabilidad

/ 37

Univariante - Recuento Objetivo: conocer como se

distribuyen los datos en una variable.

Funcionamiento: independiente a la codificación, no tiene en cuenta los intervalos que se hayan podido establecer en la misma.

Aporta información de cuartiles, mediana y acumulado porcentual.

No tiene en cuenta los No sabe y los No contesta

Posibilidad de gráfico y traspaso a Excel y Word

Válido para cualquier tipo de variable

Presentado en forma de tabla

/ 38

Univariante - Descriptivos

Válido para variables numéricas métricas

Se presentan los estadísticos fundamentales de la distribución de frecuencias.

Traspaso a Word y Excel Transposición de la

matriz para trabajar con columnas de variables.

/ 39

Bivariante - Tablas de contingencia Tipos de tablas

Tablas marginales de frecuencias Tablas marginales de estadísticos Tablas cruzadas de frecuencias Tablas cruzadas de estadísticos Tablas cruzadas con cálculos estadísticos de tercera

variable Bases de cálculo

Automáticas Generadas por el usuario

Selecciones de datos Grupos de cálculo

Unitarios Combinados

Ponderaciones Del fichero De cada variable

/ 40

Tabla marginal de frecuencias

Tabla con sólo filas, en cabecera se puede observar la frecuencia, el porcentaje que

representa sobre el total muestral y en caso de no ser multi-respuesta la variable, el

acumulado porcentual.

BaseFrecuencias Porcentajes % Acumulado

TOTAL 500 100 100MOTIVOS DE ELECCION DETELEFONICAP5_TEL 500 100,0Costumbre 124 24,8Calidad de la señal 3 0,6Seguridad de la señal 7 1,4Tarifa / Promoción 159 31,8Simpatía, predilección 1 0,2Comodidad 12 2,4Llamadas urbanas 130 26,0Por obligación 126 25,2Internet 4 0,8El único que pone la línea 1 0,2Otros 2 0,4NS/NC 8 1,6

VALORACION TELEFONICA: SERVICIOP6_TEL_5 500 100,0(1)-Muy negativo 49 9,8 9,8(2)-. 16 3,2 13,0(3)-. 21 4,2 17,2(4)-. 26 5,2 22,4(5)-Neutro 95 19,0 41,4(6)-. 58 11,6 53,0(7)-. 82 16,4 69,4(8)-. 87 17,4 86,8(9)-. 21 4,2 91,0(10)-Muy positivo 41 8,2 99,2NS/NC 4 0,8 100,0

Media 5,93Desviación 2,52

/ 41

Tabla de contingencia

TOTAL EDADAbsolutos -30 31-40 41-50 51-60 >60TOTAL 500 106 200 102 59 33ESTADO 500 106 200 102 59 33Insatisfecho 29 6 13 4 4 2Indeciso 36 12 14 5 3 2Satisfecho 420 86 166 93 47 28

TOTAL EDAD% Verticales -30 31-40 41-50 51-60 >60TOTAL 500 106 200 102 59 33ESTADO 500 106 200 102 59 33Insatisfecho 5,8 5,7 6,5 3,9 6,8 6,1Indeciso 7,2 11,3 7,0 4,9 5,1 6,1Satisfecho 84,0 81,1 83,0 91,2 79,7 84,8

TOTAL EDAD% Horizontales -30 31-40 41-50 51-60 >60TOTAL 500 21,2 40,0 20,4 11,8 6,6ESTADO 500 21,2 40,0 20,4 11,8 6,6Insatisfecho 29 20,7 44,8 13,8 13,8 6,9Indeciso 36 33,3 38,9 13,9 8,3 5,6Satisfecho 420 20,5 39,5 22,1 11,2 6,7

TOTAL EDAD% Totales -30 31-40 41-50 51-60 >60TOTAL 500 21,2 40,0 20,4 11,8 6,6ESTADO 500 21,2 40,0 20,4 11,8 6,6Insatisfecho 5,8 1,2 2,6 0,8 0,8 0,4Indeciso 7,2 2,4 2,8 1,0 0,6 0,4Satisfecho 84,0 17,2 33,2 18,6 9,4 5,6

TOTAL EDADAbsolutos% Verticales% Horizontales% Totales -30 31-40 41-50 51-60 >60

TOTAL 500

106-

21,2-

200-

40,0-

102-

20,4-

59-

11,8-

33-

6,6-

ESTADO 500

106-

21,2-

200-

40,0-

102-

20,4-

59-

11,8-

33-

6,6-

Insatisfecho

295,8

--

65,7

20,71,2

136,5

44,82,6

43,9

13,80,8

46,8

13,80,8

26,16,90,4

Indeciso

367,2

--

1211,333,32,4

147,0

38,92,8

54,9

13,91,0

35,18,30,6

26,15,60,4

Satisfecho

42084,0

--

8681,120,517,2

16683,039,533,2

9391,222,118,6

4779,711,29,4

2884,86,75,6

Individuales ycombinadas...

Se pueden incluir más

estadísticos de celda, además de pruebas de significación que veremos más adelante.

/ 42

Tabla de contingencia y gráficos ABS,VER,HOR,TOT

/ 43

Bases de cálculo (1) Definición

Una base es un condición que se asocia a una o más variables, de forma que, sólo los cuestionarios que cumplen esa condición serán el 100% de los casos tabulados es ese cruce.

Tipos Existen bases automáticas (derivadas de la aplicación de un filtro o salto) y bases asociadas por el

usuario. Creación

Desde Tabulación > Bases Desde gestión de variables en las propiedades de tabulación

Asociación En la definición de la tabla (temporal) En la variable (indefinida)

/ 44

Bases de cálculo (2)

Este valor general la base, para que la variable a la que afecta sus porcentajes sean base 100 para los que en Pregunta 14 contestaron un NO

La misma tabla sin base automática, da una información engañosa pues aparecen 120

NS/NC que no lo son verdaderamente.

/ 45

Ponderaciones y equilibraje (1) La ponderación es un proceso cuyo resultado deriva en

una adecuación de la muestra a las proporciones existentes en la población o a las proporciones deseadas por el investigador.

Tipos de ponderación Por elevación de la muestra (elevación de la muestra =

variable que contiene coeficiente de elevación muestral) Por defectos de campo Por efectos del tipo de muestra (estratificada, controlada,

y no proporcional) El proceso que se utiliza para llegar a obtener el

coeficiente de ponderación se denomina equilibraje de muestras.

/ 46

Ponderaciones y equilibraje (2) Equilibraje por cuotas

cruzadas Equilibraje por cuotas directas

Base de cálculo de la ponderaciónIteraciones

Utilizar ponderación existente

/ 47

Ponderaciones y equilibraje (3) ¿Cómo obtengo los pesos?

Por una constante Indexando pesos según condiciones Por equilibraje

Independientemente de la forma en que se obtenga el peso, en un fichero puede haber: Una variable de ponderación para todo el fichero Distintas variables de peso para algunas variables en

particular ¿Qué pasa si...

...hacemos una tabla con variable ponderadas según fichero?

...hacemos una tabla en la que coincide una variable ponderada por fichero y una variable ponderada por individual?

...hacemos una tabla donde coinciden en el cruce dos variables ponderadas individual?

/ 48

Gestión de tablas... Visualizar las tablas

En pantalla Vista preliminar Desde librerías de tablas

Imprimir las tablas Todo

(ABS+VER+HOR+....) Sólo alguno de los juegos Parte de un juego Desde librerías de tablas

Guardar en librerías de tablas Sin visualización en

pantalla Con visualización en

pantalla Traspasar a EXCEL-WORD

Todo (ABS+VER+HOR+....)

Sólo alguno de los juegos Parte de un juego

/ 49

Gráficos en las tablas: creación y gestión... En tablas de marginales En tablas de frecuencias En tablas de estadísticos Bases Opciones de los gráficos Guardar gráfico

Un gráfico Muchos gráficos

Traspasar gráficos a PowerPoint, Excel y Word

Proceso de datos aplicado

Roberto Gil SauraDepartamento de Desarrollo

TESI, [email protected]://www.tesigandia.com

Módulo 1. Introducción al análisis de datos


/ 52

Etapas del proceso de datos

Preparación de los datos para el análisis Creación de la base de datos Codificación de la información cualitativa Registro o grabación de la información Adecuación de los datos a las necesidades de análisis

Análisis básico de los datos Análisis descriptivo univariante Análisis cruzado o tabulación

Análisis avanzado de los datos Análisis multivariante de la información

Reducción de datos Clasificación

/ 53

Creación de la base y preparación del proceso Base de datos (matriz de trabajo)

Preguntas (variables en columnas) en columnas Individuos (registros, cuestionarios) en filas Nivel de análisis

Redacción del plan de tabulación Documento que guía el análisis

Tabulación básica Obtención de marginales de los datos de muestra y de

perfil social (sección de clasificación) Obtención de marginales de las preguntas del cuestionario

(sección de preguntas temáticas) Obtención de descriptivos y recuentos anexos

Tabulación cruzada (clasificación por temáticas) Tabulación avanzada

Aplicación de filtros clasificatorios y obtención de tablas temáticas

Gráficos fundamentales Análisis avanzado de la información

/ 54

Plan de análisis El plan de análisis,

tabulación o explotación, es un documento de trabajo que debe ser diseñado para cumplir con tres propósitos …

1) Proporcionar datos de la muestra total de forma descriptiva.

2) Determinar mediante tabulación qué diferencias existen entre subgrupos socio - demográficos y actitudinales dentro de la muestra.

3) Seleccionar cualquier otro tipo de análisis complejo univariado, bivariado o multivariado necesario para ayudar a interpretar los resultados.

/ 55

Escalas de medida

Tipos de escalade medida

Escala nominal

Escala ordinal

Escala de intervalo

Escala métrica, de razón o proporcional Cuanti

tativa

Cualitativa

+

-

Módulo 2. Análisis de variables individuales (univariante)


/ 57

Análisis univariante – escalas nominal y ordinal

Cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) Aporta...

información sobre el número de apariciones % que representa ese número de apariciones sobre

el total de muestra acumulado de los %

A tener en cuenta Bases de pregunta Niveles de análisis En variables múltiples, base casos o base respuestas

Caso especial: Moda Valor/es más repetido/s en la distribución; una

distribución puede ser multimodal.

/ 58

Análisis univariante – escala ordinal y de intervalo

Medida de tendencia central Mediana

Valor que deja el 50% de los casos de la distribución por arriba y por abajo del mismo. Si no existe valor exacto, siempre toma aquel valor que se acerca más al 50%.

De la misma forma, el primer cuartil, valor que deja el 25% de los casos por detrás y el 75% de los casos por delante en la distribución. Si no existe valor exacto, siempre toma aquel valor que se acerca más al 25%. Por último, el tercer cuartil, valor que deja el 75% de los casos por detrás y el 25% de los casos por delante en la distribución. Si no existe valor exacto, siempre toma aquel valor que se acerca más al 75%

/ 59

Análisis univariante – escala de razón e intervalo

Cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) Aporta...

información sobre el número de apariciones porcentaje que representa ese número de

apariciones sobre el total de muestra acumulado de los porcentajes

Cálculo de estadísticos medidas de caracterización (máximo, mínimo, rango) medidas de tendencia central (media, mediana) medidas de dispersión (desviación coeficiente

variación, varianza) medidas de error (error, intervalo de confianza)

/ 60

Análisis univariante – escala de razón e intervalo

Media aritmética, medida de tendencia central paramétrica, aplicable específicamente en el caso de variables cuantitativas con escalas de intervalo o de razón, que representa el punto de la distribución de los valores de una variable, en el que se hacen iguales las desviaciones en relación con dicho punto, de los valores de la distribución situados sobre ese punto con los situados por debajo de ese punto.

Desviación, medida de dispersión paramétrica igual a la raíz cuadrada de la varianza, o de la media del cuadrado de las desviaciones de los valores de una distribución desde su media.

Coeficiente de variación, dispersión relativa que se pueda dar en una distribución de frecuencias. Al ser un cociente no dimensional, puede servir como medida de comparación de dos distribuciones con media y desviaciones diferentes.

N

Xj

X

N

1j

1N

)XXj(N

1j

2

X

N

Xj

1N

)XXj(

VN

1j

N

1j

2

/ 61

Análisis univariante – estadísticos (escala de razón o proporción métrica y algunas ordinales)

Máximo / Mínimo

Error estimado, error que se comete con la media muestral sobre el verdadero valor poblacional.

Intervalo de confianza de la media en muestras >30 casos, en ese intervalo de confianza se encuentra con un 95.5 % de confianza el verdadero valor poblacional de la media.

Intervalo de confianza de la media en muestras <30 casos, en ese intervalo de confianza se encuentra con un 95.5 % de confianza el verdadero valor poblacional de la media.

/ 62

Pruebas sobre una muestra Estas pruebas persiguen caracterizar la distribución para

asumir una serie de propiedades o alternativas para las variables analizadas. Binomial

La distribución binomial es la distribución muestral de las proporciones observadas en muestras tomadas de forma aleatoria de una población de dos clases. Nuestra hipótesis nula será en este caso la pertenencia de los datos de proporción a una población particular. Esta es una prueba de la bondad del ajuste a la distribución binomial.

Jhi2

En algunas ocasiones el investigador se plantea por el número de sujetos, objetos o respuestas que se clasifican en diferentes categorías. La prueba c2 es adecuada para analizar este supuesto ya que puede utilizarse para analizar si la diferencia entre los observado y lo esperado en una determinada distribución arrojan unas diferencias significativas.

Kolgomorov-Smirnov Prueba estadística en la que compramos las frecuencias relativas

acumuladas (esperadas y observadas) de las distribuciones (uniforme o normal) para saber si los datos de que disponemos pueden provenir de una muestra con esas características.

Módulo 3. Análisis entre dos variables (bivariante)


/ 64

Análisis bivariante Escalas nominales, ordinales y de intervalo

En ocasiones, no sólo nos interesa conocer las medidas más importantes de una variable, sino también las relaciones entre ellas. Para ello acudimos a las tablas de contingencia.

¿Cómo se lee una tabla? Conocer la muestra mediante los marginales de fila en

cabecera Mirar las variables y sus categorías Mirar los marginales de filas y columnas Mirar relaciones celda / totales dentro de la tabla (prueba

Jhi²) ¿Cómo se leen los porcentajes?

Porcentajes verticales o calculados en base al total de la columna

Porcentajes horizontales o calculados en base al total de la fila

Porcentajes totales o calculados en base a la N de muestra total para la variable seleccionada (eliminando filtros o bases no deseadas)

/ 65

Análisis de tablas cruzadas - Tabulación

De casos Marginal Bivariada Bivariada con estadísticos 3D – Tridimensional

De grupos de casos Marginal Bivariada Bivariada con estadísticos 3D – Tridimensional

/ 66

Condiciones / Segmentación en las tablas

Concepto de base: Fila de la tabla de contingencia que nos informa de

un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%.

Concepto de filtro Columna de la tabla de contingencia que nos informa

de un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%.

Los porcentajes siempre deben mostrarse con un rango de 0 a 100, evitar el uso de ,00 (decimales) si el error de la muestra es mayor al 1%.

/ 67

Pruebas de asociación o independencia

Conjunto de pruebas que nos miden si hay asociación o independencia entre las celdas relacionadas en la tabla. Jhi² (de celda, Pearson)

Se pretende con este test, válido para escalas nominales pero extensivo al resto, ver de un solo vistazo aquellas celdas cuyo porcentaje (vertical) es significativamente mayor (>) o menor (<) al porcentaje que cabría esperar ante un comportamiento proporcional de las categorías testadas en sus marginales. (Significación < 0,05, valor de comparación 3,84)

Jhi² (de tabla, Pearson) Se pretende con esta prueba analizar la relación

existente entre dos variables medidas en escalas nominales, ordinales o de intervalo (en menor medida) si existe relación de dependencia entre ambas o si su relación sólo es debida a efectos aleatorios de la muestra. A mayor valor de Jhi², mayor grado de dependencia (Significación < 0,05).

V de Cramer Igual objetivo que el anterior, pero sitúa entre 0 y 1

los valores extremos de la prueba. Basado en Jhi², ofrece un valor 1 cuando las variables son absolutamente dependientes (diagonal principal) y un 0 cuando son absolutamente independientes (equitativamente distribuidos).

)N(K

χ=V

1

2

1

22 )(

i fe

fefo

Ntotal

NfilaNcolumnafe

fe

fefo 22 )(

/ 68

Limitaciones de Jhi² Es una técnica de aproximación, no exacta. Por ello, a

menor muestra, más pequeño debe ser el nivel de significación para tomar la decisión con relativa seguridad.

En esencia, la prueba parte de una utilización de variables continuas, sin embargo se utiliza con variables nominales, lo cual genera una incorrección, que sólo es insalvable en las tablas de 2x2, donde se utiliza la corrección por continuidad de Yates.

Es una prueba que depende de la unidad de medida, efecto que salvan otras pruebas como V de Cramer.

La disparidad entre la aproximación de Pearson y la distribución Jhi aumenta conforme disminuye N. Utilizar probabilidad exacta de Fisher si hay frecuencias menores a 5.

El modelo puede no funcionar correctamente cuando existen frecuencias esperadas inferiores a 5. Se considera válido si menos del 20% de las celdas tienen frecuencias esperadas inferiores a 5. Caso de no ser así, no queda más remedio que agrupar categorías columna o fila.

/ 69

Pruebas de significación

t - Student para contraste de proporciones o medias e muestra indepenedientes En esta prueba se trata de ver si las diferencias

entre las columnas porcentuales dentro de una misma categoría en una variable son significativas en la población de la cual se extrajeron las muestras

Prueba equivalente para la media aritmética Esta prueba sólo se realizará si las muestras

provienen de poblaciones que son independientes Formatos de ejecución

Con base real o base ponderada Con datos de una columnas de variable o columnas

de tabla Diferentes niveles de confianza

/ 70

Pruebas de correlación (1)

Objetivo, medir relación métrica y lineal Cuando la variables de las que se desea calcular la

relación son numéricas métricas se aplica la correlación de Pearson o análisis de regresión simple

Si no es métrica la relación Ante relaciones entre otro tipo de escalas

acudiremos a las pruebas no paramétricas donde coexisten Spearman o los diferentes coeficientes de Kendall.

Valores Los valores suelen estar en la mayoría de

coeficientes entre [ -1 ≥ r ≤ 1] Tipo de relación lineal

Directa Inversa

/ 71

Pruebas de correlación (2) Pearson

... nos indicará si existe relación entre las variables analizadas, cuantifica esa relación y el signo del coeficiente muestra la dirección de la misma.

Spearman ...conocido como “rho”,

es una medida de asociación que requiere que AL MENOS UNA de las dos variables que intervengan en el análisis esté reflejando ordenaciones, es decir, medición ordinal.

Tau de Kendall ... tiene igual

funcionamiento que el coeficiente de rangos de Spearman y es muy utilizado para mediciones medias de jueces. Valora la relación entre las ordenaciones otorgadas por los jueces, teniendo en cuenta las concordancias y las discordancias.

Concordancia de Kendall (W) ... se diferencia de los

anteriores por trabajar con k ordenaciones en lugar de con 2 ordenaciones.

/ 72

Análisis de la varianza Descripción

El análisis de la varianza es un método explicativo que se utiliza para comprender la relación existente entre dos variables (nominal :: explicativa o independiente:: y otra métrica :: cuantitativa a explicar::)

Objetivo El modelo de cálculo implica

analizar si las puntuaciones medias de la variable dependiente en cada uno de los cortes o grupos de la variable independiente pueden diferir significativamente.

La prueba está basada en el análisis de las sumas de cuadrados explicadas entre los grupos y también intra grupo. La suma de cuadrados de la variable total viene expresada por la suma de las dos anteriores.

Lectura de la prueba Se dice que hay una relación

de dependencia entre ambas variables cuando la fuente de variación inter grupo es superior a la fuente de variación intra grupo.

Estadístico La existencia de esa relación

viene materializada por el uso del estadístico F.

La hipótesis nula es la igualdad de medias entre los grupos. Si rechazamos esta

hipótesis, es decir si el estadístico F es significativo (<0,05), rechazaremos la Ho y aceptaremos la existencia de relación entre las variables. Las puntuaciones medias de la variable dependiente están condicionadas por la pertenencia al grupo de la independiente.

/ 73

Regresión simple Descripción

Se usa para detectar la relación de dependencia entre dos variables medidas en escala métrica o de intervalos, es decir, cuantitativas.

Los objetivos de este análisis son: determinar si la variable explicada

lo es por medio de la variable explicativa

determinar el tipo de relación entre ambas variables

conocer la intensidad de la relación entre las variables.

El análisis se realiza por medio del estudio de las fuentes de variación de las variables: Suma de cuadrados de la variable

a explicar, sumatorio de la diferencia cuadrática del sumatorio de los valores de la variable a explicar menos su media.

Suma de cuadrados de la regresión, sumatorio de la diferencia cuadrática de los valores predichos por la regresión menos su media

Suma de cuadrados residual, sumatorio de la diferencia cuadrática de los valores reales de la variable a explicar menos los valores predichos por el modelo.

La ecuación que representa el modelo es Y=B0+B1X+e B0 es el término

independiente, B1 es el moderador o

multiplicador del valor de X e, el término residual. B0 indica el valor que tomaría

Y en el caso de que X fuera 0. B1 >0 indica que un aumento

en la variable explicativa, repercutiría en la variable a explicar en un aumento de esa cantidad proporcional.

B1 >0 indica que una aumento en la variable explicativa, repercutiría en la variable a explicar en una disminución en esa cantidad proporcional.

Ambos coeficientes deben ser significativos para la aceptación del análisis, dado que así confirmamos su participación real en el modelo.

Módulo 4. Análisis entre n variables (multivariante)


/ 75

Supuestos paramétricos en multivariado

Normalidad en las mediciones Los test de significatividad pueden dejar de ser

válidos Igualdad de varianzas (homocedasticidad) en

todos los niveles de la variable dependiente Afecta al error típico, y por tanto a los test de

significatividad Linealidad en las relaciones

Sólo aplicable a aquellas técnicas que se basan en la correlación lineal de los datos

Independencia entre las observaciones La probabilidad de ocurrencia de un evento no afecta

a la probabilidad de ocurrencia de otro Tamaño muestral suficiente para la técnica

elegida

/ 76

Criterios de clasificación del multivariado

Dependencia Técnicas de interdependencia Técnicas de dependencia

Objetivo de la técnica Modelización lineal (regresión) Reducción de datos, comprensión del espacio

muestral Clasificación de sujetos u objetos en la muestra Fiabilidad de escalas

/ 77

Técnicas objeto de este módulo

Regresión lineal múltiple Modelo forward stepwise

Reducción de datos Análisis de correspondencias Análisis de correspondencias múltiple Factorial de componentes

Clasificación Segmentación (Jhi², A.I.D. y Jhi² de tabla) Cluster jerárquico y k medias

Fiabilidad de escalas Alpha de Cronbach

/ 78

Análisis de regresión lineal múltiple Definición y utilidad

Paradigma de las técnicas de dependencia y base de una gran parte de las técnicas multivariantes, su objetivo es explicar el comportamiento de una variable dependiente a partir de las relaciones entre variables independientes. Trata de captar los efectos de cada variable por separado.

Analizamos sólo OLS (mínimos cuadrados ordinarios)

Grado de utilización en la práctica En desuso como tal, porque

se está modelando hoy en día con evoluciones o especificaciones del mismo: logit, probit, logística, etc.

Condiciones para el análisis variables de tipo

numérico con las que se cree puede haber una relación lineal.

linealidad de parámetros existencia de

perturbación estocástica en el modelo con media 0

homocedasticidad ausencia de correlación

serial ausencia de

multicolinealidad matriz de datos no

estocástica e independiente

/ 79

Términos utilizados (1) Modelo utilizado: paso a

paso En este tipo de

metodología, las variables se incorporan una a una, comenzado por aquella que tiene un mayor poder explicativo de la variable dependiente.

Excepciones Se puede combinar con

una metodología de forzado de participación

Suma de cuadrados explicada por la variable actual Total de la varianza

explicada por el modelo que aporta la variable que se introduce en el paso n

R cuadrado de la variable % de la varianza explicada

por el modelo que aporta la variable que se introduce en el paso n

Suma de cuadrados explicada por las variables (acumulado) Total de la varianza

explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n

R cuadrado de las variables (acumulado) % de la varianza explicada

por el modelo que aportan las variables introducidas en el modelo hasta el paso n

/ 80

Términos utilizados (2) Suma de cuadrados total

Total de la varianza explicada por el modelo que aportan las variables introducidas al final del modelo.

Coeficiente de correlación múltiple y coeficiente de correlación múltiple ajustado a los grados de libertad Bondad del ajuste producido

por la totalidad del modelo Valor F para el análisis de

varianza y significación Prueba inferencial que

aporta la significatividad de la relación lineal planteada en el conjunto del modelo.

Error estándar de estimación y error estándar de estimación ajustado a los grados de libertad Estimación del error que se

produce en el modelo

Predicción por el modelo Valor de la variable

dependiente utilizando el modelo lineal de regresión

Residuo Diferencia entre el valor real

y el predicho por el modelo Coeficiente de regresión

Valor que permite medir la relación de la variable independiente con la dependiente del modelo.

Error estándar de regresión Medida de precisión de los

coeficientes de regresión proporcional al error de estimación e inversamente proporcional a la variabilidad de la variable, descontada la del resto de variables del modelo.

Valor t - Student y significación Prueba inferencial que aporta

la significatividad de la relación lineal planteada específicamente para el regresor especificado

/ 81

Análisis de correspondencias simple y múltiple Concepto y utilidad

Análisis geométrico que permite visualizar la relación geométrica entre las categorías que conforman una tabla de contingencia.

Permite conocer las asociaciones que se producen entre las categorías de columna y fila y entre ellas mismas.

Condiciones de utilización Variables de cualquier tipo que conformen una tabla de

contingencia. Se trabajará con los datos cualitativos de la misma.

Grado de utilización en la práctica Muy utilizado para realizar posicionamientos de

atributos y marcas. Máximo número de dimensiones

Menor número de filas o columnas -1 (máximo de 6 en Barbwin)

/ 82

Términos utilizados Perfiles de fila y columna (no

impresos) El perfil es un vector que

contiene las frecuencias relativas de cada fila o columna. Resultado del cociente entre la celda y su total fila o columna. En Gandia BarbWin son los porcentajes verticales y horizontales en el análisis. Son utilizados para calcular la distancia entre todas las categorías.

Distancia (no impresas) Operación realizada para

obtener una medición de la separación o cercanía entre las categorías analizadas, se utiliza la distancia Jhi².

Masa Representa el peso de cada

categoría de fila o columna sobre el total de la muestra, es decir, porcentajes totales de categoría.

Valor propio o inercia Resultado de operar la

masa con la distancia, es el indicativo del peso que tendrá cada variable original en las dimensiones finales.

Contribuciones absolutas Indica el peso que cada

categoría de fila o columna (de forma independiente) tiene en el total de la dimensión

Contribuciones relativas Indican el peso de cada

dimensión en cada categoría de fila y columna

Distancia al centroide (baricentro) Medida de la separación de

cada categoría del centro del la representación gráfica

/ 83

Diferencias entre simple y múltiple El input del análisis no es una tabla de contingencia,

sino que es una tabla de doble entrada de las frecuencias cruzadas de las n variables del análisis con las n variables, por lo que: en la diagonal principal tenemos los marginales de las n

variables en las celdas adyacentes a la diagonal principal de cada

variable existen valores 0 en el resto de celdas, frecuencia cruzada.

En la presentación de las inercias o valores propios, se realiza la transformación de Benzécri y de Greenacre para facilitar la retención de dimensiones a partir de los % de varianza explicada.

El anaco múltiple aporta un cálculo de variables que contienen las coordenadas de las dimensiones para cada uno de los individuos del análisis, pudiendo representarse un mapa de coordenadas XY sobre las dimensiones seleccionadas de la concentración de individuos.

/ 84

Análisis de componentes principales Concepto y utilidad

Prueba muy conocida y utilizada que permite reducir el espacio dimensional de un conjunto multivariante de datos a un conjunto de factores cuya composición proviene de combinaciones lineales y normales que maximizan la representatividad de los datos originales y minimizan la pérdida de información.

En la práctica permite reducir y agrupar el número de dimensiones de un problema

Condiciones de utilización Variables con escala al menos

de intervalo. Matriz de individuos por variables.

Correlaciones significativas entre las variables que participan. Se comparte las mismas fuentes de variabilidad, es decir que las correlaciones sean elevadas.

Grado de utilización en la práctica Muy utilizado

Variantes Infinidad, presentadas para

estructuras de datos específicos: componentes principales, máxima verosimilitud, alpha, etc. …

Máximo número de componentes Igual número que variables

originales incluidas en la estructura de datos

Situación ideal Pocos componentes

explican mucha varianza

/ 85

Términos utilizados (1) Saturaciones o cargas

Peso de la variable en cada componente o factor

El ideal es que cada variable tenga saturaciones altas en un único factor y bajas en el resto.

Matriz de correlaciones Matriz que nos permite

observar a simple vista los coeficientes de correlación de Pearson entre las variables que intervienen en el análisis.

Prueba de esfericidad de Bartlett Prueba que reafirma la

viabilidad del análisis de componentes principales, pues testa que la matriz de correlaciones es significativamente diferente de la matriz identidad. En este caso, la nube de puntos sería una esfera. Si se obtiene un valor de Jhi² que si es significativo, se rechaza la hipótesis nula de esfericidad o incorrelación.

Valor propio Este valor indica la

varianza de la matriz de correlaciones explicada por el componente o factor.

/ 86

Términos utilizados (2) Solución directa / rotada

Directa -> Matriz de pesos factoriales donde se puede observar la participación o peso de cada variable en el componente

Rotada -> Ídem tras la rotación de los ejes factoriales.

Contribuciones absolutas Cada celda muestra el

porcentaje de participación de cada variable en el componente extraído. El porcentaje es vertical.

Contribuciones relativas (1) La primera fila de valores

muestra el porcentaje de participación de cada variable en los diferentes factores extraídos y por tanto suma 100.

(2) La segunda fila de valores muestra el porcentaje de participación de cada variable en los diferentes factores, contabilizando los extraídos y los no extraídos.

Comunalidad final Proporción de la varianza

inicial de una variable explicada por el componente o factor. Suma de los cuadrados de las saturaciones de una variable en todos los factores.

Rotación Método matemático

utilizado para rotarlos ejes factoriales y facilitar el análisis de los investigadores. VARIMAX que tiende a que cada variable cargue mucho en un componente y poco en el resto.

El método de componentes principales extrae componentes con baja correlación.

/ 87

Técnicas de clasificación

Concepto y utilidad Conjunto de técnicas con una orientación común

hacia la clasificación de la información, donde agrupamos técnicas de interdependencia y técnicas de dependencia. La elección de una u otra dependerá del tipo de información de partida y destino que se tenga y requiera.

Tipos Segmentación Cluster Discriminante

/ 88

Segmentación Definición y utilidad

Técnica de clasificación que tiene como objetivo la elaboración de subgrupos muestrales en base a el mayor poder de explicación en la variable dependiente.

Segmentación AID Técnica de

segmentación que basada en el análisis de varianza, parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas

Segmentación Jhi² Técnica de segmentación

que basada en la realización de pruebas Jhi², parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas

Segmentación de Jhi² tabla Técnica de segmentación

que basada en la realización de pruebas Jhi² de tabla, parte del intento de clasificar una muestra a partir de la búsqueda de la asociación más alta en pruebas de asociación.

/ 89

Segmentación

Condiciones para el análisis Variable dependiente de tipo numérica métrica en

AID, e independientes cualitativas y codificadas Variable dependiente como dicotomía en una

muestra, numérica métrica en Jhi², e independientes cualitativas y codificadas

Variables codificadas con diferentes niveles en Jhi² de tabla.

Ejecución en GBW Disponemos de dos peculiaridades …

Forzar al test de un grupo con el resto Agrupar por continuidad de categoría

Fijación de un número mínimo de casos para considerar el grupo

Fijación del nivel de segmentación máximo

/ 90

Tipología, cluster o análisis de conglomerados

Definición y utilidad Conjunto de técnicas cuyo fin último es la

clasificación de la información en base a una serie de atributos relevantes señalados por el investigador. Para ellos se utilizan las similitudes entre las valoraciones dadas a los atributos señalados.

Tipos Cluster, técnicas válidas para cuando no tenemos

idea de cómo se puede agrupar la información Ejecución en GBW

Selección de variables de tipo numérico métrico o de tipo nominal. Las nominales o múltiples se binarizan. El proceso de normalización es interno y automático.

/ 91

Análisis cluster

Tipos Cluster jerárquico, análisis en el que se parte de una

agrupación unitaria a una agrupación total. Análisis asociativo.

Cluster no jerárquico o k medias, análisis en el que hay una conjetura inicial sobre el número de grupos a formar y se itera el método de clasificación hasta clasificar toda la información en el número de grupos marcados. Análisis partitivo o de optimización.

Condiciones para el análisis Representatividad muestral Ausencia de multicolinealidad

/ 92

Terminología (1) Distancia

Euclídeas o euclídeas al cuadrado si los datos son mediciones. Recordemos que la distancia euclídea al cuadrado reforzará más las distancias entre los puntos de un plano.

Jhi² si los datos a agrupar son frecuencias (sólo no jerárquico).

Método de análisis Distancia mínima (single

linkage), agrupa a aquellos casos que tengan una menor distancia entre ellos; la distancia entre dos clusters es la distancia entre sus dos puntos más próximos.

Distancia máxima (complete linkage), agrupa en función de la distancia entre los puntos más alejados; la distancia entre dos clusters es la distancia entre sus puntos más alejados.

Agrupación de medianas o agrupación de centroides (medianas), agrupa a los individuos en función de se mediana o de su media.Lejanos

Próximos

/ 93

Terminología (2) En cluster no jerárquico,

puntos de partida K primeros K aleatorios K con máxima distancia K del jerárquico K del usuario K más numerosos

Cálculo de distancias Distancia de cada

individuo al centro del cluster

Distancia promedio de todos los individuos que pertenecen al centro

Matriz final de distancias intra y entre los clusters.

Variable de grupo Guarda el código de

grupo de pertenencia en el cluster.

Dendograma Análisis de varianza Correlaciones entre los

clusters

/ 94

Análisis de fiabilidad

Definición y utilidad Método que nos permite analizar la precisión de la

relación lineal y sumativa de las valoraciones ofrecidas a diferentes ítems que conforman dimensiones de una dimensión de mayor rango mejor explicada por el conjunto de variables que por sí misma.

Condiciones para el análisis Variables de medición Mayor fiabilidad a mayor cantidad de ítems

Ejecución en GBW En Gandia BarbWin se utiliza el alpha de Cronbach

como medida de la fiabilidad de escalas

/ 95

Métodos de análisis y terminología (1) Método

Normal, incluye todas las variable del análisis aunque su varianza sea 0.

Covarianzas, elimina del análisis aquellas variables que tienen varianza 0.

Análisis de varianza Técnica bivariante o

multivariante que permite analizar la relación entre las medias de los grupos y la media total en diferentes niveles de la variable de agrupación

Entre personas cada persona es analizada

como un grupo; se analiza la diferencia entre las medias individuales de las puntuaciones en el conjunto de elementos con la media global de todos los elementos de la escala

Intra personas cada persona es analizada

como un grupo; se analiza la diferencia entre las puntuaciones individuales e cada elemento de la escala con las medias de cada individuo en la escala

Entre medidas se analiza la diferencia entre

las puntuaciones individuales de cada elemento en relación con la media de la muestra para cada elemento

/ 96

Terminología (2) Residuos

Diferencia de los residuos individuales en cada elemento de la escala en relación con la media de los residuos individuales en la escala

Prueba F Valida si hay diferencias

entre las medias de las variables que conforman la escala. Significaciones valores a 0 nos llevan a aceptar la Ha y rechaza la Ho de igualdad de medias.

Media y varianza si ítem borrado Medición si eliminamos un

ítem de la escala Correlación corregida

Correlación del ítem con la escala

Alpha si ítem borrado Coeficiente final si

borramos el ítem seleccionado

Alpha de Cronbach Coeficiente de correlación

entre los ítems de la escala. Una escala fiable debe producir valores altos de alpha.

Estadísticos entre los ítems Media, varianza,

covarianza y correlación T² de Hotelling

Medida utilizada para contrastar la hipótesis de medias iguales en el análisis de fiabilidad; se distribuye como una F

Iteración del proceso

presentación barbwin v6 // v7

Education