de acuerdo con recientes estudios de la unicef (2012) y el banco interamericano de desarrollo (2012)...

57
Tema 1. Requisitos previos para el estudio del análisis multivariable 1.1. Introducción 1.2. Variables, medidas y escalas 1.3. Análisis exploratorio de los datos 1.4. La distribución Normal 1.5 Inferencia estadística: población y muestra, distribuciones muestrales, estimación puntual, intervalos de confianza, Test de Hipótesis 1.6 Estadística bivariable o bidimensional 1.7 Clasificaciones de las variables 1.8 Tipos de datos en el Análisis Multivariable. 1.9 Matrices 1.10 Otros conceptos básicos del Análisis Multivariable 1.11 Las técnicas multivariantes y su clasificación 1.12 Etapas de un análisis multivariante 1.1 Introducción Las técnicas multivariantes ofrecen al investigador una herramienta analítica muy potente, pero es imprescindible asegurarse antes de usar cualquier técnica de que se cumplen los requisitos tanto teóricos como estadísticos relativos a la técnica multivariante elegida. Además también es importante examinar cuidadosamente los datos disponibles, antes de aplicar cualquier tipo de análisis multivariante. El conocimiento en profundidad de cada una de las variables de interés (análisis univariante), así como de las relaciones existentes entre cada par de variables (análisis bivariante) es un paso previo necesario antes de la aplicación de cualquier análisis multivariante. Por ello es imprescindible recordar las nociones básicas de la estadística. Antes de ver una clasificación de las técnicas multivariantes, teniendo en cuenta que dicha clasificación se basa en las escala de medida de las variables que intervienen en el análisis repasaremos rápidamente las diferentes escalas de medida, que se supone son conocidas de cursos anteriores. 1.2. VARIABLES, MEDIDAS Y ESCALAS. 1

Upload: april-reyes

Post on 11-Nov-2015

221 views

Category:

Documents


0 download

DESCRIPTION

De acuerdo con recientes estudios de la UNICEF (2012) y el Banco Interamericano de Desarrollo (2012) uno de cada dos adolescentes logra completar la secundaria3 Según la Unicef hay 117 millones de niños y jóvenes en América Latina, de estos 22.1 millones se encuentran fuera del sistema educativo o están en riesgo de hacerlo.4 Este dato sólo incluye a los estudiantes entre 5 a 14 años (educación básica). De acuerdo con el BID la tasa de culminación de secundaria completa (12 años), es cercana al 40% entre los jóvenes de 20 a 24 años. Lo que implica que 50 millones de jóvenes de la región no lograr culminar la secundaria completa.5

TRANSCRIPT

SPSS

Tema 1. Requisitos previos para el estudio del anlisis multivariable

1.1. Introduccin

1.2. Variables, medidas y escalas

1.3. Anlisis exploratorio de los datos

1.4. La distribucin Normal

1.5 Inferencia estadstica: poblacin y muestra, distribuciones muestrales, estimacin puntual, intervalos de confianza, Test de Hiptesis

1.6 Estadstica bivariable o bidimensional1.7 Clasificaciones de las variables1.8 Tipos de datos en el Anlisis Multivariable. 1.9 Matrices

1.10 Otros conceptos bsicos del Anlisis Multivariable

1.11 Las tcnicas multivariantes y su clasificacin1.12 Etapas de un anlisis multivariante1.1 Introduccin

Las tcnicas multivariantes ofrecen al investigador una herramienta analtica muy potente, pero es imprescindible asegurarse antes de usar cualquier tcnica de que se cumplen los requisitos tanto tericos como estadsticos relativos a la tcnica multivariante elegida.

Adems tambin es importante examinar cuidadosamente los datos disponibles, antes de aplicar cualquier tipo de anlisis multivariante.

El conocimiento en profundidad de cada una de las variables de inters (anlisis univariante), as como de las relaciones existentes entre cada par de variables (anlisis bivariante) es un paso previo necesario antes de la aplicacin de cualquier anlisis multivariante. Por ello es imprescindible recordar las nociones bsicas de la estadstica.

Antes de ver una clasificacin de las tcnicas multivariantes, teniendo en cuenta que dicha clasificacin se basa en las escala de medida de las variables que intervienen en el anlisis repasaremos rpidamente las diferentes escalas de medida, que se supone son conocidas de cursos anteriores.

1.2. VARIABLES, MEDIDAS Y ESCALAS.

Las variables son caractersticas no uniformes de las unidades de informacin.Unidades son las entidades de las que se obtienen las observaciones.

Antes de que se pueda tratar a una variable estadsticamente, debe ser observada, es decir clasificada, medida o cuantificada.

Medicin es el proceso por el que se asignan nmeros a las observaciones de una variable.

Medida : observacin cuantificada o categorizada.

Una misma variable puede ser medida de diversas maneras. El investigador ha de procurar que sus medidas sean vlidas y fiables.

Una medida es vlida cuando mide lo que pretende medir

Una medida es fiable si al repetir la medicin en circunstancias similares se obtiene el mismo resultado.

Para representar a las variables se suelen emplear las ltimas letras del alfabeto: X, Y, Z ...

El smbolo X representa una variable medible, pero si escribimos X i estamos representando el valor que toma la variable X en una observacin concreta (la observacin i ).

Las variables se pueden clasificar en: dependientes e independientes

Variable dependiente: es la variable que se quiere explicar

Variable independiente: es la variable que explica la variable dependiente

ESCALAS DE MEDIDA de las variables

La escala nominal consiste en agrupar las observaciones de la variable en varias categoras cualitativas: (hombre-mujer, agrupar por nacionalidad, etc.) Las categoras pueden ser nombres o nmeros, pero los nmeros no indican orden ni diferencias en magnitud.

La escala ordinal, consiste en agrupar las observaciones de la variable en categoras que se pueden ordenar. (Clase social, nivel de estudios, etc.)

La escala de intervalo, existe una unidad de medida, pero el cero se fija en funcin del instrumento de medida, no significa ausencia de la caracterstica estudiada. Por ejemplo la temperatura (o C, o F, etc.)

La escalas de razn cociente o proporcin, son escalas de intervalo pero con un cero absoluto. Peso, edad, distancia, etc.

Tambin se suelen clasificar las variables en:

Cualitativas o categricas: indican a qu grupo o categora pertenece un individuo (grupo sanguneo, estado civil, etc.)

Cuantitativas : la variable toma valores numricos con los que tiene sentido hacer operaciones aritmticas.

En cuanto a la Estadstica univariable, hay que recordar las diferentes representaciones grficas de las variables (grficos de sectores, histogramas, de rbol, de cajas), medidas de tendencia central (media, moda, mediana), medidas de dispersin (rango o recorrido, varianza, desviacin tpica).

1.3. Anlisis exploratorio de los datos

Se suele empezar examinado cada variable de forma independiente y luego se pasa a estudiar las relaciones entre variables.

Se realizan uno o ms grficos y despus se aaden resmenes y aspectos numricos de los datos.

Las tablas de frecuencias son tiles cuando el nmero de datos es elevado (N).

X in iN if iF i

X i es el valor de la variable, o si los datos estn agrupados el punto medio del intervalo (marca de clase).

n i frecuencia de X i en N (nmero total de observaciones disponibles)

Ni frecuencia acumulada N i = ( n i

j < i

f i frecuencia relativa .......................... f i = n i /N

F i frecuencia relativa acumulada

La distribucin de una variable describe los valores que toma una variable y la frecuencia de los mismos.

La forma, el centro y la dispersin sirven para conocer la distribucin de las variables.

Para conocer la forma de las distribuciones se usan las: Representaciones grficasCon la representacin grfica se puede ver si la distribucin es simtrica o asimtrica y descubrir las observaciones extremas (atpicas).

Para variables cualitativas, se emplean los diagramas de barras y los diagramas de sectores.

Ejemplo: tipos de familias en Suecia, segn datos Eurostat 1991.Tipos de familia

Tipos de familiaRecuento en milesPorcentajeGrados

Parejas sin hijos1.16853,50193

Parejas con hijos83038,02137

H solos con hijos271,244

M solas con hijos1587,2425

Total2.183100360

Histogramas.

Las variables cuantitativas a veces toman muchos valores diferentes, por lo que se suelen agrupar los valores prximos. Los Histogramas son representaciones grficas por reas. Sobre el eje de abcisas se marcan los extremos de los intervalos de clase y se levantan rectngulos de base los intervalos y de altura tal que el rea del rectngulo sea igual o proporcional a la frecuencia correspondiente.

Marca de clase es el punto medio de cada intervalo

Polgono de frecuencias: se obtiene uniendo los puntos medios de los lados superiores de los rectngulos levantados en el histograma de frecuencias.

Grfico de tallos y hojas.

Se separa cada observacin en un tallo que contenga todos los dgitos menos el de las unidades y en una hoja el dgito de las unidades.

a) se sitan los tallos en vertical y en orden creciente de arriba abajo. Se traza una vertical a la derecha de los tallos

b) Repasa todos los datos y sita cada hoja a la derecha de su tallo

c) Sita otra vez las hojas colocndolas esta vez en orden creciente desde cada tallo.

Ejemplo:

El nmero de operaciones realizadas por los cirujanos de un hospital durante el ltimo ao han sido: 27, 50, 33, 25, 86, 25, 85, 20, 31, 37, 44, 36, 59, 34 y 28.

2 7 5 5 0 8

2 0 5 5 7 8

3 3 1 7 6 4

3 1 3 4 6 7

4 4 4 4

5 0 9 5 0 9

6 6

7

7

8 6 5

8 5 6

Medidas de tendencia CENTRAL: MEDIA, MODA Y MEDIANA.La Media de la variable x que toma los valores : x1, x2, x3, ..., xn, es:

(x1+ x2,+x3, +..., xn) / N= (1/N) xi

Si hay N observaciones y cada valor x i se presenta con frecuencia de ni la media es 1/N x i n i

El inconveniente de la media es que le afectan los valores extremos.

La MODA es el valor (o el intervalo) ms frecuente en la distribucin.

La MEDIANA es el valor que queda en el centro de los datos tras ordenarlos de menor a mayor.

Cuartiles, deciles y percentiles

El primer cuartil se define como el valor que deja por debajo la cuarta parte de la distribucin.

El segundo cuartil coincide con la medianaEl tercer cuartil es el valor que tiene por encima el 25% de la distribucin

El primer decil es el valor de la variable tal que el 10% de las observaciones son menores que l. (Hay 9 deciles)

El primer centil : 1% del las observaciones son menores que l. (Hay 99 centiles)

GRAFICOS DE CAJA

a b c d

e

a y e = valores mnimo y mximo de la distribucin; b= primer cuartil de la distribucin

c= mediana de la distribucin ;

d= tercer cuartil de la distribucin

Calculo de la MEDIANA y la MODA cuando los datos estn agrupados en intervalos:

N/2 - Ni-1

Me = Li + ------------------ ai

ni

h i+1

Mo = Li + ------------------ ai

h i-1 + h i+1

Me = mediana Mo = moda

Li = extremo inferior del intervalo que contiene a la mediana (moda)

N = nmero de casos

Ni-1=Frecuencia absoluta acumulada anterior al intervalo que contiene a la mediana

ni = Frecuencia absoluta del intervalo que contiene a la mediana

ai = amplitud del intervalo que contiene a la mediana (moda)

hi = ni / ai (altura del intervalo modal)

hi-1 altura del intervalo anterior al modal

hi+1 altura del intervalo posterior al modal

Medidas de dispersin:

Rango: diferencia entre el valor mayor y el menor de la distribucin

Varianza: media de los cuadrados de las desviaciones de los datos respecto de la media

( ni (xi - ( )2 ( ni (xi )2

-------------------- o ---------------- -- ( 2

N N

El denominador es (N-1) cuando trabajamos con muestras, en ese caso slo sirve la primera frmula

Desviacin tpica: raz cuadrada de la varianza

Coeficiente de variacin: sirve para comparar dispersiones de diversas variables. Es el cociente entre la desviacin tpica y la media

Medidas de asimetra.: La asimetra de la distribucin se puede ver en el histograma, para cuantificarla se usan :

Primer coeficiente de asimetra de Pearson: Se divide la diferencia entre la media y la moda entre la desviacin tpica.

Segundo coeficiente de asimetra de Pearson: se divide el triple de la diferencia entre la media y la mediana entre la desviacin tpica.

Si dan positivo, la asimetra se da a la derecha. Si es nulo no hay asimetra

Si es negativo hay asimetra a la izquierda. Pueden tener distinto signo

Tercer Coeficiente de asimetra : g1 = (1/N)( ni (xi - x)3 /(D.tpica) 3Si g 1 > 0 asimetra a la derecha ; si g 1 = 0 distribucin simtrica; si g 1 < 0 asimetra a la izquierda

Apuntamiento o curtosis C= (1/N) ( n i ( xi - x )4 / (D.tpica) 4C > 3 distribucin ms apuntada que la curva normal (leptocrica)

C = 3 distribucin igual de apuntada que la curva normal (mesocrtica)

C < 3 distribucin menos apuntada que la curva normal (platicrtica)

Ejercicios

1.1) Los nmeros siguientes representan los minutos que una persona tuvo que esperar hasta que llegara el autobs cuando iba a su trabajo: 10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9, 13, 1 y 10. Calcular la media, la moda, la mediana y el primer y tercer cuartil. Representar el diagrama de cajas e interpretarle. Calcular tambin el recorrido, la varianza, la desviacin tpica y el coeficiente de variacin.

1.2) Calcular la media, moda, mediana, Q1 y Q3, varianza, desviacin tpica, coeficiente de variacin y los coeficientes de asimetra y curtosis de la distribucin del tiempo que 80 estudiantes dedicaron a actividades de tiempo libre durante una semana. Realizar tambin el histograma , el diagrama de cajas y el diagrama de sectores

Horasfrecuencia

10-148

15-1928

20-2427

25-2912

30-344

35-391

1.4 La distribucin NORMAL

Las variables continuas cuyos valores dependen de un gran nmero de factores independientes y cuyas influencias se compensan entre s haciendo que prevalezca el tipo medio, suelen seguir la distribucin Normal. La distribucin Normal es idnea para explicar :

comportamientos sociales (aceptacin de normas, gusto por la costumbres, etc.)

actitudes econmicas(consumo, impacto de un producto etc.)

aptitudes psicolgicas(cociente intelectual, etc.)

medidas antropomtricas (estatura, peso, etc.)

medidas morfolgicas (tamao de los frutos de un rbol, etc.)

errores cometidos en las mediciones

La distribucin Normal Estndar N(0,1).

Cuando una distribucin normal tiene su media igual a 0 y su desviacin tpica igual a 1, se la conoce como distribucin Normal Estndar. La variable que sigue esta distribucin se llama tipificada y se la representa con Z.

La reas bajo la curva normal tipificada se calculan usando las tablas de la curva normal.

Las tablas dan el rea bajo la curva desde - a K. El valor del rea se encuentra en el cruce de la columna que contiene las unidades y dcimas de K con la fila de las centsimas.

Propiedades de la distribucin Normal

Su campo de existencia es la recta real R.

Es simtrica respecto de su media .

Tiene un mximo que coincide con su media, moda y mediana

En + y - tiene los puntos de inflexin.

El rea bajo la curva es 1 y entre los puntos:

+ y - es 0,6826

+2 y -2 es 0,9544

+3 y -3 es 0,9972

Tipificacin

Si la variable estudiada X, sigue una distribucin N (,), para trabajar con las tablas de la Curva normal tipificada, es necesario tipificar la variable X, para ello definimos la variable Z X - Z = ---------

Uso de las tablas N(0,1)

P(X1,75) = 0,9599, cruce fila de 1,7 y columna de 0,05

P(1X1,85)= P(X1,85)-P(X1)=0,9678-0,8413=0,1265

Si la variable no est tipificada, por ejemplo N(5,3), se la tipifica antes de buscar en las tablas.

P(X8)= P((X - 5) / 3 (8 - 5 ) / 3)=P(Z 1) = 0,8413

1.5 INFERENCIA ESTADSTICA

Poblacin: conjunto de todos los individuos objeto de estudio. (Pueden no ser personas)

Muestra: parte de la poblacin en la que se miden las caractersticas estudiadas

Muestreo: proceso seguido para extraer una muestra

Razones para trabajar con muestras: imposibilidad fsica o econmica de acceder a la poblacin, destruccin del objeto estudiado.

TIPOS DE MUESTREO

Muestreo ALEATORIO SIMPLE: cada individuo de la poblacin tiene la misma posibilidad de formar parte de la muestra y adems la seleccin de un individuo no influye en las siguientes selecciones.

Puede ser con reemplazamiento o sin reemplazamientoTablas de Nmeros aleatorios: son tablas confeccionadas con nmeros elegidos aleatoriamente que aparecen en muchos libros de estadstica. Ahora muchos programas de ordenador traen rutinas que generan nmeros aleatorios.

Muestreo sistemtico:

Se ordenan en una lista todos los individuos de la poblacin.

N= tamao poblacin. n= tamao muestra

N/n=k= coeficiente de elevacin.

Se elige al azar el nmero a menor que k

Los elementos elegidos sern: a+k, a+2k, a+3k.... a+nk

Muestreo aleatorio estratificado:

Se divide la poblacin en grupos llamados estratos. Los mejores resultados se dan cuando los elementos de dentro de cada estrato son lo mas similares posibles, despus se toma una muestra aleatoria simple dentro de cada estrato

Afijacin proporcional: el nmero de elementos elegidos en cada estrato es proporcional al tamao del estrato

Afijacin fija: el nmero de elementos elegidos en cada estrato es el mismo

Cuando no estn identificados todos los individuos:

Muestreo por CONGLOMERADOS

Se pretende que cada conglomerado represente a la poblacin (heterogeneidad dentro del conglomerado). Se toma una muestra aleatoria simple de los conglomerados y los elementos de los conglomerados elegidos formaran la muestra. Los conglomerados pueden ser las reas geogrficas en las que se divide la poblacin analizada (pases, comunidades autnomas, municipios, distritos, etc.) tambin pueden ser organizaciones o instituciones (colegios, hospitales, etc.)

Muestreo polietpico por Conglomerados. Cuando a partir de una muestra de conglomerados se extrae una nueva muestra dentro de cada conglomerado.

Muestreos no aleatorios:

Opintico (por criterios subjetivos en funcin de la investigacin)

Por cuotas, cuando se facilita al encuestador el perfil de las personas a entrevistar: x% hombres, y % mujeres.

Por itinerarios: cuando se facilita al encuestador el itinerario a seguir para encontrar a las personas a entrevistar.

INFERENCIA ESTADSTICA

Las medidas de centralizacin, dispersin etc., de las poblaciones se llaman PARMETROS y se suelen representar con letras griegas.

Las mismas medidas calculadas sobre las muestras se llaman ESTADSTICOS y se representas con letras latinas.

A partir del conocimiento de los ESTADISTICOS se intenta llegar a conocer el valor de los PARMETROS. A los valores obtenidos en este proceso se les llama ESTIMADORES PUNTUALES.El estimador puntual de la media ( ( x i ) / n _

El estimador puntual de la varianza (( ( x i - x) 2 ) / (n-1)El estimador puntual de la proporcin es la proporcin muestral.

Teorema central del lmite: si se extraen muestras (infinitas) de una poblacin aproximadamente normal, y cuando las muestras son suficientemente grandes aunque la poblacin no se distribuya normalmente, la distribucin de cualquiera de los estadsticos de las muestras extradas (media, mediana, proporcin, coeficiente de correlacin etc) siguen una distribucin normal.

La ley de los grandes nmeros dice que "cuando un experimento aleatorio se realiza un nmero grande de veces la frecuencia relativa de un suceso se aproxima a la probabilidad del mismo".

LAS DISTRIBUCIONES MUESTRALES

Los estimadores puntuales dependen de la muestra elegida, por lo que es arriesgado trabajar con ellos.

En una poblacin de N elementos, el nmero de muestras de tamao n es

N n o N segn que la muestra se elija con reemplazamiento o sin reemplazamiento

n

Si estudiamos la media:

Con los elementos de cada muestra obtenemos un valor para la media. El conjunto de todas esas medias muestrales recibe el nombre de distribucin muestral de la media.

Propiedades:

1. La media de las medias muestrales coincide con la media de la Poblacin.

2. La desviacin tpica de las medias muestrales es la desviacin tpica de la poblacin dividida entre (n

La distribucin de las medias muestrales de tamao n (no demasiado pequeo)se ajusta a

N( , /(n )

Distribucin para las proporcionesEn el estudio de la proporcin de una poblacin que posee un cierto atributo (tener trabajo, ser mujer, etc.), si p es la proporcin en una muestra de tener ese atributo (probabilidad de xito) 1-p = q ser la proporcin de no tenerlo (probabilidad de fracaso)

La proporcin en la poblacin se estima a partir de la proporcin en las muestras.

Las proporciones muestrales de muestras de tamao n, se ajustan a una distribucin N ( p , ( p q / n )

ESTIMACIN POR INTERVALOS: Intervalos de confianza

Los estimadores puntuales slo dan una idea aproximada del verdadero valor del parmetro a estimar, pero nunca se sabe cmo de buena es la aproximacin obtenida. Recordar que cada muestra da lugar a un estimador puntual.

Recordemos que la distribucin de las medias muestrales sigue una N ( , /(n ) Sabemos que el mejor estimador de (media de la poblacin) es la media de la muestra ( , que como ya dijimos sigue una distribucin N( , /(n )

Y al tipificarla (x - )/ ( /(n) = z = N ( 0,1)

Llamaremos 1 al nivel de confianza con el que deseamos trabajar.

Representaremos por z/2 el valor de la abscisa de la distribucin N(O,1) que deja a su izquierda un rea igual a /2

Se cumple que

_

P( z/2 ( (X - ) /( /(n) ( + z/2 ) = 1 Multiplicando por ( /(n) llegaremos a

_

P( z/2( /(n) ( (X - ) ( + z/2 ( /(n) = 1

Sumando ( ) se obtiene

_

P( z/2 ( /(n) ( X ( + z/2 ( /(n) ) = 1

Pero lo desconocido es (media de la poblacin) y lo que obtengo de la muestra es ( , vamos a transformar el intervalo de probabilidad (centrado en X) en un intervalo de confianza (centrado en );Restando queda:

P( z/2 /(n ( ( - ( + z/2 /(n) = 1 Restando ( queda

P( ( - z/2 /(n ( - ( - ( + z/2 /(n) = 1

Multiplicando por (-1), cambiar el sentido de la desigualdad

P(( + z/2 /(n ( - z/2 /(n) = 1 O sea:

P( ( - z/2 /(n ( ( ( + z/2 /(n) = 1

As tengo a la media de la poblacin dentro de un intervalo construido a partir de la media obtenida de la muestra. Es el intervalo de confianza para la media poblacional

A 1 se le llama nivel de confianza y a nivel de significacin

Normalmente es desconocida por lo que se suele usar s

A s/(n se le llama error tpico o error estndar de la media

Error admitido (E) y tamao de la muestra (n)

El radio del intervalo de confianza es z/2 /(n y esta cantidad es el mximo error admitido E=z/2 /(n

De aqu se puede obtener el tamao de la muestra para errores prefijados

(n = z/2 /E n = ( z/2 /E )2

De forma similar se pueden definir intervalos de confianza para otros parmetros estadsticos.

El intervalo de confianza para la proporcin es

( p - z/2 (pq/n , p z/2 +(pq/n ); el error es E = z/2 (pq/n

E2 = ( z/2 )2 pq/n n = ( z/2 )2 (pq/E2 )

Problemas de intervalos de confianza:

1) Se elige una muestra de 36 estudiantes y la media de sus pesos resulta ser 6125 y su desviacin tpica s=1041. Calcular el intervalo de confianza para la media de la poblacin al 95%. Solucin : (5785 , 6465)

2) Se selecciona aleatoriamente una muestra de 500 estudiantes de la ESO y se les pregunta si han usado INTERNET alguna vez, contestando afirmativamente 225. Cul es el intervalo de confianza de la proporcin de alumnos que han usado alguna vez Internet con un nivel de confianza del 95%? . Solucin (0407 , 0493 )

Test de Hiptesis

Ya hemos visto que la media muestral suele ser diferente de la media poblacional, frecuentemente esas diferencias son pequeas y se deben al azar, pero puede que esas diferencias ocurran por otros motivos. Los test de hiptesis son los instrumentos estadsticos que permiten decidir si esas diferencias se deben al azar o son de tal magnitud que precisan una explicacin. Los test de hiptesis son una continuacin de los intervalos de confianza.

Test de hiptesis sobre la media poblacionalSupongamos que por estudios previos se tiene la idea de que la media poblacional es . Sobre esa poblacin se elige una muestra y se obtiene una media ( . Comparando y ( surge la pregunta. Esta muestra procede de una poblacin con media ? La respuesta ser NO cuando no pertenezca al intervalo de confianza de ( , para un nivel de significacin prefijado y la respuesta ser SI en caso contrario (cuando SI pertenezca al intervalo de confianza de ( )

Respuesta No, o sea hay cambios significativos si

(X - z/2 /(n , X + z/2 /(n)

o sea si el error - x > z/2 /(n

Llamaremos hiptesis estadstica a una afirmacin respecto a alguna caracterstica de la poblacin. Contrastar una hiptesis es comparar las predicciones que se deducen de ella con la realidad que observamos. Si hay coincidencia, dentro del margen de error admisible aceptaremos la hiptesis y en caso contrario la rechazamos.

Ejemplos de Hiptesis estadsticas:

1. El tabaco favorece la aparicin del cncer de pulmn.

Esta hiptesis establece que si se considera la poblacin de fumadores y la de no fumadores, la incidencia del cncer de pulmn ser mayor en la primera que en la segunda. No indica que todos los fumadores desarrollen C. de P, ni que un no fumador nunca vaya a tener C. de P. Simplemente compara las proporciones de C. de P en las dos poblaciones y establece que una proporcin supera a la otra.

2. Disminuir los impuestos disminuye el fraude fiscal.

Esta Hiptesis establece cmo cambia un parmetro en dos poblaciones definidas por dos instantes de tiempo diferentes. La primera poblacin son los contribuyentes actuales y la segunda los contribuyentes futuros en la situacin hipottica con una bajada de impuestos. La variable a estudiar es la cantidad defraudada antes y despus del cambio fiscal.

3. Las mujeres son mas sensibles que los hombres.

Consideramos la poblacin de hombres y mujeres. Definimos la variable sensibilidad y establecemos un procedimiento para medirla (test, etc) la media de esta variable se espera que sea mas alta en la poblacin de mujeres.

En los ejemplos se aprecia que para realizar un test de hiptesis hacen falta como pasos previos:

1. Especificar la poblacin o poblaciones de inters

2. Definir la variable objeto de estudio y cmo medirla

3. Relacionar la hiptesis con los parmetros de la o las poblaciones

Las hiptesis estadsticas mas habituales se pueden clasificar en dos grupos, segn que:

a) Especifiquen un valor concreto o un intervalo para un parmetro de la variable estudiada.

b) Establezcan la igualdad de algn parmetro en las distribuciones de una variable en dos o mas poblaciones.

Hiptesis Nula (H0) e Hiptesis Alternativa (H1)

Llamamos hiptesis nula a la Hiptesis que se quiere contrastar y que puede ser rechazada como consecuencia de los resultados proporcionados por los datos de la muestra. Si rechazamos la hiptesis nula (H0) estamos implcitamente aceptando la hiptesis alternativa (H1)

Cuando se decide aceptar o rechazar una hiptesis nula se pueden cometer dos tipos de errores: rechazarla siendo cierta (error de tipo I) aceptarla siendo falsa (error tipo II).

Se llama nivel de significacin () de un contraste de hiptesis a la probabilidad de cometer un error del tipo I. El nivel de significacin lo fija el investigador antes de realizar el contraste. En ciencias sociales suele ser 0,05 o 0,01

Para realizar un contraste de Hiptesis se suele definir una medida de discrepancia entre los datos muestrales y la hiptesis nula. Esta discrepancia depender de la diferencia entre el valor del parmetro especificado por H0 y el valor del estimador calculado en la muestra y para que esta diferencia no dependa de las unidades de medida se le suele dividir por su valor promedio, que es el error tpico de la estimacin del parmetro.

Fases en la realizacin de un contraste de hiptesis.

1. Definir la hiptesis nula (H0) a contrastar y la hiptesis alternativa (H1)

2. Definir una medida de la discrepancia entre los datos muestrales y la Hiptesis nula

3. Calcular qu discrepancias son esperables si (H0) es cierta (error relativo de la estimacin)

4. Fijar el mnimo p-valor admisible para no rechazar (H0) , a este valor se le llama nivel de significacin. Al fijar esta cantidad queda definida una regin de rechazo o regin critica, que es el conjunto de valores de la discrepancia para los que se rechaza (H0) . El nivel de significacin es la probabilidad de rechazar la Hiptesis nula, siendo cierta. Normalmente se fija en 0,05 o 0,015. Tomar la muestra y juzgar la discrepancia observada mediante el p-valor. Si este es menor que el nivel de significacin se debe rechazar (H0) . En caso contrario se acepta H0 Problemas de Test de hiptesis

1) Una empresa est interesada en conocer el tiempo medio que sus trabajadores permanecen en ella, antes de irse a otra empresa. Pare ello toma una muestra de 64 trabajadores y en ella el tiempo medio es 5 aos y la desviacin tpica 4 aos. Considerando un nivel de significacin de 0,05. Sirven estos datos para afirmar que el tiempo medio de empleo en esa empresa est por debajo de 6 aos?. Se supone que la distribucin es normal.

Paso 1. H0 : > 6 H1 : < 6

Paso 2. La prueba es de una sola direccin (unilateral), para un nivel de significacin de =,05 le corresponder un valor crtico Z = -1,645, que separa las regiones de aceptacin y rechazo.

Pasos 3 y 4. La distribucin de referencia es normal por lo que tipificando:

_ _

Z = (x - ) / , siendo x = 5, = 6 y x =(4 / 64)=0,5

Z= (5-6)/0,5 = -2

Paso 5. Como La abcisa -1,645 define la zona de rechazo y -2 est en esa zona de rechazo habr que rechazar la hiptesis nula y aceptar la hiptesis alternativa: "el tiempo medio de permanencia en la empresa es inferior a los 6 aos.

Esta decisin tambin se puede tomar en trminos de probabilidad. Puesto que la probabilidad de encontrar un z inferior a -2 o inferior es:

P(z < -2) = 0,0228 y como 0,0228 < 0,05, esto es la probabilidad calculada es menor que el nivel de significacin, habr que rechazar la hiptesis nula.

2) EL tiempo medio empleado en realizar un ejercicio propuesto por una profesora de la facultad a una muestra de 100 estudiantes es de 1570 segundos, con una desviacin tpica de 120 segundos. Si fuera la media de todos los ejercicios propuestos por esa profesora. Contrasta de hiptesis de que = 1600 contra la hiptesis alternativa 1600 con un nivel de significacin de 0,05

Paso 1. H0 : = 1600, H1 : 1600

Paso 2. La prueba es bilateral al nivel de significacin 0,05 le corresponde un valor crtico de 196, que separa las zonas de rechazo y aceptacin

Pasos 3 y 4. La distribucin de las medias muestrales es N( , / n)

En este caso N( 1600, 120/10) = N(1600, 12)

_

La variable tipificada z = ( x - 1600)/12 sigue una N(0,1)

EL intervalo de confianza ser

(1600 - 196 * 12 , 1600 + 196 * 12 ) = ( 157648 , 1623`52)

Paso 5. Para tomar la decisin veamos si la media de la muestra pertenece al intervalo de confianza y como 1570 cae fuera del intervalo de confianza debemos rechazar la hiptesis nula y aceptar la Hiptesis alternativa de que la media es diferente a 1600.

1.6 Estadstica bidimensional o bivariable

La ESTADSTICA BIDIMENSIONAL estudia las relaciones entre dos variables.

A veces cada observacin est formada por los datos de mas de una variable. Adems de estudiar cada variable por separado podemos estudiar las relaciones entre ellas. Nos centraremos en el caso mas sencillo: el estudio de parejas de variables.

TABLAS DE DOBLE ENTRADA

Tabla de distribucin conjunta de frecuencias absolutas

Y

Xd1d2d3....dm-1dm

c1n11n12n13

n1 m-1n1 m

c2n21n22n23

n2 m-1n2 m

.....................

.....................

ck-1nk-1 1n k-1 2nk-1 3...nk-1 m-1nk-1 m

cknk 1nk 2nk 3...nk m-1nkm

N

Supongamos que tenemos N observaciones correspondientes a dos variables cualitativas SITPROF (situacin profesional) y EDC (nivel educativo). Cada variable clasifica a los N elementos de la poblacin en varias clases o categoras. Si la situacin profesional clasifica en k clases y el nivel educativo lo hace en m clases, al estudiarlas conjuntamente quedarn definidas k x m categoras. El valor n i j representa el nmero de datos que pertenecen a la clase i-esma de la primera variable y a la categora j-esima de la segunda variable. A n i j se le denomina frecuencia absoluta conjunta de la clase i j. La distribucin de las frecuencias absolutas conjuntas se representan con una tabla de doble entrada. La primera fila contiene las clases de la segunda variable, a las que denominamos d 1 , d 2 ... d m-1 , d m

En la primera columna aparecen las clases de la primera variable a las que denominamos:

c1, c 2 ... c k-1 , c k En cada celda de la tabla aparece la frecuencia conjunta n i j donde i indica la categora de la primera variable y j la de la segunda

El cociente ni j / N es la frecuencia relativa conjunta y se representa por f i j

Y

Xd1d2d3....Dm-1dm

c1f11f12f13

f1 m-1f1 m

c2f21f22f23

f2 m-1f2 m

.....................

.....................

ck-1fk-1 1fk-1 2fk-1 3...fk-1 m-1fk-1 m

ckfk 1fk 2fk 3...fk m-1fk m

N

Distribuciones marginales

Adems de la distribucin conjunta, cada una de las dos variables cualitativas tiene su propia distribucin. Se calculan a partir de la tabla de la distribucin conjunta sumando por filas y columnas y colocando estos valores en las casillas libres de la ltima fila o columna de la tabla

Las distribuciones de cada una de las dos variables que se ponen en los mrgenes de la tabla, reciben el nombre de distribuciones marginales.

La distribucin marginal de la primera variable se representa por f i. , el punto indica que hemos sumado los valores de la segunda variable manteniendo fijo el valor i de la primera

Con f .j se representa la marginal de la segunda variable y ahora el punto indica que hemos sumado los valores de primera variable manteniendo fijo el valor j de la primera.

m k

fi . = ( f i j f . j = ( f i j

j=1 i=1

Ejemplo de distribucin de frecuencias absolutas

EDC

Sitprof123456

1221710123

2293111448

31000001

40111003

5124931575

EDC= educacin (1=analfabetos, 2 sin=estudios, 3= con estudios primarios; 4 con bachillerto, 5 Estudios Univ. Grado medio, 6= estudios Univ grado superior)

sitprof= situacin profesional (1=patrono o profesional con empleados, 2=empresario o profesional sin empleados, 3=persona a sueldo con carcter fijo, 4= empleado eventual a sueldo) Ejemplo de distribucin de frecuencias relativas fi j = ni j / N

EDC

Sitprof123456

10,0270,0270,2270,01300,0130,307

20,0130,120,4130,0130,0130,0530,64

30,013000000,013

400,0130,0130,013000,040

0,0670,1600,6530,0400,0130,0671

Distribuciones condicionadasSi estamos interesados en conocer la distribucin de una variable (sitprof, situacin profesional) dentro de las personas de un determinado nivel educativo, por ejemplo "sin estudios"

Cuando EDC=2. Estamos buscando la situacin profesional dentro del grupo de los que no tienen estudios, a esa distribucin se la llama distribucin condicionada de la variable sitprof por el valor "sin estudios" de la variable EDC

Frecuencias de la situacin profesional condicionadas por sin estudios (2) en EDC

SitprofSin estudios (2)f i /2

122/12= 0,167

299/12=0,75

300/12=0

411/12=0,08

121

Frecuencias de EDC (Educacin) condicionadas por la situacin profesional (1) patrono o profesional con empleados

EDC1(patrono)f 1 /j

122/23=0,087

222/23=0,087

31717/23=0,739

411/23= 0,043

500/23=0

611/23=0,043

231

La distribucin conjunta es la que contiene toda la informacin sobre las dos variables, pero las distribuciones condicionadas resultan tiles para estudiar la relacin entre las dos variables. Un caso interesante es cuando las distribuciones de una variable condicionadas por los diferentes valores de la otra son iguales y adems coinciden con la distribucin marginal. Este hecho indica que las variables no estn relacionadas, son independientes.

Supongamos queremos ver si hay relacin entre los resultados de un test de inteligencia y el rendimiento en un trabajo despus de haber realizado un curso de capacitacin.

La tabla siguiente da las frecuencias observadas de las variables CI (coeficiente de inteligencia) y RT (rendimiento en el trabajo)

RT

MalRegularBienTotal

CIBajo67

(46,4)64

(63,6)25

(46)156

Medio427656174

Alto10233770

Total119163118400

Si se supone que las variables no estn relacionadas se pueden calcular las frecuencias esperadas. Con la siguiente regla: La frecuencia esperada de una celda cualquiera se calcula multiplicando el total de su fila por el total de su columna y dividiendo el resultado entre el total de toda la tabla. As salen los nmeros entre parntesis

Contraste de la independencia de dos variables mediante el test (2 de Pearson (chi-cuadrado)

El estadstico (2 se calcula con la frmula

n (Obs i - Esp i ) 2

(2 = ------------- i =1

Esp i

Con este valor calculado de (2 y teniendo en cuenta los grados de libertad de la tabla que si es de dimensin f x c sern : ( f-1) x (c -1)

Y habiendo prefijado previamente el nivel de significacin (que equivale a la probabilidad de equivocarnos al rechazar la hiptesis nula que afirma que las variables son independientes)

Iramos a la tabla de la (2 y si el valor que da la tabla donde se cruzan el nivel de significacin y los grados de libertad es menor que el valor calculado de (2 entonces se rechaza la hiptesis nula que afirma que las variables son independientes.

Cuando trabajamos con el SPSS y antes de realizar el test fijaremos el nivel de significacin que estimamos necesario para que los resultados sean aceptables, por ejemplo :O,05 0,01. Si el nivel prefijado es 0,05 y la significacin que obtiene el SPSS es menor que 0,05 habr que rechazar la Hiptesis nula (la que afirma que las variables son independientes)

Significacin < 0,05 rechazamos H0 y concluimos que las variables son dependientes entre s

Significacin > 0,05 aceptamos H0 y concluimos que las variables son independientes entre s.

Con (2 podemos conocer si dos variables estn asociadas estadsticamente o no. Pero si el resultado es afirmativo, no se conoce la fuerza de la asociacin.

Para saber si la asociacin es fuerte o dbil se emplean otros estadsticos que veremos en la hoja de explicacin sobre SPSS.

Problemas de (2

1. Un socilogo noruego quiere saber si la composicin tnica de una ciudad ha cambiado en los ltimos diez aos. Los datos de la poblacin de hace 10 aos afirman que el 53% eran noruegos, el 32% suecos, el 8% irlandeses, el 5% alemanes y el 2% italianos (no incluimos nacionalidades con porcentaje menor al 2). Para comprobar si ha habido cambios con una significacin de 0,05 el socilogo obtiene una muestra aleatoria de 750 habitantes de la ciudad, y encuentra 399 noruegos, 193 suecos, 63 irlandeses, 82 alemanes y 13 italianos. Cul es la hiptesis nula? cul es la conclusin?

2. Estamos interesados en conocer si hay relacin entre el nivel educativo de los padres y el nmero de hijos que tienen. Se realiza una encuesta y se obtienen los siguientes resultados:

Nivel educativo / nmero de hijosDos o menos hijosMas de dos hijos

Educacin universitaria5322

Slo bachillerato3738

3. Se pregunta a los estudiantes de tres carreras si para una tarde del sbado prefieren a) ir al cine, b) salir con amigos c) leer un libro. Los resultados se dan en la siguiente tabla. Queremos saber si hay diferencias los gustos de los estudiantes de las tres carreras con un nivel de significacin de 005.Carreras / actividadIr al cineSalir con amigosLeer un libro

A265519

B2411858

C2011268

4. Para evitar arbitrariedades se ha decidido que cada examen de una asignatura sea corregido por 4 profesores diferentes y ninguno de ellos hace anotaciones en los exmenes. Los resultados obtenidos son:

Profesores / notasAprobadosSuspensos

A6857

B9060

C7030

D12030

AL nivel de significacin del 0`05 podemos concluir que existe una diferencia significativa en el sistema de calificacin de estos profesores?

5. Queremos saber si las notas obtenidas por alumnos y alumnas son significativamente diferentes al nivel 5%. Los datos son:

Notas / Sexo Alumnosalumnas

Aprobado3040

Suspenso1020

6. En una facultad se ha preguntado a los estudiantes de los distintos cursos las horas que dedican al estudio cada da cuando no es poca de exmenes y los resultados se muestran en la siguiente tabla:

Tiempo/curso12345

Menos de 1 hora1820327796

Entre 1 hora y 3 horas2235908350

Ms de 3 horas6070806014

Se pide contrastar la hiptesis de independencia del curso y el tiempo dedicado al estudio al nivel 005.

Nubes de puntos

Un DIAGRAMA DE DISPERSIN sirve para mostrar las relaciones entre dos variables cuantitativas medidas para los mismos individuos. Cada individuo viene representado mediante un punto del plano, cuyas coordenadas son los valores que toma el individuo para cada una de las variables. En el eje X se suele representar la v. Independiente y en el eje Y la dependiente.

El aspecto general del DIAGRAMA DE DISPERSIN debe revelar la direccin, la forma y la fuerza de la relacin.

ASOCIACIN POSITIVA Y ASOCIACIN NEGATIVA

Dos variables estn asociadas positivamente (relacin directa) cuando valores superiores (inferiores) al promedio de una de ellas tienden a acompaar a valores superiores (inferiores) de la otra.

Dos variables estn asociadas negativamente (relacin inversa) cuando valores superiores (inferiores) al promedio de una de ellas tienden a acompaar a valores inferiores (superiores) de la otra.

Relacin linealLa COVARIANZA es un parmetro estadstico conjunto de las dos variables estudiadas, se representa por s xy

_

(x i () (y i y) x i y i _ _____

s x y = ------------------------ = ---------- - ( y n n

el denominador ser n-1 cuando se trabaja con muestras en estadstica inferencial , en ese caso slo es vlida la primera frmula

sxy > 0 relacin directa

sxy < 0 relacin inversa

Valores grandes de sxy advierten que la relacin entre las variables puede ser fuerte.

La covarianza depende de las unidades de medida, para evitar este problema se usa el coeficiente de correlacin lineal

r = sxy / (sx sy)

r > 0 correlacin directa; r < 0 correlacin inversar vara entre 1 y +1; |r| =1 correlacin perfecta

SI r es cercano a 1 la correlacin es fuerte e inversa

Si r es cercano a +1 la correlacin es fuerte y directa

Si r es cercano a 0 la correlacin es dbil.

COEFICIENTE DE DETERMINACIN

Cuando r es cercano a +1 o a 1 la correlacin lineal es fuerte. Los cambios en la variable Y se explican en gran medida por los cambios de la variable X. Se pueden estimar valores de Y a partir de la X. Una medida de la fiabilidad de esta estimacin es el coeficiente de determinacin r2 . El valor de r2 indica la proporcin de la variacin de la variable Y que puede ser explicada por la variacin de la variable X.

Si se multiplica r2 por 100 se obtiene el porcentaje de cambio de la variable Y explicado por la variable X.

Regresin lineal

La recta de regresin mnimo cuadrtica es la que mejor se ajusta a la nube de puntos.

La recta de regresin de Y sobre X es:

_ Sxy

y y = -------------- (x - ()

S2x

La recta de regresin de X sobre Y es:

Sxy _

x ( = -------------- (y - y)

S2y

La fiabilidad de las estimaciones hechas a partir de la recta de regresin dependen fundamentalmente de:

a) el valor del coeficiente de correlacin r. Una correlacin alta asegura estimaciones fiables.

b) el nmero de datos considerados. La fiabilidad aumenta al aumentar el n de datos. Una recta obtenida con pocos datos genera grandes riesgos, aunque r sea alto.

c) la proximidad del valor xo para el que quiere hacerse la estimacin a la media.

RESIDUOS: Un residuo es la diferencia entre un valor observado de la variable dependiente Y, y el valor predicho por la recta de regresin.

Residuo= y obsevada y predicha.

Asociacin no implica causalidad

Que exista una fuerte asociacin entre dos variables no es suficiente para sacar conclusiones sobre las relaciones causa-efecto

Ejemplo: existe fuerte correlacin entre el nmero de bomberos que actan en un incendio y la importancia del dao ocasionado por el mismo.

EJERCICIOS.

El nmero de horas de estudio de una asignatura y la calificacin obtenida en el examen correspondiente fue para siete personas, la siguiente:

Horas581012151718

Calificacin3656979

a) Dibuja la nube de puntos y traza, aproximadamente, la recta de regresin asociada.

b) Indica como parece ser la correlacin.

Solucin:La correlacin parece ser directa y fuerte

Calcula el coeficiente de correlacin y las rectas de regresin asociadas a los datos del problema anterior. Representa las dos rectas de regresin sobre la nube de puntos.

Solucin: Coeficiente de correlacin= r= 088

Rectas de regresin: y = 039 x + 17 ; x = 197 y - 052

La tabla siguiente muestra para los aos que se indican, la natalidad por cada 1000 habitantes de una ciudad espaola.

Aos198619871988198919901991

Natalidad212120181615

Calcula: a) el coeficiente de correlacin e interpreta su valor

b) La natalidad esperada para los aos 2000 y 2005.

c) Comenta los resultados obtenidos

Solucin

a) Coficiente de correlacin = -0`97

b)natalidad esperada para el 2000 = 3`09

natalidad esperada para el 2005 = -361

EL modelo no es adecuado, cuando nos alejamos del ao 2000 se llega al resultado absurdo de una natalidad negativa

1.7 Clasificaciones de las variables.

Ya hemos estudiado las escalas de medida de las variables, ahora veamos algunas clasificaciones de las variables segn diversos criterios:

a) las variables y su papel en la investigacin o en las hiptesis.

Variables independientes (vv.ii) - Variables dependientes (vv.dd)

Las variables independientes son las caractersticas en las que difieren los objetos de estudio (sexo, edad, etc.) (en estudios de encuesta y en estudios observacionales) mientras que en estudios experimentales son las diferentes condiciones a las que exponemos a los objetos de estudio.

Tambin se les llama variables explicativas o predictoras.

Las variables dependientes son aquellas cuyo comportamiento es explicado o pronosticado por una o mas variables independientes. Tambin se las llama variables criterio o respuesta. En las investigaciones no experimentales no siempre est claro si una variable es dependiente o independiente, siendo el contexto de la investigacin la que hace decidir aunque a veces una variable puede desempear diferentes roles en distintas situaciones.

En algunas aplicaciones del anlisis multivariable, todas las variables tienen el mismo estatus y se habla de relaciones de interdependencia entre variables. En estos casos no hay variables dependientes e independientes.

b) Clasificacin de las variables por los valores que pueden tomar. La clasificacin de las escalas de medida no siempre deja las cosas claras, por eso frecuentemente en el anlisis de datos se divide a las variables en dos grandes grupos:

Variables no mtricas o cualitativas (escalas nominal y ordinal)

Variables mtricas o cuantitativas ( escalas de intervalo o de razn)

O tambin:

1. Variable continua es una variable cuantitativa que por su naturaleza puede adoptar cualquier valor numrico (dentro de un intervalo). Para todo par de valores siempre se puede encontrar un valor intermedio, la precisin la da el instrumento de medida. (peso, estatura..)

2. Variable discreta : variable cualitativa o cuantitativa que slo puede adoptar un nmero finito de valores distintos. En las cuantitativas entre dos valores continuos no hay uno intermedio. (nmero de hijos)

3. Variable dicotmica o binaria : Es aquella que slo puede tomar dos valores. Por ejemplo Sexo, tener o no una enfermedad. Si a sus valores se les pone 0 y 1 se le llama binaria

4. Variable ficticia (dummy). Las variables cualitativas (nominales y ordinales) a veces se convierten en numricas usando variables ficticias. En ellas el 1 indica presencia de una categora y el 0 ausencia de la misma. Para convertir una variable cualitativa en dummy hacen falta tantas variables como niveles de la variable cualitativa menos uno. Para sexo sera suficiente con una (varn=0, mujer=1) Para Estudios (Eso, Bachillerato y FP) haran falta dos: V1: eso=1, Bach y FP=0, V2: Bach=1, eso y Fp =0, FP queda definida por ser 0 en las otras dos.

En relacin al anlisis de datos se clasifican las variables en funcin de ciertas clasificaciones de escala y de origen:

Puntuaciones directas o brutas, son las obtenidas directamente y se suelen representar con letras maysculas (X,Y, ...) y tienen Medias ((, (, ...) y desviaciones tpicas (s x , s y ...)

Puntuaciones centradas en la media o diferenciales, se suelen representar con letras minsculas y son un cambio de origen al restar la media de las puntuaciones originales (x = X - (; T = T-(..) estas variables tienen media cero y su desviacin tpica coincide con la de las puntuaciones originales. Es un cambio de origen pero no de escala

Puntuaciones tpicas o estandarizadas, normalmente representadas por la letra z con el subndice correspondiente a la variable ( z x , z y ...). Se obtiene restando a los valores originales la media y dividiendo por la desviacin tpica ( z x = ( X - ( ) / s x

Las puntuaciones tpicas estn libres de escala y siempre tiene media 0 y desviacin tpica 1.

La combinacin lineal de variables

La mayor parte de las tcnicas multivariables combinan las variables de alguna forma "til". Normalmente esta combinacin es una combinacin lineal, a veces llamada variante, aunque tambin hay combinaciones no lineales, no las estudiaremos este curso. Una combinacin lineal es una suma ponderada de las variables, para un conjunto p de variables observadas tendremos

V = w1 X1 + w2 X2 + ... w p X k

V es la nueva variante o combinacin lineal, y X j y w j representan las variables originales y sus pesos, respectivamente (j = 1,2, p). Esa misma ecuacin se puede representar como el producto de dos vectores v = w' x

En cuanto al nmero de variables que interesa incluir en un anlisis multivariante como regla general se debe observar la parsimonia cientfica, es decir obtener la mejor solucin con el menor nmero posible de variables.1.8 Tipos de datos en el Anlisis Multivariable.

A) Matrices de datos

Los datos son un conjunto de valores que representan las puntuaciones de n unidades de anlisis sobre p variables. En las variables cuantitativas, los valores son puntuaciones numricas, en las cualitativas, cdigos numricos que representan niveles diferentes de la variable categrica (soltero, casado, viudo, etc.)

Estos valores de colocan en una matriz X i j , i=1...n , j=1... p

X 11 X 12 .. X 1 j ... X 1 p X= X 21 X 22 .. X 2 j ... X 2 p ..........................

X i1 X i2 .. X i j ... X i p ....... ........

X n1 X n2 .. X n j ... X n p Estos datos son los que se introducen en el ordenador y sern procesados por el programa SPSS u otro similar

1.9 Matrices

(se vern otros tipos de datos despus de estudiar las matrices)

Se suele definir una matriz como un conjunto de nmeros ordenados en filas y columnas.

1 2 3 -4 3 2 1,2

0 -1 5 0.3 2 1 3

5 -4 0

La dimensin de una matriz es n x m, donde n es el nmero de filas de la matriz y m el nmero de columnas. Las matrices anteriores tienen como dimensiones 2x4 y 3x3, respectivamente.

Cuando n = m (el nmero de filas coincide con el de columnas), se dice que la matriz es cuadrada. La segunda matriz del ejemplo es cuadrada.

Las matrices de dimensin 1 x n se llaman vectores fila.

Ejemplo:

(1 2 -5 4) es una matriz de dimensin 1x4 o un vector fila

Las matrices de dimensin m x 1 se llaman vectores columna.

Ejemplo 3

2 es una matriz de dimensin 3 x1 o un vector columna

7

Transponer una matriz es una operacin que consiste en obtener una nueva matriz en la que hemos cambiado filas por columnas en la matriz dada.

Ejemplo de una matriz y su transpuesta:

2 3 2 1 -2

1 7 3 7 4

-2 4

Si la dimensin de una matriz es m x n la de su transpuesta ser n x m.

La transpuesta de la transpuesta de una matriz es la matriz de partida.

En las ciencias sociales las matrices se usan en muy diversas situaciones. Ya hemos mencionado que uno de los usos ms frecuentes de las matrices para representar las puntuaciones obtenidas por n sujetos en m variables, a esta matriz se la suele llamar matriz de los datos.

V a r i a b l e s

1 2 3 ... m

En la notacin literal de

S 1 x11 x12 x13 x1m las matrices el primer

u 2 x21 x22 x23 x2m subndice indica la fila

j 3 x31 x32 x33 x3m y el segundo la columna

e .

t .

o .

s n xn1 xn2 xn3 xnmMatrices especiales: Adems de las matrices cuadradas, fila y columna que ya hemos mencionado son importantes las Matrices simtricas, aquellas que son iguales a su transpuesta (no cambian al cambiar filas por columnas)

1 3 2

3 0 6

2 6 3

Matrices diagonales, aquellas cuyos nicos elementos distintos de cero son los de la diagonal principal (la que va de arriba izquierda a abajo derecha) o los de la diagonal secundaria (la que va de arriba derecha a abajo izquierda). Si todos los elementos de la diagonal principal son unos, en lugar de matriz diagonal se la llama matriz unidad.Matriz triangular es una matriz que tiene nulos todos los elementos que estn situados encima (o debajo) de la diagonal principal.

Suma de matrices.Sumar dos matrices es obtener una nueva matriz en la que cada elemento es la suma de los elementos correspondientes de las matrices que estamos sumando. Para que dos matrices se puedan sumar es preciso que ambas tengan la misma dimensin.

(aij) + (bij) = (aij + bij) =(cij)

2 1 3 0 5 1

0 -3 + 1 4 = 1 1

-8 2 4 -2 -4 0

Producto de matrices.

Multiplicar dos matrices es obtener una tercera en la que cada elemento se obtiene segn la formula que exponemos a continuacin.

(aij) * (bij) = (cij)

ci j = ai1 x b1j + ai2 x b2j + a i3 x b3 j +...+ a i m x b m j

Para que dos matrices sean multiplicables es necesario que el nmero de columnas de la primera coincida con el nmero de filas de la segunda. Ejemplo:

8 1 3 5 2 9 1 65 32 82 29

2 -6 4 1 7 4 3 = 36 -26 2 8

8 3 2 6

Las dimensiones de las matrices anteriores son

2x3 3x4 2x4

El elemento c11 cuyo valor es 65 se obtiene como resultado de multiplicar los elementos correspondientes de la primera fila con los de la primera columna: 8x5 + 1x1 + 3x8 =65

De la misma forma se calculan todos los otros elementos de la matriz producto.

Matriz de Varianzas y Covarianzas.Si se tienen n variables, se llama matriz de varianzas y covarianzas de estas n variables a una matriz cuadrada definida de forma que en la diagonal principal figuran las varianzas de las n variables (el trmino colocado en la fila i , columna i es el valor de la varianza de la variable i) Y el nmero situado en la fila i columna j es la covarianza de la variable i con la j. Evidentemente esta matriz siempre es simtrica, ya que la covarianza de la variable i con la j es la misma que la covarianza de la variable j con la i.

Recordemos las definiciones de varianza y covarianza.

La varianza de la variable x i,

n

( (x i -( )2 i =1

s i = -------------

n -1

La covarianza entre las variables x 1 y x 2

n

( (x i1 - ( 1) (x i2 - ( 2)

i =1

s12 = s21 = ------------------------------------

n -1

Ejemplo de clculo de matriz de varianzas y covarianzas.

Supongamos que la variable x1 ha tomado los valores 1, 3 y 2

mientras que la variable x2 ha tomado los valores 1, 4 y 7.

La media de la variable x1 es (1+3+2)/3 =2 y la de la variable x2 es 4. Formemos la matriz D de las desviaciones respecto de la media

1 1 2 4 -1 -3

3 4 - 2 4 = 1 0 = x d 2 7 2 4 0 3

La transpuesta de x d ser -1 1 0

-3 0 3 = x dTEl producto x dT x d (dividiendo todos sus trminos por n -1) dar la matriz buscada de varianzas-covarianzas

AUTOVALORES Y AUTOVECTORES DE UNA MATRIZ

Dada la matriz cuadrada A, de dimensin n x n, el nmero ( es un autovalor y el vector X, de dimensin nx1 es un autovector de ella si se verifica la siguiente ecuacin:

A X = ( X esto es A n x n X nx1 = ( X nx1 A X = ( X => A X - ( X = 0 => ( A - ( I) X = 0

donde 0 es una matriz de dimensin nxn con todos sus elementos nulos e I es la matriz unidad (con unos en la diagonal y ceros en los dems lugares)

Para calcular los autovalores se resuelve la ecuacin

(A - ( I ( = 0 donde la incgnita es (f( ( ) = ( A - ( I ( recibe el nombre de funcin caracterstica de la matriz A.

Cada autovalor tiene asociado un autovector. Para calcular los autovectores se sustituye el valor del autovalor ( en ( A - ( I) X = 0 y se resuelve respecto de X.

Ejemplo: calcular los autovalores y autovectores de la matriz

3 1

A = 2 2

( A - ( I ( = 0

3 1 1 0 3 -( 1

- ( = 0 => = 0

2 2 0 1 2 2-((3 - ()(2 - () - 2 = 6 - 3 ( - 2 ( + (2 - 2 = 0

(2 - 5 ( + 4 = 0, Los autovalores son 1 y 4

Para encontrar el autovector asociado con el autovalor 1 sustituyo ( por 1 en:

( A - ( I) X = 0

3 1 1 0 x1 2 1 x1 0

- ( = =

2 2 0 1 x2 2 1 x2 0

2x1 + x2 = 0

2x1 + x2 = 0 Sistema compatible indeterminado

2x1 = - x2 para x2 = k , x1 = (-1/2)k, el autovector ser ( -1/2 k, k ), en columna.

Hacer la comprobacin de que se cumple la ecuacin A X= 1 X

Hallar el autovector para el autovalor 4. Da el autovector (k , k )

Propiedades de los autovalores y de los Autovectores

1. La suma de los autovalores es igual a la suma de los elementos de la diagonal principal de la matriz (traza de la matriz)

2. El producto de los autovalores de una matriz coincide con el valor del determinante de la matriz

3. Para cualquier matriz no singular, el nmero de autovalores (contando las duplicaciones) coincide con el rango de la matriz.

Ejercicios. Calcular autovalores y autovectores de

2 1 da autovalores 5 y 1,

3 4 para el 1 el autovector es (k, -k)'

para el 5 el autovector es (k, 3k)' o (1/3 k , k)'

Formatos de datos mas empleados en los anlisis multivariantes (adems de la matriz de datos)

a) Matriz de suma de cuadrados y productos cruzados. La denotaremos por S. Es previa a la matriz de varianzas - covarianzas, que a su vez precede a la matriz de correlaciones.

Los elementos de la diagonal principal de la matriz de cuadrados y productos cruzados, son la suma de las desviaciones de la media elevadas al cuadrado, o sea

n _ _

Suma de cuadrados ( X j ) = (X i j - X j ) 2 donde X j es la media de las

i= 1

puntuaciones en la variable j - esima.

Los elementos externos a la diagonal principal son los productos cruzados de las variables centradas o diferenciadas, esto es:

n _ _

Suma de productos cruzados ( X j , X k ) = (X i j - X j ) (X i k - X k ) donde j,k = 1,2...p, j ( k i= 1Hay que observar que la matriz ser cuadrada y simtrica y adems su dimensin coincide con el nmero de variables.

b) Matriz de varianzas-covarianzas, la denotaremos con C, es tambin una matriz cuadrada y simtrica, que tiene como elementos en la diagonal principal las varianzas de cada una de las variables y como elementos externos a la diagonal, las covarianzas entre las variables. Recordemos que las varianzas se definen como las sumas de cuadrados promediadas

n _

Sx2 = 1/ (n-1) = (X i j - X j ) 2

i=1

y las covarianzas como las sumas de productos cruzados tambin promediados

Cov ( X j , X k ) = s i j = 1/(n-1) (X i j - X j ) (X i k - X k ) donde j,k = 1,2...p, j ( k,

Las covarianzas y las varianzas retienen la informacin de la escala de las variables. Si se conoce la matriz S, se puede calcular la matriz C, porque

C= 1/(n-1) S

Recordando que si la V es una combinacin lineal V = w1 X1 + w2 X2 + ... w p X p

Se puede expresar como V= w X

Podemos escribir la varianza de la combinacin lineal V, con la expresin

Var (V) = w C w, donde C es la matriz de varianzas-covarianzas de las variables

( X1, X2 ... X p )

C) Matriz de correlaciones RAl igual que S y C, la matriz de correlaciones es cuadrada y simtrica y tiene unos en la diagonal principal y los elementos externos a la diagonal son las correlaciones entre las variables indicadas por la fila y columna correspondiente. Realmente una correlacin no es mas que una covarianza entre puntuaciones tpicas, que como ya se sabe tienen varianza unidad (los unos de la diagonal principal) y adems la media es cero.

D) Matrices de proximidad (similaridad o disimilaridad)

Algunas tcnicas multivariante parten de datos o de medidas de asociacin que reflejan el grado de similaridad o disimilaridad entre los sujetos y/o las variables. Normalmente la similaridad se puede entender como la proximidad entre dos puntos en un espacio de n dimensiones (que no se puede representar fsicamente, si n es mayor que 3). De igual forma, a medida que los sujetos son mas diferentes (disimilares) los puntos que los representan estarn ms alejados. Las matrices de proximidad (similaridad o disimilaridad) pueden estar formadas por diferentes ndices, segn el nivel mtrico de las variables y el procedimiento de recogida de datos. Una de las medidas de similaridad ms usada es la correlacin producto - momento de Pearson u otros ndices que reflejan el grado de asociacin.

Un tipo especial de medida de disimilaridad, del que se parte y/o al que se llega en algunas tcnicas multivariantes es la distancia, que da lugar a las denominadas matrices de distancia entre objetos o unidades (de orden n*n) con elementos d i j que representa la distancia entre un objeto i representado en la fila de la matriz y un objeto j indicado en la columna.

Presentaremos algunas de las distancias mas utilizadas en AM.

La distancia euclidea

p

d i j = ( ( X i a - X j a ) 2 a=1

La distancia de Manhatan

r

d i j ( r ) = ( X i a - X j a rLa distancia de Mahalanobis

(X i - X j ) C -1 (X i - X j )

donde X i y X j representan los vectores de las puntuaciones de los objetos i y j en las p variables y C -1 es la matriz inversa de la matriz de varianzas - covarianzas de p dimensiones

1.10 Otros conceptos bsicos del AM

LOS RESIDUOS

Frecuentemente un objetivo del anlisis multivariante es intentar reproducir la variacin del conjunto de variables observadas o de la variable dependiente a partir de la (s) combinacin (es) lineal (es) obtenidas.

La diferencia entre los valores reproducidos y los valores observados se llama residuo y su conjunto es una medida de la mayor o menor eficacia del modelo. Cuanto menores sean los residuos mejor ajuste proporcionar el modelo.

En la mayor parte de los anlisis la suma de los residuos de toda la muestra es cero, ya que los valores obtenidos mediante el modelo a veces sern superiores a los valores reales y otras veces sern menores, por lo que el promedio es cero. Por ello se suele trabajar con los valores de los residuos al cuadrado (residuos al cuadrado). Cuando los valores reales son cercanos a los valores pronosticados, la prediccin es buena y los errores al cuadrado son pequeos.

Veremos que en algunas tcnicas multivariantes la distribucin de los residuos tiene un papel importante para evaluar si se cumplen algunos de los requisitos requeridos para usar la tcnica.

EXPLORACION INICIAL DE LOS DATOS

Es razonable que antes de aplicar una compleja tcnica multivariante, el investigador conozca la distribucin de cada variable independientemente.

El estudio inicial de los datos puede tener varios objetivos: deteccin de observaciones aisladas (outliers), tratamiento de los casos perdidos (missing data) as como la comprobacin de los

supestos que han de cumplir los datos para poder aplicar la tcnica multivariable en cuestin.

a) Deteccin de casos aislados y observaciones influyentes

Los casos aislados son observaciones con valores extremos en una variable o en una combinacin de variables y se le reconoce porque son muy diferentes de las restantes observaciones. No todos los casos aislados son necesariamente problemticos en el anlisis estadstico, pero a veces pueden ser observaciones influyentes que distorsionan los resultados. El investigador tiene que detectar la presencia de estos casos cuidadosamente.

Puede haber cuatro razones para la presencia de casos aislados:

1. Introduccin incorrecta de los datos en el archivo por errores de grabacin o codificacin. Estos casos se detectan mediante un anlisis de frecuencias porque se encuentran fuera del rango de los valores admisibles para las variables. A veces se pueden corregir y en caso contrario se les debe eliminar o tratarlos como casos perdidos.

2. Cuando el caso no pertenece a la poblacin objeto de estudio de la que se ha obtenido la muestra. En esta situacin hay que eliminar el caso.

3. El caso pertenece a la poblacin, pero tiene un valor extraordinario en relacin a los restantes casos. Es posible que exista una explicacin para ello y el investigador ha de decidir si retiene el dato o lo excluye del anlisis.

4. Cuando los valores caen dentro del rango esperado para cada variable pero resultan nicos en su combinacin con otras variables, en este caso el investigador tratar de encontrar una explicacin. A estos casos se les llama casos aislados multivariantes.El problema es que pueden dar lugar a resultados no generalizables por estar muy influidos con la presencia de estos datos.

Los casos aislados de tipo univariante se caracterizan por tener puntuaciones tpicas muy extremas: fuera del rango (-3 , +3). Pero en muestras grandes no es raro que se presenten unos cuantos casos con estas puntuaciones.

Con el SPSS se pueden tipificar las variables y estudiar si las puntuaciones tpicas caen fuera del rango (-3 , +3). Para ello se elige:

Analizar -> Estadsticos descriptivos -> descriptivos

Se llevan al rectngulo de la derecha las variables que queremos tipificar y se seala el cuadradito que est abajo a la izquierda donde pone Guardar valores tipificados.

Por cada variable sealada tendremos una nueva variable en nuestro fichero de datos con el mismo nombre pero con una z delante: la variable p401 tipificada se llama zp401 y como la etiqueta de la p401 es simpata norteafricana, el SPSS pone la etiqueta a la variable tipificada como: punta simpata norteafricana.

Para ver los valores de la variable tipificada mas alejados de 3 desviaciones tpicas se puede ir al fichero de datos y explorar visualmente la columna de sus datos o usar Analizar -> frecuencias con estas variables.

La opcin Explorar del SPSS proporciona grficos especialmente tiles como los de caja con el que veremos las distribucin intercuartlica o el de tallo y hoja.

Para detectar los casos aislados multivariantes se suele emplear la Distancia de MahalanobisQue es una medida de cunto difieren los valores de un caso en las variables independientes respecto al promedio para todos los casos. Una distancia de Mahalanobis grande identificar a un caso que tenga valores extremos en una o ms de las variables independientes.

DATOS PERDIDOS

Uno de los problemas mas frecuentes del anlisis multivariante es la presencia de datos ausentes. En el caso de la investigacin mediante cuestionario son consecuencia de la no respuesta de los encuestados a ciertas preguntas de la encuesta. Su gravedad depende del numero de casos perdidos y de la razn de su existencia. Se puede dejar una pregunta sin respuesta por despiste o porque el/la encuestado/a tiene razones para no contestar. El contar con el resto de las respuestas de una encuesta incompleta puede afectar a la posible generalizacin de los resultados. Habra que hacerse algunas preguntas. Como: difieren estos sujetos de los que contestan a todas las preguntas? Tienen estas diferencias impacto sobre los resultados de la investigacin?.

La mayora de los autores consideran que hay dos razones para la presencia de datos ausentes:

los procesos sistemticos externos a los sujetos, como son problemas de recogida de datos o errores de transcripcin o grabacin.

La accin del sujeto que responde de dejar de hacerlo a ciertas preguntas.

Los del primer tipo se suelen poder corregir, pero los segundos presentan mayor dificultad y se deberan estudiar cuidadosamente.

Si los datos ausentes siguen una distribucin aleatoria en la matriz de datos, normalmente no son un grave problema, pero si el patrn no es aleatorio pueden afectar notablemente a los resultados. Los procedimientos para estudiar la aleatoriedad de la distribucin de los datos ausentes se suelen clasificar en tres tipos:

1. Se divide al conjunto de todos los datos en dos grupos los que tienen datos completos y los que no los tienen, y se estudian las diferencias existentes en las variables de inters. Si estas diferencias son significativas no hay distribucin aleatoria de los datos. Para esta comparacin se puede usar el contraste t de Student para variables cuantitativas o contrastes de independencia basados en la (2 de Pearson (chi-cuadrado) para variables categricas.

2. Otro procedimiento usa correlaciones para parejas de variables dicotomizadas entre la presencia o no de datos perdidos. Se crea una variable ficticia (dummy) en la que 1 significa que hay valor definido y 0 significa que hay un valor ausente. Las correlaciones resultantes indican la correlacin que existe entre los valores ausentes en las dos variables y se puede estudiar la significacin de estas correlaciones.

3. Por ltimo se puede realizar un examen global de la aleatoriedad sobre la matriz de datos por inspeccin visual.

Tratamiento de los casos perdidos. Tcnicas de "imputacin".

Hay dos opciones o procedimientos para tratar los datos perdidos.

1. Eliminar los casos con datos incompletos

2. Usar algn procedimiento para asignar un valor (imputacin) al dato perdido

La opcin ms simple es eliminar los casos incompletos y trabajar slo con los casos con datos completos. Es la opcin que asumen por defecto los programas de ordenador. Cuando el patrn de reparto de los datos perdidos es completamente aleatorio y los datos perdidos se reparten por toda las variables, esta opcin puede tener como consecuencia una reduccin importante del tamao de la muestra con lo que no sera posible realizar anlisis multivariantes.

Por otra parte si el patrn de reparto de los datos perdidos no es aleatorio, eliminar los casos con datos perdidos puede introducir sesgos notables en los resultados.

Imputacin de datos ausentes en el archivo de datos

Suele ser mas recomendable realizar la imputacin de los datos sobre el fichero de datos disponible y emplear los datos imputados en los clculos posteriores. Casi todos los programas de ordenador proporcionan alguna opcin en este sentido. El SPSS, dentro del men TRANSFORMAR DATOS permite imputar datos ausentes segn varias opciones

1. Media de la serie. Se sustituye el valor perdido por la media calculada con todos los datos vlidos de la variable.

2. Media de puntos adyacentes. Se sustituye el valor perdido por la media de los valores adyacentes vlidos. (desde el anterior caso perdido al posterior )

3. Mediana de los puntos adyacentes. Como el caso dos pero mediana en vez de media.

4. Interpolacin lineal. Se interpola linealmente entre el valor previo al perdido y el posterior.

5. Tendencia lineal en el punto. Se sustituyen los valores perdidos de la serie por la tendencia lineal en ese punto haciendo una regresin lineal de los datos de la variable sobre una variable Indice definida de 1 a n.

Clculo de matrices de varianzas-covarianzas o correlaciones con valores perdidos

Los programas de ordenador duelen ofrecer tres opciones y el usuario puede decidir cual le parece mas conveniente as como comprobar las diferencias en los resultados al emplear las diferentes posibilidades.

1. Excluir casos segn lista (listwise), se usan slo los casos con todos los datos

2. Excluir casos segn pareja (pairwise),se usan para cada par de variables los casos completos en las dos variables para las que se calcula la covarianza o la correlacin.

3. Reemplazar por la media, se utilizan todos los casos del fichero pero se sustituyen los valores ausentes por la media de a variable correspondiente.El spss emplea la primera opcin por defecto.

La opcin segunda es til en muchas ocasiones, pero cada covarianza o correlacin estar calculada a partir de un conjunto de diferentes casos. EL usar esta opcin puede ocasionar problemas al calcular las matrices inversas y los autovalores. A veces se puede llegar a autovalores negativos que provocan matrices no definidas positivas, y ste es un supuesto bsico en algunas tcnicas multivariantes.

La opcin tercera es recomendable cuando hay pocos datos ausentes, pero si hay muchos el sustituirlos por la media reducir la variabilidad real de las variables lo que normalmente tiene como consecuencia una reduccin de las correlaciones estimadas.

Tanto la opcin 2 como la 3 deben emplearse con cautela y es conveniente comparar las matrices obtenidas con estas opciones con la que se obtiene con los datos completos para ver su similaridad

Algunos de los supuestos que frecuentemente se exigen en los modelos multivariantes

Normalidad.

El supuesto fundamental del anlisis multivariante es la normalidad de los datos. Casi siempre se exige que la distribucin de los datos de al menos una variable mtrica sea normal. Si la variacin respecto de la distribucin normal es suficientemente amplia, los resultados de los test estadsticos resultantes no sern vlidos. La normalidad univariante es fcil de contrastar. La norma ms sencilla es mediante la comprobacin visual del histograma que compare los valores de los datos observados con una distribucin normal. Este mtodo tiene dificultades en muestras pequeas.

Otra forma de comprobar mediante grficos la normalidad de una variable consiste en realizar el grfico de la probabilidad acumulada de la variable estudiada con los valores de la distribucin acumulada bajo hiptesis de N (0,1). Si la variable estudiada fuera normal, se representara una nube de puntos muy prximos a la diagonal principal, recta con pendiente 1.

Los test estadsticos de normalidad que traen los programas estadsticos como el SPSS calculan el nivel de significacin para las diferencias respecto de una distribucin normal. Lo mejor es usar tanto la comparacin del grfico como test estadstico.

El SPSS proporciona interesantes resultados grficos con la opcin explorar, para la normalidad univariante y tambin dispone de test estadsticos basados en el contraste Kolmogorov-Smirnov (correccin de Lilliefors). Los grficos ms empleados son : el histograma, el diagrama de tallo y hojas el diagrama de cajas y especialmente el q-q plot, que es una linealizacin de la distribucin normal

La normalidad multivariante implica que las variables individualmente sean normales y que sus combinaciones tambin lo sean. La normalidad multivariante es ms difcil de contrastar, aunque existen varios test para cuando la tcnica multivariante exige este supuesto.

Hay soluciones que iremos viendo a lo largo del curso para la no normalidad de los datos, normalmente consisten en aplicar ciertas transformaciones a los datos que les hacen acercarse a la normalidad.

Homocedasticidad

Es un supuesto relativo bsicamente a las relaciones de dependencia entre variables. Se refiere a que las variables dependientes tengan iguales niveles de varianza a lo largo del rango del predictor de las variables. Aunque las variables dependientes deben ser mtricas, este concepto de igual dispersin de la varianza tambin se aplica a variables no mtricas.

Para analizar la homogeneidad de las varianzas, se suele hacer la representacin grfica de la nube de puntos de los residuos tipificados frente a las observaciones tipificadas. Si la varianza de los residuos fuera constante, la nube de puntos estara concentrada en una banda, centrada en el cero y paralela al eje de abcisas. Cuando la dispersin no es constante , se puede hacer una transformacin en la variable que permite estabilizar la varianza. Las transformaciones que se suelen emplear son:

Y p p 0

T(Y) =

Ln Y p = 0

La solucin a la heterocedasticidad es similar a las que se emplean para la no normalidad, es decir transformaciones de los datos.

Cuando hay slo una variable dependiente una buena prueba para evaluar el supuesto de homocedasticidad entre grupos es el test de Levene que la ofrece el SPSS dentro del anlisis de la varianza. Esta prueba la calcula segn diversos procedimientos y muestra el valor del estadstico, los grados de libertad y lo que realmente nos importa el valor de la significacin que habitualmente se interpreta como que con valores superiores a 0,05 se cumple el supuesto de homocedasticidad.

Linealidad de las relaciones

Este supuesto establece que la relacin entre dos o mas variables es lineal. Es un supuesto fundamental en las tcnicas que se basan en el modelo lineal general que establecen combinaciones lineales entre variables.

En algunas tcnicas la no-linealidad se detecta a travs de los grficos de los residuos, pero la forma mas frecuente para obtener una idea rpida sobre la linealidad entre variables es examinar los diagramas de dispersin de las parejas de variables. Se recomienda la opcin matricial, al definir los diagramas de dispersin. Si el fichero tiene muchos datos se recomienda hacer antes del grfico una seleccin aleatoria de casos para que la visualizacin sea aclaratoria.

Independencia de las variables. Ausencia de errores correlacionados.

En muchos anlisis se exige que el valor observado en una variable para un individuo no est influenciado por los valores de esta variable en otros individuos. Esta exigencia se le suele hacer a los residuos (diferencia entre valor observado y valor predicho por el modelo). Los residuos no deben tener ningn patrn sistemtico de comportarse respecto a la secuencia de observacin. EL estadstico de Durbin Watson, D, mide la autocorrelacin entre el residuo de una observacin con la anterior. Si su valor es cercano a 2 , los residuos no tienen autocorrelacin (estn incorrelados), si es cercano a 4 estarn autocorrealdos negativamente, y si se aproxima a cero estarn autocorrealdos positivamente .

1.11 Las tcnicas multivariantes y su clasificacin

El Anlisis Multivariante es el conjunto de mtodos estadsticos cuya finalidad es analizar simultneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo objeto estudiado.

Su razn de ser radica en un mejor entendimiento del fenmeno objeto de estudio obteniendo informacin que los mtodos estadsticos univariantes y bivariantes son incapaces de conseguir.

Las tcnicas multivariantes pueden dividirse en tres grandes grupos segn el papel que jueguen en el anlisis las variables consideradas:

1) Mtodos de dependencia

2) Mtodos de interdependencia

3) Mtodos estructurales

Los pasos que se han de dar para realizar un anlisis multivariable son:

1) Establecer los objetivos del anlisis

2) Disear el anlisis

3) Evaluar las hiptesis subyacentes a la tcnica a utilizar

4) Realizar el anlisis

5) Interpretar los resultados obtenidos

6) Validar dichos resultados

Clasificacin de las TECNICAS MULTIVARIANTES

Se pueden clasificar en tres grandes grupos que se visualizan en el esquema posterior

1) Mtodos de dependencia. Suponen que las variables analizadas estn divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los mtodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qu forma.

2) Mtodos de interdependencia. Estos mtodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qu variables estn relacionadas, cmo lo estn y por qu.

3) Mtodos estructurales. Suponen que las variables estn divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos mtodos es analizar, no slo como las variables independientes afectan a las variables dependientes, sino tambin cmo estn relacionadas las variables de los dos grupos entre s.

Anlisis de regresin

Anlisis de supervivencia

Dependiente

MANOVA

Mtrica

Correlacin Cannica

Mtodos de

Dependencia

Anlisis Discriminante

Regresin Logstica

Dependiente

Anlisis Conjunto

No mtrica

Tcnicas

Multivariantes

A.Componentes Principales

Anlisis Factorial

Datos mtricos E. Mulltidimensionales

Mtodos de

Anlisis de conglomerados

Interdependencia

Anlisis de Conglomerados

Modelos Log-lineales

Datos no mtricos Escalas Multidimensionales

Modelos

A. de correspondencias

estructurales

1. Mtodos de dependencia: Se pueden clasificar en dos grandes subgrupos segn que la variable (s) dependiente (s) sea (n) cuantitativas o cualitativas.

Si la variable dependiente es cuantitativa algunas de las tcnicas que se pueden aplicar son las siguientes:

1) Anlisis de Regresin: Es la tcnica adecuada si en el anlisis hay una variable dependiente mtrica cuyo valor depende de una o varias variables independientes mtricas. Por ejemplo, intentar predecir el gasto anual en cine de una persona a partir de su nivel de ingresos, nivel educativo, sexo y edad.

2) Anlisis de Supervivencia: Es similar al anlisis de regresin pero con la diferencia de que la variable independiente es el tiempo de supervivencia de un individuo objeto. Por ejemplo, intentar predecir el tiempo de permanencia en el desempleo de un individuo a partir de su nivel de estudios y de su edad.

3) Anlisis de la varianza : Se utilizan en situaciones en las que la muestra total est dividida en varios grupos basados en una o varias variables independientes no mtricas y las variables dependientes analizadas son mtricas. Su objetivo es averiguar si hay diferencias significativas entre dichos grupos en cuanto a las variables dependientes se refiere. Por ejemplo, hay diferencias en el nivel de colesterol por sexos? afecta, tambin, el tipo de ocupacin?.

4) Correlacin Cannica: Su objetivo es relacionar simultneamente varias variables mtricas dependientes e independientes calculando combinaciones lineales de cada conjunto de variables que maximicen la correlacin existente entre los dos conjuntos de variables. Por ejemplo, analizar cmo estn relacionadas el tiempo dedicado al trabajo y al ocio de una persona con su nivel de ingresos, su edad y su nivel de educacin

Si la variable dependiente es cualitativa algunas de las tcnicas que se pueden aplicar son las siguientes:

1) Anlisis Discriminante: Esta tcnica proporciona reglas de clasificacin ptimas de nuevas observaciones de las que se desconoce su grupo de procedencia basndose en la informacin proporcionada los valores que en ella toman las variables independientes. Por ejemplo, determinar los ratios financieros que mejor permiten discriminar entre empresas rentables y poco rentables.

2) Modelos de regresin logstica: Son modelos de regresin en los que la variable dependiente es no mtrica. Se utilizan como una alternativa al anlisis discriminante cuando no hay normalidad

3) Anlisis Conjunto : Es una tcnica que analiza el efecto de variables independientes no mtricas sobre variables mtricas o no mtricas. La diferencia con el Anlisis de la Varianza radica en dos hechos: las variables dependientes pueden ser no mtricas y los valores de las variables independientes no mtricas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseo de Experimentos. Por ejemplo, una empresa quiere disear un nuevo producto y para ello necesita especificar la forma del envase, su precio , el contenido por envase y su composicin qumica. Presenta diversas composiciones de estos cuatro factores. 100 clientes proporcionan un ranking de las combinaciones que se le presentan. Se quiere determinar los valores ptimos de estos 4 factores.

2) Mtodos de Interdependencia: Se pueden clasificar en dos grandes grupos segn que el tipo de datos que analicen sean mtricos o no mtricos. Si los datos son mtricos se pueden utilizar, entre otras, las siguientes tcnicas:

1) Anlisis Factorial y Anlisis de Componentes Principales: Se utiliza para analizar interrelaciones entre un nmero elevado de variables mtricas explicando dichas interrelaciones en t