tema 2. análisis preliminar de los datos
Post on 31-Oct-2015
47 Views
Preview:
TRANSCRIPT
Profesores: Jesús Varela MallouAntonio Rial Boubeta
www.usc.es/psicom1
ANÁLISIS MULTIVARIANTE
Área de Metodología de las Ciencias del Comportamiento
Facultad de Psicología
Universidad de Santiago de Compostela
Curso 2011-2012
Análisis Multivariante 2
1. Contextualización y Revisión General de las Técnicas Multivariantes
2. El Análisis Preliminar de los Datos
3. Análisis de Regresión Lineal Múltiple
5. Análisis de Regresión Logística
TEMARIO
4. Análisis Conjunto
6. Análisis de Supervivencia
TEMA IITEMA II
EL ANÁLISIS PRELIMINARDE LOS DATOS
Análisis Multivariantes
Modelos Multivariantes 4Modelos Multivariantes 4
Preparación del Archivo de Datos. En Rial, A. y Varela, J.(2008). Estadística Práctica para la Investigación enCiencias de la Salud. Coruña: Netbiblo. Páginas 17-27.
Análisis de Datos para una sola variable. En Rial, A. y Varela, J.(2008). Estadística Práctica para la Investigación enCiencias de la Salud. Coruña: Netbiblo. Páginas 31-57.
RECOMENDADARial, A.; Varela, J. y Rojas, A. (2001). Depuración y AnálisisPreliminares de Datos en SPSS . Ra-ma. Madrid
LECTURA OBLIGATORIA
Modelos Multivariantes 5
Desde que se recogen los datos hasta que éstos son procesados,se experimentan una serie de procesos que pueden escaparse delcontrol del investigadorAlgunos de los errores más frecuentes: � Utilización de un valor inválido� Ausencia de valores dentro del rango de la distribución. ¿será porque nadie
tiene tales ingresos?, ¿o se trata de un problema de selección muestral?.Nos alerta de un “fenómeno extraño”. Missing
� Outliers. 3 sujetos tienen ingresos que cuadriplican el ingreso medio !!!
� Exploratory Data Analysis (EDA): Técnicas gráficas y analíticaspara conseguir un conocimiento previo de los datos, propugnandoun cambio de actitud y enfoque metodológico ante el análisis de lainformación. Tukey, 1977
Análisis Preliminar de los Datos
Modelos Multivariantes 6
Todo Análisis Estadístico de los datos debe iniciarse con lapreparación y realización de un estudio detallado del archivoo base de datos
La aplicación de cualquier Técnica Multivariante carece devalidez alguna si el archivo de datos contiene errores oincoherencias, casos perdidos de manera no aleatoria ovariables que no se adecuan a los supuestos de las técnicasempleadas
Preparar la información recogida también significa llevar acabo transformaciones o creaciones de nuevas variables apartir de las empíricas o directas (ej.: el Índice de MasaCorporal, IMC (peso/talla2); o la segmentación del archivo)
Análisis Preliminar de los Datos
Modelos Multivariantes 7
� Depurar errores e incoherencias y Transformación de Variables: Preparar elarchivo de datos
� Missing: Resolver el problema de la falta de respuesta: tamaño de la muestra(potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar)
� Outliers: Tratar los casos anómalos: elección de la prueba o estadísticoadecuado
� Comprobación de supuestos paramétricos: pruebas paramétricas vs. noparamétricas, elección de la técnica multivariante concreta
� Y, en general, Resumir la información que contienen los datos, informar de lastendencias, (análisis univariable)
5 Razones para el Análisis Preliminar de los datos
Modelos Multivariantes 8
Errores de introducción de datos:
Razón 1. La depuración de Errores e Incoherencias
Valores fuera de rango o no permitidos:
Ej. Sexo (1: hombre, 2: mujer. No deberíamos de encontrar ningún 3
Tablas de Frecuencias para todas las variables
� Depuración de Incoherencias entre respuestas (preguntas filtro):
Ej. Variable uno: número de cigarrillos que fuma al día (=7)
Variable dos: Es fumador (1=si; 2=no)
Tablas de Contingencia para pares de variables
Errores durante la recogida:
Modelos Multivariantes 9
Crear una nueva variable que sea la combinación de dos variablesoriginales como puede ser el Índice de Masa Corporal (Peso/Altura2 )
Otro tipo de transformación es el cálculo de las puntuaciones Diferenciales(de desviación) y Típicas (Estandarizadas), reescalar, …
– Las puntuaciones típicas no tienen una unidad de media particular. Suunidad siempre es la misma (indica cuántas desviaciones típicas porencima o por debajo de la media se sitúa una puntuación determinada).Por ello son comparables entre sí, independientemente de la unidad demedida de la puntuación original
– También sirven para detectar puntuaciones anómalas o outliers:sujetos que tienen un comportamiento que se aleja de la normalidad. El95% de los casos tienen puntuaciones Z comprendidas entre ±1.96
Análisis Preliminar de los Datos también significa CREAR y TRANSFORMAR Variables
Modelos Multivariantes 10
Hay que conocer la base de respuestas para saber si estamos ante unapérdida de representatividad. La reducción excesiva del tamaño de lamuestra condiciona las estimaciones (INTERVALOS DE CONFIANZA) y lascomparaciones (SIGNIFICACIÓN ESTADÍSTICA).
LA CAPACIDAD DE GENERALIZACIÓN DE LOS RESULTADOS (lo que enprincipio era una muestra adecuada se convierte en inadecuada y norepresentativa). Atentamos contra la validez externa
LOS MISSING. Tenemos que preguntarnos: ¿Son iguales los que respondena una encuesta que los que no responden?, ¿de quién estamos informandorealmente?, ¿siguen algún patrón o se distribuyen de manera aleatoria?,¿están sesgados los resultados?
Razón 2. Determinación de la base de Respuesta (MISSING)
Modelos Multivariantes 11
Identificar los sujetos con missing (filas)
Identificar las variables con missing (columnas)
SPSS: Análisis de Valores Perdidos
IDENTIFICACIÓN DE LA NO RESPUESTA O MISSING
Modelos Multivariantes 12
Varias estrategias:Comprobar si los distintos segmentos presentan un porcentaje similar de falta de repuesta (Provincia, Centro, Grupos de Edad, ...) χχχχ2
Estudiar posibles patrones o tendencias
Identificar variables relacionadas y comprobar que los que responden y los missing se comportan igual, que no existen diferencias estadísticamente significativas… t
EN CASO DE QUE INFLUYAN o presenten diferencias, ¿qué
hacer con ellos?: Sustitución vs. Imputación
Ahora debemos preguntamos… ¿Se distribuyen al azar?
Modelos Multivariantes 13
2 POSIBILIDADES:
SUSTITUIR: TRANSFORMAR / REEMPLAZAR por…
� Media de la serie
� Media de puntos adyacentes
� Mediana de puntos adyacentes
IMPUTAR: ANALIZAR LOS VALORES PERDIDOS con el fin de examinar patrones en diferentes variables relacionadas con la variable con missing
• Método de Regresión, Fichero caliente (hot deck)
¿Cómo hacerlo en SPSS?
Modelos Multivariantes 14
“Valores que caen fuera del rango normal de los datos” Ej. Media edad en el aula
CRITERIO de OUTLIER: son aquellos valores que se alejan delcuerpo central de la distribución entre 1.5 y 3 veces el valor del IQR
IQR: Recorrido o Amplitud Intercuartílica se trata de una medidade variabilidad de los datos. Si los valores se alejan más de tresunidades del cuerpo central de los datos entonces es un caso“EXTREMO” (±±±± 3 IQR)
Razón 3: Los valores ANÓMALOS o atípicos
Amplitud intercuartílica = tercer cuartil - primer cuartil = Q3 - Q1
Modelos Multivariantes 15
A nivel univariante:� IQR
� Gráficos de Caja o Boxplot
� Gráficos de Tallo y Hojas
A nivel bivariado: Gráficos de Dispersión
A nivel multivariado:� Residuos (tipificados, studentizados, etc.)
� Distancia de Mahalanobis
� Distancia de Cook
Outliers: ¿Cómo detectarlos?
Modelos Multivariantes 16
• Límites inferior y superiorson los percentiles 25 y 75respectivamente
• La línea horizontal indicala mediana o percentil 50. Siestá en el centro de la cajaíndica que se trata de unadistribución simétrica
20N =
INGRESOS
600000
500000
400000
300000
200000
100000
0
9
10
Gráficos de caja o BOXPLOT
Outlier
Extremo
Modelos Multivariantes 17
1010N =
SEXO
MUJERHOMBRE
ING
RE
SO
S600000
500000
400000
300000
200000
100000
0
10
Comparar la distribución de dos o más grupos
Asimétrica negativa (próxima al tercer cuartil) y Asimétrica Positiva (si aproxima al primero)
Modelos Multivariantes 18
SOLUCIONES:Acudir a estadísticos distintos de los habituales y “RESISTENTES” (Mediana, Media reducida, M-estimadores: Andres, Huber, Tukey, Hampel)
Utilizar Contrastes no paramétricos: Mann-Withney, Prueba de la Mediana, Kruskal-Wallis
Detectarlos y eliminarlos de la muestra, recurrir a un procedimiento de remuestreo o a procedimientos de estimación robustos
¿Qué hacer ante la presencia de casos anómalos?
Modelos Multivariantes 19
Para elegir la prueba estadística adecuada en cada caso……
� t de Student ó Mann-Withney
� Anova ó Kruskal-Wallis
� Discriminante o Regresión Logística
Pruebas Paramétricas y No Paramétricas
Razón 4: comprobación de supuestos paramétricos
Modelos Multivariantes 20
NORMALIDAD: que la VD se distribuya normalmente
ALEATORIEDAD o Independencia de las medidas: que lossujetos hayan sido seleccionados al azar (ANOVA)
HOMOCEDASTICIDAD u Homogeneidad de varianzas:que los distintos grupos posean una variabilidad similar
LINEALIDAD: Relación lineal entre las variables analizadas
¿Cuáles son esos SUPUESTOS?
Modelos Multivariantes 21
NORMALIDAD: Prueba K-S de Lilliefors
(SPSS: ANALIZAR / Estadísticos descriptivos / Explorar / Gráficos)
ALEATORIEDAD: Prueba de las Rachas
(SPSS: ANALIZAR / Pruebas no paramétricas / Rachas)
HOMOCEDASTICIDAD: Prueba de Levene
(SPSS: ANALIZAR / Estadísticos descriptivos / Explorar / Gráficos)
LINEALIDAD: Gráfico de dispersión
(SPSS: ANALIZAR / Estadísticos descriptivos / Explorar / Gráficos)
¿Cómo se comprueban?
Modelos Multivariantes 22
Gráfico Q-Q normal de INGRESOS
Valor observado
5000004000003000002000001000000-100000
Nor
mal
esp
erad
o
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Pruebas de normalidad
,257 20 ,001 ,717 20 ,010**INGRESOSEstadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova Shapiro-Wilk
Este es un límite superior de la significación verdadera.**.
Corrección de la significación de Lillieforsa.
NORMALIDAD
Lilliefors: se desconoce la varianza poblacional (habitual)
Shapiro-Wilk: muestras pequeñas (n<30)
Hipótesis nula: la población de la que se ha estraído la muestra es normal
Se rechaza
Ho (p<0.05)
Modelos Multivariantes 23
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE
� Posibles transformaciones� Asimetría Positiva FUERTE: -1/X3
, ó -1/XSUAVE: log X ó √√√√X
� Asimetría Negativa FUERTE: antilog XSUAVE: X2 ó X3
Recurrir a una prueba no paramétrica o a técnicas multivariantes más robustas
y... si no se distribuye NORMALMENTE
Modelos Multivariantes 24
* En el que lo primero es realizar un análisis detallado de lasvariables incluidas en la matriz de datos:
� Estudiando gráficamente la forma de cada distribución
� Detectar posibles valores extremos
� Distribuciones asimétricas, varianzas desiguales, etc
* Y lo segundo es preguntarnos si es conveniente realizaralguna transformación de las variables con el fin de “prepararel camino” para la correcta aplicación de las técnicasconfirmatorias
EDA, un cambio de actitud………
Modelos Multivariantes
25
UN REPASO MEDIANTE UN EJEMPLO
� Supongamos que deseamos relacionarel nivel de renta del hogar con el lugarde residencia (hábitat rural, semirrural,semiurbano y urbano) y el número demiembros en el hogar
� Supongamos que una vez recogida lainformación elaboramos una matriz dedatos donde expresamos los ingresosbrutos de la unidad familiar (en miles).
� Veamos los datos correspondientes alos 16 primeros entrevistados:
Ing: 150, 81, 102,195, 375, 99, 147, 171, 87, 192, 75,147, 159, 252, 57, 201
Lug: 4, 4, 4, 4, 4, 4, 4, 4, 2, 3, 4, 4, 4, 4, 2, 4Miemb: 2, 2, 3, 5, 4, 3, 5, 5, 3, 3, 3, 2, 5, 2, 4, 2
Modelos Multivariantes 26
Para realizar un análisis exploratorio es necesario pulsarAnalizar, a continuación Estadísticos descriptivos y, porúltimo Explorar….
seleccionamos la variable Ingresos unidad familiar y la colocamos en el recuadro de Variables Dependientes:
Modelos Multivariantes 27
1. Estadísticos Descriptivos:a) Medidas de localización y tendencia central:
media, mediana, media recortada al 5%,intervalo de confianza
b) Medidas de dispersión: errores típicos,varianza, mínimo, amplitud intercuartílica
c) Medidas de forma de la distribución:asimetría, curtosis y sus errores típicos
2. Estimadores Robustos Centrales:alternativas robustas a la mediana y a la mediacomo son el estimador M de Huber, onda deAndrews, M de Hampel y bioponderado deTukey
3. Valores atípicos: muestra los 5 valoresmayores y menores
4. Percentiles: los valores que aparecensituados en los percentiles 5, 10, 25, 50, 75, 90 y95
Botón Estadísticos:
Modelos Multivariantes 28
1. Diagramas de Caja: Gráficos de cajapara el estudio de las colas de ladistribución (los extremos). Es posibleelegir entre dos formas derepresentación : niveles de factores,dependientes juntas
2. Gráficos descriptivos de tallo yhojas e histogramas: útiles para elanálisis del centro de la distribución
3. Gráficos con pruebas denormalidad: presenta los diagramasde probabilidad normal y deprobabilidad sin tendencias. Elprograma realiza también el test deKolmogorov-Smirnov con el nivel designificación de Lilliefors, o el test deShapiro-Wilk cuando la muestra tienemenos de 50 observaciones
4. Gráficos de dispersión por nivelcon pruebas de Levene: …/…
Botón Gráficos:
Modelos Multivariantes 29
4. Gráficos de dispersión pornivel con pruebas de Levene:sólo disponible cuando en el cuadroanterior se selecciona una variableFACTOR. Y se utiliza para controlar latransformación de los datos para losgráficos de dispersión por nivel. Encada gráfico se muestra la pendientede la recta de regresión y las pruebasde Levene de igualdad de varianzas.
Estos gráficos presentan 3opciones: Estimación de potencia,no transformados y transformados(permite llevar a cabo diversastransformaciones comologarítmicas, raíz cuadradas,cubo, inversa, etc.)
Botón Gráficos:
Modelos Multivariantes 30
Botón Opciones:
Opciones: Está dedicado altratamiento de los valores perdidos…
Excluir casos según pareja:permite trabajar con los sujetos quetienen valores perdidos para cada parde variables Excluir casos según lista: Incluyeúnicamente aquellos que disponen devalores válidos para todas lasvariables analizadas Mostrar Valores: En lugar deeliminar los valores perdidos, losconsidera como una categoríadiferente
VISUALIZACIÓN DE LA DISTRIBUCIÓN DE LA VARIABLE ing(EXÁMEN GRÁFICO DE LOS DATOS…
31
Si ejecutamos todo… cuál es la visualización de la distribución o examen gráfico de los datos?:
Recomendamospulsar el botón Pegarpara mostrar loscomandos de sintaxisdel programa SPSS parael procedimientoEXAMINE
Modelos Multivariantes 32
PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LADISTRIBUCCIÓN: El histograma, los gráficosdescriptivos de tallo y hojas y los gráficos de pruebasde normalidad.
INTERPRETACIÓN
Histograma: representa lasfrecuencias obtenidas por cadacategoría
Hay 15 rectángulos de amplitud50.000
Casi 300 personas viven enhogares con ingresos entre 125 y175.000
Fijémonos ahora en las 200personas con ingresos inferiores a75.000 ¿se distribuyenuniformemente en todo el intervaloo puede ser que prácticamentetodos ganen 74.000. Ello nos lopermite saber el gráfico de tallo yhojas
Modelos Multivariantes 33
PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LADISTRIBUCCIÓN: El gráfico de caja, los gráficosdescriptivos de tallo y hojas, el histograma y losgráficos de pruebas de normalidad.
En el histograma vimos que menosde 200 entrevistados tienen ingresosinferiores a las 75.000.
Tallo y hojas: Vemos que de los200 (64+100+72) con ingresosinferiores a 74.000:
64 ganan entre 54 y 57 100 ganan entre 60 y 69 y el resto entre 72 y 75.000
Nota: cada hoja representa a trescasos
En la última línea aparecen 4casos “extremos” con ingresossuperiores a 280.000
Modelos Multivariantes 34
VENTAJAS DEL GRÁFICO TALLO Y HOJAS
Tallo y hojas:
1. Mantiene los valores originales y no los agrupa en intervalos2. es muy sencillo localizar los valores centrales de la distribución3. facilita la identificación de concentraciones de datos y posibilita la
localización de saltos o discontinuidades en la serie de datos (ausenciade determinados niveles de ingresos…)
4. Permite la identificación de aquellos valores poco frecuentes y losvalores desviados del conjunto
5. Facilita el estudio de la forma de la distribución
PUNTOS DÉBILES
Tallo y hojas informa de los valores centrales de las distribució, perocontribuye poco al estudio de los casos extremos. El DIAGRAMA DECAJA o boxplot permite solventar este problema con información delcentro de la distribución, pero también permite un análisis detallado delas colas
35
GRÁFICO DE CAJA O BOXPLOT
La parte oscura dividida por una líneahorizontal informa de:
Límites inferior y superior de la caja son lospercentiles 25 y 75 respectivamente
La línea horizontal indica la mediana opercentil 50. Si está en el centro de la cajaíndica que se trata de una distribuciónsimétrica
Asimétrica negativa la media está por debajode la mediana (si la mediana está próxima altercer cuartil) y asimétrica positiva siaproxima al primero y, en ese caso, la mediaestá por encima de la mediana
Entre los percentiles 25 y 75 se concentra el50% de los casos y esta “distancia” indica ladispersión (similar al recorrido intercuartílico)
Pero… ¿dónde está el resto de casos dela distribución?
La “T” invertida informa del menorvalor observado que no es un atípico
La parte más alta de la “T” indica elmayor valor observado, sin atípicos
El resto son ATÍPICOS, con valoresextremos en la variable
Modelos Multivariantes 36
LOS CASOS ATÍPICOS
Definición: Son observaciones convalores extremos, observaciones muydiferentes del resto de valores de ladistribución y que tienen un importanteefecto sobre las medidas de tendenciacentral y variabilidad
Dos tipos de casos atípicos:
Extremos: símbolo “*” los que seencuentran a una distancia de la medianatres veces superior a la longitud de la caja orecorrido intercuartílico
Outliers: símbolo “0”, separados de lamediana entre 1,5 y 3 veces la longitud dela caja
En la gráfica se observan 4 casos atípicos(1 outlier y 3 extremos)
Modelos Multivariantes 37
Gráfico de caja con variasvariables dependientes
La opción de “dependientesjuntas” permite comparar fácilmentevarias distribuciones
examinar la situación del 50%central de la distribución definidopor la longitud de la caja
Examinar la forma del 50%central de la distribución enfunción de la posición que ocupala mediana dentro de la caja
evaluar el posible sesgo en lascolas de la distribución enfunción de la longitud de las“patas”
detectar posibles valoresatípicos
38
Gráfico Q-Q normal de INGRESOS
Valor observado
5000004000003000002000001000000-100000
Nor
mal
esp
erad
o
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Pruebas de normalidad
,257 20 ,001 ,717 20 ,010**INGRESOSEstadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova Shapiro-Wilk
Este es un límite superior de la significación verdadera.**.
Corrección de la significación de Lillieforsa.
Test de Normalidad: Contraste de Lilliefors
Gráfico Q-Q: La distribución Normal serepresenta con una recta inclinada. Los datosdesvelan una diferencia o falta de ajusteentre la Normal y la dibujada por la variable.No coinciden o se superponen.
SPSS también ofrece el contraste deLilliefors basado en el test de KolmogorovSmirnov, cuando las medias y lasvarianzas son desconocidas:
Prueba de Normalidad para Ingresos UnidadFamiliar
Hipótesis nula: la población de la que se haextraído la muestra es normal
El nivel de significación indica la probabilidad deequivocarnos cuando rechazamos la Ho y ésta esverdadera (error tipo I). (p<.05)
El valor obtenido es 0.257, que con 20 grados delibertad presenta una significación del 0.001. Porlo que rechazamos que esa variable tenga unadistribución normal, con una probabilidad deequivocarnos del 0.0%
Modelos Multivariantes 39
Gráfico Q-Q normal de INGRESOS
Valor observado
5000004000003000002000001000000-100000
Nor
mal
esp
erad
o
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Transformaciones para la Normalidad
EL PROBLEMA ES QUE CUANDO TENEMOSDISTRIBUCIONES NO NORMALES, entoncesno deberíamos utilizar determinados testestadísticos como, por ejemplo, la F de Snedecor.Así que deberíamos adaptar o ajustar esta variablea este requisito, mediante transformaciones
No obstante, antes de TRANSFORMACIONEShemos de saber que la ausencia de normalidadpuede deberse a la violación de otrossupuestos. Por ello, ANTES debemos comprobartodos los supuestos multivariantes. Muchas veces,remediar estos supuestos solucionan el problemade la no normalidad.
Pero si no es así, entonces recurrimos a laTransformación de la distribución…
Modelos Multivariantes 40
Transformaciones de la distribución
El ADE busca realizar transformaciones en las distribuciones para conseguircambios en la distribución de las variables, para obtener modelos más ajustados
4 tipos de Transformaciones sobre los datos observados:
1. Cambios lógicos originados por la Unión de Categorías para reducir laamplitud de la variable. Uniendo unas categorías con otras, eliminandocategorías sin respuestas, convirtiendo variables de intervalo en ordinales onominales, creando variables ficticias o dummy, etc. (SPSS:Transformar/Recodificar)
2. Transformaciones Lineales. Al sumar, restar, multiplicar o dividir los datosoriginales por una contante no se cambia la distribución, ni las distancias entrevalores, ni el orden porque es una combinación lineal de los datos originales.Con ello mejoramos la interpretación sin generar cambios importantes en lasvariables
Modelos Multivariantes 41
Transformaciones de la distribución
3. Transformaciones algebraicas o no lineales monotónicas. Al aplicaroperaciones como la raíz cuadrada, cúbica, logaritmos. Cambian las distanciasentre los valores originales modificando la forma de la distribución aunquemantienen el orden.
Según la función aplicada produciremos una DISPERSIÓN en una partede la distribución. Su elección dependerá de dónde deseamos efectuardichos cambios
Tukey propone una “escalera de las transformaciones” donde se muestrael tipo de transformación más conveniente atendiendo al grado deasimetría de la distribución original, y al lugar (izquierda o derecha)donde se produce esa asimetría……
• Asimetría negativa se corrige mediante antilogaritmos• distribuciones asimétricas positivas se corrigen con raíces
cuadradas
4. Transformaciones no lineales no monotónicas: cambian las distancias y elorden entre los valores. Son las más difíciles de utilizar porque cambiantotalmente la información original
Comprendiendo la distribución utilizando Medidas de Tendencia Central
Además de representaciones gráficas, los estadísticos univariantes completan el conocimiento de la distribución de una variable:
De Tendencia Central: moda, mediana y media Error típico de la media es la desviación de la distribución muestral del
estadístico. Se utiliza para calcular el valor de la media de la población de la quese han extraído los datos. Cuanto menor sea, mayor es la probabilidad de que unestadístico extraído de una muestra aleatoria se acerque al valor poblacional
Intervalo de confianza para la media: Son los valores entre lo que se situará lamedia en la población, con un nivel de confianza del 95%
Media truncada o trimedia: media de los casos centrales de la distribuciónrecortada al 5%, eliminando casos inferiores y superiores. Un estadístico másresistente porque elimina la influencia de posibles valores extremos
La mediana, el valor central de la distribución. Por debajo y encima el 50%. Ladistribución normal es simétrica de modo que deben coincidir los valores de lamoda, media y mediana
Los cuartiles: valores que dividen la distribución en cuatro partes iguales Un percentil, es el valor de la variable que deja por debajo a un correspondiente
porcentaje de datos, y por encima el resto. Los percentiles 10, 20, 30…., 90reciben el nombre de deciles. Primer cuartil es el percentil 25.
Además de la media truncada, otros estadísticos que no están afectados por loscasos atípicos son los M-estimadores. Estimadores Robustos centrales
Modelos Multivariantes 43
Los M-estimadores reducen la influencia de los casos extremos ponderando cadavalor en función de su distancia al centro de la distribución. Las observacionescentrales se ponderan por el máximo valor (1) y el coeficiente de ponderacióndisminuye cuanto más se aleje se encuentre reduciéndose así su contribución en elcálculo del estadístico correspondiente. Pudiendo llegar a recibir, incluso, unaponderación nula (0).
La diferencia entre los M-estimadores está en el tipo de ponderación: Huber pondera con un valor de 1 todos los valores situados a menos de 1,339 de la
mediana. Se recomienda cuando la distribución se acerca a la normalidad sin valoresextremos
Tukey y Andrews ponderan con un valor de 0 los valores situados a 4,385 y 4,2 de lamediana. Se recomienda cuando hay valores extremos o atípicos
Hampel, utiliza tres coeficientes de ponderación según cada valor se encuentre a unadistancia de la mediana de 1,7; 3,4 y 8,5
Comprendiendo la distribución utilizando Medidas de Tendencia Central
Modelos Multivariantes
44
Reflejan el grado en el que los datos tienden a extenderse respecto a un valormedio. Dos tipos de medidas de variabilidad:
1. Según la amplitud de la escala en la que se distribuyen las puntuaciones Rango o amplitud total: diferencia entre el valor más alto y más bajo. Muy
sensible a la presencia de valores atípicos y depende de los valoresextremos
Recorrido Intercuartílico: elimina estos problemas. Es la diferencia entreel tercer y el primer cuartil. Es menos sensible a la presencia de datosextremos
2. Según la variación producida entre todos los valores de la distribución y uníndice de tendencia central:
Desviación media: promedio desviaciones absolutas respecto a la media La varianza: media de los cuadrados de las desviaciones de los datos Desviación típica: la raíz cuadrada de la varianza. Es, sin duda, la más
utilizada. (El 68.26% ±1Sx; el 95,44% ± 2Sx; y el 99% entre ±3Sx) La mejor forma de saber si una desviación típica es alta o baja, es
calcular el cociente de la desviación típica entre la media. Unapuntuación lejana de la unidad está indicando homogeneidad o escasadiferenciación
Comprendiendo la distribución utilizandoMEDIDAS DE DISPERSIÓN O VARIABILIDAD
Modelos Multivariantes
45
Grado de Simetría: Hasta qué punto la median divide unadistribución en dos partes con formas iguales
• Asimetría positiva: muchas puntuaciones en la izquierda.media > mediana
• Asimetría negativa: muchas puntuaciones altas.media < mediana
• Otros estadísticos de asimetría más robustos son los índices desimetría Yulle y Kelley
• Kelley utiliza los deciles primero y noveno, que son sumados ydivididos entre dos. El valor resultante es restado de la mediana.
• Un valor negativo significa una asimetría positiva (hacia laderecha); es decir, el promedio de deciles supera la mediana
Comprendiendo la distribución utilizandoMEDIDAS DE FORMA O ASIMETRÍA
Modelos Multivariantes 46
� Potenciar el uso de técnicas gráficas. Observar el gráfico de la distribución delas variables proporciona información excelente
� Durante el Análisis de los Datos, tenemos que detenernos en el análisis de lasdiferencias entre los datos reales y el ajuste del modelo (residuales). El EDAtambién contribuye a reducir los residuos al mínimo y así encontrar el mejorajuste a los datos. Los residuales no siempre significan un error de prediccióndel modelo estadístico!!
� Utiliza transformaciones de los datos para conseguir modelos más ajustados
� Cuestionar las propiedades de algunos estadísticos. En ocasiones éstospueden resultar inservibles ante la presencia de datos alejados de la mayoríade los valores de la distribución (ej. Media Aritmética)
� Existen otros estadísticos más robustos ante posibles desviaciones de lossupuestos modelos probabilísticos. Por ejemplo, la mediana y la amplitudintercuartílica frente a la media y la varianza
EDA, Un cambio de actitud en el que debemos……
top related