clase 1 - gustavo valencia · estatura, tiempo de duración, ... alturas están a una distancia...
TRANSCRIPT
v.1.0
Clase 1
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Conceptos básicos
Tipos de variables La distribución normal
Temas
Estadística descriptiva
Clase 1: Conceptos Estadísticos para Minería de Datos
Referencias
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Conceptos básicos
Conceptos básicos El principal objetivo de la estadística es producir información útil y de interés a
partir de hechos numéricos. Para alcanzar este objetivo se recomienda prestar
atención a básicamente tres cosas [7]:
1. Producir datos de calidad
2. Organizar y analizar estos datos
3. Obtener conclusiones a partir de estos datos
Las conclusiones basadas en datos, sea que se obtengan de manera formal o
informal, tienen una componente de incertidumbre ya que siempre habrá
variabilidad en los datos.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Los datos varían. Fenómenos naturales, el Hombre, Los animales, las cosas,
medidas repetidas hechas sobre un mismo ente varían.
Si la variabilidad no existiera viviríamos en el mundo de lo constante, nada nos
sorprendería ni el pasado o el futuro, todo sería igual y la estadística difícilmente
sería la misma; que pensar de aquellas disciplinas modernas que dependen de la
estadística como la minería de datos, visualización de información o la inteligencia
de Negocios.
La estadística propone métodos para enfrentar situaciones donde la variabilidad y
la incertidumbre están presentes. Con estos métodos se puede analizar datos a fin
de separar y evidenciar la presencia de patrones sistemáticos de la siempre
presente variabilidad
Antes de que los hechos numéricos se usen para bien o para mal se deben producir
datos.
Los datos pueden estar disponibles o se pueden obtener vía experimental o por
observación.
Conceptos básicos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Ejemplos:
Disponible: Registros médicos de un Hospital
Observación: Contar el número de vehículos que obvian un semáforo en rojo en
una calle determinada. (Proceso pasivo)
Experimental: Comparar la efectividad de dos o más medicamentos. (Proceso
activo)
Para realizar un estudio estadístico se requieren datos, que pueden comprender a
toda la Población de referencia (Censo), o solo a una parte de ella (Muestra).
Conceptos básicos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Población: Conjunto de todos los elementos que comparten un grupo común de
características, y forman el universo para el propósito del problema de
investigación. La población objetivo es la Población particular en que estamos
interesados y sobre el cual se desea obtener algunas conclusiones por medio de
métodos estadísticos
Muestra: Es un subconjunto representativo de la población a partir del cual se
pretende realizar inferencias respecto a la población de donde proceden. Es más
práctico y ventajoso tomar muestras ya que optimiza los recursos disponibles.
Unidad Estadística: Es el elemento o unidad base de la población o de la muestra.
Cualquier miembro de la Población.
Parámetro: Es cualquier valor característico de la población (valores verdadero),
también llamados medidas numéricas que describen características esenciales en
una población de interés.
Variable: Es una característica de un individuo en la población o en la muestra cuya
medida puede cambiar de valor.
Conceptos básicos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Inferencia Estadística: Es una parte de la estadística cuya finalidad es obtener
conclusiones respecto a la población a partir de datos observados en muestras.
Ejemplo:
El ministerio de transporte de un país, ha recibido continuas quejas de usuarios
denunciando usurara en las tarifas del galón de combustible en estaciones de
gasolina. A la fecha existen 5.467 estaciones de gasolina en el país, por lo que el
ministerio decide seleccionar al azar 200 estaciones y registrar el precio del galón
de gasolina el mismo día para ser comparado con la tarifa oficial.
Describa: Población, Variable, Muestra y proceso de Inferencia
Conceptos básicos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Solución:
Población: Las 5.467 estaciones de gasolina es la Población de interés.
Variable: El precio del galón de gasolina es la Variable de interés.
Muestra: Las 200 estaciones auditadas son la muestra de la Población.
Proceso de inferencia: La inferencia en este caso podría ser la generalización de la
información de los precios en las estaciones de gasolina de la muestra. En
particular el ministerio de transporte desea conocer la magnitud del problema de
usura presente en la Población. Se propone calcular el promedio del valor galón y
compararlo con la tarifa oficial.
Conceptos básicos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de variables
Tipos de Variables
Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de variables
Los datos que se recopilan como producto de un proceso de experimentación
aleatoria pueden tener una amplia variedad de formas. Dependiendo del tipo de
datos, la estadística proporciona una técnica adecuada para su estudio.
Un conjunto de datos posee una serie de características de interés que pueden ser
visualizadas ya sea en forma numérica o en forma gráfica.
Las variables más comunes en estadística se dividen en Discretas, Continuas y
Categóricas
Discretas: Son aquellas variables cuyo rango de valores es finito o contable. Por
ejemplo, el número de accidentes en una intersección en un determinado mes. El
numero de hijos según los diferentes estratos socioeconómicos. Surgen de
procesos que involucran conteos.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de variables
Continuas: Son aquellas variables cuyo rango de valores es infinito. Es decir, que
tiene tantos valores como puntos hay en un segmento rectilíneo. Por ejemplo,
nivel de presión sanguínea, edad, peso, temperatura, etc. Surgen de procesos que
involucran mediciones.
Cualitativas(Categóricas): Sus valores consisten en una serie de clasificaciones. Por
WテWマヮノラが ェYミWヴラが ;aキノキ;Iキルミ ヮラノケデキI;が Wノ キミェヴWゲラ ゲW ヮ┌WSW Iノ;ゲキaキI;ヴ Wミ さ;ノデラざが さマWSキラざ ラ さH;テラざが ノラゲ ヮ;ケゲWゲ ゲWェ┎ミ ゲ┌ SWゲ;ヴヴラノノラ ゲW ヮ┌WSWミ Iノ;ゲキaキI;ヴ Iラマラ さゲ┌HSWゲ;ヴヴラノノ;Sラざ がさWミ ┗ケ; SW SWゲ;ヴヴラノノラざが さDWゲ;ヴヴラノノ;Sラゲざく
Según la escala de medición, las más comunes son:
Nominal: Los niveles no tienen un orden natural. Por ejemplo, afiliación religiosa
(Católico, Testigo de Jehová, Protestante. No se puede determinar cual va primero).
Género (Femenino, Masculino). Estado civil (Soltero, Casado, Unión libre). Color
(Rojo, blanco, verde)
Ordinal: Los niveles tienen algún orden, pero no es posible medir la distancia
entre las categorías. Por ejemplo, Estrato socio económico, tamaño de un
automóvil, Satisfacción (Poco, moderado, muy satisfecho)
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de variables
Intervalo: Tiene distancias numéricas entre dos niveles cualquiera de la escala. Por
ejemplo, Ingreso (<200000, entre 200000 y 400000, más de 400000). Se usa para
mediciones de naturaleza cuantitativa que se hacen con escalas que tienen como
base un valor de cero arbitrario. Por ejemplo un registro de 0 no indica la ausencia
de temperatura.
Razón: Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas
que tienen como base un valor de cero absoluto. Por ejemplo, longitud del brazo,
estatura, tiempo de duración, número de artículos defectuosos en una línea de
producción, presión sanguínea. Las variables continuas y discretas pertenecen a esta escala
Si el peso de persona se mide en gramos, kilos o libras, esta constituye una medida
cuantitativa, pero si se mide como bajo, medio o alto es cualitativa.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Estadística descriptiva La Estadística Descriptiva utiliza métodos numéricos y gráficos a fin de buscar
patrones, resumir y presentar la información contenida en un conjunto de datos
Medidas de Centralidad
Medidas de Centralidad:
Media Aritméticas para datos simples: Denota el promedio de un conjunto de
datos. Se calcula dividiendo la suma del conjunto de datos entre el total de ellos.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Moda para datos simples: Es el valor de la variable que tiene mayor frecuencia
absoluta, la que más se repite es la única medida de centralización que tiene
sentido estudiar en una variable cualitativa, pues no precisa la realización de
ningún cálculo. Por su propia definición, la moda no es única, pues puede haber
dos o más valores de la variable que tengan la misma frecuencia siendo esta
máxima.
Mediana para datos simples: Es el valor que divide al conjunto de datos
ordenados, en aproximadamente dos partes: 50% de valores son inferiores y otro
50% son superiores
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Módulo: Visualización de Información Docente: Gustavo Valencia Zapata
Ejemplo: Considere los siguientes datos ordenados asociados a la edad de un club
de lectura. 22, 33, 35, 44, 47, 49, 55, 56, 67, 68, 70, 75
Como es par, entonces la mediana es:
Medidas de Dispersión La Varianza: Es una medida de dispersión de la información. Se obtiene como el
promedio de los cuadrados de las desviaciones de los valores de la variable
respecto de su media aritmética.
Desviación Estándar: Conocida también como desviación típica, es una medida de
dispersión que se obtiene como la raíz cuadrada de la varianza. Mide cuanto se
separan los datos.
Estadística descriptiva
Ejemplo: Altura de perros
Un club de amigos de los perros decidió medir la altura de sus mascotas (altura a la
cruz), para identificar las diferencias entre cada raza en esta variable.
Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
ALTURA DE PERROS
ID Perro Altura_cruz (cm)
P1 Gran Danés 76
P2 Bóxer 59
P3 Pinscher Alemán 49
P4 Bulldog Inglés 32
P5 Bull Terrier 30
P6 Schnauzer Miniatura 37
P7 Poodle 39
P8 Pinscher Miniatura 22
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Es decir que la altura media a la cruz de los 8 perros es de 43 cm.
Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Visualización de datos
Para calcular la varianza, se debe identificar la diferencia con respecto a la media
para cada perro.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.
Visualización de datos
La desviación estándar sería:
Lo útil de la desviación estándar es que es más intuitiva. Se puede identificar que
alturas están a una distancia menor que la desviación estándar de la media.
Usando la desviación estándar tenemos una forma de saber lo normal さWゲデ=ミS;ヴざ
referente a la altura. Podríamos concluir que el Galgo Inglés tiene una altura muy
grande y el Pinscher Miniatura una muy pequeña, es decir, el Galgo Inglés y el
Pinscher Miniatura no tienen una altura a la cruz estándar.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.
Estadística descriptiva
Tablas de frecuencia
La distribución de frecuencia es un método para organizar y resumir grandes
volúmenes de información. Suele ser útil para la VI al momento de construir
graficas.
El caso de variables Discretas y Nominales
Ejemplo Quinto grado:
El tutor de un grupo de quinto año escolar, desea visualizar la información de sus
alumnos referida a la EDAD y GENERO. En total el grupo está conformado por 30
estudiantes entre los 8 y 11 años de edad.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Variable Discreta: EDAD
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Válidos 8 3 10,0 10,0 10,0
9 13 43,3 43,3 53,3
10 12 40,0 40,0 93,3
11 2 6,7 6,7 100,0
Total 30 100,0 100,0
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Variable Nominal: GENERO
Frecuenci
a Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Válidos F 19 63,3 63,3 63,3
M 11 36,7 36,7 100,0
Total 30 100,0 100,0
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Se debe tener presente que para cualquier tipo de variare es fundamental que las
ヮラゲキHノWゲ さェヴ┌ヮラゲざ デWミェ;ミ マ=ゲ SW ┌ミ キミSキ┗キS┌ラ ラ WノWマWミデラ ;ゲラIキ;Sラゲき SW ノラ contrario la tabla de frecuencia carecería de utilidad.
El caso de variables Continuas
En estos casos se recomienda agrupar los datos bajo el siguiente método:
El número de clases se puede calcular con alguna de las siguientes formulas: La
primera es llamada formula de Sturges.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Pasos:
1. Determinar el rango (diferencia entre el valor máximo y mínimo).
2. Valores extremos
Si los datos son enteros, reste 0.5 al mínimo y súmele 0.5 al máximo
Si los datos tienen una cifra decimal reste 0.05 al mínimo y súmele 0.05 al
máximo
3. De esta manera de acuerdo al número de cifras decimales
4. Calcule nuevamente el rango (rango ampliado)
5. Calcule el número de clases con alguna de las formulas mencionadas
6. Calcule la amplitud de la siguiente forma:
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
6. Al nuevo mínimo se le suma la amplitud () para generar la primera clase (utilice
intervalo semiabierto a derecha); luego al extremo superior de esa primera
clase súmele la amplitud y de esta manera obtendrá la segunda clase. Repita
este procedimiento hasta llegar a los grupos.
7. Ubique a cada individuo o elemento en las respectivas clases.
Ejemplo Quinto grado:
Sobre el mismo grupo de alumnos, el tutor quiere visualizar la información referida
al PESO.
Estadística descriptiva
Quinto Grado
Peso en Kg.
20.6 21.4 23.5 24.5 25.3 26 27.3 28 28.6 29.6
30.4 33.1 34.6 34.6 35 35 35.4 36 36.6 36.9
37 38.7 38.7 39.9 40.6 41 42 42 44.5 45.3
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Procedimiento:
Paso 1
Paso 2 y 3
Paso 4
Paso 5
Tablas de frecuencia
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Paso 6
Finalmente la tabla de frecuencia sería:
Tablas de frecuencia
Quinto Grado
Peso en Kg.
GRUPO_PESO ALUMNOS
[20.55 , 24.68) 4
[24.68 , 28.81) 5
[28.81 , 32.94) 3
[32.94 , 37.07) 9
[37.07 , 41.21) 5
[41.21 , 45.34) 4
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tablas de frecuencia
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características
registradas como variables cualitativas, la información puede resumirse usando
una tabla de contingencia.
Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:
Estadística descriptiva
Enfermedad Coronaria
Si No Total
Fumador
Si 166 1176 1342
No 50 513 563
Total 216 1689 1905
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Recordemos el caso relacionada al tipo de sangre estudiado en la actividad al inicio
del modulo de VI. En este caso es una tabla 2X4
El uso de tablas de contingencias es el corazón del análisis estadístico de datos
cualitativos [8] y es utilizado ampliamente en pruebas estadística son paramétricas
[9]
Estadística descriptiva
Tabla de contingencia GENERO * GRUPO_EDAD
Recuento
GRUPO_EDAD
Total 20-29 30-39 40-49 50-59
GENERO Hombre 171 109 102 27 409
Mujer 196 121 69 28 414
Total 367 230 171 55 823
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características
registradas como variables cualitativas, la información puede resumirse usando
una tabla de contingencia.
Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:
Estadística descriptiva
Enfermedad Coronaria
Si No Total
Fumador
Si 166 1176 1342
No 50 513 563
Total 216 1689 1905
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Función de densidad de probabilidad Normal (continuos y discretos) Cuando en las unidades muéstrales se observan múltiples características
registradas como variables cualitativas, la información puede resumirse usando
una tabla de contingencia.
Esta distribución juega un papel clave en el desarrollo de la inferencia estadística,
pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas
de hipótesis, tienen su fundamento en esta distribución.
Un gran número de estudios pueden ser aproximados usando una distribución
normal. Algunas variables físicas, datos meteorológicos (temperatura,
precipitaciones, presión atmosférica, etc.), mediciones en organismos vivos, notas
o puntajes en pruebas de admisión o de aptitud, errores en instrumentación,
proporciones de errores en diversos procesos, etc.
Distribución Normal
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Esta distribución es absolutamente simétrica alrededor de su media.
Estadística descriptiva
Fuente: Portal Biomédico., 2010.
Variación de la distribución normal en función de la media
Variación de la distribución normal en función de la desviación estándar
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Retomando el ejemplo de los niños de quinto grado, nos podríamos pregunta si su
distribución en relación a las variables peso y edad se comportan como una
distribución normal. Un primer paso es construir un histograma para cada una de
estas variables.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Estadística descriptiva
¿Podríamos decir que estas variables se distribuyen normalmente?
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Retomando nuevamente la definición y conceptos teóricos de la función de
densidad de probabilidad Normal, podríamos enunciar de una forma más formal:
Sea X una variable aleatoria continua. Se dice que X se distribuye como una normal
con parámetros y (estos parámetros determinan el centro y la dispersión de la
distribución y la caracterizan completamente), lo cual se escribe 隙b軽 づ┸ 購 , si X
tiene función densidad de probabilidad dada por,
血 捲 噺 結貸岫掴貸筑岻【態蹄鉄購 に講 ┸伐タ 隼 捲 隼 タ┸ 購 伴 ど
Por medio del cálculo se puede probar que realmente esta función es función de
densidad de probabilidad. Además, es simétrica alrededor de づ. Tiene forma
acampanada, el área bajo la curva (considerando todo el dominio de la v.a)
siempre es igual a 1.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Si X es una v.a. normal con parámetros y , la probabilidad de que 欠 隼 隙 隼 決 se
calcula así:
鶏 欠 隼 隙 隼 決 噺 豹結貸岫掴貸筑岻【態蹄鉄購 に講 穴捲長
銚
Para calcular probabilidades relacionadas con la normal se hace necesario utilizar
tablas estándar de normalidad. Esto es porque las integrales que surgen en este
tipo de problemas son extremadamente difíciles de resolver.
Afortunadamente, cualquier variable aleatoria normal se puede transformar en
una normal con media = 0 y varianza = 1; esto se logra por medio de la siguiente
transformación.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Suponga que X es una variable aleatoria normal con parámetros y . La variable
aleatoria Z, se define como:
傑 噺 捲 伐
b軽岫ど┸な岻
Pero ¿Es equivalente la probabilidad original a la obtenida con esta
transformación? La respuesta es afirmativa, ya que,
鶏 捲怠 隼 隙 隼 捲態 噺 豹 結貸岫掴貸筑岻【態蹄鉄購 に講 穴捲┸ 掴鉄掴迭
噺 豹 結貸跳鉄【態に講 穴権 噺 豹 軽岫ど┸な岻穴権佃鉄佃迭 噺 鶏岫権怠 隼 傑 隼 権態岻 佃鉄
佃迭
Una variable aleatoria X que se transforme de esta manera se dice que es una
variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es
necesario resolver la integral ya que sus valores están tabulados.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento
puede modelarse por medio de una distribución normal con una resistencia media
de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es
la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por
centímetro cuadrado?
Solución
Sea X: Resistencia a la compresión de una muestra de cemento. Por la información
del problema se sabe que 隙b軽 はどどど┸ 岫などど岻態 . La probabilidad pedida es,
P X 隼 はにどど
Entonces,
鶏 隙 隼 はにどど 噺 鶏 隙 伐 はどどどなどど 隼 はにどど 伐 はどどどなどど
De esta forma se estandariza.
鶏 傑 隼 に 蝦 戟嫌欠券穴剣 建欠決健欠嫌┺ 噺 ど┻ひばばにねひひ
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
La distribución normal cumple la siguiente regla:
• El intervalo づ contiene aproximadamente el 68.2% de las mediciones.
• El intervalo 2 contiene aproximadamente el 95.4% de las mediciones.
• El intervalo 3 contiene algo más del 99.7% de las mediciones.
Estadística descriptiva
Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de
Colombia. Sede Medellín, 2010.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
El Diagrama Boxplot En 1977, John Tukey publicó un método eficiente para mostrar cinco números
representativos o resumen de un conjunto de datos cuantitativos. La gráfica fue
llamada Boxplot (Diagrama de caja y bigotes), la cual resume los siguientes
elemento o medidas estadísticas.
• Mediana
• Percentiles de interés (25%, 50% y 75%)
• Máximo
• Mínimo
• Valores extremos
El Boxplot representa la distribución de una variable continua, donde por medio de
los cinco valores, se representan los conceptos de:
• Tendencia Central
• Dispersión
• Simetría
Este gráfico es ideal para representar una desviación de la distribución normal.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Este gráfico es ideal para representar una desviación de la distribución normal.
• Mientras más grande es la caja y los bigotes, más dispersa es la distribución de
los datos
• La distancia entre las medidas puede variar, pero no la cantidad de elementos,
ya que entre una y la otra es aproximadamente la misma.
• La línea de la mediana indica la simetría .
El Boxplot es también considerado un método gráfico para la detección de Outlier
(valores extremos) y es muy utilizado en minería de datos en la etapa de
exploración de datos para detectar valores que posiblemente sean influyentes para
determinar la calidad de un modelo. Por otra parte existen técnicas estadísticas
especializadas en la detección de estos registros influyentes, donde algunas
emplean el análisis delos errores para dicho fin.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Los Outlier son valores extremos que se encuentran cerca de los límites del rango
de datos o van en contra de la tendencia de los datos restantes. La identificación
de valores atípicos es importante, ya que pueden obedecer a errores asociados al
parámetro de calidad de los datos. Además, incluso si un Outlier es un valor valido,
ciertos métodos estadísticos son sensibles a la presencia de valores atípicos y
pueden ofrecer resultados inestables o disminuir en su poder predictivo. [10]
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Boxplot para la variable Peso.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Estadística descriptiva
Boxplot para la variable Edad.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Estadística descriptiva
Fuente: www.answers.com
Boxplot y distribución normal
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Evaluación del supuesto de normalidad.
Cuando se está en presencia de una muestra aleatoria, es ciertamente importante
determinar si proviene o no de una población la cual se distribuye normalmente.
Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos
sobre una variable provienen o no de una distribución normal.
Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los
valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos)
de los cuartiles de una normal. Si los datos provienen de una distribución normal,
el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta.
Si los datos se distribuyen normalmente los puntos en el gráfico caen de manera
muy aproximada sobre una línea recta con intercepto µ y pendiente ゝ.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de
Colombia. Sede Medellín, 2010.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Prueba de Normalidad Shapiro-Wilk (No Paramétrica)
Para probar normalidad univariada este test es el que más se recomienda.
Es de resaltar que este test no pertenece a la familia de tests de Kolmogorov.
Si solo se dispone de tablas para comparar este estadístico, se recomienda su uso
cuando el tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos
actuales están en capacidad de calcularlo para muestras más grandes.
El alcance de este curso no abordará el cálculo analítico de esta prueba de
normalidad, sin embargo, en el texto de Conover de estadística No Paramétrica se
encuentra en detalle el desarrollo analítico.
Las hipótesis de esta prueba son:
H0 (hipótesis nula): F(x) es una función de distribución normal, con media y
varianza no especificadas.
H1 (hipótesis alternativa): F(x) no es normal.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Para la variable EDAD rechazo H0 y para PESO no se puede rechazar H0
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Fuente: Gustavo Valencia Z. Notas de clase:
Minería de Datos, 2012.
Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk.
> EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11,
+ 9,10,11,9,10,9,9,9,8,10,10,8,10)
> shapiro.test(EDAD)
Shapiro-Wilk normality test
data: EDAD
W = 0.86, p-value = 0.001014
> PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5,
+ 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3)
> shapiro.test(PESO)
Shapiro-Wilk normality test
data: PESO
W = 0.9582, p-value = 0.4811
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Índice de Asimetría La asimetría de una distribución hace referencia al grado en que los datos se
reparten por encima (derecha) y por debajo (izquierda) de la tendencia central
Índice de Curtosis La Curtosis hace referencia al grado de apuntamiento de la distribución.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de
una posible distribución normal aunque es indispensable apoyarse en otras
verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos están
muy bien distribuidos.
Se pudiera pensar que si la media, mediana y moda de una variable presentaran
valores muy similares, se dice que los datos se distribuyen normalmente.
Estadística descriptiva
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Módulo: Visualización de Información Docente: Gustavo Valencia Zapata
Diagrama de Dispersión
Muestra en un eje cartesiano (xy) la relación que existe entre dos variables.
Utilizados para ilustrar y comparar valores numéricos, como datos científicos,
estadísticos y de ingeniería, entre otros.
Nos informa del grado de correlación entre las dos variables: Muestra si el
incremento o disminución de los valores de una de las variables (independiente),
representada normalmente en el eje x, altera de alguna manera los valores de la
otra variable (dependiente), representada generalmente en el eje y.
Visualmente se puede interpretar la correlación entre dos variables, según la forma
de la nube de puntos
Tipo de
Variable
Cuantitativa Discretas Continuas
Cualitativa Nominales Ordinales
Estadística descriptiva
Correlación nula:
No existe ninguna relación entre las variables. Se dice que
ambas son independientes.
Correlación no lineal:
Existe una relación entre las variables pero no es lineal.
Correlación lineal:
Existe una relación lineal negativa si al aumentar los
valores de la variable independiente disminuyen los
valores de la variable dependiente y relación lineal positiva
si al aumentar los valores de la variable independiente
aumentan los valores de la variable dependiente.
Fuente: Instituto Nacional de
Estadística. España,2012.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Estadística descriptiva
Tipos de Gráficos
Los diagramas de dispersión simple (bidimensionales) suelen ser muy útiles para
identificar visualmente la calidad un modelo comparando el valor conocido con el
valor estimado.
Fuente: Gustavo Valencia Z.
Notas de clase: Visualización de Información, 2012.
Actividad: Volumen del huevo.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de Gráficos
Las matrices de dispersión proporcionan un método simple de presentar las
relaciones entre pares de variables. Consiste en una matriz donde cada entrada
presenta un grafico de dispersión sencillo. Un inconveniente es que si tenemos
muchas variables el tamaño de cada entrada se reduce demasiado impidiendo ver
con claridad las relaciones entre los pares de variables.
Normalmente es empleado en la etapa de exploración cuando se desea identificar
el tipo de correlación existente entre variables de tipo cuantitativo. Suele ser un
paso inicial obligatorio al momento de la construcción de un modelo de regresión
lineal.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de Gráficos
Fuente: Gustavo Valencia Z.
Notas de clase: Visualización de Información, 2012.
Actividad: Volumen del huevo.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Correlación
Trata de establecer la relación o dependencia que existe entre las dos variables que
intervienen en una distribución bidimensional. Se mide de -1 a 1.
Correlación de Pearson. Mide la fuerza (intensidad) y dirección de una asociación
lineal entre dos variables x y y.
Correlación de Spearman. Mide la fuerza (intensidad) y dirección de una
asociación monótona entre x y y. Por asociación monótona se entiende un
incremento en x lleva a un incremento (o decremento) en y, pero este no es
necesariamente lineal [7].
Tipos de Gráficos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Correlación
Spearman es robusto a la presencia de outliers, mientras que Pearson no lo es.
Spearman es apropiado para datos ordinales y para datos agrupados en intervalos
que no satisfacen el supuesto de normalidad.
Pearson es ideal para variables continuas normales.
Tipos de Gráficos
Fuente: Gustavo Valencia Z.
Notas de clase: Visualización de Información, 2012.
Actividad: Volumen del huevo.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de Gráficos
Fuente: Gustavo Valencia Z.
Notas de clase: Visualización de Información, 2012.
Actividad: Volumen del huevo.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de Gráficos
Fuente: Gustavo Valencia Z.
Notas de clase: Visualización de Información, 2012.
Actividad: Volumen del huevo.
Graficos Q-Q y Boxplot para el Volumen del huevo predicho.
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tipos de Gráficos
Módulo: Minería de datos Docente: Gustavo Valencia Zapata
Tarea 001
1. Consultar una aplicación de la minería de datos en la industrio o la investigación
académica. La fuente de información debe poseer un carácter formal
(investigativo), es decir, debe ser un artículo publicado en algún journal.
2. Realice un análisis de datos asociados a ventas de detergente. Utilice la
herramienta que esté a su alcance y las técnicas que comúnmente emplea en
situaciones similares (tablas, gráficos, entre otros). Encuentre más detalles de
esta actividad en el archivo Tarea 001 に Análisis exploratorio
Referencias
[7] Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase.
Universidad Nacional de Colombia. Sede Medellín.
[8] Alan Agresti. Categorical Data. Universidad Nacional de Colombia. Wiley, 2002.
[9] W. J. Conover. Practical Nonparametric Statistic. Wiley, 1999.
[10] Daniel T. Larose, Discovering Knowledge in Data: An Introduction to Data
Mining. John Wiley & Son, 2005
Módulo: Minería de datos Docente: Gustavo Valencia Zapata