clase 1 - gustavo valencia · estatura, tiempo de duración, ... alturas están a una distancia...

v.1.0

Clase 1

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Conceptos básicos

Tipos de variables La distribución normal

Temas

Estadística descriptiva

Clase 1: Conceptos Estadísticos para Minería de Datos

Referencias


Conceptos básicos

Conceptos básicos El principal objetivo de la estadística es producir información útil y de interés a

partir de hechos numéricos. Para alcanzar este objetivo se recomienda prestar

atención a básicamente tres cosas [7]:

1. Producir datos de calidad

2. Organizar y analizar estos datos

3. Obtener conclusiones a partir de estos datos

Las conclusiones basadas en datos, sea que se obtengan de manera formal o

informal, tienen una componente de incertidumbre ya que siempre habrá

variabilidad en los datos.


Los datos varían. Fenómenos naturales, el Hombre, Los animales, las cosas,

medidas repetidas hechas sobre un mismo ente varían.

Si la variabilidad no existiera viviríamos en el mundo de lo constante, nada nos

sorprendería ni el pasado o el futuro, todo sería igual y la estadística difícilmente

sería la misma; que pensar de aquellas disciplinas modernas que dependen de la

estadística como la minería de datos, visualización de información o la inteligencia

de Negocios.

La estadística propone métodos para enfrentar situaciones donde la variabilidad y

la incertidumbre están presentes. Con estos métodos se puede analizar datos a fin

de separar y evidenciar la presencia de patrones sistemáticos de la siempre

presente variabilidad

Antes de que los hechos numéricos se usen para bien o para mal se deben producir

datos.

Los datos pueden estar disponibles o se pueden obtener vía experimental o por

observación.

Conceptos básicos


Ejemplos:

Disponible: Registros médicos de un Hospital

Observación: Contar el número de vehículos que obvian un semáforo en rojo en

una calle determinada. (Proceso pasivo)

Experimental: Comparar la efectividad de dos o más medicamentos. (Proceso

activo)

Para realizar un estudio estadístico se requieren datos, que pueden comprender a

toda la Población de referencia (Censo), o solo a una parte de ella (Muestra).

Conceptos básicos


Población: Conjunto de todos los elementos que comparten un grupo común de

características, y forman el universo para el propósito del problema de

investigación. La población objetivo es la Población particular en que estamos

interesados y sobre el cual se desea obtener algunas conclusiones por medio de

métodos estadísticos

Muestra: Es un subconjunto representativo de la población a partir del cual se

pretende realizar inferencias respecto a la población de donde proceden. Es más

práctico y ventajoso tomar muestras ya que optimiza los recursos disponibles.

Unidad Estadística: Es el elemento o unidad base de la población o de la muestra.

Cualquier miembro de la Población.

Parámetro: Es cualquier valor característico de la población (valores verdadero),

también llamados medidas numéricas que describen características esenciales en

una población de interés.

Variable: Es una característica de un individuo en la población o en la muestra cuya

medida puede cambiar de valor.

Conceptos básicos


Inferencia Estadística: Es una parte de la estadística cuya finalidad es obtener

conclusiones respecto a la población a partir de datos observados en muestras.

Ejemplo:

El ministerio de transporte de un país, ha recibido continuas quejas de usuarios

denunciando usurara en las tarifas del galón de combustible en estaciones de

gasolina. A la fecha existen 5.467 estaciones de gasolina en el país, por lo que el

ministerio decide seleccionar al azar 200 estaciones y registrar el precio del galón

de gasolina el mismo día para ser comparado con la tarifa oficial.

Describa: Población, Variable, Muestra y proceso de Inferencia

Conceptos básicos


Solución:

Población: Las 5.467 estaciones de gasolina es la Población de interés.

Variable: El precio del galón de gasolina es la Variable de interés.

Muestra: Las 200 estaciones auditadas son la muestra de la Población.

Proceso de inferencia: La inferencia en este caso podría ser la generalización de la

información de los precios en las estaciones de gasolina de la muestra. En

particular el ministerio de transporte desea conocer la magnitud del problema de

usura presente en la Población. Se propone calcular el promedio del valor galón y

compararlo con la tarifa oficial.

Conceptos básicos


Tipos de variables

Tipos de Variables

Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.


Tipos de variables

Los datos que se recopilan como producto de un proceso de experimentación

aleatoria pueden tener una amplia variedad de formas. Dependiendo del tipo de

datos, la estadística proporciona una técnica adecuada para su estudio.

Un conjunto de datos posee una serie de características de interés que pueden ser

visualizadas ya sea en forma numérica o en forma gráfica.

Las variables más comunes en estadística se dividen en Discretas, Continuas y

Categóricas

Discretas: Son aquellas variables cuyo rango de valores es finito o contable. Por

ejemplo, el número de accidentes en una intersección en un determinado mes. El

numero de hijos según los diferentes estratos socioeconómicos. Surgen de

procesos que involucran conteos.


Tipos de variables

Continuas: Son aquellas variables cuyo rango de valores es infinito. Es decir, que

tiene tantos valores como puntos hay en un segmento rectilíneo. Por ejemplo,

nivel de presión sanguínea, edad, peso, temperatura, etc. Surgen de procesos que

involucran mediciones.

Cualitativas(Categóricas): Sus valores consisten en una serie de clasificaciones. Por

WﾃWﾏヮﾉﾗがｪYﾐWヴﾗが ;aｷﾉｷ;IｷﾙﾐヮﾗﾉｹデｷI;が WﾉｷﾐｪヴWゲﾗゲW ヮ┌WSW Iﾉ;ゲｷaｷI;ヴ Wﾐさ;ﾉデﾗざがさﾏWSｷﾗざﾗさH;ﾃﾗざがﾉﾗゲヮ;ｹゲWゲゲWｪ┎ﾐゲ┌ SWゲ;ヴヴﾗﾉﾉﾗゲW ヮ┌WSWﾐ Iﾉ;ゲｷaｷI;ヴ Iﾗﾏﾗさゲ┌HSWゲ;ヴヴﾗﾉﾉ;SﾗざがさWﾐ ┗ｹ; SW SWゲ;ヴヴﾗﾉﾉﾗざがさDWゲ;ヴヴﾗﾉﾉ;Sﾗゲざく

Según la escala de medición, las más comunes son:

Nominal: Los niveles no tienen un orden natural. Por ejemplo, afiliación religiosa

(Católico, Testigo de Jehová, Protestante. No se puede determinar cual va primero).

Género (Femenino, Masculino). Estado civil (Soltero, Casado, Unión libre). Color

(Rojo, blanco, verde)

Ordinal: Los niveles tienen algún orden, pero no es posible medir la distancia

entre las categorías. Por ejemplo, Estrato socio económico, tamaño de un

automóvil, Satisfacción (Poco, moderado, muy satisfecho)


Tipos de variables

Intervalo: Tiene distancias numéricas entre dos niveles cualquiera de la escala. Por

ejemplo, Ingreso (<200000, entre 200000 y 400000, más de 400000). Se usa para

mediciones de naturaleza cuantitativa que se hacen con escalas que tienen como

base un valor de cero arbitrario. Por ejemplo un registro de 0 no indica la ausencia

de temperatura.

Razón: Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas

que tienen como base un valor de cero absoluto. Por ejemplo, longitud del brazo,

estatura, tiempo de duración, número de artículos defectuosos en una línea de

producción, presión sanguínea. Las variables continuas y discretas pertenecen a esta escala

Si el peso de persona se mide en gramos, kilos o libras, esta constituye una medida

cuantitativa, pero si se mide como bajo, medio o alto es cualitativa.



Estadística descriptiva La Estadística Descriptiva utiliza métodos numéricos y gráficos a fin de buscar

patrones, resumir y presentar la información contenida en un conjunto de datos

Medidas de Centralidad

Medidas de Centralidad:

Media Aritméticas para datos simples: Denota el promedio de un conjunto de

datos. Se calcula dividiendo la suma del conjunto de datos entre el total de ellos.



Moda para datos simples: Es el valor de la variable que tiene mayor frecuencia

absoluta, la que más se repite es la única medida de centralización que tiene

sentido estudiar en una variable cualitativa, pues no precisa la realización de

ningún cálculo. Por su propia definición, la moda no es única, pues puede haber

dos o más valores de la variable que tengan la misma frecuencia siendo esta

máxima.

Mediana para datos simples: Es el valor que divide al conjunto de datos

ordenados, en aproximadamente dos partes: 50% de valores son inferiores y otro

50% son superiores



Módulo: Visualización de Información Docente: Gustavo Valencia Zapata

Ejemplo: Considere los siguientes datos ordenados asociados a la edad de un club

de lectura. 22, 33, 35, 44, 47, 49, 55, 56, 67, 68, 70, 75

Como es par, entonces la mediana es:

Medidas de Dispersión La Varianza: Es una medida de dispersión de la información. Se obtiene como el

promedio de los cuadrados de las desviaciones de los valores de la variable

respecto de su media aritmética.

Desviación Estándar: Conocida también como desviación típica, es una medida de

dispersión que se obtiene como la raíz cuadrada de la varianza. Mide cuanto se

separan los datos.


Ejemplo: Altura de perros

Un club de amigos de los perros decidió medir la altura de sus mascotas (altura a la

cruz), para identificar las diferencias entre cada raza en esta variable.

Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.



ALTURA DE PERROS

ID Perro Altura_cruz (cm)

P1 Gran Danés 76

P2 Bóxer 59

P3 Pinscher Alemán 49

P4 Bulldog Inglés 32

P5 Bull Terrier 30

P6 Schnauzer Miniatura 37

P7 Poodle 39

P8 Pinscher Miniatura 22



Es decir que la altura media a la cruz de los 8 perros es de 43 cm.



Visualización de datos

Para calcular la varianza, se debe identificar la diferencia con respecto a la media

para cada perro.



Visualización de datos

La desviación estándar sería:

Lo útil de la desviación estándar es que es más intuitiva. Se puede identificar que

alturas están a una distancia menor que la desviación estándar de la media.

Usando la desviación estándar tenemos una forma de saber lo normal さWゲデ=ﾐS;ヴざ

referente a la altura. Podríamos concluir que el Galgo Inglés tiene una altura muy

grande y el Pinscher Miniatura una muy pequeña, es decir, el Galgo Inglés y el

Pinscher Miniatura no tienen una altura a la cruz estándar.



Tablas de frecuencia

La distribución de frecuencia es un método para organizar y resumir grandes

volúmenes de información. Suele ser útil para la VI al momento de construir

graficas.

El caso de variables Discretas y Nominales

Ejemplo Quinto grado:

El tutor de un grupo de quinto año escolar, desea visualizar la información de sus

alumnos referida a la EDAD y GENERO. En total el grupo está conformado por 30

estudiantes entre los 8 y 11 años de edad.



Variable Discreta: EDAD

Frecuencia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Válidos 8 3 10,0 10,0 10,0

9 13 43,3 43,3 53,3

10 12 40,0 40,0 93,3

11 2 6,7 6,7 100,0

Total 30 100,0 100,0

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.



Variable Nominal: GENERO

Frecuenci

a Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Válidos F 19 63,3 63,3 63,3

M 11 36,7 36,7 100,0

Total 30 100,0 100,0




Se debe tener presente que para cualquier tipo de variare es fundamental que las

ヮﾗゲｷHﾉWゲさｪヴ┌ヮﾗゲざデWﾐｪ;ﾐﾏ=ゲ SW ┌ﾐｷﾐSｷ┗ｷS┌ﾗﾗ WﾉWﾏWﾐデﾗ ;ゲﾗIｷ;Sﾗゲき SW ﾉﾗ contrario la tabla de frecuencia carecería de utilidad.

El caso de variables Continuas

En estos casos se recomienda agrupar los datos bajo el siguiente método:

El número de clases se puede calcular con alguna de las siguientes formulas: La

primera es llamada formula de Sturges.



Pasos:

1. Determinar el rango (diferencia entre el valor máximo y mínimo).

2. Valores extremos

Si los datos son enteros, reste 0.5 al mínimo y súmele 0.5 al máximo

Si los datos tienen una cifra decimal reste 0.05 al mínimo y súmele 0.05 al

máximo

3. De esta manera de acuerdo al número de cifras decimales

4. Calcule nuevamente el rango (rango ampliado)

5. Calcule el número de clases con alguna de las formulas mencionadas

6. Calcule la amplitud de la siguiente forma:



6. Al nuevo mínimo se le suma la amplitud () para generar la primera clase (utilice

intervalo semiabierto a derecha); luego al extremo superior de esa primera

clase súmele la amplitud y de esta manera obtendrá la segunda clase. Repita

este procedimiento hasta llegar a los grupos.

7. Ubique a cada individuo o elemento en las respectivas clases.

Ejemplo Quinto grado:

Sobre el mismo grupo de alumnos, el tutor quiere visualizar la información referida

al PESO.


Quinto Grado

Peso en Kg.

20.6 21.4 23.5 24.5 25.3 26 27.3 28 28.6 29.6

30.4 33.1 34.6 34.6 35 35 35.4 36 36.6 36.9

37 38.7 38.7 39.9 40.6 41 42 42 44.5 45.3


Procedimiento:

Paso 1

Paso 2 y 3

Paso 4

Paso 5



Paso 6

Finalmente la tabla de frecuencia sería:


Quinto Grado

Peso en Kg.

GRUPO_PESO ALUMNOS

[20.55 , 24.68) 4

[24.68 , 28.81) 5

[28.81 , 32.94) 3

[32.94 , 37.07) 9

[37.07 , 41.21) 5

[41.21 , 45.34) 4


Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características

registradas como variables cualitativas, la información puede resumirse usando

una tabla de contingencia.

Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:


Enfermedad Coronaria

Si No Total

Fumador

Si 166 1176 1342

No 50 513 563

Total 216 1689 1905


Recordemos el caso relacionada al tipo de sangre estudiado en la actividad al inicio

del modulo de VI. En este caso es una tabla 2X4

El uso de tablas de contingencias es el corazón del análisis estadístico de datos

cualitativos [8] y es utilizado ampliamente en pruebas estadística son paramétricas

[9]


Tabla de contingencia GENERO * GRUPO_EDAD

Recuento

GRUPO_EDAD

Total 20-29 30-39 40-49 50-59

GENERO Hombre 171 109 102 27 409

Mujer 196 121 69 28 414

Total 367 230 171 55 823


Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características



Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:


Enfermedad Coronaria

Si No Total

Fumador

Si 166 1176 1342

No 50 513 563

Total 216 1689 1905


Función de densidad de probabilidad Normal (continuos y discretos) Cuando en las unidades muéstrales se observan múltiples características



Esta distribución juega un papel clave en el desarrollo de la inferencia estadística,

pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas

de hipótesis, tienen su fundamento en esta distribución.

Un gran número de estudios pueden ser aproximados usando una distribución

normal. Algunas variables físicas, datos meteorológicos (temperatura,

precipitaciones, presión atmosférica, etc.), mediciones en organismos vivos, notas

o puntajes en pruebas de admisión o de aptitud, errores en instrumentación,

proporciones de errores en diversos procesos, etc.

Distribución Normal


Esta distribución es absolutamente simétrica alrededor de su media.


Fuente: Portal Biomédico., 2010.

Variación de la distribución normal en función de la media

Variación de la distribución normal en función de la desviación estándar


Retomando el ejemplo de los niños de quinto grado, nos podríamos pregunta si su

distribución en relación a las variables peso y edad se comportan como una

distribución normal. Un primer paso es construir un histograma para cada una de

estas variables.






¿Podríamos decir que estas variables se distribuyen normalmente?




Retomando nuevamente la definición y conceptos teóricos de la función de

densidad de probabilidad Normal, podríamos enunciar de una forma más formal:

Sea X una variable aleatoria continua. Se dice que X se distribuye como una normal

con parámetros y (estos parámetros determinan el centro y la dispersión de la

distribución y la caracterizan completamente), lo cual se escribe 隙ｂ軽づ┸ 購 , si X

tiene función densidad de probabilidad dada por,

血捲噺結貸岫掴貸筑岻【態蹄鉄購に講 ┸伐タ隼捲隼タ┸ 購伴ど

Por medio del cálculo se puede probar que realmente esta función es función de

densidad de probabilidad. Además, es simétrica alrededor de づ. Tiene forma

acampanada, el área bajo la curva (considerando todo el dominio de la v.a)

siempre es igual a 1.



Si X es una v.a. normal con parámetros y , la probabilidad de que 欠隼隙隼決 se

calcula así:

鶏欠隼隙隼決噺豹結貸岫掴貸筑岻【態蹄鉄購に講穴捲長

銚

Para calcular probabilidades relacionadas con la normal se hace necesario utilizar

tablas estándar de normalidad. Esto es porque las integrales que surgen en este

tipo de problemas son extremadamente difíciles de resolver.

Afortunadamente, cualquier variable aleatoria normal se puede transformar en

una normal con media = 0 y varianza = 1; esto se logra por medio de la siguiente

transformación.



Suponga que X es una variable aleatoria normal con parámetros y . La variable

aleatoria Z, se define como:

傑噺捲伐

ｂ軽岫ど┸な岻

Pero ¿Es equivalente la probabilidad original a la obtenida con esta

transformación? La respuesta es afirmativa, ya que,

鶏捲怠隼隙隼捲態噺豹結貸岫掴貸筑岻【態蹄鉄購に講穴捲┸ 掴鉄掴迭

噺豹結貸跳鉄【態に講穴権噺豹軽岫ど┸な岻穴権佃鉄佃迭噺鶏岫権怠隼傑隼権態岻佃鉄

佃迭

Una variable aleatoria X que se transforme de esta manera se dice que es una

variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es

necesario resolver la integral ya que sus valores están tabulados.



Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento

puede modelarse por medio de una distribución normal con una resistencia media

de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es

la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por

centímetro cuadrado?

Solución

Sea X: Resistencia a la compresión de una muestra de cemento. Por la información

del problema se sabe que 隙ｂ軽はどどど┸ 岫などど岻態 . La probabilidad pedida es,

P X 隼はにどど

Entonces,

鶏隙隼はにどど噺鶏隙伐はどどどなどど隼はにどど伐はどどどなどど

De esta forma se estandariza.

鶏傑隼に蝦戟嫌欠券穴剣建欠決健欠嫌┺ 噺ど┻ひばばにねひひ



La distribución normal cumple la siguiente regla:

• El intervalo づ contiene aproximadamente el 68.2% de las mediciones.

• El intervalo 2 contiene aproximadamente el 95.4% de las mediciones.

• El intervalo 3 contiene algo más del 99.7% de las mediciones.


Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de

Colombia. Sede Medellín, 2010.


El Diagrama Boxplot En 1977, John Tukey publicó un método eficiente para mostrar cinco números

representativos o resumen de un conjunto de datos cuantitativos. La gráfica fue

llamada Boxplot (Diagrama de caja y bigotes), la cual resume los siguientes

elemento o medidas estadísticas.

• Mediana

• Percentiles de interés (25%, 50% y 75%)

• Máximo

• Mínimo

• Valores extremos

El Boxplot representa la distribución de una variable continua, donde por medio de

los cinco valores, se representan los conceptos de:

• Tendencia Central

• Dispersión

• Simetría

Este gráfico es ideal para representar una desviación de la distribución normal.



Este gráfico es ideal para representar una desviación de la distribución normal.

• Mientras más grande es la caja y los bigotes, más dispersa es la distribución de

los datos

• La distancia entre las medidas puede variar, pero no la cantidad de elementos,

ya que entre una y la otra es aproximadamente la misma.

• La línea de la mediana indica la simetría .

El Boxplot es también considerado un método gráfico para la detección de Outlier

(valores extremos) y es muy utilizado en minería de datos en la etapa de

exploración de datos para detectar valores que posiblemente sean influyentes para

determinar la calidad de un modelo. Por otra parte existen técnicas estadísticas

especializadas en la detección de estos registros influyentes, donde algunas

emplean el análisis delos errores para dicho fin.



Los Outlier son valores extremos que se encuentran cerca de los límites del rango

de datos o van en contra de la tendencia de los datos restantes. La identificación

de valores atípicos es importante, ya que pueden obedecer a errores asociados al

parámetro de calidad de los datos. Además, incluso si un Outlier es un valor valido,

ciertos métodos estadísticos son sensibles a la presencia de valores atípicos y

pueden ofrecer resultados inestables o disminuir en su poder predictivo. [10]




Boxplot para la variable Peso.





Boxplot para la variable Edad.





Fuente: www.answers.com

Boxplot y distribución normal


Evaluación del supuesto de normalidad.

Cuando se está en presencia de una muestra aleatoria, es ciertamente importante

determinar si proviene o no de una población la cual se distribuye normalmente.

Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos

sobre una variable provienen o no de una distribución normal.

Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los

valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos)

de los cuartiles de una normal. Si los datos provienen de una distribución normal,

el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta.

Si los datos se distribuyen normalmente los puntos en el gráfico caen de manera

muy aproximada sobre una línea recta con intercepto µ y pendiente ゝ.




Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de

Colombia. Sede Medellín, 2010.


Prueba de Normalidad Shapiro-Wilk (No Paramétrica)

Para probar normalidad univariada este test es el que más se recomienda.

Es de resaltar que este test no pertenece a la familia de tests de Kolmogorov.

Si solo se dispone de tablas para comparar este estadístico, se recomienda su uso

cuando el tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos

actuales están en capacidad de calcularlo para muestras más grandes.

El alcance de este curso no abordará el cálculo analítico de esta prueba de

normalidad, sin embargo, en el texto de Conover de estadística No Paramétrica se

encuentra en detalle el desarrollo analítico.

Las hipótesis de esta prueba son:

H0 (hipótesis nula): F(x) es una función de distribución normal, con media y

varianza no especificadas.

H1 (hipótesis alternativa): F(x) no es normal.




Para la variable EDAD rechazo H0 y para PESO no se puede rechazar H0




Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk.

> EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11,

+ 9,10,11,9,10,9,9,9,8,10,10,8,10)

> shapiro.test(EDAD)

Shapiro-Wilk normality test

data: EDAD

W = 0.86, p-value = 0.001014

> PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5,

+ 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3)

> shapiro.test(PESO)

Shapiro-Wilk normality test

data: PESO

W = 0.9582, p-value = 0.4811



Índice de Asimetría La asimetría de una distribución hace referencia al grado en que los datos se

reparten por encima (derecha) y por debajo (izquierda) de la tendencia central

Índice de Curtosis La Curtosis hace referencia al grado de apuntamiento de la distribución.



Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de

una posible distribución normal aunque es indispensable apoyarse en otras

verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos están

muy bien distribuidos.

Se pudiera pensar que si la media, mediana y moda de una variable presentaran

valores muy similares, se dice que los datos se distribuyen normalmente.



Módulo: Visualización de Información Docente: Gustavo Valencia Zapata

Diagrama de Dispersión

Muestra en un eje cartesiano (xy) la relación que existe entre dos variables.

Utilizados para ilustrar y comparar valores numéricos, como datos científicos,

estadísticos y de ingeniería, entre otros.

Nos informa del grado de correlación entre las dos variables: Muestra si el

incremento o disminución de los valores de una de las variables (independiente),

representada normalmente en el eje x, altera de alguna manera los valores de la

otra variable (dependiente), representada generalmente en el eje y.

Visualmente se puede interpretar la correlación entre dos variables, según la forma

de la nube de puntos

Tipo de

Variable

Cuantitativa Discretas Continuas

Cualitativa Nominales Ordinales


Correlación nula:

No existe ninguna relación entre las variables. Se dice que

ambas son independientes.

Correlación no lineal:

Existe una relación entre las variables pero no es lineal.

Correlación lineal:

Existe una relación lineal negativa si al aumentar los

valores de la variable independiente disminuyen los

valores de la variable dependiente y relación lineal positiva

si al aumentar los valores de la variable independiente

aumentan los valores de la variable dependiente.

Fuente: Instituto Nacional de

Estadística. España,2012.



Tipos de Gráficos

Los diagramas de dispersión simple (bidimensionales) suelen ser muy útiles para

identificar visualmente la calidad un modelo comparando el valor conocido con el

valor estimado.

Fuente: Gustavo Valencia Z.

Notas de clase: Visualización de Información, 2012.

Actividad: Volumen del huevo.


Tipos de Gráficos

Las matrices de dispersión proporcionan un método simple de presentar las

relaciones entre pares de variables. Consiste en una matriz donde cada entrada

presenta un grafico de dispersión sencillo. Un inconveniente es que si tenemos

muchas variables el tamaño de cada entrada se reduce demasiado impidiendo ver

con claridad las relaciones entre los pares de variables.

Normalmente es empleado en la etapa de exploración cuando se desea identificar

el tipo de correlación existente entre variables de tipo cuantitativo. Suele ser un

paso inicial obligatorio al momento de la construcción de un modelo de regresión

lineal.


Tipos de Gráficos





Correlación

Trata de establecer la relación o dependencia que existe entre las dos variables que

intervienen en una distribución bidimensional. Se mide de -1 a 1.

Correlación de Pearson. Mide la fuerza (intensidad) y dirección de una asociación

lineal entre dos variables x y y.

Correlación de Spearman. Mide la fuerza (intensidad) y dirección de una

asociación monótona entre x y y. Por asociación monótona se entiende un

incremento en x lleva a un incremento (o decremento) en y, pero este no es

necesariamente lineal [7].

Tipos de Gráficos


Correlación

Spearman es robusto a la presencia de outliers, mientras que Pearson no lo es.

Spearman es apropiado para datos ordinales y para datos agrupados en intervalos

que no satisfacen el supuesto de normalidad.

Pearson es ideal para variables continuas normales.

Tipos de Gráficos





Tipos de Gráficos





Tipos de Gráficos




Graficos Q-Q y Boxplot para el Volumen del huevo predicho.


Tipos de Gráficos


Tarea 001

1. Consultar una aplicación de la minería de datos en la industrio o la investigación

académica. La fuente de información debe poseer un carácter formal

(investigativo), es decir, debe ser un artículo publicado en algún journal.

2. Realice un análisis de datos asociados a ventas de detergente. Utilice la

herramienta que esté a su alcance y las técnicas que comúnmente emplea en

situaciones similares (tablas, gráficos, entre otros). Encuentre más detalles de

esta actividad en el archivo Tarea 001 に Análisis exploratorio

Referencias

[7] Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase.

Universidad Nacional de Colombia. Sede Medellín.

[8] Alan Agresti. Categorical Data. Universidad Nacional de Colombia. Wiley, 2002.

[9] W. J. Conover. Practical Nonparametric Statistic. Wiley, 1999.

[10] Daniel T. Larose, Discovering Knowledge in Data: An Introduction to Data

Mining. John Wiley & Son, 2005


clase 1 - gustavo valencia · estatura, tiempo de duración, ... alturas están a una distancia...

Documents