clase 1 - gustavo valencia · estatura, tiempo de duración, ... alturas están a una distancia...

66
v.1.0 Clase 1 Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Upload: dinhkhanh

Post on 07-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

v.1.0

Clase 1

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 2: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Conceptos básicos

Tipos de variables La distribución normal

Temas

Estadística descriptiva

Clase 1: Conceptos Estadísticos para Minería de Datos

Referencias

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 3: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Conceptos básicos

Conceptos básicos El principal objetivo de la estadística es producir información útil y de interés a

partir de hechos numéricos. Para alcanzar este objetivo se recomienda prestar

atención a básicamente tres cosas [7]:

1. Producir datos de calidad

2. Organizar y analizar estos datos

3. Obtener conclusiones a partir de estos datos

Las conclusiones basadas en datos, sea que se obtengan de manera formal o

informal, tienen una componente de incertidumbre ya que siempre habrá

variabilidad en los datos.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 4: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Los datos varían. Fenómenos naturales, el Hombre, Los animales, las cosas,

medidas repetidas hechas sobre un mismo ente varían.

Si la variabilidad no existiera viviríamos en el mundo de lo constante, nada nos

sorprendería ni el pasado o el futuro, todo sería igual y la estadística difícilmente

sería la misma; que pensar de aquellas disciplinas modernas que dependen de la

estadística como la minería de datos, visualización de información o la inteligencia

de Negocios.

La estadística propone métodos para enfrentar situaciones donde la variabilidad y

la incertidumbre están presentes. Con estos métodos se puede analizar datos a fin

de separar y evidenciar la presencia de patrones sistemáticos de la siempre

presente variabilidad

Antes de que los hechos numéricos se usen para bien o para mal se deben producir

datos.

Los datos pueden estar disponibles o se pueden obtener vía experimental o por

observación.

Conceptos básicos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 5: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Ejemplos:

Disponible: Registros médicos de un Hospital

Observación: Contar el número de vehículos que obvian un semáforo en rojo en

una calle determinada. (Proceso pasivo)

Experimental: Comparar la efectividad de dos o más medicamentos. (Proceso

activo)

Para realizar un estudio estadístico se requieren datos, que pueden comprender a

toda la Población de referencia (Censo), o solo a una parte de ella (Muestra).

Conceptos básicos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 6: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Población: Conjunto de todos los elementos que comparten un grupo común de

características, y forman el universo para el propósito del problema de

investigación. La población objetivo es la Población particular en que estamos

interesados y sobre el cual se desea obtener algunas conclusiones por medio de

métodos estadísticos

Muestra: Es un subconjunto representativo de la población a partir del cual se

pretende realizar inferencias respecto a la población de donde proceden. Es más

práctico y ventajoso tomar muestras ya que optimiza los recursos disponibles.

Unidad Estadística: Es el elemento o unidad base de la población o de la muestra.

Cualquier miembro de la Población.

Parámetro: Es cualquier valor característico de la población (valores verdadero),

también llamados medidas numéricas que describen características esenciales en

una población de interés.

Variable: Es una característica de un individuo en la población o en la muestra cuya

medida puede cambiar de valor.

Conceptos básicos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 7: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Inferencia Estadística: Es una parte de la estadística cuya finalidad es obtener

conclusiones respecto a la población a partir de datos observados en muestras.

Ejemplo:

El ministerio de transporte de un país, ha recibido continuas quejas de usuarios

denunciando usurara en las tarifas del galón de combustible en estaciones de

gasolina. A la fecha existen 5.467 estaciones de gasolina en el país, por lo que el

ministerio decide seleccionar al azar 200 estaciones y registrar el precio del galón

de gasolina el mismo día para ser comparado con la tarifa oficial.

Describa: Población, Variable, Muestra y proceso de Inferencia

Conceptos básicos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 8: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Solución:

Población: Las 5.467 estaciones de gasolina es la Población de interés.

Variable: El precio del galón de gasolina es la Variable de interés.

Muestra: Las 200 estaciones auditadas son la muestra de la Población.

Proceso de inferencia: La inferencia en este caso podría ser la generalización de la

información de los precios en las estaciones de gasolina de la muestra. En

particular el ministerio de transporte desea conocer la magnitud del problema de

usura presente en la Población. Se propone calcular el promedio del valor galón y

compararlo con la tarifa oficial.

Conceptos básicos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 9: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de variables

Tipos de Variables

Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 10: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de variables

Los datos que se recopilan como producto de un proceso de experimentación

aleatoria pueden tener una amplia variedad de formas. Dependiendo del tipo de

datos, la estadística proporciona una técnica adecuada para su estudio.

Un conjunto de datos posee una serie de características de interés que pueden ser

visualizadas ya sea en forma numérica o en forma gráfica.

Las variables más comunes en estadística se dividen en Discretas, Continuas y

Categóricas

Discretas: Son aquellas variables cuyo rango de valores es finito o contable. Por

ejemplo, el número de accidentes en una intersección en un determinado mes. El

numero de hijos según los diferentes estratos socioeconómicos. Surgen de

procesos que involucran conteos.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 11: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de variables

Continuas: Son aquellas variables cuyo rango de valores es infinito. Es decir, que

tiene tantos valores como puntos hay en un segmento rectilíneo. Por ejemplo,

nivel de presión sanguínea, edad, peso, temperatura, etc. Surgen de procesos que

involucran mediciones.

Cualitativas(Categóricas): Sus valores consisten en una serie de clasificaciones. Por

WテWマヮノラが ェYミWヴラが ;aキノキ;Iキルミ ヮラノケデキI;が Wノ キミェヴWゲラ ゲW ヮ┌WSW Iノ;ゲキaキI;ヴ Wミ さ;ノデラざが さマWSキラざ ラ さH;テラざが ノラゲ ヮ;ケゲWゲ ゲWェ┎ミ ゲ┌ SWゲ;ヴヴラノノラ ゲW ヮ┌WSWミ Iノ;ゲキaキI;ヴ Iラマラ さゲ┌HSWゲ;ヴヴラノノ;Sラざ がさWミ ┗ケ; SW SWゲ;ヴヴラノノラざが さDWゲ;ヴヴラノノ;Sラゲざく

Según la escala de medición, las más comunes son:

Nominal: Los niveles no tienen un orden natural. Por ejemplo, afiliación religiosa

(Católico, Testigo de Jehová, Protestante. No se puede determinar cual va primero).

Género (Femenino, Masculino). Estado civil (Soltero, Casado, Unión libre). Color

(Rojo, blanco, verde)

Ordinal: Los niveles tienen algún orden, pero no es posible medir la distancia

entre las categorías. Por ejemplo, Estrato socio económico, tamaño de un

automóvil, Satisfacción (Poco, moderado, muy satisfecho)

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 12: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de variables

Intervalo: Tiene distancias numéricas entre dos niveles cualquiera de la escala. Por

ejemplo, Ingreso (<200000, entre 200000 y 400000, más de 400000). Se usa para

mediciones de naturaleza cuantitativa que se hacen con escalas que tienen como

base un valor de cero arbitrario. Por ejemplo un registro de 0 no indica la ausencia

de temperatura.

Razón: Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas

que tienen como base un valor de cero absoluto. Por ejemplo, longitud del brazo,

estatura, tiempo de duración, número de artículos defectuosos en una línea de

producción, presión sanguínea. Las variables continuas y discretas pertenecen a esta escala

Si el peso de persona se mide en gramos, kilos o libras, esta constituye una medida

cuantitativa, pero si se mide como bajo, medio o alto es cualitativa.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 13: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Estadística descriptiva La Estadística Descriptiva utiliza métodos numéricos y gráficos a fin de buscar

patrones, resumir y presentar la información contenida en un conjunto de datos

Medidas de Centralidad

Medidas de Centralidad:

Media Aritméticas para datos simples: Denota el promedio de un conjunto de

datos. Se calcula dividiendo la suma del conjunto de datos entre el total de ellos.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 14: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Moda para datos simples: Es el valor de la variable que tiene mayor frecuencia

absoluta, la que más se repite es la única medida de centralización que tiene

sentido estudiar en una variable cualitativa, pues no precisa la realización de

ningún cálculo. Por su propia definición, la moda no es única, pues puede haber

dos o más valores de la variable que tengan la misma frecuencia siendo esta

máxima.

Mediana para datos simples: Es el valor que divide al conjunto de datos

ordenados, en aproximadamente dos partes: 50% de valores son inferiores y otro

50% son superiores

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 15: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Módulo: Visualización de Información Docente: Gustavo Valencia Zapata

Ejemplo: Considere los siguientes datos ordenados asociados a la edad de un club

de lectura. 22, 33, 35, 44, 47, 49, 55, 56, 67, 68, 70, 75

Como es par, entonces la mediana es:

Medidas de Dispersión La Varianza: Es una medida de dispersión de la información. Se obtiene como el

promedio de los cuadrados de las desviaciones de los valores de la variable

respecto de su media aritmética.

Desviación Estándar: Conocida también como desviación típica, es una medida de

dispersión que se obtiene como la raíz cuadrada de la varianza. Mide cuanto se

separan los datos.

Page 16: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Ejemplo: Altura de perros

Un club de amigos de los perros decidió medir la altura de sus mascotas (altura a la

cruz), para identificar las diferencias entre cada raza en esta variable.

Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 17: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

ALTURA DE PERROS

ID Perro Altura_cruz (cm)

P1 Gran Danés 76

P2 Bóxer 59

P3 Pinscher Alemán 49

P4 Bulldog Inglés 32

P5 Bull Terrier 30

P6 Schnauzer Miniatura 37

P7 Poodle 39

P8 Pinscher Miniatura 22

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 18: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Es decir que la altura media a la cruz de los 8 perros es de 43 cm.

Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 19: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Visualización de datos

Para calcular la varianza, se debe identificar la diferencia con respecto a la media

para cada perro.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.

Page 20: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Visualización de datos

La desviación estándar sería:

Lo útil de la desviación estándar es que es más intuitiva. Se puede identificar que

alturas están a una distancia menor que la desviación estándar de la media.

Usando la desviación estándar tenemos una forma de saber lo normal さWゲデ=ミS;ヴざ

referente a la altura. Podríamos concluir que el Galgo Inglés tiene una altura muy

grande y el Pinscher Miniatura una muy pequeña, es decir, el Galgo Inglés y el

Pinscher Miniatura no tienen una altura a la cruz estándar.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 21: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase: Minería de Datos, 2012.

Page 22: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Tablas de frecuencia

La distribución de frecuencia es un método para organizar y resumir grandes

volúmenes de información. Suele ser útil para la VI al momento de construir

graficas.

El caso de variables Discretas y Nominales

Ejemplo Quinto grado:

El tutor de un grupo de quinto año escolar, desea visualizar la información de sus

alumnos referida a la EDAD y GENERO. En total el grupo está conformado por 30

estudiantes entre los 8 y 11 años de edad.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 23: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Variable Discreta: EDAD

Frecuencia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Válidos 8 3 10,0 10,0 10,0

9 13 43,3 43,3 53,3

10 12 40,0 40,0 93,3

11 2 6,7 6,7 100,0

Total 30 100,0 100,0

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 24: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Variable Nominal: GENERO

Frecuenci

a Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Válidos F 19 63,3 63,3 63,3

M 11 36,7 36,7 100,0

Total 30 100,0 100,0

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Page 25: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Se debe tener presente que para cualquier tipo de variare es fundamental que las

ヮラゲキHノWゲ さェヴ┌ヮラゲざ デWミェ;ミ マ=ゲ SW ┌ミ キミSキ┗キS┌ラ ラ WノWマWミデラ ;ゲラIキ;Sラゲき SW ノラ contrario la tabla de frecuencia carecería de utilidad.

El caso de variables Continuas

En estos casos se recomienda agrupar los datos bajo el siguiente método:

El número de clases se puede calcular con alguna de las siguientes formulas: La

primera es llamada formula de Sturges.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 26: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Pasos:

1. Determinar el rango (diferencia entre el valor máximo y mínimo).

2. Valores extremos

Si los datos son enteros, reste 0.5 al mínimo y súmele 0.5 al máximo

Si los datos tienen una cifra decimal reste 0.05 al mínimo y súmele 0.05 al

máximo

3. De esta manera de acuerdo al número de cifras decimales

4. Calcule nuevamente el rango (rango ampliado)

5. Calcule el número de clases con alguna de las formulas mencionadas

6. Calcule la amplitud de la siguiente forma:

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 27: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

6. Al nuevo mínimo se le suma la amplitud () para generar la primera clase (utilice

intervalo semiabierto a derecha); luego al extremo superior de esa primera

clase súmele la amplitud y de esta manera obtendrá la segunda clase. Repita

este procedimiento hasta llegar a los grupos.

7. Ubique a cada individuo o elemento en las respectivas clases.

Ejemplo Quinto grado:

Sobre el mismo grupo de alumnos, el tutor quiere visualizar la información referida

al PESO.

Estadística descriptiva

Quinto Grado

Peso en Kg.

20.6 21.4 23.5 24.5 25.3 26 27.3 28 28.6 29.6

30.4 33.1 34.6 34.6 35 35 35.4 36 36.6 36.9

37 38.7 38.7 39.9 40.6 41 42 42 44.5 45.3

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 28: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Procedimiento:

Paso 1

Paso 2 y 3

Paso 4

Paso 5

Tablas de frecuencia

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 29: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Paso 6

Finalmente la tabla de frecuencia sería:

Tablas de frecuencia

Quinto Grado

Peso en Kg.

GRUPO_PESO ALUMNOS

[20.55 , 24.68) 4

[24.68 , 28.81) 5

[28.81 , 32.94) 3

[32.94 , 37.07) 9

[37.07 , 41.21) 5

[41.21 , 45.34) 4

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 30: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tablas de frecuencia

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Page 31: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características

registradas como variables cualitativas, la información puede resumirse usando

una tabla de contingencia.

Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:

Estadística descriptiva

Enfermedad Coronaria

Si No Total

Fumador

Si 166 1176 1342

No 50 513 563

Total 216 1689 1905

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 32: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Recordemos el caso relacionada al tipo de sangre estudiado en la actividad al inicio

del modulo de VI. En este caso es una tabla 2X4

El uso de tablas de contingencias es el corazón del análisis estadístico de datos

cualitativos [8] y es utilizado ampliamente en pruebas estadística son paramétricas

[9]

Estadística descriptiva

Tabla de contingencia GENERO * GRUPO_EDAD

Recuento

GRUPO_EDAD

Total 20-29 30-39 40-49 50-59

GENERO Hombre 171 109 102 27 409

Mujer 196 121 69 28 414

Total 367 230 171 55 823

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 33: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características

registradas como variables cualitativas, la información puede resumirse usando

una tabla de contingencia.

Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera:

Estadística descriptiva

Enfermedad Coronaria

Si No Total

Fumador

Si 166 1176 1342

No 50 513 563

Total 216 1689 1905

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 34: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Función de densidad de probabilidad Normal (continuos y discretos) Cuando en las unidades muéstrales se observan múltiples características

registradas como variables cualitativas, la información puede resumirse usando

una tabla de contingencia.

Esta distribución juega un papel clave en el desarrollo de la inferencia estadística,

pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas

de hipótesis, tienen su fundamento en esta distribución.

Un gran número de estudios pueden ser aproximados usando una distribución

normal. Algunas variables físicas, datos meteorológicos (temperatura,

precipitaciones, presión atmosférica, etc.), mediciones en organismos vivos, notas

o puntajes en pruebas de admisión o de aptitud, errores en instrumentación,

proporciones de errores en diversos procesos, etc.

Distribución Normal

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 35: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Esta distribución es absolutamente simétrica alrededor de su media.

Estadística descriptiva

Fuente: Portal Biomédico., 2010.

Variación de la distribución normal en función de la media

Variación de la distribución normal en función de la desviación estándar

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 36: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Retomando el ejemplo de los niños de quinto grado, nos podríamos pregunta si su

distribución en relación a las variables peso y edad se comportan como una

distribución normal. Un primer paso es construir un histograma para cada una de

estas variables.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Page 37: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

¿Podríamos decir que estas variables se distribuyen normalmente?

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Page 38: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Retomando nuevamente la definición y conceptos teóricos de la función de

densidad de probabilidad Normal, podríamos enunciar de una forma más formal:

Sea X una variable aleatoria continua. Se dice que X se distribuye como una normal

con parámetros y (estos parámetros determinan el centro y la dispersión de la

distribución y la caracterizan completamente), lo cual se escribe 隙b軽 づ┸ 購 , si X

tiene función densidad de probabilidad dada por,

血 捲 噺 結貸岫掴貸筑岻【態蹄鉄購 に講 ┸伐タ 隼 捲 隼 タ┸ 購 伴 ど

Por medio del cálculo se puede probar que realmente esta función es función de

densidad de probabilidad. Además, es simétrica alrededor de づ. Tiene forma

acampanada, el área bajo la curva (considerando todo el dominio de la v.a)

siempre es igual a 1.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 39: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Si X es una v.a. normal con parámetros y , la probabilidad de que 欠 隼 隙 隼 決 se

calcula así:

鶏 欠 隼 隙 隼 決 噺 豹結貸岫掴貸筑岻【態蹄鉄購 に講 穴捲長

Para calcular probabilidades relacionadas con la normal se hace necesario utilizar

tablas estándar de normalidad. Esto es porque las integrales que surgen en este

tipo de problemas son extremadamente difíciles de resolver.

Afortunadamente, cualquier variable aleatoria normal se puede transformar en

una normal con media = 0 y varianza = 1; esto se logra por medio de la siguiente

transformación.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 40: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Suponga que X es una variable aleatoria normal con parámetros y . La variable

aleatoria Z, se define como:

傑 噺 捲 伐

b軽岫ど┸な岻

Pero ¿Es equivalente la probabilidad original a la obtenida con esta

transformación? La respuesta es afirmativa, ya que,

鶏 捲怠 隼 隙 隼 捲態 噺 豹 結貸岫掴貸筑岻【態蹄鉄購 に講 穴捲┸ 掴鉄掴迭

噺 豹 結貸跳鉄【態に講 穴権 噺 豹 軽岫ど┸な岻穴権佃鉄佃迭 噺 鶏岫権怠 隼 傑 隼 権態岻 佃鉄

佃迭

Una variable aleatoria X que se transforme de esta manera se dice que es una

variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es

necesario resolver la integral ya que sus valores están tabulados.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 41: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento

puede modelarse por medio de una distribución normal con una resistencia media

de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es

la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por

centímetro cuadrado?

Solución

Sea X: Resistencia a la compresión de una muestra de cemento. Por la información

del problema se sabe que 隙b軽 はどどど┸ 岫などど岻態 . La probabilidad pedida es,

P X 隼 はにどど

Entonces,

鶏 隙 隼 はにどど 噺 鶏 隙 伐 はどどどなどど 隼 はにどど 伐 はどどどなどど

De esta forma se estandariza.

鶏 傑 隼 に 蝦 戟嫌欠券穴剣 建欠決健欠嫌┺ 噺 ど┻ひばばにねひひ

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 42: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

La distribución normal cumple la siguiente regla:

• El intervalo づ contiene aproximadamente el 68.2% de las mediciones.

• El intervalo 2 contiene aproximadamente el 95.4% de las mediciones.

• El intervalo 3 contiene algo más del 99.7% de las mediciones.

Estadística descriptiva

Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de

Colombia. Sede Medellín, 2010.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 43: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

El Diagrama Boxplot En 1977, John Tukey publicó un método eficiente para mostrar cinco números

representativos o resumen de un conjunto de datos cuantitativos. La gráfica fue

llamada Boxplot (Diagrama de caja y bigotes), la cual resume los siguientes

elemento o medidas estadísticas.

• Mediana

• Percentiles de interés (25%, 50% y 75%)

• Máximo

• Mínimo

• Valores extremos

El Boxplot representa la distribución de una variable continua, donde por medio de

los cinco valores, se representan los conceptos de:

• Tendencia Central

• Dispersión

• Simetría

Este gráfico es ideal para representar una desviación de la distribución normal.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 44: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Este gráfico es ideal para representar una desviación de la distribución normal.

• Mientras más grande es la caja y los bigotes, más dispersa es la distribución de

los datos

• La distancia entre las medidas puede variar, pero no la cantidad de elementos,

ya que entre una y la otra es aproximadamente la misma.

• La línea de la mediana indica la simetría .

El Boxplot es también considerado un método gráfico para la detección de Outlier

(valores extremos) y es muy utilizado en minería de datos en la etapa de

exploración de datos para detectar valores que posiblemente sean influyentes para

determinar la calidad de un modelo. Por otra parte existen técnicas estadísticas

especializadas en la detección de estos registros influyentes, donde algunas

emplean el análisis delos errores para dicho fin.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 45: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Los Outlier son valores extremos que se encuentran cerca de los límites del rango

de datos o van en contra de la tendencia de los datos restantes. La identificación

de valores atípicos es importante, ya que pueden obedecer a errores asociados al

parámetro de calidad de los datos. Además, incluso si un Outlier es un valor valido,

ciertos métodos estadísticos son sensibles a la presencia de valores atípicos y

pueden ofrecer resultados inestables o disminuir en su poder predictivo. [10]

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 46: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Boxplot para la variable Peso.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Page 47: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Boxplot para la variable Edad.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Page 48: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Fuente: www.answers.com

Boxplot y distribución normal

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 49: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Evaluación del supuesto de normalidad.

Cuando se está en presencia de una muestra aleatoria, es ciertamente importante

determinar si proviene o no de una población la cual se distribuye normalmente.

Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos

sobre una variable provienen o no de una distribución normal.

Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los

valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos)

de los cuartiles de una normal. Si los datos provienen de una distribución normal,

el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta.

Si los datos se distribuyen normalmente los puntos en el gráfico caen de manera

muy aproximada sobre una línea recta con intercepto µ y pendiente ゝ.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 50: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de

Colombia. Sede Medellín, 2010.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 51: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Prueba de Normalidad Shapiro-Wilk (No Paramétrica)

Para probar normalidad univariada este test es el que más se recomienda.

Es de resaltar que este test no pertenece a la familia de tests de Kolmogorov.

Si solo se dispone de tablas para comparar este estadístico, se recomienda su uso

cuando el tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos

actuales están en capacidad de calcularlo para muestras más grandes.

El alcance de este curso no abordará el cálculo analítico de esta prueba de

normalidad, sin embargo, en el texto de Conover de estadística No Paramétrica se

encuentra en detalle el desarrollo analítico.

Las hipótesis de esta prueba son:

H0 (hipótesis nula): F(x) es una función de distribución normal, con media y

varianza no especificadas.

H1 (hipótesis alternativa): F(x) no es normal.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 52: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Estadística descriptiva

Para la variable EDAD rechazo H0 y para PESO no se puede rechazar H0

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Fuente: Gustavo Valencia Z. Notas de clase:

Minería de Datos, 2012.

Page 53: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk.

> EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11,

+ 9,10,11,9,10,9,9,9,8,10,10,8,10)

> shapiro.test(EDAD)

Shapiro-Wilk normality test

data: EDAD

W = 0.86, p-value = 0.001014

> PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5,

+ 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3)

> shapiro.test(PESO)

Shapiro-Wilk normality test

data: PESO

W = 0.9582, p-value = 0.4811

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 54: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Índice de Asimetría La asimetría de una distribución hace referencia al grado en que los datos se

reparten por encima (derecha) y por debajo (izquierda) de la tendencia central

Índice de Curtosis La Curtosis hace referencia al grado de apuntamiento de la distribución.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 55: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de

una posible distribución normal aunque es indispensable apoyarse en otras

verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos están

muy bien distribuidos.

Se pudiera pensar que si la media, mediana y moda de una variable presentaran

valores muy similares, se dice que los datos se distribuyen normalmente.

Estadística descriptiva

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 56: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Módulo: Visualización de Información Docente: Gustavo Valencia Zapata

Diagrama de Dispersión

Muestra en un eje cartesiano (xy) la relación que existe entre dos variables.

Utilizados para ilustrar y comparar valores numéricos, como datos científicos,

estadísticos y de ingeniería, entre otros.

Nos informa del grado de correlación entre las dos variables: Muestra si el

incremento o disminución de los valores de una de las variables (independiente),

representada normalmente en el eje x, altera de alguna manera los valores de la

otra variable (dependiente), representada generalmente en el eje y.

Visualmente se puede interpretar la correlación entre dos variables, según la forma

de la nube de puntos

Tipo de

Variable

Cuantitativa Discretas Continuas

Cualitativa Nominales Ordinales

Estadística descriptiva

Page 57: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Correlación nula:

No existe ninguna relación entre las variables. Se dice que

ambas son independientes.

Correlación no lineal:

Existe una relación entre las variables pero no es lineal.

Correlación lineal:

Existe una relación lineal negativa si al aumentar los

valores de la variable independiente disminuyen los

valores de la variable dependiente y relación lineal positiva

si al aumentar los valores de la variable independiente

aumentan los valores de la variable dependiente.

Fuente: Instituto Nacional de

Estadística. España,2012.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Estadística descriptiva

Page 58: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de Gráficos

Los diagramas de dispersión simple (bidimensionales) suelen ser muy útiles para

identificar visualmente la calidad un modelo comparando el valor conocido con el

valor estimado.

Fuente: Gustavo Valencia Z.

Notas de clase: Visualización de Información, 2012.

Actividad: Volumen del huevo.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 59: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de Gráficos

Las matrices de dispersión proporcionan un método simple de presentar las

relaciones entre pares de variables. Consiste en una matriz donde cada entrada

presenta un grafico de dispersión sencillo. Un inconveniente es que si tenemos

muchas variables el tamaño de cada entrada se reduce demasiado impidiendo ver

con claridad las relaciones entre los pares de variables.

Normalmente es empleado en la etapa de exploración cuando se desea identificar

el tipo de correlación existente entre variables de tipo cuantitativo. Suele ser un

paso inicial obligatorio al momento de la construcción de un modelo de regresión

lineal.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 60: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de Gráficos

Fuente: Gustavo Valencia Z.

Notas de clase: Visualización de Información, 2012.

Actividad: Volumen del huevo.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 61: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Correlación

Trata de establecer la relación o dependencia que existe entre las dos variables que

intervienen en una distribución bidimensional. Se mide de -1 a 1.

Correlación de Pearson. Mide la fuerza (intensidad) y dirección de una asociación

lineal entre dos variables x y y.

Correlación de Spearman. Mide la fuerza (intensidad) y dirección de una

asociación monótona entre x y y. Por asociación monótona se entiende un

incremento en x lleva a un incremento (o decremento) en y, pero este no es

necesariamente lineal [7].

Tipos de Gráficos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 62: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Correlación

Spearman es robusto a la presencia de outliers, mientras que Pearson no lo es.

Spearman es apropiado para datos ordinales y para datos agrupados en intervalos

que no satisfacen el supuesto de normalidad.

Pearson es ideal para variables continuas normales.

Tipos de Gráficos

Fuente: Gustavo Valencia Z.

Notas de clase: Visualización de Información, 2012.

Actividad: Volumen del huevo.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 63: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de Gráficos

Fuente: Gustavo Valencia Z.

Notas de clase: Visualización de Información, 2012.

Actividad: Volumen del huevo.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 64: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de Gráficos

Fuente: Gustavo Valencia Z.

Notas de clase: Visualización de Información, 2012.

Actividad: Volumen del huevo.

Graficos Q-Q y Boxplot para el Volumen del huevo predicho.

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Page 65: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Tipos de Gráficos

Módulo: Minería de datos Docente: Gustavo Valencia Zapata

Tarea 001

1. Consultar una aplicación de la minería de datos en la industrio o la investigación

académica. La fuente de información debe poseer un carácter formal

(investigativo), es decir, debe ser un artículo publicado en algún journal.

2. Realice un análisis de datos asociados a ventas de detergente. Utilice la

herramienta que esté a su alcance y las técnicas que comúnmente emplea en

situaciones similares (tablas, gráficos, entre otros). Encuentre más detalles de

esta actividad en el archivo Tarea 001 に Análisis exploratorio

Page 66: Clase 1 - Gustavo Valencia · estatura, tiempo de duración, ... alturas están a una distancia menor que la desviación estándar de la media. ... El tutor de un grupo de quinto

Referencias

[7] Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase.

Universidad Nacional de Colombia. Sede Medellín.

[8] Alan Agresti. Categorical Data. Universidad Nacional de Colombia. Wiley, 2002.

[9] W. J. Conover. Practical Nonparametric Statistic. Wiley, 1999.

[10] Daniel T. Larose, Discovering Knowledge in Data: An Introduction to Data

Mining. John Wiley & Son, 2005

Módulo: Minería de datos Docente: Gustavo Valencia Zapata