capitulo5 preprocesamiento de datos

Upload: percy-arnold-lopez-reyes

Post on 20-Jul-2015

37 views

Category:

Documents


0 download

TRANSCRIPT

Redes Neuronales

Captulo 5

Gerardo Colmenares

CAPITULO 5 PRE-PROCESAMIENTO DE DATOS

Consiste en la preparacin previa de los datos para ser usados por la construccin, entrenamiento y prueba de un modelo de red neuronal. Alguno de los problemas ms comunes en la preparacin de los datos es la mezcla de variables continuas y discretas. a) Debe hacerse una definicin previa para el conjunto de variables. Binarias sexo, estado civil, temperatura.

La preparacin de los datos de entrada para entrenamiento y pronstico, contemplara la disposicin de la siguiente manera:

Masculino (0 o 1) Femenino (0 o 1) Soltero (0 o 1) Casado (0 o 1) Temp.: Caliente (0 o 1) Temp.: Normal (0 o 1) Temp.: Fro (0 o 1) RED NEURONAL

Errores comunes: Uso de valores continuos para conceptos simblicos (animal) Los meses del ao representados con valores numricos del 1 al 12.

96

Redes Neuronales

Captulo 5

Gerardo Colmenares

b) Otro ejemplo de mezcla de datos podra ser la definicin de variables atributos a travs de variables con valores continuos. Por ejemplo, supongamos que todas las variables han sido estandarizadas. Continuos ingreso, edad, altura, temperatura, peso, voltaje, velocidad.

La preparacin de los datos de entrada para entrenamiento y pronstico, contemplara la disposicin de la siguiente manera:

Ingreso Personal (0 a 1) Edad (0 a 1) Altura (0 a 1) Temperatura (0 a 1) Peso (0 a 1) Voltaje (0 a 1) Velocidad (0 a 1) RED NEURONAL

Errores comunes: Mezclar escalas. (toneladas con kgs, aos con meses) Variables con altas variaciones (mximos y mnimos).

97

Redes Neuronales

Captulo 5

Gerardo Colmenares

c) Usar como patrones de entrada los diferentes perodos que puedan afectar la salida. Un caso concreto sera las series temporales.

Precipitacin en t-6 (0 a 1) Precipitacin en t-5 (0 a 1) Precipitacin en t-4 (0 a 1) Precipitacin en t-3 (0 a 1) Precipitacin en t-2 (0 a 1) Precipitacin en t-1(0 a 1) RED NEURONAL

Y no hacer la preparacin de la manera que se muestra abajo, ya que sera interminable la preparacin de las entradas y por supuesto, la construccin de los modelos de redes neuronales.

Datos de este mes

Datos del ltimo mes

RED NEURONAL

Datos de hace dos meses

98

Redes Neuronales

Captulo 5

Gerardo Colmenares

d) Un excesivo nmero de entradas requiere demasiados casos para entrenamiento, y esto puede conducir a: 1. Arquitectura de redes complejas. Es decir demasiadas entradas con complejas estructuras de datos que implican un gran nmero de nodos de entrada. 2. Alto consumo de tiempo computacional. 3. Esfuerzo humano excesivo conducente a mltiple pruebas por ensayo y error. Esto hace difcil la interpretacin de los resultados. e) Estado actual en la construccin de las redes neuronales 1. Ensayo y Error. Se ajustan los datos de entrada a los resultados deseados. Muy comn en los modelos fsicos que requieren precisin. 2. Adaptacin de la arquitectura de la red. La seleccin del nmero de capas ocultas y el nmero de neuronas ocultas sin seguir ningn tipo de criterio. 3. Adaptacin a los objetivos. Forzar el modelo a los resultados deseados.

En los algoritmos de entrenamiento supervisado puede reducirse este problema mediante preprocesamiento.

99

Redes Neuronales

Captulo 5

Gerardo Colmenares

PORQU HACER PREPROCESAMIENTO Basados en las premisas sealadas en la pgina anterior, podramos indicar que las razones fundamentales para hacer el pre-procesamiento son las siguientes. 1. Relacin incremental de las horas/hombre en el diseo y construccin de redes neuronales. 2. Carcter de independencia de los datos con la construccin de la red.

3. Un piso estadstico representativo al proceso heurstico de construccin de la red. De este modo, en un proceso normal, como producto del preprocesamiento, existira una transformacin adicional. Ella es la transformacin de los resultados conseguidos a travs de la aplicacin del modelo construido en valores que puedan ser interpretados fsicamente. Esto es post-procesamiento.

Datos originales

Anlisis de resultados

Pre-procesamiento

Post-procesamiento

entradas

salidas

100

Redes Neuronales

Captulo 5

Gerardo Colmenares

Hay que tener presente que en toda red neuronal: Las entradas numricas producen salidas numricas. Las entradas pueden estar en cualquier rango numrico. La salida es producida en un rango estrictamente limitado. Las funciones de activacin son sensibles a estar en rangos limitados (ejm.: sigmode) El rango limitado de respuesta de la red y la informacin en forma numrica implica que la solucin neuronal requiera de un preprocesamiento y un postprocesamiento. (Bishop, 1995).

Mtodos ms comunes de hacer pre-procesamiento: Tal como se mostr a travs de ejemplos en las pginas anteriores, los mtodos ms comunes de preparacin de datos son: Escalamiento: transformacin del contenido de las variables a un rango 0,1. Anlisis de variables nominales: transformacin de un valor categrico a un valor numrico.

101

Redes Neuronales

Captulo 5

Gerardo Colmenares

MTODOS DE PREPROCESAMIENTO DE DATOS Como mtodos alternativos y con mayor consistencia de anlisis, surgen tcnicas emergentes que de algn modo proveen medios para la preparacin y escogencia de los datos. Sin embargo, el piso estadstico como fuente de afirmacin terica para la seleccin y preparacin de los datos, sigue siendo el recurso ms idneo de pre-procesamiento. 1. Data mining Exploracin de datos para la bsqueda de: patrones consistentes relacin sistemtica entre variables No identifica las relaciones especficas entre las variables El proceso consiste de: Exploracin Construccin del modelo Definicin de patrones 2. Data warehousing Organizacin de datos multivariantes para facilitar recuperaciones de informacin. No identifica las relaciones especficas entre las variables. El proceso consiste de: Relaciones de bsquedas exhaustivas entre grandes bases de datos Extraccin de variables Creacin de nuevos conjunto de datos102

futuras

Redes Neuronales

Captulo 5

Gerardo Colmenares

3. Anlisis Exploratorio de Datos Exploracin de datos usando una gran variedad de tcnicas de anlisis multivariante para la bsqueda de patrones sistemticos. Identifica las relaciones especficas entre las variables El proceso consiste de: Mtodos exploratorios de estadstica bsica Tcnicas exploratorias multivariantes Aplicacin estadstica sobre los datos, incluyendo grandes volmenes de datos. Mtodos exploratorios de estadstica bsica Revisin de la tendencia mediante la distribucin que siguen las variables. Relacin significativa mediante la matriz de correlacin entre variables. .. Tcnicas exploratorias multivariantes Muestreo Anlisis Factorial Anlisis de componentes principales Regresin mltiple Anlisis de series de tiempo Anlisis de conglomerados (cluster) Correlacin cannica

103

Redes Neuronales

Captulo 5

Gerardo Colmenares

1.- Seleccin de muestrasVariablesX1 X2 X3 ........XpRecord 1 Record 2 . . . . . . . . . Record N Record 1 Record 2

VariablesX1 X2 X3 ......Xp

M UESTREO

. . . . Record n

SUBSET DE D AT O S DEL G RAN D AT A SET

N >n

G RAN D AT A S ET

2.- Reduccin de variablesVariables OriginalesX1 X2 X3Record 1 Record 2 . . Record n

Xp

SUBSET DE DATOS DEL GRAN DATA SET

REDUCCION DE VARIABLES

Nuevas VariablesZ1 Z2 Z3Record 1 Record 2 . . Record n

Zk

k