impresion

11
Análisis basado en árboles Cuando se tiene éxito,el árbol quere sulta indica qué variable spredictoras están relacionadas con mayor fuerza con la variable objetivo. Los nodos terminale smuestran los grupos que pueden tener una mayor concentración de casos con la característica deseada. Usos Generales de los Árboles de Decisión Segmentación. Identificar personas son probablemente miembros de un grupo. Estratificación. Asignación de casos a categorías. Predicción. Creación de reglas para predecir eventos futuros. Reducción de datos y filtro de variables. Seleccionar un subconjunto de variables para contruir un modelo paramétrico. Identificación de interacciones. Identificar relaciones que pertenezcan a subgrupos específicos. Fusión de categorías. Colapsar variables contínuas en categorías discretas. Aplicaciones de los Árboles de Decisión Correo directo. Determinar grupos demográficos con alta tasa de respuesta. Credit Scoring. Usar historial crediticio para tomar decisiones de crédito. Recursos Humanos. Entender las reglas de pasadas de contratación para afinar el proceso. Análisis de mercado. Determinación de variables geográficas, precios, características del consumidor y otras Control de calidad. Determinación de productos defectuosos. Estudio de políticas. Generar reglas de decisión en las políticas de contratación. Salud. Descubrir variables que contribuyan a mejores resultados de salud. Tabla de Ganancia de Nodos

Upload: cpisraulito

Post on 01-Jan-2016

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Impresion

Análisis basado en árboles

Cuando se tiene éxito,el árbol quere sulta indica qué variable spredictoras están relacionadas con mayor fuerza con la variable objetivo.

Los nodos terminale smuestran los grupos que pueden tener una mayor concentración de casos con la característica deseada.

Usos Generales de los Árboles de Decisión

Segmentación. Identificar personas son probablemente miembros de un grupo.

Estratificación. Asignación de casos a categorías.

Predicción. Creación de reglas para predecir eventos futuros.

Reducción de datos y filtro de variables. Seleccionar un subconjunto de variables para contruir un modelo paramétrico.

Identificación de interacciones. Identificar relaciones que pertenezcan a subgrupos específicos.

Fusión de categorías. Colapsar variables contínuas en categorías discretas.

Aplicaciones de los Árboles de Decisión

Correo directo. Determinar grupos demográficos con alta tasa de respuesta.

Credit Scoring. Usar historial crediticio para tomar decisiones de crédito.

Recursos Humanos. Entender las reglas de pasadas de contratación para afinar el proceso.

Análisis de mercado. Determinación de variables geográficas, precios, características del consumidor y otras

Control de calidad. Determinación de productos defectuosos.

Estudio de políticas. Generar reglas de decisión en las políticas de contratación.

Salud. Descubrir variables que contribuyan a mejores resultados de salud.

Tabla de Ganancia de Nodos

Nodo. Número del nodo.Nodo N. Número de casos dentro de un nodo .Nodo Porcentaje. Porcentaje de personas en el nodo contra la muestra completa. Ganancia N.N°de casos en el nodo que caen dentro de la categoría objetivo. Ganancia Porcentaje. Porcentaje de personas en la categoría objetivo contra el N°total de la categoría objetivo. Respuesta. Tasa de respuesta en el nodo para la categoría objetivo. Índice. Radio del nodo de respuesta versus la respuesta de la muestra total.

¿Qué es CHAID?Chi-squareAutomaticInteractionDetector(DetectorAutomáticodeInteracciónChi-cuadrado).

Page 2: Impresion

El modelo CHAID es un método exploratorio del análisis de datos usado para estudiar las relaciones entre una variable dependiente y una serie grande de variables predictoras.

CHAID selecciona un sistema de predictores y de sus interacciones que predicen óptimamente la medida de la variable dependiente.

Elmodelodesarrollaunárboldeclasificaciónconlos“perfilesmásimportantes”formadosporlasvariablesindependientesdiferenciadoloscriteriosdeunavariabledependiente.

CHAIS es puede provee información relevantes obre unavariable dependiente,dondemo de los formales tienen dificultades(comomuchasvariables categóricas o un limita dotamaño de muestra).

Principios y consideraciones

CHAI tiende a crear árboles amplios másquelos métodos binarios.

Funciona con todo tipo de variables(cualitativasycuantitativas)

CHAID comienza su análisis seleccionando la variable independiente más significativa(menorp-value).

Si lavariable independiente tiene más de 2 categorías,CHAID las compara y une la scategorías que no muestren diferencias en el resultado.

Para variables nominales,cualquiercategoríapuedeserunida,mientrasqueparaordinalessolocategoríascontiguas.

Porlotanto,CHAIDdivideladatasistemáticamenteensubgruposquemuestrendiferenciassignificativas.

Ventajas

Elniveldemedidaparalavariabledependienteylasvariablespredictoraspuedensernominal,ordinalointervalo.

Notodaslasvariablespredictorasnecesitansermedidasenelmismonivel.

Losvaloresfaltantessepuedentratarcomouna"categoríaflotante"parapoderutilizarlosdatosparciales,siemprequeseaposibledentrodelárbol.

Unsistemaapropiadamenteconservadordecriteriosestadísticosseutiliza,ylosmodelosqueresultanacentúanlosresultadosmásfuertes.

El Método C&RT

Breiman,Friedman,OlshenyStone(1984)

C&Rthaceseparaciones binarias sucesivas enl osdatos guiándo se por un criterio,no una prueba estadística comolo hace CHAID.

Encadanodo,lavariablepredictoraquemejoremáselcriterio,seusaparahacerlasiguientepartición.

Losárbole creados con este criterio se dejan crecer ampliamente yd espuéssonpodados:podar minimizando el costo complejo.

Page 3: Impresion

impureza

Es e nombre del criterio para crecerelárbolconunavariableobjetivonominal.

Captura el gradoen elquelos casos dentro de un nodo están concentrado se nunasola categoría.

Un nodo puro es aquelen que t dos los casos están en una sola categoría.

Elmayor grado de impureza se da cuando todas las categorías de u na variable predictora contienen la misma cantidad de casos,es de cirtodas las categorías o clases aparecen en igua l proporción,siendo este nodo nada util.Arboles de Regresion

La parte rt de c&rt es la que nos permite predicir vairiables objetivos que sean continuas , es una alternativa actractiva puesto que puede capturar , de manera nativa relaciones no lineales entre variables , ademas de efectos de interacion

Cuestion es minimiza la varianzadentro de cada nodo obteniendo asi los nodos mas homogeneos sobre la variable objetiva

Dos razones para desarrollar QUEST

Reducir el tiempo de procesamiento qu etenía C&RT.

Reducirlatendencia de CHAID de favorecer variables continuas o aquel las con muchascategorías(correccióndeBonferroni)

Caracteristicas—CostoComplejo—Podadelárbol—Valores perdidos reemplazados utilizando otras variables predictoras

VENTAJAS DE LA HERRAMIENTA chaid

Como herramienta de segmentación el CHAID presenta bondades importantes. Primero, la técnica no está basada en distribución probabilística alguna. Se fundamenta, únicamente, en pruebas de bondad de ajuste chi-cuadrada sobre tablas de contingencia. Éstas, dada una muestra de tamaño aceptable, casi siempre funcionan bien. Segundo, permite determinar una variable a maximizar

Arboles cDecisión

• Características (features) continuas (reales) pueden ser clasificadas al permitir nodos que dividan una

característica real en dos rangos basados en umbrales

(e.g. largo < 3 and largo 3)

• Árboles de clasificación tienen valores discretos en las ramas, árboles de regresión permiten outputs reales en

Page 4: Impresion

las hojas

• Algoritmos para encontrar árboles consistentes son eficientes para procesar muchos datos de entrenamiento para tareas de datamining

• Pueden manejar ruido en datos de entrenamiento

Árboles de Decisión

Contenidos

• Árboles de Decisión … Sobreajuste…..Recorte (Pruning)

Métodos de Prevención de

Sobreajuste (Recorte o Pruning)

• Dos ideas básicas para árboles de decisión

– Prepruning: Parar de crecer el árbol en algún punto durante construcción top-down cuando no hay suficientes datos para toma de decisiones confiables.

– Postpruning: Crecer el árbol completo, entonces eliminar subarboles que no tengan suficiente evidencia.

• Etiquetar hoja que resulta de un recorte con la clase de

la mayoría de los datos que quedan o con la

distribución de probabilidades de la clase.

• Métodos para elegir subarboles a ser recortados:

– Validacion-cruzada: Reservar algunos datos de entrenamiento

(validation set, tuning set) para evaluar utilidad de subarboles.

– Test estadístico: Usar un test estadístico en los datos de entrenamiento para determinar si alguna regularidad

observada se puede eliminar por ser simplemente aleatoria.

– Minimum description length (MDL): Determinar si la

Page 5: Impresion

complejidad adicional de la hipótesis es menos compleja que explícitamente recordar excepciones resultantes del recorte.

Estructura de arboles de decesion

Los árboles de decisión están formados por:

• Nodos: Nombres o identificadores de los atributos.

• Ramas: Posibles valores del atributo asociado al nodo.

• Hojas: Conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase.

Arboles de Decisión

• Atributos: Son los factores que influencian la clasificación o decisión.

• La selección de atributos debe basarse en el conocimiento acumulado por la experiencia.

algoritmo cada atributo forma intermedio en un árbol cuyas hojas o nodos terminales son las clases o decisiones.

• Clase: Posibles valores de solución

Arboles de decision

Los árboles de decisión son unos de los algoritmos clasificadores más conocidos y usados en las tareas de Data Mining , ya que son una forma de representación sencilla para clasificar ejemplos de un número finito de clases. Se basan en la partición del conjunto de ejemplos según ciertas condiciones que se aplican a los valores de las características. Su potencia descriptiva viene limitada por las condiciones o reglas con las que se divide el conjunto de entrenamiento.

Una desventaja de los árboles de decisión: es que tienden a ser demasiado grandes en aplicaciones reales y, por tanto, se hacen difíciles de interpretar desde el punto de vista humano

Una red neuronal es una estructura compuesta por muchas unidades, muy simples, de procesamiento o neuronas, cada una con memoria local, habitualmente pequeña. Las neuronas se conectan mediante canales de comunicación, denominados conexiones, que manejan datos numéricos. Operan sólo con los datos locales por lo que tienen un gran potencial para el procesamiento paralelo dado que los cálculos de los componentes en cada neurona son independientes.

Las Redes Neuronales deben ser entrenadas y después se debe

comprobar la capacidad de predicción de las mismas ante nuevas entradas.

Según el entrenamiento se dividen en:

Redes Supervisadas: Durante la fase de aprendizaje, se indica a la red qué salida debe producir cada patrón, ajustando los pesos en función de ese valor.

Page 6: Impresion

Redes No Supervisadas: La Red localiza en los datos de entrada propiedades que utiliza para separar los patrones en clases. El aprendizaje no supervisado es característico de las redes utilizadas en los casos en que los datos no tienen a priori ningún tipo de clasificación. La red se utiliza para detectar las regularidades intrínsecas de los datos estableciendo así la mejor clasificación posible.

Las arquitecturas de las redes neuronales se dividen en tres grandes

a) Redes Progresivas o Unidireccionales (Feedforward Networks).

b) Redes Recurrentes o Realimentadas (Feedback Networks).

c) Redes Celulares o en Topología de Malla.categorías:

Las Redes Neuronales son Excelentes para obtener Modelos No Lineales de Buena Precisión, por eso SON MUY UTILIZADOS EN LA OPTIMIZACIÓN DE PROCESOS INDUSTRIALES HABITUALMENTE NO LINEALES. El campo de aplicación de las Redes Neuronales es Enorme, no solo para modelado sino para otras técnicas de minería de datos (agrupamiento, proyectores, filtrado, etc.)

Cómo Desventajas Principales:

1. Necesitan mucha información para entrenarlas.

2. Hay que tener experiencia y cuidado a la hora de entrenarlas. Se necesita tiempo y potencia de cálculo. Hay que seleccionar un número adecuado de capas y neuronas para no entrar en el sobreajuste.

3. Son cajas negras. No se pueden extraer de ellas fácilmente las relaciones entre variables (aunque existen algunas técnicas).

4. No son muy robustas frente a espurios (aunque hay algunas redes neuronales robustas).

Tecnicas bayesianas

Se basan en teorías de probabilidad (Teorema de Bayes) para realizar

inferencias a partir de los datos induciendo modelos probabilísticos y

cuantificando la incertidumbre ante nuevos casos.

Permite realizar tareas:

• Descriptivas: para descubrir relaciones de independencia y/o relevancia entre variables.

• Predictivas: mediante el uso de Redes Bayesianas.

Probramacion evolutiva

Page 7: Impresion

Las estrategias de computación evolutiva suponen un enfoque alternativo para abordar problemas complejos de búsqueda y aprendizaje a través de modelos computacionales de procesos evolutivos. Las implantaciones concretas de tales estrategias se conocen como algoritmos evolutivos.

Consiste en el uso de mecanismos de selección de soluciones potenciales y de construcción de nuevos candidatos por recombinación de características de otros ya presentes, de modo parecido a como ocurre en la evolución de los organismos naturales adaptados para la supervivencia en casi cualquier ecosistema.

Metodos difusos

La lógica difusa designa un conjunto de herramientas de la lógica convencional (booleana) que ha sido extendido para incluir el concepto de verdad parcial (valores de verdad entre completamente cierto y completamente falso).

Cluster

Es una técnica de análisis exploratorio de datos para resolver problemas de clasificación. su objeto consiste en ordenar objetos (personas, cosas, animales, plantas, variables) en grupos de forma que el grado de asociación entre miembros del mismo cluster sea más fuerte que el grado de asociación entre miembros de diferentes clusters.

Agrupamiento numérico: En primer lugar utilizaremos el algoritmo de agrupamiento K-medias, por ser uno de los más veloces y eficientes, si bien uno de los más limitados. Este algoritmo precisa únicamente del número de categorías similares en las que queremos dividir el conjunto de datos.

algoritmo: algoritmo K-medias o SimpleKMeans

Agrupamiento simbólico: Finalmente, como alternativa a los algoritmos de agrupamiento anteriores, el agrupamiento simbólico tiene la ventaja de efectuar un análisis cualitativo que construye categorías jerárquicas para organizar los datos. Estas categorías se forman con un criterio probabilístico de "utilidad", llegando a las que permiten homogeneidad de los valores de los atributos dentro de cada una y al mismo tiempo una separación entre categorías dadas por los atributos.

Simplemente, un clúster es un grupo de múltiples ordenadores unidos mediante una red de alta velocidad, de tal forma que el conjunto es visto como un único ordenador, más potente que los comunes de escritorio.

Clasificacion de clusteres

HPCC (High Performance Computing Clusters: clústeres de alto rendimiento).

HA o HACC (High Availability Computing Clusters: clústeres de alta disponibilidad).

HT o HTCC (High Throughput Computing Clusters: clústeres de alta eficiencia).

Alto rendimiento: Son clústeres en los cuales se ejecutan tareas que requieren de gran capacidad computacional, grandes cantidades de memoria, o ambos a la vez. El llevar a cabo estas tareas puede comprometer los recursos del clúster por largos periodos de tiempo.

Page 8: Impresion

Alta disponibilidad: Son clústeres cuyo objetivo de diseño es el de proveer disponibilidad y confiabilidad. Estos clústeres tratan de brindar la máxima disponibilidad de los servicios que ofrecen. La confiabilidad se provee mediante software que detecta fallos y permite recuperarse frente a los mismos, mientras que en hardware se evita tener un único punto de fallos.

Alta eficiencia: Son clústeres cuyo objetivo de diseño es el ejecutar la mayor cantidad de tareas en el menor tiempo posible. Existe independencia de datos entre las tareas individuales. El retardo entre los nodos del clúster no es considerado un gran problema.

Redes neuronales

Una red neuronal es un conjunto de elementos de “Procesamiento de la información” altamente interconectados, capaces de aprender con la información que las alimenta.

La característica principal de esta nueva tecnología es que puede ser terminantemente aplicable a la mayoría de problemas los cuales van desde problemas complejos reales a modelos teóricos artificiales.

Ejemplo:

◊ Reconocimiento de imágenes, voz

◊ Análisis y filtrado de señales

◊ Clasificaciones

◊ Análisis financiero

◊ Predicción dinámica

Fase de Aprendizaje

Durante la primera fase, la fase de aprendizaje, la red es entrenada para realizar un determinado tipo de procesamiento. Una vez alcanzado un nivel de entrenamiento adecuado, se pasa a la fase de operación, donde la red es utilizada

. Fase de entrenamiento.

Una vez seleccionada el tipo de neurona artificial que se utilizará en una red neuronal y determinada su topología es necesario entrenarla para que la red para llevar a cabo la tarea para la cual fue entrenada.

Fase de operación.

Una vez finalizada la fase de aprendizaje, la red puede ser utilizada para realizar la tarea para la que fue entrenada. Una de las principales ventajas que.

Page 9: Impresion

posee este modelo es que la red aprende la relación existente entre los datos, adquiriendo la capacidad de generalizar conceptos