mineria de datos

Upload: jerry-mamani-anamuro

Post on 06-Jan-2016

216 views

Category:

Documents


0 download

DESCRIPTION

administracion mineria de datos

TRANSCRIPT

MINERIA DE DATOS

MINERIA DE DATOSCarlos viaRodrigo Quintanilla BarraQu es la mineria de datos?Minera de datos es la exploracin y anlisis de grandes cantidades de datos con el objeto de encontrar patrones y reglas significativas (conocimiento)

Un poco de historia..Al hablar del Data Mining, no nos referimos a un concepto explcitamente contemporneo, realmente las primeras ideas que se tienen acerca de este proceso se revocan ya hasta mediados los aos setenta donde se buscaba encontrar correlaciones en bases de datos, pero no fue hasta finales de los ochenta cuando se comenz a consolidad la idea de Data Mining y KDD (Knowledge Discovery and Data Mining).

Ya a mediados de la dcada de 1990 se hizo notar el impacto de grandes cantidades de datos acumulados y las dificultades de interpretarlos de un modo productivo, lo que llev al desarrollo de novedosas tcnicas de Data Mining y anlisis inteligente de datos.

MINERIA DE DATOSDescubrimiento de Conocimiento a partir de Bases de Datos (KDD, del ingls Knowledge Discovery from Databasesproceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y en ltima instancia comprensibles a partir de los datos. Fayyad et al. 1996KDD se nutre de diferentes disciplinas:

estadstica.sistemas de informacin / bases de datos.aprendizaje automtico / Inteligencia Artificial.visualizacin de datos.computacin paralela / distribuida.interfaces de lenguaje natural a bases de datos.Integracin y recopilacinSeleccin, limpieza y transformacinDATA MININGEvaluacin e interpretacinDatos inicialesAlmacn de Datos(Data Warehouse)Datos seleccionadosPatronesConocimientoProceso de KDDKnowledge Discovery from DatabasesKDD6

Visin con las herramientas tradicionales:El analista empieza con una pregunta, una suposicin o simplemente una intuicin y explora los datos y construye un modelo. El analista propone el modelo.Visin con la minera de datos:Aunque el analista no pierde la posibilidad de proponer modelos, el sistema encuentra y sugiere modelos.

Ventajas: Generar un modelo requiere menos esfuerzo manual y permite evaluar cantidades ingentes de datos.Se pueden evaluar muchos modelos generados automticamente, y esto aumenta la probabilidad de encontrar un buen modelo. El analista necesita menos formacin sobre construccin de modelos y menos experiencia.Un resultado adecuado por mineria de datos tiene las siguientes caracteristicaes comprensible (por seres humanos)es vlido con cierto grado de certezaes potencialmente tiles novedoso o sirve para validar una hiptesis

Data Mining : confluencia de mltiples disciplinasData MiningSistemas de informacinVisualizacinEstadsticaAprendizaje automticoOtras disciplinas1011Minera de datosDr. Francisco J. Mata

La minera de datos es un subconjunto de la inteligencia de negocios

11

reas de aplicacin ms frecuentes (Cajal et al., 2001).12

MINERIA DE DATOSTipos de aplicaciones de la minera de datosAplicaciones o problemas de minera de datos pueden clasificarse en las siguientes categorasClasificacinEstimacinPronsticoAsociacinAgrupacin o segmentacin14ClasificacinExaminar las caractersticas de un nuevo objeto y asignarle una clase o categora de acuerdo a un conjunto de tales objetos previamente definidoEjemplos:Clasificar aplicaciones a crdito como bajo, medio y alto riesgoDetectar reclamos fraudulentos de seguros15EstimacinRelacionado con clasificacinMientras clasificacin asigna un valor discreto, estimacin produce un valor continuoEjemplos:Estimar el precio de una viviendaEstimar el ingreso total de una familia16PronsticoPredecir un valor futuro con base a valores pasadosEjemplos:Predecir cunto efectivo requerir un cajero automtico en un fin de semana17AsociacinDeterminar cosas u objetos que van juntosEjemplo:Determinar que productos se adquieren conjuntamente en un supermercado18Agrupacin o segmentacinDividir una poblacin en un nmero de grupos ms homogneosNo depende de clases pre-definidas a diferencia de clasificacinEjemplo:Dividir la base de clientes de acuerdo con los hbitos de consumo19Proceso de data miningUn proceso tpico de minera de datos tiene los siguientes pasos:

Seleccin del conjunto de datos:Variables objetivo: variables que quiero predecir.Variables independientes: variables que sirven para hacer el calculo.

Anlisis de las propiedades de los datos:HistogramasDiagramas de dispersinValores atpicosetc.Transformacin del conjunto de datos de entrada:Pre procesamiento de los datos (prepara los datos para aplicar la tcnica de data mining que mejor se adapte).

Seleccionar y aplicar la tcnica de minera de datos:Se construye un modelo predictivo.

Extraccin de conocimiento:Usando el modelo predictivo se obtiene los valores de las variables, observando los patrones de comportamiento.

Interpretacin y evaluacin de datos:Se debe comprobar que las conclusiones que arrojan los modelos predictivos sean validas y suficientemente satisfactorias.En el caso de no ser as debe encontrarse otro modelo que si cumpla utilizando otra tcnica de data mining.Tcnicas del data miningEstas tcnicas provienen de la inteligencia artificial y de la estadstica, y no son mas que algoritmos sofisticados que se aplican a un conjunto de datos para obtener los resultados.

Las tcnicas mas representativas son:

Redes neuronalesRegresin linealArboles de decisinModelos estadsticosAgrupamientoReglas de asociacinRed neuronal artificialLa redes neuronales artificiales son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma como funciona el sistema nervioso de los animales.Se trata de un sistema de interconexin de neuronas que colaboran entre si para producir un estimulo de salida.

Regresin linealEn estadstica la regresin lineal es un mtodo matemtico que modela la relacin entre una variable dependiente y las variables independientes.

Arboles de decisinEs un modelo de prediccin, basado en diagramas de construcciones lgicas que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva .

Modelos estadsticosUn modelo estadstico es una expresin simblica en forma de igualdad que se emplea en todos los diseos experimentales para indicar los diferentes factores que modifican la variable de respuesta.

AgrupamientoUn algoritmo de agrupamiento es un procedimiento de agrupacin de una serie de vectores de acuerdo a un criterio.

Estos criterios por lo general son distancia o similitud.

El conocimiento de este grupo de vectores nos permite una descripcin sinttica de un conjunto de datos multidimensional complejo.Reglas de asociacinLas reglas de asociacin se utilizan para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos.

(cebollas, vegetales) (carne)

Esta regla encontrada en un supermercado indica que un consumidor que compra cebollas y vegetales, es probable que compre tambin carne.Conceptos claveParadigma: un paradigma de programacin es una propuesta tecnolgica que es adoptada por una comunidad de programadores que trata de resolver uno o varios problemas claramente delimitados.

Vector: en programacin, es una zona de almacenamiento continuo, que contiene una serie de elementos del mismo tipo (varios datos del mismo tipo).