75632354 mineria de datos final

Upload: maxcongo

Post on 03-Apr-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/29/2019 75632354 Mineria de Datos Final

    1/75

    INSTITUTO TECNOLOGICO DE ACAPULCO

    MINERIA DE DATOSTrabajo final

    MAXIMILIANO FUENTES FLORES

    MIGUEL ANGELITO DORANTES

    ANALILIAN GARCIA LOZANO

    OTNIEL ABARCA GARCIA

    RAUL ESPINOZA TORRES

    Este trabajo fue realizado con la finalidad de servir como apoyo acadmico a los titulares de la

    materia de minera de datos, proporcionando informacin recopilada de diferentes autores.

  • 7/29/2019 75632354 Mineria de Datos Final

    2/75

    1

    INDICE

    UNIDAD 1 Minera de datos

    1.1. Qu es minera de datos. 3

    1.2. Tipos de datos.

    3pa

    1.3. Tipos de modelos de datos. 8

    1.4. Proceso de descubrimiento de conocimiento. 11

    1.5. Sistemas para el soporte de decisiones. 18

    1.6. Sistemas operacionales vs Sistemas para la toma de decisiones. 22

    1.7. Herramientas para la minera de datos. 23

    UNIDAD 2 Proceso de extraccin.

    2.1. Introduccin. 25

    2.2. Etapas del proceso de extraccin del conocimiento. 26

    2.3. Etapa de recopilacin e integracin. 27

    2.4. Etapa de seleccin, limpieza y transformacin. 28

    2.5. Etapa de minera de datos. 28

    2.6. Etapa de evaluacin e interpretacin. 29

    2.7. Etapa de difusin. 29

    UNIDAD 3 Exploracin de Datos

    3.1 Estadsticas de resumen 30

  • 7/29/2019 75632354 Mineria de Datos Final

    3/75

    2

    3.2 Visualizacin 32

    3.3 OLAP 34

    UNIDAD 4 Programacin Lgica Inductiva (ILP)

    4.1 Nociones de Lgica. 37

    4.2 Programacin Lgica Inductiva (ILP) 42

    UNIDAD 5 Mtodos de Aprendizaje

    5.1Aprendizaje Inductivo 52

    5.2 Espacio de Versiones 58

    5.3 Espacio de Versiones Generalizado 68

    5.4 Aprendizaje basado en similaridades (SBL) 70

    5.5 Induccin de rboles de Decisin Aprendizaje de Reglas 71

  • 7/29/2019 75632354 Mineria de Datos Final

    4/75

    3

    UNIDAD 1

    MINERIA DE DATOS

    1.- Qu es la Minera de Datos?

    La minera de datos (DM, Data Mining) consiste en la extraccin no trivial deinformacin que reside de manera implcita en los datos. Dicha informacin erapreviamente desconocida y podr resultar til para algn proceso. En otraspalabras, la minera de datos prepara, sondea y explora los datos para sacar lainformacin oculta en ellos.

    Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicasencaminadas a la extraccin de conocimiento procesable, implcito en las basesde datos. Est fuertemente ligado con la supervisin de procesos industriales yaque resulta muy til para aprovechar los datos almacenados en las bases de

    datos.

    El datamining (minera de datos), es el conjunto de tcnicas y tecnologas quepermiten explorar grandes bases de datos, de manera automtica osemiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias oreglas que expliquen el comportamiento de los datos en un determinado contexto.

    Bsicamente, el datamining surge para intentar ayudar a comprender el contenidode un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, enalgunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y alas redes neuronales.

    1.2.- Tipos de Datos

    Existen bsicamente dos tipos de modelos de datos que pueden generar estastcnicas de Minera de Datos, estos dos tipos son:

    Predictivosy/oDescriptivos

    Predictivos

    Un modelo predictivo, como su propio nombre indica, intenta predecir o responder a

    preguntas futuras en base a un estudio de su comportamiento pasado. Algunas de las

    preguntas que podramos responder con este tipo de modelo de datos son:

    http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Predictivos&action=edithttp://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Predictivos&action=edithttp://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Descriptivos&action=edithttp://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Descriptivos&action=edithttp://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Descriptivos&action=edithttp://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Descriptivos&action=edithttp://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Predictivos&action=edit
  • 7/29/2019 75632354 Mineria de Datos Final

    5/75

    4

    Qu tal se vender el prximo ao un producto X? o X tipo de persona, qu producto

    comprar? o Dnde se producir el siguiente atentado terrorista? o Qu riesgo tiene

    cierta persona de contraer una enfermedad X en base a sus caractersticas? o Qu

    clientes tienen ms riesgos de darse de baja de nuestra empresa? o

    Ejemplo de Modelo Predictivo

    Vamos a predecir si jugaremos a ftbol hoy o no. Hemos recogido los siguientes datos de

    experiencias pasadas:

    Construimos el rbol de decisin asociado:

    http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Imagen:Jgisbert10.jpg
  • 7/29/2019 75632354 Mineria de Datos Final

    6/75

    5

    Con este modelo, podemos predecir si jugaremos o no.

    Por ejemplo:

    (Si Cielo = Soleado, Temperatura = Calor, Humedad = Alta y Viento = Fuerte)

    Resultado = No

    Descriptivos

    Este tipo de modelo, trata de proporcionar informacin entre las relaciones de losdatos y sus caractersticas.

    Algunas de las preguntas que se podran tratar de responder con este tipo demodelo son:

    Los clientes que compran X tambin compran Y.

    Los nios que no tienen X son muy distintos del resto.

    X e Y son los factores ms influyentes en contraer la enfermedad Z.

    http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Imagen:Jgisbert7.jpg
  • 7/29/2019 75632354 Mineria de Datos Final

    7/75

    6

    Ejemplo de Modelo Descriptivo

    En este ejemplo queremos hacer una categorizacin de los empleados quetenemos actualmente en plantilla. Tenemos los siguientes datos:

    Para este ejemplo, utilizaremos un algoritmo de clustering K-means.

    Aplicando este algoritmo, el resultado son 3 clusters:

    http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Imagen:Jgisbert11.jpg
  • 7/29/2019 75632354 Mineria de Datos Final

    8/75

    7

    Por tanto, nos da como resultado 3 grupos principales con sus caractersticas,estos son:

    Cluster 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.

    Cluster 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente dealquiler y mujeres.

    Cluster 3: Con hijos, casados y con coche. Propietarios. Poco sindicados.Hombres

    http://campusvirtual.unex.es/cala/epistemowikia/index.php?title=Imagen:Jgisbert8.jpg
  • 7/29/2019 75632354 Mineria de Datos Final

    9/75

    8

    1.3.- Tipos de Modelos de Datos

    Un modelo de datos es bsicamente una "descripcin" de algo conocido comocontenedor de datos (algo en donde se guarda la informacin), as como de losmtodos para almacenar y recuperar informacin de esos contenedores. Los

    modelos de datos no son cosas fsicas: son abstracciones que permiten laimplementacin de un sistema eficiente de base de datos; por lo general serefieren aalgoritmos, y conceptos matemticos.

    Algunos modelos con frecuencia utilizados en las bases de datos:

    Bases de datos jerrquicas

    stas son bases de datos que, como su nombre indica, almacenan su informacinen una estructura jerrquica. En este modelo los datos se organizan en una formasimilar a un rbol (visto al revs), en donde un nodo padre de informacin puede

    tener varios hijos. El nodo que no tiene padres es llamado raz, y a los nodos queno tienen hijos se los conoce como hojas.

    Las bases de datos jerrquicas son especialmente tiles en el caso deaplicaciones que manejan un gran volumen de informacin y datos muycompartidos permitiendo crear estructuras estables y de gran rendimiento.

    Una de las principales limitaciones de este modelo es su incapacidad derepresentar eficientemente la redundancia de datos.

    Base de datos de red

    ste es un modelo ligeramente distinto del jerrquico; su diferencia fundamentales la modificacin del concepto de nodo: se permite que un mismo nodo tengavarios padres (posibilidad no permitida en el modelo jerrquico).

    Fue una gran mejora con respecto al modelo jerrquico, ya que ofreca unasolucin eficiente al problema de redundancia de datos; pero, aun as, la dificultadque significa administrar la informacin en una base de datos de red ha significadoque sea un modelo utilizado en su mayora por programadores ms que porusuarios finales.

    Bases de datos transaccionales

    Son bases de datos cuyo nico fin es el envo y recepcin de datos a grandesvelocidades, estas bases son muy poco comunes y estn dirigidas por lo generalal entorno de anlisis de calidad, datos de produccin e industrial, es importanteentender que su fin nico es recolectar y recuperar los datos a la mayor velocidadposible, por lo tanto la redundancia y duplicacin de informacin no es unproblema como con las dems bases de datos, por lo general para poderlas

    http://es.wikipedia.org/wiki/Algoritmohttp://es.wikipedia.org/wiki/Algoritmohttp://es.wikipedia.org/wiki/Algoritmohttp://es.wikipedia.org/wiki/Algoritmo
  • 7/29/2019 75632354 Mineria de Datos Final

    10/75

    9

    aprovechar al mximo permiten algn tipo de conectividad a bases de datosrelacionales.

    Un ejemplo habitual de transaccin es el traspaso de una cantidad de dinero entrecuentas bancarias. Normalmente se realiza mediante dos operaciones distintas,

    una en la que se decrementa el saldo de la cuenta origen y otra en la queincrementamos el saldo de la cuenta destino. Para garantizar la atomicidad delsistema (es decir, para que no aparezca o desaparezca dinero), las dosoperaciones deben ser atmicas, es decir, el sistema debe garantizar que, bajocualquier circunstancia (incluso una cada del sistema), el resultado final es que, obien se han realizado las dos operaciones, o bien no se ha realizado ninguna.

    Bases de datos relacionales

    ste es el modelo utilizado en la actualidad para modelar problemas reales yadministrar datos dinmicamente. Tras ser postulados sus fundamentos en 1970

    porEdgar Frank Codd, de los laboratoriosIBMenSan Jos (California), no tarden consolidarse como un nuevo paradigma en los modelos de base de datos. Suidea fundamental es el uso de "relaciones". Estas relaciones podran considerarseen forma lgica como conjuntos de datos llamados "tuplas". Pese a que sta es lateora de las bases de datos relacionales creadas por Codd, la mayora de lasveces se conceptualiza de una manera ms fcil de imaginar. Esto es pensandoen cada relacin como si fuese una tabla que est compuesta por registros (lasfilas de una tabla), que representaran las tuplas, y campos(las columnas de unatabla).

    En este modelo, el lugar y la forma en que se almacenen los datos no tienenrelevancia (a diferencia de otros modelos como el jerrquico y el de red). Estotiene la considerable ventaja de que es ms fcil de entender y de utilizar para unusuario espordico de la base de datos. La informacin puede ser recuperada oalmacenada mediante "consultas" que ofrecen una amplia flexibilidad y poder paraadministrar la informacin.

    El lenguaje ms habitual para construir las consultas a bases de datosrelacionales es SQL, StructuredQueryLanguage o Lenguaje Estructurado deConsultas, un estndar implementado por los principales motores o sistemas degestin de bases de datos relacionales.

    Durante su diseo, una base de datos relacional pasa por un proceso al que se leconoce comonormalizacin de una base de datos.

    Durante los aos 80 la aparicin de dBASE produjo una revolucin en loslenguajes de programacin y sistemas de administracin de datos. Aunque nuncadebe olvidarse que dBase no utilizaba SQL como lenguaje base para su gestin.

    Bases de datos multidimensionales

    http://es.wikipedia.org/wiki/1970http://es.wikipedia.org/wiki/1970http://es.wikipedia.org/wiki/Edgar_Frank_Coddhttp://es.wikipedia.org/wiki/Edgar_Frank_Coddhttp://es.wikipedia.org/wiki/Edgar_Frank_Coddhttp://es.wikipedia.org/wiki/IBMhttp://es.wikipedia.org/wiki/IBMhttp://es.wikipedia.org/wiki/IBMhttp://es.wikipedia.org/wiki/San_Jos%C3%A9_(California)http://es.wikipedia.org/wiki/San_Jos%C3%A9_(California)http://es.wikipedia.org/wiki/San_Jos%C3%A9_(California)http://es.wikipedia.org/wiki/Tuplahttp://es.wikipedia.org/wiki/Tuplahttp://es.wikipedia.org/wiki/Tuplahttp://es.wikipedia.org/wiki/Registro_(base_de_datos)http://es.wikipedia.org/wiki/Registro_(base_de_datos)http://es.wikipedia.org/wiki/Campo_(base_de_datos)http://es.wikipedia.org/wiki/Campo_(base_de_datos)http://es.wikipedia.org/wiki/SQLhttp://es.wikipedia.org/wiki/SQLhttp://es.wikipedia.org/wiki/Normalizaci%C3%B3n_de_una_base_de_datoshttp://es.wikipedia.org/wiki/Normalizaci%C3%B3n_de_una_base_de_datoshttp://es.wikipedia.org/wiki/Normalizaci%C3%B3n_de_una_base_de_datoshttp://es.wikipedia.org/wiki/DBasehttp://es.wikipedia.org/wiki/DBasehttp://es.wikipedia.org/wiki/DBasehttp://es.wikipedia.org/wiki/Normalizaci%C3%B3n_de_una_base_de_datoshttp://es.wikipedia.org/wiki/SQLhttp://es.wikipedia.org/wiki/Campo_(base_de_datos)http://es.wikipedia.org/wiki/Registro_(base_de_datos)http://es.wikipedia.org/wiki/Tuplahttp://es.wikipedia.org/wiki/San_Jos%C3%A9_(California)http://es.wikipedia.org/wiki/IBMhttp://es.wikipedia.org/wiki/Edgar_Frank_Coddhttp://es.wikipedia.org/wiki/1970
  • 7/29/2019 75632354 Mineria de Datos Final

    11/75

    10

    Son bases de datos ideadas para desarrollar aplicaciones muy concretas, comocreacin deCubos OLAP. Bsicamente no se diferencian demasiado de las basesde datos relacionales (una tabla en una base de datos relacional podra serlotambin en una base de datos multidimensional), la diferencia est ms bien anivel conceptual; en las bases de datos multidimensionales los campos o atributos

    de una tabla pueden ser de dos tipos, o bien representan dimensiones de la tabla,o bien representan mtricas que se desean estudiar.

    [Bases de datos orientadas a objetos

    Artculo principal:Base de datos orientada a objetos

    Este modelo, bastante reciente, y propio de losmodelos informticos orientados aobjetos, trata de almacenar en la base de datos los objetos completos (estado ycomportamiento).

    Una base de datos orientada a objetos es una base de datos que incorpora todoslos conceptos importantes del paradigma de objetos:

    Encapsulacin- Propiedad que permite ocultar la informacin al resto de losobjetos, impidiendo as accesos incorrectos o conflictos.

    Herencia - Propiedad a travs de la cual los objetos heredancomportamiento dentro de una jerarqua de clases.

    Polimorfismo - Propiedad de una operacin mediante la cual puede seraplicada a distintos tipos de objetos.

    En bases de datos orientadas a objetos, los usuarios pueden definir operacionessobre los datos como parte de la definicin de la base de datos. Una operacin(llamada funcin) se especifica en dos partes. La interfaz (o signatura) de unaoperacin incluye el nombre de la operacin y los tipos de datos de susargumentos (o parmetros). La implementacin (o mtodo) de la operacin seespecifica separadamente y puede modificarse sin afectar la interfaz. Losprogramas de aplicacin de los usuarios pueden operar sobre los datos invocandoa dichas operaciones a travs de sus nombres y argumentos, sea cual sea laforma en la que se han implementado. Esto podra denominarse independenciaentre programas y operaciones.

    SQL:2003, es el estndar de SQL92 ampliado, soporta los conceptos orientados aobjetos y mantiene la compatibilidad con SQL92.

    Bases de datos documentales

    Permiten la indexacin a texto completo, y en lneas generales realizar bsquedasms potentes. Tesaurus es un sistema de ndices optimizado para este tipo debases de datos.

    http://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Base_de_datos_orientada_a_objetoshttp://es.wikipedia.org/wiki/Base_de_datos_orientada_a_objetoshttp://es.wikipedia.org/wiki/Base_de_datos_orientada_a_objetoshttp://es.wikipedia.org/wiki/Programaci%C3%B3n_orientada_a_objetoshttp://es.wikipedia.org/wiki/Programaci%C3%B3n_orientada_a_objetoshttp://es.wikipedia.org/wiki/Programaci%C3%B3n_orientada_a_objetoshttp://es.wikipedia.org/wiki/Programaci%C3%B3n_orientada_a_objetoshttp://es.wikipedia.org/wiki/Encapsulaci%C3%B3n_(programaci%C3%B3n_orientada_a_objetos)http://es.wikipedia.org/wiki/Encapsulaci%C3%B3n_(programaci%C3%B3n_orientada_a_objetos)http://es.wikipedia.org/wiki/Herencia_(programaci%C3%B3n_orientada_a_objetos)http://es.wikipedia.org/wiki/Herencia_(programaci%C3%B3n_orientada_a_objetos)http://es.wikipedia.org/wiki/Polimorfismo_(inform%C3%A1tica)http://es.wikipedia.org/wiki/Polimorfismo_(inform%C3%A1tica)http://es.wikipedia.org/wiki/SQL:2003http://es.wikipedia.org/wiki/SQL:2003http://es.wikipedia.org/wiki/SQL:2003http://es.wikipedia.org/wiki/Polimorfismo_(inform%C3%A1tica)http://es.wikipedia.org/wiki/Herencia_(programaci%C3%B3n_orientada_a_objetos)http://es.wikipedia.org/wiki/Encapsulaci%C3%B3n_(programaci%C3%B3n_orientada_a_objetos)http://es.wikipedia.org/wiki/Programaci%C3%B3n_orientada_a_objetoshttp://es.wikipedia.org/wiki/Programaci%C3%B3n_orientada_a_objetoshttp://es.wikipedia.org/wiki/Base_de_datos_orientada_a_objetoshttp://es.wikipedia.org/wiki/Cubo_OLAP
  • 7/29/2019 75632354 Mineria de Datos Final

    12/75

    11

    Bases de datos deductivas

    Un sistema de base de datos deductiva, es un sistema de base de datos pero conla diferencia de que permite hacer deducciones a travs de inferencias. Se basaprincipalmente en reglas y hechos que son almacenados en la base de datos. Las

    bases de datos deductivas son tambin llamadas bases de datos lgicas, a raz deque se basa en lgica matemtica. Este tipo de base de datos surge debido a laslimitaciones de la Base de Datos Relacional de responder a consultas recursivas yde deducir relaciones indirectas de los datos almacenados en la base de datos.

    1.4 PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO

    En este tipo de aprendizaje el individuo tiene una gran participacin. El instructorno expone los contenidos de un modo acabado; su actividad se dirige a darles aconocer una meta que ha de ser alcanzada y adems de servir como mediador ygua para que los individuos sean los que recorran el camino y alcancen losobjetivos propuestos.

    En otras palabras, el aprendizaje por descubrimiento es cuando el instructor lepresenta todas las herramientas necesarias al individuo para que este descubrapor si mismo lo que se desea aprender.

    Constituye un aprendizaje bastante til, pues cuando se lleva a cabo de modo

    idneo, asegura un conocimiento significativo y fomenta hbitos de investigacin yrigor en los individuos.

    Jerome Bruner atribuye una gran importancia a la actividad directa de losindividuos sobre la realidad.

    FORMAS DE DESCUBRIMIENTOS:

    El mtodo de descubrimiento tiene variadas formas que son apropiadas paraalcanzar diferentes tipos de objetivos, adems sirve para individuos con diferentesniveles de capacidad cognitiva.

    Descubrimiento inductivo:Este tipo de descubrimiento implica la coleccin yreordenacin de datos para llegar a una nueva categora, concepto ogeneralizacin. Pueden identificarse dos tipos de lecciones que usan la formainductiva de descubrimiento.

    a)La leccin abierta de descubrimiento inductivo: es aquella cuyo fin principal esproporcionar experiencia a los nios en un proceso particular de bsqueda: el

  • 7/29/2019 75632354 Mineria de Datos Final

    13/75

    12

    proceso de categorizacin o clasificacin. No hay una categora o generalizacinparticulares que el profesor espera que el nio descubra. La leccin se dirige a"aprender cmo aprender", en el sentido de aprender a organizar datos.

    En este tipo de descubrimiento, la capacidad de categorizar se desarrolla

    gradualmente en los nios con edades comprendidas entre los seis y los onceaos (estadio intuitivo o concreto Piaget).

    Un ejemplo de leccin abierta de descubrimiento inductivo sera aquella en que laque se dieran a los nios fotografas de varias clases de alimentos y se les pidieraque las agruparan. Algunos nios podran categorizarlas como "alimentos deldesayuno", "alimentos de la comida" y "alimentos de la cena". Otros podranagrupar los alimentos como carnes, verdura, frutas, productos lcteos, etc. Otrosincluso podran agruparlos en base al color, la textura o el lugar de origen.

    La leccin abierta de descubrimiento inductivo, pues, es aquella en que el nio es

    relativamente libre de dar forma a los datos a su manera. Se espera que el hacerloas vaya aprendiendo a observar el mundo en torno suyo y a organizarlo para suspropios propsitos.

    b)La leccin estructurada de descubrimiento inductivo: es aquella cuyo fin principales que los nios adquieran un concepto determinado. El objetivo principal es laadquisicin del contenido del tema a estudiar dentro del marco de referencia delenfoque de descubrimiento.

    En este tipo de descubrimiento, el desarrolla es gradualmente en los nios conedades comprendidas entre los ocho aos en adelante (estadio concreto o formalPiaget).

    Un ejemplo de este tipo de descubrimiento seria darles una cantidad de fotos a losnios y pedirles que colocaran cada una en un grupo. Esas fotos podran incluircompradores en una tienda, un padre leyendo un cuento a dos nios y un grupode nios trabajando en una clase. La discusin sobre las fotos se referira a lassemejanzas y diferencias entre los grupos. Finalmente, se desarrollaran losconceptos de grupos primarios, secundarios y no integrados.

    La leccin estructurada de descubrimiento inductivo utiliza materiales concretos ofigurativos. Se desarrollan conceptos propios de las ciencias descriptivas. Lo quedestaca es la importancia de la organizacin de los datos.

    Descubrimiento deductivo: El descubrimiento deductivo implicara la combinacino puesta en relacin de ideas generales, con el fin de llegar a enunciadosespecficos, como en la construccin de un silogismo. Un ejemplo de silogismoseria Me dijeron que no soy nadie. Nadie es perfecto. Luego, yo soy perfecto.Pero slo Dios es perfecto. Por tanto, yo soy Dios.

  • 7/29/2019 75632354 Mineria de Datos Final

    14/75

    13

    a)La leccin simple de descubrimiento deductivo: Esta tcnica de instruccinimplica hacer preguntas que llevan al estudiante a formar silogismos lgicos, quepueden dar lugar a que el estudiante corrija los enunciados incorrectos que hayahecho.

    En este tipo de descubrimiento, el desarrolla es gradualmente en los nios conedades comprendidas entre los 11 y 12 aos en adelante (estadio formal Piaget).

    En este tipo de leccin el profesor tiende a controlar los datos que usan losestudiantes, ya que sus preguntas deben estar dirigidas a facilitar proposicionesque lleven lgicamente a una conclusin determinada.

    En este tipo de enfoque, el estudiante debe pensar deductivamente y losmateriales son esencialmente abstractos. Esto es, el estudiante trata conrelaciones entre proposiciones verbales.

    El fin primario de este tipo de leccin es hacer que los estudiantes aprendanciertas conclusiones o principios aceptados. Sin embargo, esas conclusiones sedesarrollan haciendo que el estudiante utilice el proceso deductivo de bsqueda yno simplemente formulando la conclusin.

    b)La leccin de descubrimiento semideductivo: Es en la que los nios piensaninductivamente en un sistema deductivo. Llegan a reglas o propiedadesobservando datos especficos. Pero las reglas o propiedades que puedendescubrir estn controladas por el sistema en que trabajan. El sistema (esto es,los elementos con los que se trabaja y la operacin que se utiliza) limita losposibles resultados. El resultado educativo es que el proceso de enseanza sesimplifica, ya que se reduce en gran medida la probabilidad de que los nioslleguen a una conclusin inesperada.

    En este tipo de descubrimiento, el desarrolla es gradualmente en los nios conedades comprendidas entre los 8 aos en adelante (estadio concreto o formalPiaget).

    Un ejemplo de leccin de descubrimiento semideductivo sera aquel en que sepidiera a los nios que hicieran una lista de veinte nmeros enteros que ellosmismos eligieran. Se les podra pedir entonces que dividieran cada nmero pordos. Finalmente, se les podra decir que vieran cuntos restos diferentes obtenany que agruparan el nmero de acuerdo con el resto obtenido. Cuando la clasecomparara los resultados, encontrara que hay dos grupos de nmeros: los deresto cero, llamados pares, y los de resto uno llamados nmeros impares.

    Los nios habran llegado a estas dos categoras por observacin de ejemplosespecficos. Pero los datos que hubieran observado habran sido seleccionados engran parte por los propios nios ms que por el profesor. El resultado (lageneralizacin de los nios) est determinado por las reglas del sistema, ms quepor la seleccin y organizacin de los datos.

  • 7/29/2019 75632354 Mineria de Datos Final

    15/75

    14

    c) La leccin de descubrimiento hipottico-deductivo: es aquella en que los niosutilizan una forma deductiva de pensamiento. En general, esto implicar hacerhiptesis respecto a las causas y relaciones o predecir resultados. Lacomprobacin de hiptesis o la prediccin sera tambin una parte esencial de laleccin.

    En este tipo de descubrimiento, el desarrolla es gradualmente en los nios conedades comprendidas entre los 11 y 12 aos en adelante (estadio formal Piaget).

    Un ejemplo de este tipo de leccin sera aquel en que se mostrara a losestudiantes un experimento tradicional, tal como una jarra de agua puesta acalentar, cerrada, y enfriada, con la consiguiente rotura de la jarra. Se les pediradespus que determinaran qu aspectos de este procedimiento no podrancambiarse sin que cambiaran los resultados. Esto requerira que identificaran lasvariables y las cambiaran de una en una, o en otras palabras, que pusieran aprueba el efecto de cada variable.

    Ya que las hiptesis necesitaran ser contrastadas con la realidad, en la leccin dedescubrimiento hipottico deductivo se requerirn frecuentemente materialesconcretos. Del mismo modo, como el nio propone hiptesis, tiende a ejerceralgn control sobre los datos especficos con los que trabaja.

    Descubrimiento transductivo: En el pensamiento transductivo el individuo relacionao campar dos elementos particulares y advierte que son similares en uno o dosaspectos. Por ejemplo, un canguro es como una zarigeya, porque los dos llevana sus bebs en bolsas. Una jirafa es como un avestruz, porque ambos tienen elcuello largo. Un coche es como un caballo de carreras, porque los dos vandeprisa.

    El pensamiento transductivo puede llevar a la sobregeneralizacin o alpensamiento estereotipado, y as mucha gente sugiere que es un pensamiento nolgico. Sin embargo, el mismo proceso puede llevar a percepciones divergentes oimaginativas del mundo, y por eso mucha gente caracteriza al pensamientotransductivo como altamente creativo.

    El razonamiento transductivo se conoce ms comnmente como pensamientoimaginativo o artstico. Es el tipo de pensamiento que produce analogas ometforas. Por ejemplo la frase "la niebla viene a pasos de un gato pequeo...".

    Aqu, las caractersticas particulares de la niebla se relacionan con lascaractersticas particulares de un gato.

    a) La leccin de descubrimiento transductivo: es aquella en que se anima a losnios a que usen el pensamiento transductivo. El fin general de la leccin seradesarrollar destrezas en los mtodos artsticos de bsqueda. La seleccin yorganizacin de los "datos" o materiales especficos estar en gran partecontrolada por el nio.

  • 7/29/2019 75632354 Mineria de Datos Final

    16/75

    15

    En este tipo de descubrimiento, el desarrolla es gradualmente en los nios conedades comprendidas entre los 8 aos en adelante (estadio concreto o formalPiaget).

    Los factores que afectan al descubrimiento en la leccin transductiva son cosas

    tales como el tipo de material, la familiaridad del nio con los materiales y lacantidad de tiempo disponible para le experimentacin con los materiales, pormencionar solamente unos pocos.

    CONDICIONES DE APRENDIZAJE POR DESCUBRIMIENTO:

    Las condiciones que se deben presentar para que se produzca un aprendizaje por

    descubrimiento son: El mbito de bsqueda debe ser restringido, ya que as el individuo se dirige

    directamente al objetivo que se planteo en un principio.

    Los objetivos y los medios estarn bastante especificados y sern atrayentes, yaque as el individuo se incentivara a realizar este tipo de aprendizaje.

    Se debe contar con los conocimientos previos de los individuos para poder asguiarlos adecuadamente, ya que si se le presenta un objetivo a un individuo delcual ste no tiene la base, no va a poder llegar a su fin.

    Los individuos deben estar familiarizados con los procedimientos de observacin,bsqueda, control y medicin de variables, o sea, tiene el individuo que tenerconocimiento de las herramientas que se utilizan en el proceso de descubrimientopara as poder realizarlo.

    Por ultimo, los individuos deben percibir que la tarea tiene sentido y merece lapena, esto lo incentivara a realizar el descubrimiento, que llevara a que seproduzca el aprendizaje.

    PRINCIPIOS DEL APRENDIZAJE POR DESCUBRIMIENTO:

    Los principios que rigen este tipo de aprendizaje son los siguientes:

    o Todo el conocimiento real es aprendido por uno mismo, es decir, que el individuoadquiere conocimiento cuando lo descubre por el mismo o por su propiodiscernimiento.

  • 7/29/2019 75632354 Mineria de Datos Final

    17/75

    16

    o El significado es producto exclusivo del descubrimiento creativo y no verbal, esdecir, que el significado que es la relacin e incorporacin de forma inmediata dela informacin a su estructura cognitiva tiene que ser a travs del descubrimientodirecto y no verbal, ya que los verbalismos son vacos.

    o

    El conocimiento verbal es la clave de la transferencia, es decir, que la etapa sub.-verbal, la informacin que es entendida no esta con claridad y precisin, perocuando el producto de este se combina o refina con la expresin verbal adquierepoder de transferencia.

    o El mtodo del descubrimiento es el principal para transmitir el contenido de lamateria, es decir, que las tcnicas de aprendizaje por descubrimiento puedenutilizarse en la primera etapa escolar (para mayor comprensin verbal) paraentender mejor lo que se explica pero en las etapas posteriores no es factible porel tiempo que este lleva. En forma contraria se ha dicho que el aprendizaje porrecepcin verbal es el mtodo ms eficaz para transmitir la materia.

    o La capacidad para resolver problemas es la meta principal de la educacin, esdecir, la capacidad de resolver problemas es la finalidad educativa legtima, paraesto es muy razonable utilizar mtodos cientficos de investigacin. En un sentidocontradictorio, se encuentra lejos que la capacidad de resolver problemas sea unafuncin primaria en la educacin.

    o El entrenamiento en la Heurstica del descubrimiento es ms importante que laenseanza de la materia de estudio, es decir, la enseanza de materia no produceun mejoramiento en la educacin, por lo cual el descubrimiento seria msimportante, aunque en forma contraria, se ha dicho que el aprendizaje pordescubrimiento tampoco es importante en la educacin.

    o Cada nio debiera ser un pensador creativo y critico, es decir, se puede mejorar yobtener nios pensadores, creativos y crticos mejorando el sistema de educaciny as obtendramos alumnos capaces de dominar el mbito intelectual as como unincremento del entendimiento de las materias de sus estudios.

    o La enseanza expositiva es autoritaria, es decir, que este tipo de enseanza si seles obliga explicita o tcitamente a aceptarlas como dogmas es autoritario, pero sino cumple estos requisitos no se puede decir que es autoritaria ya que la idea ensi es explicar ideas a otros individuos sin que se transformes en dogmas.

    o El descubrimiento organiza de manera eficaz lo aprendido para emplearloulteriormente, es decir, ejecuta una accin basada en los conocimientos cuandoesta estructurada, simplificada y programada para luego incluir varios ejemplaresdel mismo principio en un orden de dificultad.

    o El descubrimiento es el generador nico de motivacin y confianza en si mismo,es decir, que la exposicin diestra de ideas puede ser tambin la estimulacin

  • 7/29/2019 75632354 Mineria de Datos Final

    18/75

    17

    intelectual y la motivacin hacia la investigacin genuina aunque no en el mismogrado que el descubrimiento.

    o El descubrimiento es una fuente primaria de motivacin intrnseca, es decir, que elindividuo sin estimulacin intrnseca adquiere la necesidad de ganar smbolos

    (elevadas calificaciones y la aprobacin del profesor) como tambin la gloria y elprestigio asociados con el descubrimiento independiente de nuestra cultura.

    o El descubrimiento asegura la conservacin del recuerdo, es decir, que a travs deeste tipo de aprendizaje es ms probable de que el individuo conserve lainformacin.

    El proceso de Descubrimiento de Conocimiento en Bases de Datos (mas conocidopor su nombre en ingles, KnowledgeDiscovery in Databases) es el proceso de

    extraccin de conocimiento util, implcito y previamente desconocido a partir degrandes volmenes de datos. Dicho proceso se compone de diferentes etapasentre las que cabe destacar la etapa de Data Mining, en la que se analizan losdatos y se extrae conocimiento util de ellos haciendo uso de un conjunto dealgoritmos. Data Mining ofrece una gran variedad de tcnicas para resolverdiferentes tipos de problemas. En los ltimos anos, dichas tcnicas han sidoempleadas en multitud de dominios en los que el anlisis se ha centrado enindividuos cuya informacion se representa habitualmente mediante una tabla deatributos univaluados de tipo entero, real o enumerado. Sin embargo, existenmuchos dominios en los que cada individuo no se representa mediante una simpletabla de atributos sino mediante un conjunto de datos con estructura mscompleja, incluyendo tanto atributos univaluados como series temporales.

    El KDD ( KnowledgeDiscoveryfromDatabases) es el proceso no trivial de identi-carpatrones vlidos, novedosos, potencialmente tiles y en ltima instancia,comprensibles a partir de los datos. [10]

    El objetivo fundamental del KDD ( KnowledgeDiscoveryfromDatabases), esencontrar conocimiento til, vlido, relevante y nuevo sobre una determinadaactividad mediante algoritmos, dadas las crecientes rdenes de magnitud en losdatos (ver fig. 1.1).

  • 7/29/2019 75632354 Mineria de Datos Final

    19/75

    18

    Figura 1.1: Proceso del KDD( Knowledge Discovery from Databases).

    Al mismo tiempo hay un profundo inters por presentar los resultados de maneravisual o al menos de manera que su interpretacin sea muy clara.

    El resultado de la exploracin deber ser interesante y su calidad no debe serafectada por ruido en los datos.

    1.5 Sistema para el soporte de decisiones

    Un Sistema de Soporte a la Decisin (DSS) es una herramienta de BusinessIntelligence enfocada al anlisis de los datos de una organizacin.

    En principio, puede parecer que el anlisis de datos es un proceso sencillo, y fcilde conseguir mediante una aplicacin hecha a medida o un ERP sofisticado. Sinembargo, no es as: estas aplicaciones suelen disponer de una serie de informespredefinidos en los que presentan la informacin de manera esttica, pero nopermiten profundizar en los datos, navegar entre ellos, manejarlos desde distintasperspectivas... etc.

  • 7/29/2019 75632354 Mineria de Datos Final

    20/75

    19

    El DSS es una de las herramientas ms emblemticas del Business Intelligence yaque, entre otras propiedades, permiten resolver gran parte de las limitaciones delos programas de gestin. Estas son algunas de sus caractersticas principales:

    Informes dinmicos, flexibles e interactivos, de manera que el usuario notenga que ceirse a los listados predefinidos que se configuraron en elmomento de la implantacin, y que no siempre responden a sus dudasreales.

    No requiere conocimientos tcnicos. Un usuario no tcnico puede crearnuevos grficos e informes y navegar entre ellos, haciendo drag&drop odrillthrough. Por tanto, para examinar la informacin disponible o crearnuevas mtricas no es imprescindible buscar auxilio en el departamento deinformtica.

    Rapidez en el tiempo de respuesta, ya que la base de datos subyacentesuele ser un datawarehouse corporativo o un datamart, con modelos dedatos en estrella o copo de nieve. Este tipo de bases de datos estnoptimizadas para el anlisis de grandes volmenes de informacin(veasenalisis OLTP-OLAP).

    Integracin entre todos los sistemas/departamentos de la compaa. Elproceso de ETL previo a la implantacin de un Sistema de Soporte a laDecisin garantiza la calidad y la integracin de los datos entre lasdiferentes unidades de la empresa. Existe lo que se llama: integridadreferencial absoluta.

    Cada usuario dispone de informacin adecuada a su perfil. No se trata deque todo el mundo tenga acceso a toda la informacin, sino de que tengaacceso a la informacin que necesita para que su trabajo sea lo mseficiente posible.

    http://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspxhttp://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspxhttp://www.sinnexus.com/business_intelligence/olap_vs_oltp.aspx
  • 7/29/2019 75632354 Mineria de Datos Final

    21/75

    20

    Disponibilidad de informacin histrica. En estos sistemas est a la ordendel da comparar los datos actuales con informacin de otros perodoshistricos de la compaa, con el fin de analizar tendencias, fijar laevolucin de parmetros de negocio... etc.

    Diferencia con otras herramientas de Business Intelligence

    El principal objetivo de los Sistemas de Soporte a Decisiones es, a diferencia deotras herramientas como los Cuadros de Mando (CMI) o los Sistemas deInformacin Ejecutiva (EIS), explotar al mximo la informacin residente en unabase de datos corporativa (datawarehouse o datamart), mostrando informes muydinmicos y con gran potencial de navegacin, pero siempre con una interfazgrfica amigable, vistosa y sencilla.

    Otra diferencia fundamental radica en los usuarios a los que estn destinadas lasplataformas DSS: cualquier nivel gerencial dentro de una organizacin, tanto parasituaciones estructuradas como no estructuradas. (En este sentido, por ejemplo,los CMI estn ms orientados a la alta direccin).

    Por ltimo, destacar que los DSS suelen requerir (aunque no es imprescindible) unmotor OLAP subyacente, que facilite el anlisis casi ilimitado de los datos parahallar las causas raices de los problemas/pormenores de la compaa.

    Tipos de Sistemas de Soporte a Decisiones

    Sistemas de informacin gerencial (MIS)Los sistemas de informacin gerencial (MIS, ManagementInformationSystems), tambien llamados Sistemas de Informacin

  • 7/29/2019 75632354 Mineria de Datos Final

    22/75

    21

    Administrativa (AIS) dan soporte a un espectro ms amplio de tareasorganizacionales, encontrndose a medio camino entre un DSS tradicionaly una aplicacin CRM/ERP implantada en la misma compaa.

    Sistemas de informacin ejecutiva (EIS)

    Los sistemas de informacin ejecutiva (EIS, ExecutiveInformationSystem)son el tipo de DSS que ms se suele emplear en Business Intelligence, yaque proveen a los gerentes de un acceso sencillo a informacin interna yexterna de su compaa, y que es relevante para sus factores clave dexito.

    Sistemas expertos basados en inteligencia artificial (SSEE)Los sistemas expertos, tambin llamados sistemas basados enconocimiento, utilizan redes neuronales para simular el conocimiento de unexperto y utilizarlo de forma efectiva para resolver un problema concreto.Este concepto est muy relacionado con el datamining.

    Sistemas de apoyo a decisiones de grupo (GDSS)Un sistema de apoyo a decisiones en grupos (GDSS,GroupDecisionSupportSystems) es "un sistema basado en computadorasque apoya a grupos de personas que tienen una tarea (u objetivo) comn, yque sirve como interfaz con un entorno compartido". El supuesto en que sebasa el GDSS es que si se mejoran las comunicaciones se pueden mejorarlas decisiones.

    http://www.sinnexus.com/business_intelligence/sistemas_informacion_ejecutiva.aspxhttp://www.sinnexus.com/business_intelligence/sistemas_informacion_ejecutiva.aspxhttp://www.sinnexus.com/business_intelligence/sistemas_informacion_ejecutiva.aspxhttp://www.sinnexus.com/business_intelligence/sistemas_informacion_ejecutiva.aspx
  • 7/29/2019 75632354 Mineria de Datos Final

    23/75

    22

    1.6 Sistemas operacionales vs Sistemas para la toma dedecisiones

    Sistema Operacional (OLTP)

    - almacena datos actuales

    - almacena datos de detalle

    -bases de datos medianas

    (100Mb-1Gb)

    - los datos son dinmicos (actualizables)

    - los procesos (transacciones) son repetitivos

    - el nmero de transacciones es

    - tiempo de respuesta pequeo (segundos)

    - dedicado al procesamiento de transacciones

    - orientado a los procesos de la organizacin

    - soporta decisiones diarias

    - sirve a muchos usuarios (administrativos)

    Debido a que hay muchos enfoques para la toma de decisiones y debido a laamplia gama de mbitos en los cuales se toman las decisiones, el concepto desistema de apoyo a las decisiones (DSS por sus siglas en inglsDecisionsupportsystem) es muy amplio. Un DSS puede adoptar muchas formasdiferentes. En general, podemos decir que un DSS es un sistema informticoutilizado para servir de apoyo, ms que automatizar, el proceso de toma dedecisiones. La decisin es una eleccin entre alternativas basadas enestimaciones de los valores de esas alternativas. El apoyo a una decisin significaayudar a las personas que trabajan solas o en grupo a reunir inteligencia, generar

    alternativas y tomar decisiones. Apoyar el proceso de toma de decisin implica elapoyo a la estimacin, la evaluacin y/o la comparacin de alternativas. En laprctica, las referencias a DSS suelen ser referencias a aplicaciones informticasque realizan una funcin de apoyo

  • 7/29/2019 75632354 Mineria de Datos Final

    24/75

    23

    1.7 Herramientas para la minera de Datos

    Existen muchas herramientas de software para el desarrollo de modelos deminera de datos tanto libres como comerciales como, por ejemplo:

    KNIME (o KonstanzInformationMiner) es una plataforma deminera de datosquepermite el desarrollo de modelos en un entorno visual. Est construido bajo laplataformaEclipse.

    KNIME est desarrollado sobre la plataforma Eclipse y programado,esencialmente, enjava. Est concebido como una herramienta grfica y disponede una serie de nodos (que encapsulan distintos tipos de algoritmos) y flechas(que representan flujos de datos) que se despliegan y combinan de manera grficae interactiva.

    Los nodos implementan distintos tipos de acciones que pueden ejecutarse sobre

    una tabla de datos:

    Manipulacin de filas, columnas, etc., como muestreos, transformaciones,agrupaciones, etc.

    Visualizacin (histogramas, etc.). Creacin de modelos estadsticos y de minera de datos, como rboles de

    decisin, mquinas de vector soporte, regresiones, etc. Validacin de modelos, como curvas ROC, etc. Scoring o aplicacin de dichos modelos sobre conjuntos nuevos de datos. Creacin de informes a medida gracias a su integracin con BIRT.

    El carcter abierto de la herramienta hace posible su extensin mediante lacreacin de nuevos nodos que implementen algoritmos a la medida del usuario.Adems, existe la posibilidad de utilizar de llamar directa y transparentemente aWeka y o de incorporar de manera sencilla cdigo desarrollado en R opython/jython.

    KNIME integra diversos componentes para aprendizaje automtico y minera dedatos a travs de su concepto de fraccionamiento de datos (data pipelining)modular. La interfaz grfica de usuario permite el montaje fcil y rpido de nodospara preprocesamiento de datos (ETL: extraccin, transformacin, carga), para elanlisis de datos y modelado y visualizacin. KNIME es desde 2006 utilizado en la

    investigacin farmacutica,1

    pero tambin se utiliza en otras reas, como: anlisisde datos de cliente de CRM, inteligencia de negocio y anlisis de datosfinancieros.

    RapidMiner (anteriormente, YALE, YetAnotherLearningEnvironment) es unprograma informtico para el anlisis y minera de datos. Permite el desarrollo deprocesos de anlisis de datos mediante el encadenamiento de operadores atravs de un entorno grfico. Se usa en investigacin educacin, capacitacin,

    http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Eclipse_(software)http://es.wikipedia.org/wiki/Eclipse_(software)http://es.wikipedia.org/wiki/Eclipse_(software)http://es.wikipedia.org/wiki/Eclipse_(software)http://es.wikipedia.org/wiki/Eclipse_(software)http://es.wikipedia.org/wiki/Lenguaje_de_programaci%C3%B3n_Javahttp://es.wikipedia.org/wiki/Lenguaje_de_programaci%C3%B3n_Javahttp://es.wikipedia.org/wiki/R-projecthttp://es.wikipedia.org/wiki/R-projecthttp://es.wikipedia.org/wiki/Pythonhttp://es.wikipedia.org/wiki/Jythonhttp://es.wikipedia.org/wiki/Jythonhttp://es.wikipedia.org/wiki/Jythonhttp://es.wikipedia.org/wiki/KNIME#cite_note-0http://es.wikipedia.org/wiki/KNIME#cite_note-0http://es.wikipedia.org/wiki/KNIME#cite_note-0http://es.wikipedia.org/wiki/KNIME#cite_note-0http://es.wikipedia.org/wiki/Jythonhttp://es.wikipedia.org/wiki/Pythonhttp://es.wikipedia.org/wiki/R-projecthttp://es.wikipedia.org/wiki/Lenguaje_de_programaci%C3%B3n_Javahttp://es.wikipedia.org/wiki/Eclipse_(software)http://es.wikipedia.org/wiki/Eclipse_(software)http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
  • 7/29/2019 75632354 Mineria de Datos Final

    25/75

    24

    creacin rpida de prototipos y en aplicaciones empresariales. En una encuestarealizada por KDnuggets, un peridico de minera de datos, RapidMiner ocup elsegundo lugar en herramientas de analtica y de minera de datos utilizadas paraproyectos reales en 20091y fue el primero en 2010.2

    La versin inicial fue desarrollada por el departamento de inteligencia artificial dela Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y esthospedado en Source Forge desde el 2004.

    RapidMiner proporciona ms de 500 operadores orientados al anlisis de datos,incluyendo los necesarios para realizar operaciones de entrada y salida,preprocesamiento de datos y visualizacin. Tambin permite utilizar los algoritmosincluidos enWeka.

    Weka (WaikatoEnvironmentforKnowledgeAnalysis - Entorno para Anlisis delConocimiento de la Universidad de Waikato) es una plataforma de software para

    aprendizaje automtico y minera de datos escrito en Java y desarrollado en laUniversidad de Waikato. Weka es un software libre distribuido bajo licencia GNU-GPL.

    El paquete Weka4 contiene una coleccin de herramientas de visualizacin yalgoritmos para anlisis de datos y modelado predictivo, unidos a una interfazgrfica de usuario para acceder fcilmente a sus funcionalidades. La versinoriginal de Weka fue un front-end en TCL/TK para modelar algoritmosimplementados en otros lenguajes de programacin, ms unas utilidades parapreprocesamiento de datos desarrolladas en C para hacer experimentos deaprendizaje automtico. Esta versin original se dise inicialmente comoherramienta para analizar datos procedentes del dominio de la agricultura,pero laversin ms reciente basada en Java (WEKA 3), que empez a desarrollarse en1997, se utiliza en muchas y muy diferentes reas, en particular con finalidadesdocentes y de investigacin.

    Orange es un programa informtico para realizar minera de datos y anlisispredictivo desarrollado en la facultad de informtica de la Universidad de Ljubljana.Consta de una serie de componentes desarrollados en C++ que implementanalgoritmos de minera de datos, as como operaciones de preprocesamiento yrepresentacin grfica de datos.

    Los componentes de Orange pueden ser manipulados desde programasdesarrollados en Python o a travs de un entorno grfico.

    http://es.wikipedia.org/wiki/RapidMiner#cite_note-0http://es.wikipedia.org/wiki/RapidMiner#cite_note-0http://es.wikipedia.org/wiki/RapidMiner#cite_note-1http://es.wikipedia.org/wiki/RapidMiner#cite_note-1http://es.wikipedia.org/wiki/RapidMiner#cite_note-1http://es.wikipedia.org/wiki/Weka_(aprendizaje_autom%C3%A1tico)http://es.wikipedia.org/wiki/Weka_(aprendizaje_autom%C3%A1tico)http://es.wikipedia.org/wiki/Weka_(aprendizaje_autom%C3%A1tico)http://es.wikipedia.org/wiki/Weka_(aprendizaje_autom%C3%A1tico)http://es.wikipedia.org/wiki/RapidMiner#cite_note-1http://es.wikipedia.org/wiki/RapidMiner#cite_note-0
  • 7/29/2019 75632354 Mineria de Datos Final

    26/75

    25

    UNIDAD 2

    2.1 INTRODUCCIN

    KDD: Proceso de Extraccin de conocimiento

    La Extraccin de conocimiento est principalmente relacionado con el proceso dedescubrimiento conocido como Knowledge Discovery in Databases (KDD), que serefiere al proceso no-trivial de descubrir conocimiento e informacinpotencialmente til dentro de los datos contenidos en algn repositorio deinformacin. No es un proceso automtico, es un proceso iterativo queexhaustivamente explora volmenes muy grandes de datos para determinarrelaciones. Es un proceso que extrae informacin de calidad que puede usarsepara dibujar conclusiones basadas en relaciones o modelos dentro de los datos.La siguiente figura ilustra las etapas del proceso KDD:

    Proceso KDD

    Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fasesy son:

    1. Seleccin de datos. En esta etapa se determinan las fuentes dedatos y el tipo de informacin a utilizar. Es la etapa donde los datosrelevantes para el anlisis son extrados desde la o las fuentes de

    datos.2. Preprocesamiento. Esta etapa consiste en la preparacin y limpiezade los datos extrados desde las distintas fuentes de datos en unaforma manejable, necesaria para las fases posteriores. En esta etapase utilizan diversas estrategias para manejar datos faltantes o enblanco, datos inconsistentes o que estn fuera de rango,obtenindose al final una estructura de datos adecuada para suposterior transformacin.

  • 7/29/2019 75632354 Mineria de Datos Final

    27/75

    26

    3. Transformacin. Consiste en el tratamiento preliminar de los datos,transformacin y generacin de nuevas variables a partir de las yaexistentes con una estructura de datos apropiada. Aqu se realizanoperaciones de agregacin o normalizacin, consolidando los datosde una forma necesaria para la fase siguiente.

    4. Data Mining. Es la fase de modelamiento propiamente tal, en dondemtodos inteligentes son aplicados con el objetivo de extraerpatrones previamente desconocidos, vlidos, nuevos, potencialmentetiles y comprensibles y que estn contenidos u ocultos en losdatos.

    5. Interpretacin y Evaluacin. Se identifican los patrones obtenidos yque son realmente interesantes, basndose en algunas medidas y serealiza una evaluacin de los resultados obtenidos.

    Adems de las fases descritas, frecuentemente se incluye una fase previa deanlisis de las necesidades de la organizacin y definicin del problema, en la quese establecen los objetivos de la minera de datos. Tambin es usual incluir unaetapa final, donde los resultados obtenidos se integran al negocio para larealizacin de acciones comerciales.

    2.2 ETAPAS DE EXTRACCION DEL CONOCIMIENTO

    En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades degenerar y colectar datos, debido bsicamente al gran poder de procesamiento delas mquinas como a su bajo costo de almacenamiento.

    Sin embargo, dentro de estas enormes masas de datos existe una gran cantidadde informacin oculta, de gran importancia estratgica, a la que no se puedeacceder por las tcnicas clsicas de recuperacin de la informacin.

    El descubrimiento de esta informacin oculta es posible gracias a la Minera de

    Datos (DataMining), que entre otras sofisticadas tcnicas aplica la inteligenciaartificial para encontrar patrones y relaciones dentro de los datos permitiendo lacreacin de modelos, es decir, representaciones abstractas de la realidad, pero esel descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga

    de la preparacin de los datos y la interpretacin de los resultados obtenidos, loscuales dan un significado a estos patrones encontrados.

    As el valor real de los datos reside en la informacin que se puede extraer deellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensinde los fenmenos que nos rodean. Hoy, ms que nunca, los mtodos analticosavanzados son el arma secreta de muchos negocios exitosos.

  • 7/29/2019 75632354 Mineria de Datos Final

    28/75

    27

    Empleando mtodos analticos avanzados para la explotacin de datos, losnegocios incrementan sus ganancias, maximizan la eficiencia operativa, reducencostos y mejoran la satisfaccin del cliente.

    El Descubrimiento de Conocimiento en Bases de Datos

    (KDD) apunta a procesar automticamente grandes cantidades de datos paraencontrar conocimiento til en ellos, de esta manera permitir al usuario el uso deesta informacin valiosa para su conveniencia.

    El KDD es el Proceso no trivial de identificar patrones vlidos, novedosos,potencialmente tiles y, en ltima instancia, comprensibles a partir de los datos.

    FIGURA: KDD

    2.3 ETAPA DE RECOPILACION E INTEGRACION

    El formato de los datos contenidos en la fuente de datos (base de datos,

    Data

    Warehouse...) nunca es el idneo, y la mayora de las veces no es posibleni siquiera utilizar ningn algoritmo de minera sobre los datos en bruto.

  • 7/29/2019 75632354 Mineria de Datos Final

    29/75

    28

    Mediante el preprocesado, se filtran los datos (de forma que se eliminan valoresincorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo ausar), se obtienen muestras de los mismos (en busca de una mayor velocidad derespuesta del proceso), o se reducen el nmero de valores posibles (medianteredondeo, clustering,...).

    2.4ETAPA DE SELECCIN, LIMPIEZA Y TRANSFORMACION

    An despus de haber sido preprocesados, en la mayora de los casos se tieneuna cantidad ingente de datos. La seleccin de caractersticas reduce el tamaode los datos eligiendo las variables ms influyentes en el problema, sin apenassacrificar la calidad del modelo de conocimiento obtenido del proceso de minera.

    Los mtodos para la seleccin de caractersticas son bsicamente dos:

    Aquellos basados en la eleccin de los mejores atributos delproblema.

    Y aquellos que buscan variables independientes mediante tests desensibilidad.

    algoritmos de distancia o heursticos.

    2.5 ETAPA DE MINERIA DE DATOS

    Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento,que representa patrones de comportamiento observados en los valores de lasvariables del problema o relaciones de asociacin entre dichas variables.

    Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos,aunque generalmente cada tcnica obliga a un preprocesado diferente de losdatos.

  • 7/29/2019 75632354 Mineria de Datos Final

    30/75

    29

    2.6 ETAPA DE EVALUACION E INTERPRETACION

    Una vez obtenido el modelo, se debe proceder a su validacin, comprobando quelas conclusiones que arroja son vlidas y suficientemente satisfactorias.

    En el caso de haber obtenido varios modelos mediante el uso de distintastcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejoral problema. Si ninguno de los modelos alcanza los resultados esperados, debealterarse alguno de los pasos anteriores para generar nuevos modelos.

    2.7 ETAPA DE DIFUSION

    Cada ao, en los diferentes congresos, simposios y talleres que se realizan en elmundo se renen investigadores con aplicaciones muy diversas. Sobre todo en losEstados Unidos, el data mining se ha ido incorporando a la vida de empresas,gobiernos, universidades, hospitales y diversas organizaciones que estninteresadas en explorar sus bases de datos.

    El FBI analizar las bases de datos comerc iales para detectar terroristas.

    A principios del mes de julio de 2002, el director del Federal Bureau ofInvestigation (FBI), John Aschcroft, anunci que el Departamento de Justiciacomenzar a introducirse en la vasta cantidad de datos comerciales referentes alos hbitos y preferencias de compra de los consumidores, con el fin de descubrirpotenciales terroristas antes de que ejecuten una accin. Algunos expertosaseguran que, con esta informacin, el FBI unir todas las bases de datosprobablemente mediante el nmero de la Seguridad Social y permitir saber si unapersona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, lasrevistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia,

    grupos polticos u organizaciones no gubernamentales, sus enfermedadescrnicas (como diabetes o asma), los libros que lee, los productos desupermercado que compra, si tom clases de vuelo o si tiene cuentas de bancoabiertas, entre otros. La inversin inicial ronda los setenta millones de dlaresestadounidenses para consolidar los almacenes de datos, desarrollar redes deseguridad para compartir informacin e implementar nuevo software analtico y devisualizacin.

  • 7/29/2019 75632354 Mineria de Datos Final

    31/75

    30

    UNIDAD 3:Exploracin de los datos.

    3.1 ESTADISTICAS DE RESUMEN.

    Estadsticas de resumenson nmerosque resumenlas propiedadesdelos datos.

    Ciertamente, la minera de datos bebe de la estadstica, de la que toma lassiguientes tcnicas:

    Anlisis de varianza, mediante el cual se evala la existencia de diferenciassignificativas entre las medias de una o ms variables continas en poblacionesdistintas.

    Regresin: define la relacin entre una o ms variables y un conjunto de variablespredictoras de las primeras.

    Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis dedependencia entre variables.

    Anlisis de agrupamiento o clustering:permite la clasificacin de una poblacinde individuos caracterizados por

    mltiples atributos (binarios, cualitativos o cuantitativos) en un nmero

    determinado de grupos, con base en las semejanzas o diferencias de losindividuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que

    previamente se han establecido, permite encontrar la regla de clasificacin de loselementos de estos grupos, y por tanto una mejor identificacin de cules son lasvariables que definan la pertenencia al grupo.

    Series de tiempo: permite el estudio de la evolucin de una variable a travs deltiempo para poder realizar predicciones, a partir de ese conocimiento y bajo elsupuesto de que no van a producirse cambios estructurales.

    Medidas de localizacin.

    La media, mediana, modaycuartiles.

    Media:El valor promediodel conjunto de datos.Lamedia es igual ala sumadetodas las observacionesdividida porel nmero de observaciones.

    http://es.wikipedia.org/wiki/An%C3%A1lisis_de_varianzahttp://es.wikipedia.org/wiki/An%C3%A1lisis_de_varianzahttp://es.wikipedia.org/wiki/Regresi%C3%B3nhttp://es.wikipedia.org/wiki/Regresi%C3%B3nhttp://es.wikipedia.org/wiki/Prueba_chi-cuadradohttp://es.wikipedia.org/wiki/Prueba_chi-cuadradohttp://es.wikipedia.org/wiki/Algoritmo_de_agrupamientohttp://es.wikipedia.org/wiki/Algoritmo_de_agrupamientohttp://es.wikipedia.org/wiki/Algoritmo_de_agrupamientohttp://es.wikipedia.org/wiki/An%C3%A1lisis_discriminantehttp://es.wikipedia.org/wiki/An%C3%A1lisis_discriminantehttp://es.wikipedia.org/wiki/Serie_temporalhttp://es.wikipedia.org/wiki/Serie_temporalhttp://es.wikipedia.org/wiki/Serie_temporalhttp://es.wikipedia.org/wiki/An%C3%A1lisis_discriminantehttp://es.wikipedia.org/wiki/Algoritmo_de_agrupamientohttp://es.wikipedia.org/wiki/Prueba_chi-cuadradohttp://es.wikipedia.org/wiki/Regresi%C3%B3nhttp://es.wikipedia.org/wiki/An%C3%A1lisis_de_varianza
  • 7/29/2019 75632354 Mineria de Datos Final

    32/75

    31

    Mediana:El valormedio de modo quela mitad de lasobservacionesson mayoresy menos de la mitad.

    La mediaes muy sensible avalores extremos(los valores extremoso inusuales).

    Modo:El valorque se producecon mayor frecuenciaen elconjunto de datos.

    Cuartiles: Puntos deDivisinquedividir los datosen cuatro partesiguales.Cadapuntos de divisinse llamanQ1 (primer cuartil), Q2(elsegundocuartilomediana) yQ3 (tercer cuartil).Deciles ypercentilesse utilizan aveces.

    Medidas de dispersin.

    Desviacin estndar, varianza, rango intercuartil y el rango.

    Medidas de la varianza en qu medida los valores de datos se encuentran de lamedia. Se define como el promedio de los cuadrados de las diferencias entre lamedia y los valores de datos individuales.

    Desviacin Estndar: La raz cuadrada de la varianza.

    Rango intercuartil (RIC): La diferencia entre Q3 y Q1.

    Alcance: La diferencia entre el mximo y mnimo.

    Medidasdeasimetra:Medidaso nouna distribucintiene una colalargasolo.Medirla asimetrase define como

    En forma de campana osimtrica

  • 7/29/2019 75632354 Mineria de Datos Final

    33/75

    32

    3.2 VISUALIZACIN.

    Visualizacin de datoses el estudio dela representacinvisual de los datos, esdecir,"la informacinque ha sidoextradade una formaesquemtica, incluidos losatributoso variablesdelas unidades de informacin".

    SegnFriedman(2008)el objetivo"principal devisualizacin de datosescomunicar informacinclara y eficaza travs de mediosgrficos.Esto nosignificaque la visualizacinde datostiene que miraraburrido paraser funcionaloextremadamente sofisticadospara lucir bella.Para transmitirideas de maneraefectiva,tanto en su forma estticay la funcionalidadque irde la mano, y

    proporciona informacinenuna base de datosms bien escasaycomplejoconjuntodela comunicacin de susaspectos clavede una maneramsintuitiva.Sin embargo,los diseadores a menudono logran alcanzarunequilibrioentre diseo y funcionalidad,

    creandomagnficosvisualizaciones de datosque nocumplen su objetivoprincipal-para comunicar la informacin"

    Izquierda sesgada

    Derecha sesgada

  • 7/29/2019 75632354 Mineria de Datos Final

    34/75

    33

    De hecho,Fernanda ViegasyMartnM.Wattenberghan sugerido queunavisualizacinideal noslodeben comunicar con claridad,sino que estimulanlaparticipacinyla atencin deespectador.

    Visualizacin de datosest estrechamente relacionado conlos grficosde la

    informacin, visualizacin de informacin,visualizacin cientficaygrficosestadsticos.En el nuevo milenio,la visualizacin de datosse haconvertido enun rea activa deinvestigacin, la docenciay eldesarrollo.SegnPost etal.(2002), seha unidoel campo delavisualizacincientficay la informacin.Como se ha demostradoporBrianWillison,visualizacin de datosha sidotambin ha sido vinculadaa promover eldesarrollogil de softwarey compromiso con el cliente.

    KPIBibliotecaha desarrollado la"Tabla Peridica deMtodos de

    Visualizacin",un grficointeractivo que muestralos diversos mtodosdevisualizacin de datos.En l se detallanlos 6 tiposde mtodos devisualizacinde datos:datos, informacin,concepto, laestrategia, la metforaycompuesto.

    Unavisualizacin de datosdeWikipedia, como parte dela World Wide Web, loque demuestrahipervnculos.

  • 7/29/2019 75632354 Mineria de Datos Final

    35/75

    34

    3.3 OLAP.

    OLAP es el acrnimo en ingls de procesamiento analtico en lnea (On-Line

    AnalyticalProcessing). Es una solucin utilizada en el campo de lallamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizarla consulta de grandes cantidades de datos. Para ello utiliza estructurasmultidimensionales (o Cubos OLAP) que contienen datos resumidos degrandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informesde negocios de ventas, marketing, informes de direccin, minera de datos y reassimilares.

    La razn de usar OLAP para las consultas es la rapidez de respuesta. Una basede datos relacional almacena entidades en tablas discretas si han sidonormalizadas. Esta estructura es buena en un sistema OLTP pero para lascomplejas consultas multitabla es relativamente lenta. Un modelo mejor parabsquedas (aunque peor desde el punto de vista operativo) es una base de datosmultidimensional.

    La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la horade ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que esla mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE.

    Funcionalidad.

    En la base de cualquier sistema OLAP se encuentra el concepto de cuboOLAP (tambin llamado cubo multidimensional o hipercubo). Se compone dehechos numricos llamados medidas que se clasifican por dimensiones. El cubode metadatos es tpicamente creado a partir de un esquema en estrella o copo denieve, esquema de las tablas en una base de datos relacional. Las medidas seobtienen de los registros de una tabla de hechos y las dimensiones se derivan dela dimensin de los cuadros.

    Tipos de sistemas OLAP.

    Tradicionalmente, los sistemas OLAP se clasifican segn las siguientescategoras:

    http://es.wikipedia.org/wiki/Acr%C3%B3nimohttp://es.wikipedia.org/wiki/Idioma_ingl%C3%A9shttp://es.wikipedia.org/wiki/Inteligencia_empresarialhttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Bases_de_datoshttp://es.wikipedia.org/wiki/OLTPhttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/SQLhttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Hipercubohttp://es.wikipedia.org/wiki/Metadatohttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Metadatohttp://es.wikipedia.org/wiki/Hipercubohttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/SQLhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Miner%C3%ADa_de_datoshttp://es.wikipedia.org/wiki/OLTPhttp://es.wikipedia.org/wiki/Bases_de_datoshttp://es.wikipedia.org/wiki/Cubo_OLAPhttp://es.wikipedia.org/wiki/Inteligencia_empresarialhttp://es.wikipedia.org/wiki/Idioma_ingl%C3%A9shttp://es.wikipedia.org/wiki/Acr%C3%B3nimo
  • 7/29/2019 75632354 Mineria de Datos Final

    36/75

    35

    ROLAP

    Implementacin OLAP que almacena los datos en un motor relacional.

    Tpicamente, los datos son detallados, evitando las agregaciones y las tablas seencuentran desnormalizadas Los esquemas ms comunes sobre los que setrabaja son estrella copo de nieve, aunque es posible trabajar sobre cualquierbase de datos relacional. La arquitectura est compuesta por un servidor de bancode datos relacional y el motor OLAP se encuentra en un servidor dedicado. Laprincipal ventaja de esta arquitectura es que permite el anlisis de una enormecantidad de datos.

    MOLAP

    Esta implementacin OLAP almacena los datos en una base de datos

    multidimensional. Para optimizar los tiempos de respuesta, el resumen de lainformacin es usualmente calculado por adelantado. Estos valores precalculadoso agregaciones son la base de las ganancias de desempeo de este sistema.

    Algunos sistemas utilizan tcnicas de compresin de datos para disminuir elespacio de almacenamiento en disco debido a los valores precalculados.

    HOLAP (Hybrid OLAP)

    Almacena algunos datos en un motor relacional y otros en una base de datosmultidimensional.

    Comparacin.

    Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca delas caractersticas especficas de los beneficios entre los proveedores).

    Algunas implementaciones MOLAP son propensas a la "explosin" de la base dedatos; este fenmeno provoca la necesidad de grandes cantidades de espacio dealmacenamiento para el uso de una base de datos MOLAP cuando se dan ciertascondiciones: elevado nmero de dimensiones, resultados precalculados y escasosdatos multidimensionales. Las tcnicas habituales de atenuacin de la explosinde la base de datos no son todo lo eficientes que sera deseable.

    Por lo general MOLAP ofrece mejor rendimiento debido a la especializadaindexacin y a las optimizaciones de almacenamiento. MOLAP tambin necesitamenos espacio de almacenamiento en comparacin con losespecializados ROLAP porque su almacenamiento especializado normalmenteincluye tcnicas de compresin.

    ROLAP es generalmente ms escalable. Sin embargo, el gran volumen depreprocesamiento es difcil de implementar eficientemente por lo que con

    http://es.wikipedia.org/wiki/Base_de_datos_relacionalhttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Base_de_datos_multidimensionalhttp://es.wikipedia.org/wiki/Esquema_en_copo_de_nievehttp://es.wikipedia.org/wiki/Esquema_en_estrellahttp://es.wikipedia.org/wiki/Base_de_datos_relacional
  • 7/29/2019 75632354 Mineria de Datos Final

    37/75

    36

    frecuencia se omite; por tanto, el rendimiento de una consulta ROLAP puede verseafectado.

    Desde la aparicin de ROLAP van apareciendo nuevas versiones de bases dedatos preparadas para realizar clculos, las funciones especializadas que sepueden utilizar tienen ms limitaciones.

    HOLAP (OLAP Hbrido) engloba un conjunto de tcnicas que tratan decombinarMOLAP y ROLAP de la mejor forma posible. Generalmente puede pre-procesar rpidamente, escala bien, y proporciona una buena funcin de apoyo.

    Otros tipos

    Los siguientes acrnimos a veces tambin se utilizan, aunque no son sistemas tangeneralizados como los anteriores:

    WOLAPoWeb OLAP: OLAP basado u orientado para la web.

    DOLAPoDesktop OLAP: OLAP de escritorio RTOLAPoReal Time OLAP: OLAP en tiempo real SOLAPoSpatial OLAP: OLAP espacial

    http://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/HOLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/MOLAPhttp://es.wikipedia.org/wiki/HOLAPhttp://es.wikipedia.org/wiki/ROLAPhttp://es.wikipedia.org/wiki/ROLAP
  • 7/29/2019 75632354 Mineria de Datos Final

    38/75

    37

    UNIDAD 4 Programacin Lgica Inductiva (ILP)

    4.1 Nociones de lgica

    Figura 6.1: Las dos caras de la Lgica.

    Importante: que las cosas que queremos que sean verdaderas coicidan con lasque podemos probar.

    Osea: lo que nos implica la teora es lo que podemos computar.

    Caractersticas:

    sintxis y semntica bien definidas reglas de inferencia

    Un alfabeto consiste de variables (aqu la primera letra en mayscula), smbolosde predicados y de funciones (la primera letra en minscula).

    Trminos = Funciones (smbolo funcional + argumentos) y Variables.

    Un predicado (smbolo + argumentos) es una frmula atmica o simplemente untomo.

  • 7/29/2019 75632354 Mineria de Datos Final

    39/75

    38

    vlido invlido

    siempre cierto a veces T o F siempre falso

    satisfacible insatisfacible

    Una frmula se dice que es una consequencia lgica de un conjunto de

    frmulas , denotado por si para cada

    interpretacin para la cual ,

    entonces

    Satisfacibilidad, valides, equivalencia y consecuencia lgica son nocionessemnticas (generalmente establecidas por medio de tablas de verdad).

    Para derivar consecuencias lgicas tambin se pueden hacer por medio deoperaciones exclusivamente sintctivas (e.g., modus ponens, modus tollens).

    Las clusulas, son la forma utilizada en prueba de teoremas y programacinlgica.

    Una literal: un tomo o su negacin

    Una clsula: es una frmula cerrada de la forma:

    donde cada es una literal y las son todas las variables que aparecen enlas literales.

    Equivalencias:

  • 7/29/2019 75632354 Mineria de Datos Final

    40/75

    39

    Se escribe normalmente como:

    Una clusula de Horn: a lo ms una literal positiva.

    Una clusula definitiva (definite clause) es una clusula con una literal positiva (

    o ).

    Razonamiento en lgica: reglas de inferencia

    Estas reglas solo hacen manipulacin sintctica (son formas procedurales).

    Lo interesante es ver como las formas procedurales semnticas estnrelacionadas con las sintcticas.

    Una regla de inferencia es robusta/vlida (sound) si entonces .

    sea una coleccin de reglas de inferencia es vlida si preserva la nocin deverdad bajo las operaciones de derivacin.

    Una regla de inferencia es completa (complete) si entonces .

    Resolucin

    Resolucin solo sirve para frmulas en forma de clusulas.

    Idea: prueba por refutacin

  • 7/29/2019 75632354 Mineria de Datos Final

    41/75

    40

    Para probar: , hacer y probar que es insatisfacible

    Ejemplo sencillo:

    Sean y dos clusulas con literales y (donde y

    son complementarias). La resolucin de y produce:

    donde: y (eliminando literales redundantes)

    Figura 6.2: Un rbol de derivacin proposicional.

    Para lgica de primer orden: substitucin y unificacin.

    Una substitucin es una funcin de variables atrminos. La aplicacin de una substitucin a una wff se obtiene al

    reemplazar todas las ocurrencias de cada variable por el mismo trmino .

    Al aplicar una substitucin a una wff se genera una nueva expresin

    (una instancia).

    Una substitucin es un unificador de un conjunto de

    expresiones si

  • 7/29/2019 75632354 Mineria de Datos Final

    42/75

    41

    Un unificador , es el unificador ms general (mgu) de un conjunto de

    expresiones , si para cada unificador de , existe una substitucin tal

    que

    Para hacer resolucin en lgica de primer orden tenemos que comparar si dosliterales complementarias unifican. El algoritmo de unificacin construyeun mgu de un conjunto de expresiones.

    Sean y dos clusulas con literales y respectivamente. Si

    y tienen un mgu , el resolvente de y es la

    clusula: (ver figura6.3).

    El algoritmo de unificacin no es determinstico (se pueden seleccionar lasclusulas de varias formas).

    Figura 6.3: Un rbol de derivacin lineal de primer orden.

    Existen diferentes estrategias de resolucin, e.g., semntica, lineal, SLD, etc., pararestringir el nmero de posibles clusulas redundantes.

    Resolucin SLD

    Seleccionar una literal, usando una estrategia Lineal, restringido aclusulas Definitivas.

    Resolucin lineal:

    http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node38.html#resolucion2http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node38.html#resolucion2http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node38.html#resolucion2http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node38.html#resolucion2
  • 7/29/2019 75632354 Mineria de Datos Final

    43/75

    42

    El ltimo resolvente se toma como clusula padre. La otra clusula padre se toma de otro resolvente o del conjunto original.

    Una forma especial de resolucin lineal es: input resolution. En esta estrategia,cada paso de resolucin, exceptuando el primero, se toma del ltimo resolvente

    (clusulas metas) y del conjunto original (clusulas de entrada).Input resolution es completa para clusulas de Horn, pero no para clusulas engeneral.

    Una variante de input resolution es resolucin SLD para clusulas de Horn.Resolucin de entrada se extiende con una regla de seleccin que determina encada paso que literal de la clusula meta es seleccionada.

    La estrategia de bsqueda afecta el resultado.

    Aunque resolucin SLD es sound y refutation complete para clusulas de Horn, enla prctica (por razones de eficiencia) se hacen simplificaciones:

    eliminar el ``occur check'' de unificacin usar un orden especfico

    Esto es lo que usa bsicamente PROLOG

    4.2 Programacin Lgica Inductiva (ILP)

    Dentro de los algoritmos de aprendizaje computacional ms exitosos, seencuentran los que inducen rboles de decisin (v.g., C4.5) o reglas declasificacin (v.g., CN2), sin embargo, su lenguaje de representacin oexpresividad es escencialmente proposicional.

    Esto es, cada prueba que se hace sobre un atributo en un rbol o en unacondicin de una regla se puede ver como una proposicin. Por lo mismo, hablande un solo objeto a la vez y no podemos relacionar propiedades de dos o msobjetos a menos que definamos una propiedad que exprese esa relacin paratodos los objetos de nuestro dominio.

    La Programacin Lgica Inductiva o ILP (Inductive Logic Programming) combinalos resultados experimentales y mtodos inductivos del aprendizaje computacionalcon el poder de representacin y formalismo de la lgica de primer orden parapoder inducir conceptos representados por programas lgicos.

    Para entender las ventajas que tiene aprender representaciones relaciones,supongamos que queremos aprender (y por lo tanto representar con nuestro

  • 7/29/2019 75632354 Mineria de Datos Final

    44/75

    43

    sistema de aprendizaje) los movimientos de una torre en ajedrez. Si asumimosque representamos los movimientos de las piezas de ajedrez con cuatro

    atributos, y , representando la columna y rengln de unapieza antes y despus del movimiento, un sistema proposicional aprendera algo

    parecido a esto:

    If and Then mov_torre = true

    If and Then mov_torre = true

    If and Then mov_torre = true

    If and Then mov_torre = true

    If and Then mov_torre = true

    If and Then mov_torre = true

    Representando que la torre se puede mover slo sobre el mismo rengln o sobrela misma columna. En una representacin relacional, si asumimos que tenemos un

    predicado cuyos argumentos representan igualmente laposicin en columna y rengln de cada pieza antes y despus del movimiento,nuestra sistema necesitara aprender lo siguiente:

    Adems de aprender una representacin ms compacta y contar con la capacidadde relacionar propiedades de ms de un objeto a la vez, otra ventaja de unsistema de ILP es que puede incluir conocimiento del dominio dentro del procesode aprendizaje. Consideremos el problema de aprender el concepto

    de hija definida entre dos personas. hija es verdadero si es hija de

    6.1. Podemos definir la relacin hija , en trminos de las relaciones

    como padre y femenino.

    En ILP, el problema se plantea de la siguiente forma:

    Ejemplos positivos ( ) y negativos ( ):

    http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/footnode.html#foot7067http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/footnode.html#foot7067http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/footnode.html#foot7067
  • 7/29/2019 75632354 Mineria de Datos Final

    45/75

    44

    Conocimiento del Dominio:

    Resultado:

    Finalmente, algunos sistemas de ILP pueden introducir nuevos predicadosautomticamente durante el aprendizaje, simplificando la representacin de losconceptos aprendidos. Por ejemplo, introducir el predicado progenitor refiriendosea padre o madre, para simplificar una representacin de un concepto que utilice

    indistintantemente a las relaciones de padre y madre. Ms adelanteproporcionamos un ejemplo de esto.

    Estos ejemplos ilustran algunas limitaciones de muchos de los sistemas deaprendizaje actuales:

  • 7/29/2019 75632354 Mineria de Datos Final

    46/75

    45

    Representacin Restringida: inadecuados en reas que requieren expresarconocimiento relacional (v.g., razonamiento temporal y/o espacial,planificacin, lenguaje natural, razonamiento cualitativo, etc.).

    Conocimiento del Dominio: son incapaces de incorporar conocimiento deldominio (utilizan un conjunto fijo de atributos).

    Vocabulario Fijo: no pueden inventar nuevo vocabulario con conocimientoinsuficiente del dominio.6.2

    Otro ejemplo (ver figura6.4):

    Figura 6.4: Grafo conectado.

    Ejemplos (en ILP):

    conectados(0,1). +

    conectados(1,8).

    ...

    Conocimiento del dominio:

    liga(0,1). liga(0,3). liga(1,0). liga(1,2). liga(2,3).liga(3,2). liga(3,4). liga(4,5). liga(4,6). liga(5,4).liga(6,8). liga(7,6). liga(7,8). liga(8,7).

    La idea en ILP, como en aprendizaje inductivo, es aprender una hiptesis quecubra los ejemplos positivos y no cubra los negativos. Para verificar la covertura

    http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/footnode.html#foot7069http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/footnode.html#foot7069http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/footnode.html#foot7069http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node39.html#redilphttp://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node39.html#redilphttp://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node39.html#redilphttp://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/node39.html#redilphttp://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/footnode.html#foot7069
  • 7/29/2019 75632354 Mineria de Datos Final

    47/75

    46

    de ejemplos en ILP, se usa normalmente algn algoritmo de inferencia basado enresolucin.

    Un programa lgico se dice completo (con respecto a ) sii para

    todos los ejemplos , Un programa lgico se dice consistente (con respecto a ) sii para

    ningn ejemplo ,

    El entorno terico de ILP lo podemos caracterizar entonces como sigue:

    Dados

    un conjunto de ejemplos positivos

    un conjunto de ejemplos negativos

    un programa lgico consistente, , tal que para al menos

    un

    Encontrar un programa lgico tal que y sea completo y

    consistente: y .

    normalmente se refiere a conocimiento del dominio o conocimiento a priori.

    Desde un punto de vista semntico la definicin de ILP es:

    Satisfactibilidad previa:

    Satisfactibilidad posterior (correcto o consistente):

    Necesidad previa:

    Suficiencia posterior (completo):En la mayoria de los casos, se limita al caso de clusulas definitivas. Esto esmucho ms fcil, porque una teora de clusulas definitivas tiene un modelo de

    Herbrand mnimo nico y todas las frmulas lgicas son o verdaderas ofalsas.

  • 7/29/2019 75632354 Mineria de Datos Final

    48/75

    47

    Interpretaciones y Modelos de Herbrand

    La teora de modelos nos permite asignar significado a cualquier expresin enlgica. La idea es asociar valores de verdad dentro de un dominio o hacer unainterpretacin.

    Asignamos constantes a elementos del dominio y los smbolos funcionales y depredicados a funciones y relaciones del dominio.

    Por ejemplo, si tenemos: gusta(juan,ana). Tenemos que asociar ``juan'' y ``ana'' aelementos del dominio, y tenemos que asociar la relacin ``gusta/2'' en el dominio.

    Por ejemplo, ``juan'' con ``persona-juan'', ``ana'' con ``persona-ana'' y ``gusta/2''con ``persona-juan, persona-juan'', ``persona-ana, persona-ana'' y ``persona-juan,persona-ana'' (por ejemplo).

    Bajo esta interpretacin, la relacin: gusta(juan,ana) es verdadera. Sin embargo, siasignamos ``juan'' a ``persona-ana'' y ``ana'' a ``persona-juan'' y mantenemos lamisma interpretacin de la relacingusta(juan,ana) es falsa.

    Una interpretacin que nos da un valor de verdad para una sentencia lgica sedice que la satisface y a la interpretacin se le llama un modelo de la sentencia.

    Para programas lgicos podemos hablar de modelos e interpretaciones deHerbrand.

    Por ejemplo, si tenemos:

    Tomando, solo las constantes: juan, ana y vino, todas las instanciacionesaterrizadas (ground) del programa lgico son:

  • 7/29/2019 75632354 Mineria de Datos Final

    49/75

    48

    Podemos asignar valores de verdad a todos estos elementos y obtener modelospara ciertas interpretaciones.

    En particular, los modelos se pueden organizar en un lattice. Desde asignar atodos los elementos un valor de verdad (mximo) hasta al menor nmero posible

    (mnimo).En el ejemplo de arriba, el modelo mnimo de Herbrand es: asignar el valor de

    verdad a: gusta(ana,vino). (a fuerzas) y a gusta(juan,ana)gusta(ana,vino). (derivado del primero).

    Esto es importante, porque las consecuencias lgicas aterrizadas de un programalgico son su modelo mnimo ( ) y tambin es lo que podemos derivar conresolucin SLD en programas con clusulas definitivas.

    Satisfactibilidad previa: son falsos en

    Satisfactibilidad posterior (correcto o consistente): son falsos

    en

    Necesidad previa: algunos son falsos en

  • 7/29/2019 75632354 Mineria de Datos Final

    50/75

    49

    Suficiencia posterior (completo): son verdaderos

    en

    Un caso especial, el que ms se usa en ILP, en cuando todos los ejemplos sonhechos sin variables.

    Bsqueda de Hiptesis

    El proceso de induccin puede verse como un proceso de bsqueda de una

    hiptesis dentro del espacio de hiptesis , esto esdentro del conjunto de todas las hiptesis que el algoritmo de aprendizaje estdiseado a producir.

    En ILP este espacio puede ser demasiado grande por lo que normalmente sedisean estrategias de bsqueda que consideren slo un nmero limitado dealternativas.

    Para realizar una bsqueda eficiente de hiptesis, normalmente es necesarioestructurar el espacio de hiptesis, lo cual se puede hacer con un modelo degeneralizacin. Esto es, con un modelo que me diga si una hiptesis es msgeneral o ms especfica que otra.

    Esta estructuracin permite cortar ramas durante la bsqueda sabiendo queespecializaciones o generalizaciones de hiptesis hereden alguna propiedad. Las

    propiedades ms comunes son: incapacidad de cubrir un ejemplo conocido comoverdadero o probar un ejemplo conocido como falso.

    Por ejemplo, si sabemos que una hiptesis cubre un ejemplo negativo, podemoseliminar del espacio de bsqueda todas sus generalizaciones ya que van a seguircubriendo ese ejemplo. Por el contrario, si una hiptesis no cubre un ejemplopositivo, podemos eliminar del espacio de bsqueda todas sus especializacionesya que tampoco lo van a cubrir.

    Esta estructuracin del espacio de hiptesis se puede hacer utilizando

    subsumption. Una clusula , -subsume (o es una generalizacin de) una

    clusula si existe una substitucin tal que . Usualmente se escribe

    como .

  • 7/29/2019 75632354 Mineria de Datos Final

    51/75

    50

    Por ejemplo: Sea . Con la substitucin

    vaca, subsume a

    Con la substitucin , subsume

    a ,

    , y con la substitucin , subsume

    a

    subsumption introduce una nocin de generalizacin. Una clusula esms general que si -subsume a y no al revs. Tambin se diceque es una especializacin (o refinamiento) de .

    Si -subsume a , entonces es una consecuencia lgica de

    , , pero al revs no se cumple. Por

    ejemplo: y

    . pero no -

    subsume ( ).

    sii es una tautologa o es usada exactamente una vez en una

    prueba de resolucin de , donde es un conjunto arbitrario declusulas.

    En particular, no puede aplicarse a si mismo directa o indirectamente durantela prueba.

    El uso de subsumtion se justifica por el hecho de que es decidible entreclusulas, es fcil de calcular (aunque es NP) y mientras que implicacin no esdecidible. crea un lattice. Esto es importante porque permite buscar enese lattice por hiptesis.

  • 7/29/2019 75632354 Mineria de Datos Final

    52/75

    51

    La bsqueda puede hacerse: (i) de especfico a general, buscando clusulas quesubsuman a la hiptesis actual, (ii) de general a especfico, buscando clusulassubsumidas por la hiptesis actual, (iii) en ambos sentid