herramientas de minería de datos

Upload: alex-sosa

Post on 02-Mar-2016

79 views

Category:

Documents


0 download

TRANSCRIPT

  • Herramientas de Minera de DatosAlejandro Sosa Loera

    Existen algunas herramientas de minera de datos comerciales o de cdigo abierto que

    utilizan distintas tcnicas de minera de datos, estas herramientas las podemos clasificar de

    acuerdo a las tareas de minera a la que estn enfocadas o algoritmos que usan, en tres

    grupos: libreras, suites y herramientas especficas.

    Libreras.

    Comprenden un conjunto de mtodos que implementan las funcionalidades y utilidades

    bsicas propias de la minera de datos: acceso a datos, inferencia de modelos, exportacin y

    comprobacin de resultados. Las libreras constituyen una interfaz para el desarrollador, por

    lo que para su manejo se requiere de conocimientos de programacin. La siguiente tabla

    muestra algunas de estas libreras:

    Herramienta Descripcin Plataforma Formatos Entrada y Modelosde Salida

    Modelos de Aprendizaje /Tareas Soportadas

    Xelopes Librera con licencia GNU,implementada por Prudsys AG

    Implementado en Java, C++ y C#, segarantiza su portabilidad a cualquiersistema operativo. Existe interfaz paraCorba.

    Se asegura cualquier formato deentrada sea fichero o base de datos,incluye formato ARFF, CSV, logs, yExcel. Salida: Formato PMML.

    rboles de Decisin lineales y nolineales, Mquinas de vectoressoporte, Redes neuronales, Mtodosde agrupamiento, mtodos de reglasde asociacin.

    Orange Software basado en componentes deminera de datos. Incluye rangos depreprocesamiento, modelado ytcnicas de exploracin de datos.

    Implementado en C++, se puedendesarrollar mdulos en Python. Existendistribuciones para Windows, Linux yMacintosh.

    Formato entrada/salida usa ficherosseparados por tabulacin, incluye otroscomo C4.5

    Mtodo Bayesiano Nave. rboles dedecisin, rboles de regresin, Vecinosms prximos y Reglas de asociacin.

    Tanagra Software libre de propsitosacadmicos y de investigacin.Soporta varios mtodos de minera dedatos, la desventaja de Tanagra esque incluye tcnicas de visualizacinlimitadas.

    Implementado en Borland Delphi 6bajo Windows.

    Formato del fichero de entrada ARFF oXLS. Formatos de salida HTML.

    Reglas de Asociacin, rboles declasificacin, vecino ms prximo,Bayesiano nave. Redes neuronales.

    MLC++ Conjunto de libreras y utilidades paratestear y comparar la eficiencia dediversos algoritmos sobre un mismoproblema. Distribuido por SiliconGraphics bajo dominio deinvestigacin.

    Acceso a datos con formato planosiguiendo el estilo de los archivos delrepositorio UCI.

    ID3, rboles de decisin perezosos,rboles de decisin con opciones,mtodos bayesianos y el perceptron.

    Suites.

    Integra en un mismo entorno capacidades para el preprocesado de datos, ofrecen

    diversidad de mtodos incluyendo clasificacin, clustering, y preparacin de los datos, dan

    facilidad para el diseo de experimentos y soporte grafico para la visualizacin de resultados.

    A diferencia de las libreras su manejabilidad no se encuentra condicionada a que se posean

    conocimientos de programacin, ya que existe una interfaz por lo regular grafica que facilita

    la interaccin con la herramienta. La siguiente tabla muestra algunas suites:

  • Herramienta Descripcin Plataforma Formatos Entrada y Modelosde Salida

    Modelos de Aprendizaje /Tareas Soportadas

    WEKA Herramienta visual GNU, desarrollada por launiversidad de waikato.

    Implementada en Java, segarantiza su portabilidad aWindows, Linux y otrosSistemas Operativos. Esposible actualizar o modificarsu cdigo

    Entrada: ARFF, CSV, C4.5 y Binario.Salida: Fichero o a una Base de Datos,tambin de manera grfica.

    rboles de Decisin, Tablas deDecisin, Vecinos ms prximos,Mquinas de vectores soporte, Reglasde asociacin, Mtodos deagrupamiento, Modelos combinados.

    SPSSClementine

    Es uno de los sistemas de minera de datosmas popular, herramienta visualcomercializada por SPSS, posee arquitecturacliente / servidor.

    Sistema multiplataforma,disponible para sistemasWindows, Sun Solaris, HP-UXAIX y OS/400.

    Acceso a Datos: ODBC, tablas Excel,archivos planos ASCII y archivosSPSS.Salida: Visualizacin grafica dderesultados (histogramas, diagramas dedispersin, etc.), informes HTML ytexto, exportacin de los modelos adistintos lenguajes (C, SPSS, HTML,SQl)

    rboles de Decisin (C5.0 y C&RT),redes neuronales (redes de Kohoen,perceptron multicapa y RBF),agrupamiento(K medias), reglas deasociacin(GRI, A priori, etc.),regresin lineal y logstica,combinacin de modelos (boosting conC5.0)

    Kepler Sistema desarrollado por la GMD (GermanGeneral Research Center for InformationTechnologie) y comercializado por Dialogis.Soporta mltiples modelos de anlisis y sudiseo contempla aspectos como laflexibilidad y extensibilidad

    Interfaz grafica implementadaen Java, disponible enplataformas Sun/Solaris yWindows.

    Acceso a Datos: ODBC, tablas Excel,archivos planos ASCII y archivosSPSS.Salida: Kepler puede exportar datos enformato ASCII, Facts (Anotacin deProlog), meta informacin

    rboles de Decisin, redes neuronales,regresin no lineal, vecinos masprximos, algoritmos multirelacionales,utilidades estadsticas.

    ODMS: OracleData MiningSuite (Darwing)

    Desarrollado por Thinking Machines comoDarwing y adquirido y comercializado porOracle. Diseado bajo arquitecturacliente/servidor, tiene gran versatilidad parael acceso a grandes volmenes de datos.

    El cliente est disponible paraentornos Windows, mientrasque el servidor puedeejecutarse sobre sistemasWindows, Sun Solaris y HP-UX 11.0

    Acceso a datos: almacenes de datos,BD relacionales (oracle, SQL server,informix, sybase), archivos planos,conjunto datos SAS.Salida: Visualizacin grafica demodelos inferidos, estadsticos

    Redes neuronales para clasificacin yregresin, regresin lineal, rboles dedecisin (CART), vecinos masprximos, aprendizaje bayesiano,tcnicas de agrupamiento (kmedia y O-agrupamiento)

    DBMiner Sistema interactivo desarrollado inicialmentebajo licencia publica, la versin empresariales comercializada por DBMiner TechnologyInc. Sistema para extraer conocimiento degrandes bases de datos relacionales,almacenes de datos y web.

    Disponible para plataformasWindows

    Acceso a datos: almacenes de datos,BD relacionales.Salida: Visualizacin grafica demodelos inferidos, estadsticos

    Caracterizacin, clasificacin,agrupamiento, asociacin,discriminador, predictor

    RapidMiner(Yale)

    Es un software de tipo Open-Source conlicencia GNU GPL, basado en JAVA. Sepresenta bajo 3 versiones de descarga:Versin Open-Source : permite su libre usoen todas las formas de la licencia GNU GPLVersin Libre: posee una interfaz grficamejorada, pero no bajo licencia GNU GPLVersin Comercial

    Trabaja bajo plataformasWindows y Linux

    Acceso a datos: almacenes de datos,BD relacionales.Salida: exportacin de resultados aPDF / Excel / HTML / RTF

    maquinas de vectores soporte, rbolesde decisin, agrupamiento y algoritmosgenticos.

    DB2 IntelligentMiner

    Herramienta comercial cliente/servidordesarrollada por IBM. Trabaja con grandesvolmenes de datos. Posee un lenguaje deprogramacin.

    El cliente est disponible paraentornos Windows y AIX,mientras que el servidorpuede ejecutarse sobresistemas Windows, Solaris,AIX, OS(390, 400) y z/OS

    Acceso a datos: DB2, archivos planos,BD relacionales.Salida: Visualizacin grafica demodelos inferidos, estadsticos

    Agrupamiento, asociaciones, patrones,clasificacin, prediccin, anlisis deseries temporales

    SAS EnterpriseMiner

    Herramienta desarrollada por SAS Institute,posee una arquitectura distribuida, con unapotente interfaz grafica. Diseo inspirado enla metodologa SEMMA (Sample, Explore,Modify, Model and Assess)

    Tanto el cliente como elservidor de SAS EnterpriseMiner trabajan bajoplataformas Windows, Linux,Solaris, HP-UX, Digital Unix,etc.

    Acceso a datos: formato de archivopropio de SAS, almacenes de datos,BD relacionales (Oracle, DB2, Sybase,etc.).Salida: visualizador de resultados,informes en HTML.

    rboles de Decisin (CHAID, C&RT,C4.5), regresin lineal y logstica,redes neuronales (MLP y RBF),construccin de modelos mltiples.Realiza tareas de evaluacin.

    Statistica DataMiner

    Sistema visual desarrollado por Statsoft Ltd.Trabaja con grandes volmenes de datos

    Sistema disponible enplataformas Windows

    Acceso a Datos: ODBC, tablas Excel,archivos planos ASCII, tablas DBase,lotus, BD Oracle, Microsoft SQL Servery Sybase.Salida: Visualizacin grafica dderesultados (histogramas, diagramas dedispersin, etc.)

    Reglas de asociacin, rboles dedecisin (GTREES, CART),agrupamientos (K medias y EM), redesneuronales, utilidades estadsticaspara la regresin de modelos lineales,no lineales, regresin multiple, etc.

    Herramientas Especficas

    A diferencia de la generalidad de las suites, este tipo de herramientas se caracterizan

    por centrarse en un determinado modelo (redes neuronales, rboles de decisin, modelos

    estadsticos, etc.) o en una determinada tarea de minera de datos (clasificacin,

    agrupamiento, etc.). No se requieren de tcnicas de programacin para poder ser utilizadas.

  • Herramienta Descripcin Plataforma Formatos Entrada y Modelosde Salida

    Modelos de Aprendizaje /Tareas Soportadas

    CART Herramienta grafica desarrollada por SalfordSystem. Tiene utilidades para anlisisestadstico y minera de datos orientada atareas de clasificacin o regresin.

    Disponible en plataformasWindows, Linux, Unix(Solaris, IBM, AIX, DigitalUnix, SGI Irix y HP-UX)

    Acceso a mas de 70 formatos dearchivos diferentes, visualizacininteractiva del modelo, informacinestadstica relativa al modelo.

    Inferencia de rboles de decisin.

    AutoClass Herramienta que rene 3 distribuciones deeste sistema (AutoClass III, AutoClass X yAutoClass C) desarrolladas bajo el auspiciode la NASA.

    Multiplataforma: Windows,Unix (Solaris, SunOS), Linux(Red Hat)

    Formato de archivo de entrada propioorganizado en filas y columnas.Genera informes que describen lasclases encontradas.

    Agrupamiento, utilizando mtodosbayesianos

    Neural Planner,NeuroDiet y EasyNN-Plus

    Desarrolladas por Stephen Wolstenholme.Herramientas para trabajar en modelos deaprendizaje

    Ejecutables en plataformaWindows

    Importacin de archivos txt, csv, xls,bmp o archivos binarios.Salida visual o exportacin del modeloa archivos de texto o csv.

    Redes Neuronales

    NeuroShell Conjunto de herramientas graficasindependientes para trabajar con modelos deaprendizaje basados en redes neuronales

    Ejecutables en plataformaWindows

    Importacin de archivos ASCII,MetaStock, CSI, AIQ

    Redes Neuronales (TurboProp2,GRNN)

    SEE5 / C5.0 Herramienta centrada en la construccin demodelos de clasificacin basados en rbolesde decisin y conjunto de reglas. Operasobre grandes volmenes de datos.

    Disponible en plataformaWindows, Solaris, Irix y Linux

    Trabaja con un formato predefinido(*.data), pero traduce fuentes de datosaccesibles va ODBC a *.data. Exportalos modelos a cdigo en C.

    rboles de decisin

    Con lo anterior se pueden clasificar las herramientas de minera de datos por

    plataforma, datos de entrada y modelo de salida, tipo de algoritmo que utiliza, etc.

    Clasificacin por Plataforma:

    Windows Linux OS2 SUN Solaris HP-UX AIX Digital Unix OS/400

    Xelopes X X XOrange X X XTanagra XMLC++

    WEKA X X XSPSS Clementine X X X X X X XKepler X XODMS: Oracle Data Mining Suite(Darwing)

    X X XDBMiner XRapidMiner (Yale) X XDB2 Intelligent Miner X XSAS Enterprise Miner X X X X XStatistica Data Miner X

    CART X X X X XAutoClass X X XNeural Planner, NeuroDiet y EasyNN-Plus

    XNeuroShell XSEE5 / C5.0 X X X

    Libr

    eria

    sSu

    ites

    Her

    ram

    ient

    asEs

    peci

    ficas

    PlataformasHerramienta

  • Clasificacin por Entrada de Datos y Salida del Modelo

    Ar. Planoo Texto Excel

    Almac.Datos C4.5 ODBC SPSS

    BDRelacional ARFF

    FormatoPropio

    ArchivosPlanos HTML BD/SQL

    GraficoVisual

    Xelopes X X X XOrange X X XTanagra X X XMLC++ X

    WEKA X X X X X XSPSS Clementine X X X X X X X XKepler X X X X X X XODMS: Oracle Data Mining Suite(Darwing)

    X X X XDBMiner X X X XRapidMiner (Yale) X X X X XDB2 Intelligent Miner X X X XSAS Enterprise Miner X X X XStatistica Data Miner X X X X X

    CART X XAutoClass X XNeural Planner, NeuroDiet y EasyNN-Plus

    X X X XNeuroShell X XSEE5 / C5.0 X X X

    Entrada de Datos Salida

    Libr

    eria

    sSu

    ites

    Her

    ram

    ient

    asEs

    peci

    ficas

    Herramienta

    Dado el poco conocimiento actual que tengo de las herramientas para minera de datos

    descritos anteriormente, no me es posible clasificarlas por los algoritmos que usan, tipos de

    visualizacin, etc. Pero como complemento anexo clasificaciones realizadas por John F.

    Elder IV & Dean W. Abbott, Elder Research en la conferencia A Comparison of Leading Data

    Mining Tools. presentada en el Fourth International Conference on Knowledge Discovery &

    Data Mining, en 1998 en la ciudad de Nueva York.

  • La siguiente clasificacin fue tomada de la pgina: St@tServ - Data Mining Software (http://www.statserv.com/datamsoft.html).

    AssocSequ.Pat.

    Seq.Time

    BayesNet.

    NN-CL

    Tree-CL Bayes k-NN

    Lin-Disc MBR Assoc

    k-Means

    D-Clust

    NN-Clust

    G-Stats Reg

    nl-Reg Tests PCA Factor

    NN-Pred

    RBFPred Fuzzy

    TimeSeries MBR Win32 UNIX Web

    Para.Scal. SQL Objects API Code

    Adaptative Methods Group ? X X X X X X X X X X X X X X X X X X X X XAngoss International Ltd. KnowledgeSEEKER X X XAngoss International Ltd. KnowledgeStudio X X X X X X X X X X X X X XAttar XpertRule ProfilerAZMY Thinkware SuperQuery Office X X XBissantz Kppers & Co. Delta MinerBluecrest Consultancy NeuralParts X X X XBusiness Objects BusinessMiner X XClopiNet ClopiNet X X X X X X X X X XCognos 4Thought XCognos Scenario X X XCSI, Inc. Advisor Toolkit X X X X X X X X X X X X X X X X X X X X X XData Distilleries B.V. Data SurveyorData Mining Technologies NuggetsDataMind DataCruncher XDatasage, Inc. DatasageEudaptics Software GmbH Viscovery SOMine X X X X X X X X XGR-FX Pty Limited GR-FXGroup 1 Model 1 X XHNC Software Inc. DataBase MiningHycones Information Tech. AIRA X XHYPERparallel //Discovery X X X X X X X X X X X X XIBM Intelligent Miner X X X X X X X X X X X X X X X X X X X X X XInformation Discovery Data Mining SuiteIntellix A/S KnowMan X X X X X X X X XISoft Alice / AC2 X X X X X X X XMagnify Inc. PATTERNMegaputer Intelligence PolyAnalyst X X X X X X X X X X X XMIT GmbH DataEngine X X X XMorgan Kaufmann Publishers Data-Miner Software KitNCR Corporation KDW / MDTNeoVista Solutions, Inc. NeoVista Decision Series X X XNeuralware Inc. NeuralWorks Predict X X XNeuroDimension, Inc. NeuroSolutions X X X X X X X X X XNeurotec Custominer X X X XO'PIN Systems, Inc. RevealOracle Darwin X X X X X X X X X X X X X XPartek Inc Partek X X X X X X X X

    X(+MD X X X

    Pilot Software Pilot DSSQuadstone Limited Decisionhouse X X X X X X X XRed Brick Systems, Inc. Red Brick Data Mine X X X XSalford Systems CART X X X X X X X XSAS Institute Inc. SAS Enterprise Miner X X X X X X X X X X X X X X X X

    Sentient Machine Research DataDetective X X X XSilicon Graphics Inc. MineSet X X X X X X X X X X XSLP-Infoware StatlabSPSS Inc. Clementine X X X X X X X X X X X X X X X XSRA International KDD ToolsetSyllogic B.V. Syllogic Data Mining ToolTorrent Systems, Inc. ORCHESTRATETrajecta dbProphet X X X X X X X X X X X X X XUltragem EikoplexUmetri SIMCA

    Unica Technologies, IncUnica Pattern RecognitionWorkbench X X X X X X X X

    WhiteCross Systems HeatSeeker v3.0 X X X X X XWizSoft WizWhy / WizRule X X X X X

    Company Product

    Prediction OS OthersLink Analysis Classification Clustering Statistics

    La nomenclatura utilizada en algunos de los conceptos es la siguiente:

    Link Analysis : [ Assoc. = Associations analysis ] [ Sequ. Pat. = Sequential Patterns ] [ Seq. Time = Sequential time patterns ] [Bayes Net. = Bayes Networks ]

  • Classification: [ NN-CL = Neural Networks Classification ] [ Bayes = Bayesian Classification ] [ k-NN = k-nearest neighboursclassification ] [ Lin-Disc = linear discriminant analysis ] [ MBR = Memory based Reasoning ] [ Assoc. = Classification by

    Associations]

    Clustering: [k-Means = k-Means Clustering ] [ D-Clust = demographic clustering = relational analysis ] [ NN-Clus = NeuralNetworks Clustering ]

    Statistical methods: [ G-Stats = Means, Std dev, Frequencies, ] [ Reg = Linear Regression ] [ nl-Reg = non-linear regression ][ Tests = t-tests, F-test, Chi2 tests ] [ PCA = Principal Component Analysis ] [ Factor = Factor Analysis ]

    Prediction: [ NN-Pred = Neural Networks Prediction Models ] [ RBF Pred = Radial Based Functions predictions ] [ Fuzzy =Fuzzy logic predictions ] [ Time Series = Times Series Analysis ] [ MBR = Memory based Reasoning ]

    Operating System: [ OS = Operating System ]

    Others: [Para. Scal. = Parallel Scalability ] [ SQL = Simple Query Language functions ] [ Objects = C++ objects generated forapplications ] [ API = the algorithms can be used by other programs ] [ Code = the code is available ]

  • REFERENCIAS

    Orallo Hernndez, J.: Quintana Ramrez, Ma. J..:Ramrez Ferri, C.: Introduccin a la Minera de

    Datos. Prentice Hall, 2004

    Portal, The Guide to Computing Literature. URL: http://portal.acm.org/citation.cfm?id=778212.778299

    Fecha de Acceso: Octubre 9, 2008

    Kepler, Data Mining Software. URL: http://www.cs.bris.ac.uk/Research/MachineLearning/Kepler/

    Fecha de Acceso: Octubre 8, 2008

    DBMiner Software Software. URL: http://www.dbminer.com/products/index.html

    Fecha de Acceso: Octubre 9, 2008

    DataMining Lab, KDD-98 URL:

    http://www.datamininglab.com/pubs/kdd98_elder_abbott_nopics_bw.pdf

    Fecha de Acceso: Octubre 9, 2008

    St@tServ - Data Mining Software, URL: http://www.statserv.com/datamsoft.htmlFecha de Acceso: Octubre 9, 2008