mineria-datos

7

Click here to load reader

Upload: olha-sharhorodska

Post on 12-Aug-2015

118 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: mineria-datos

wwwmonografiascom

Mineriacutea de datosDarien topicossdariengmailcom

1 iquestPor queacute surge la Mineriacutea de Datos 2 iquestQueacute es la Mineriacutea de Datos (MD) 3 Fase de Preparacioacuten de los datos 4 La entrada del proceso de MD 5 La salida del proceso de MD 6 Notacioacuten 7 Clasificacioacuten 8 Bibliografiacutea

iquestPor queacute surge la Mineriacutea de Datos

El anaacutelisis e interpretacioacuten manual de los datos se torna impraacutectico (lento caro y subjetivo) en lamedida que los voluacutemenes de datos crecen exponencialmenteDistintos factores influyen en la acumulacioacuten de datosDispositivos de almacenamiento maacutes baratosTransacciones comerciales son almacenadas mayoritariamente en formato electroacutenicoCaptura automaacutetica de actividades realizadas en InternetDesarrollo de algoritmos eficientes y robustos para el procesamiento de estos datosPoder computacional maacutes barato)meacutetodos computacional intensivos para el anaacutelisis de datosVentajas comerciales y cientiacuteficas

iquestQueacute es la Mineriacutea de Datos (MD)

ldquo proceso de extraer conocimiento uacutetil y comprensible previamente desconocido desdegrandes cantidades de datos almacenados en distintos formatosrdquo [Witten y Frank 2000]ldquo uso de datos histoacutericos para descubrir regularidades generales y mejorar las decisionesfuturasrdquo [Mitchell 1999]ldquo proceso que tiene como objetivo convertir datos en conocimientordquo [Hernaacutendez Orallo2004]ldquo es un paso particular en el proceso de KDD que consiste en la aplicacioacuten de algoritmosespeciacuteficos para extraer patrones (o modelos) desde los datosrdquo [Fayyad 1996]Algunas aacutereas de aplicacioacuten de la MDAplicaciones financieras y bancariasAnaacutelisis de mercado distribucioacuten y comercio en generalSeguros y salud privadaEducacioacutenProcesos industrialesMedicinaBiologiacutea bioingenieriacutea y otras cienciasTelecomunicacionesInternetTurismo policiales deportes poliacutetica y muchas maacutesAprendizaje automaacutetico (AA)ldquo cualquier sistema que se considere ldquointeligenterdquo deberiacutea poseer la habilidad deaprender es decir mejorar automaacuteticamente con la experienciardquo [Russell 2002]ldquo cualquier cambio en un sistema que le permite desempentildearse mejor la proacutexima vezsobre la misma tarea u otra tomada de la misma poblacioacutenrdquorsquo [Herbert Simon]ldquoUn programa de computadora se dice que aprende desde la experiencia E con respecto aalguna clase de tareas T y medida de performance P si mejora su perfomance con lastareas en T con respecto a la medida P basado en la experiencia Erdquo [Mitchell 1997]Aprendizaje automaacutetico

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

Algunos factores impliacutecitos en las definiciones de AAcambios en el comportamiento para lograr una mejor performance futuraExistencia de alguacuten tipo de experiencia de entrenamientola componente de aprendizaje estaacute ldquoembebidardquo en un sistema de toma de decisiones automaacuteticoque la contieneLa componente maacutes variable es el origen de la experiencia de entrenamientoInteraccioacuten con el ambiente u otros agentesInteraccioacuten usuario-sistema (agentes de interfaz)Aprendizaje por observacioacuten o asistido por otros agentes (consejos)Introspeccioacuten de los propios procesos internosBases de datosAprendizaje automaacutetico versus Mineriacutea de DatosAlgunos autores consideran que AA _ MD pero eacutesto no es asiacuteMD toma la experiencia desde Bases de datos AA incluye otras formas de entrenamientoEn MD no soacutelo es importante la performance sino que se suele requerir una representacioacutenexpliacutecita del conocimiento adquirido de manera tal que las decisiones puedan ser explicadas AAincluye meacutetodos que no son adecuados para estos fines (Neural Networks)En MD la elaboracioacuten de la entrada del proceso y el anaacutelisis de la salida suele requerir unaparticipacioacuten humana considerable En AA estas responsabilidades suelen ser asignadas a otrascomponentes del sistemaMD incluye teacutecnicas originadas en la modelizacioacuten estadiacutestica que no son propias del AA

Fase de Preparacioacuten de los datos

Sub-fase de recopilacioacuten e integracioacuten de los datosDeterminar fuentes de informacioacuten uacutetiles y donde conseguirlasColeccionar muacuteltiples bases de datos heterogeacuteneas en un uacutenico repositorio con un esquemaunificado (almaceacuten de datos o data warehouse)Sub-fase de seleccioacuten limpieza y transformacioacutenDeteccioacuten de valores anoacutemalos (no siempre eliminados)Tratamiento de datos faltantes (o perdidos)Seleccioacuten de atributos relevantes (columnas)Seleccioacuten de una muestra de datos (filas)Construccioacuten de nuevos atributos (agrupamiento numerizacioacuten discretizacioacuten)Fase de Mineriacutea de datos1 Determinar queacute tipo de tarea de MD es el maacutes apropiado (clasificacioacuten agrupamiento etc)2 Elegir tipo de modelo (aacuterboles de decisioacuten reglas de clasificacioacuten Redes Neuronales)3 Elegir el algoritmo de mineriacutea (o aprendizaje) (CART C50 Backpropagation

La entrada del proceso de MD

Vista minable en un contexto de BD relacionales es una uacutenica tabla con todos los atributos relevantespara el proceso de MDAtributos Nos concentraremos en dos tipos de atributosAtributos numeacutericos enteros realesAtributos nominales tambieacuten referenciados como atributos categoacutericos enumerados o discretosToman valores en un conjunto finito y preestablecido de categoriacuteasFase de evaluacioacuten interpretacioacuten y visualizacioacuten1 Criterios para la evaluacioacuten de los modelos (patrones) descubiertosPrecisosTeacutecnicas de evaluacioacuten (Validacioacuten simple y cruzada Bootstrapping)Medidas de evaluacioacuten de modelos (precisioacuten predictiva (sobre ldquotesting setrdquo)) confianza ycobertura error cuadraacutetico medio cohesioacuten y separacioacuten)Comprensibles (inteligibles)

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

Interesantes (uacutetiles y novedosos)2 Interpretacioacuten y contextualizacioacuten Evaluar el contexto donde se va a usar el modeloDistribuciones de clases no balanceadasTipo de errores y costo asociadoSituaciones extraordinarias del mundo real (uso de conocimiento previo)3 Visualizacioacuten

La salida del proceso de MD

Reglas de clasificacioacuten (ver ejemplo 3)Clusters (grupos) (ver ejemplo 4)Aacuterboles de decisioacuten (ver ejemplo 5)Redes neuronalesReglas de asociacioacutenReglas relacionales (ILP)Reglas difusasEcuaciones de regresioacutenAacuterboles de regresioacutenK-NN y CBR (Case-based reasoning)Modelos Bayesianos

Notacioacuten

Conjunto de (nombres de) atributos A = fA1A2 AngPor cada atributo Ai 2 A un conjunto de valores (o dominio) V (Ai) = fvi1 vi2 vimgAsumiremos que V _ V (A1) [ V (A2) [ [ V (An)En un conjunto de ejemplos de entrenamiento E sobre A cada elemento (ejemplo) ej 2 E esuna n-tupla representada por un mappging ej A V tal que ej(Ai) 2 V (Ai) 1 _ i _ nT (A) es el conjunto de todas las tuplas sobre los atributos de A y sus dominios

Clasificacioacuten

Una de las tareas maacutes utilizada en DMCada instancia (registro) de la BD es rotulada con el valor de un atributo especial que llamamos laclase de la instanciaCada uno de los valores (discretos) que puede tomar este atributo corresponde a una claseEl resto de los atributos de la instancia se utilizan para predecir la claseObjetivo predecir la clase de nuevas instancias no clasificadasEjemploDada una base de datos E con imaacutegenes de rostros de un nuacutemero acotado de personascon sus respectivos nombres aprender una funcioacuten que dada una nueva imaacutegen deuna de estas personas permita determinar su identidadAprendizajeAprendizaje de ConceptosTambieacuten denominada clasificacioacuten binaria Forma particular de clasificacioacuten en la que el atributo objetivoAO es booleano y por lo tanto la funcioacuten a estimar es del tipoc X f0 1gLos ejemplos en E son rotulados como pertenecientes al concepto (con valores 1 si verdadero o +) ono pertenecientes al concepto (con valores 0 no falso o 1048576) En el primer caso hablaremos de ejemplospositivos y en el segundo de ejemplos negativosClasificacioacuten ldquosuaverdquoAdemaacutes de un clasificador h X V (AO) se aprende otra funcioacuten _ X R tal que _(x) significa

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

el grado de certeza de la clasificacioacuten realizada por h respecto a la instancia xVariantes de la clasificacioacuten ldquosuaverdquo aprender estimadores de probabilidadh X PD(V (AO))donde PD(V (AO)) es el conjunto de distribuciones vaacutelidas sobre V (AO)Si jV (AO)j = m y h(x) = p p es una m-tupla p V (AO) R+ tal que p(ci) es la probabilidad deque x pertenezca a la clase ci 8ci 2 V (AO)Aprendizaje de ConceptosEjemplosDeterminar si un mensaje de correo electroacutenico es spam o noDeterminar la conveniencia de operar a un paciente de acuerdo a sus siacutentomasDeterminar si la imaacutegen de una persona correponde a ldquoPerezrdquo o noDeterminar si un diacutea es propicio para jugar a un deporte particularCategorizacioacutenLos valores de AO corresponden a categoriacuteas y a una instancia le puede corresponder maacutes de unacategoriacutea El modelo a aprender ya no representa una funcioacuten sino una correspondencia 1 a nAlternativac X 2V (AO)EjemplosCategorizar leyes de acuerdo a las aacutereas de gobierno involucradasCategorizar documentos de acuerdo a los temas abordadosDado un conjunto de perfiles de clientes determinar los productos que pueden comprarAgrupamiento (clustering)DadosUn conjunto de datos E sin etiquetar E _ X y X _ T (A)determinarUn conjunto de grupos G = fg1 glgUna funcioacuten h X GEl nuacutemero de grupos jGj = l puede ser especificado a priori o determinado por el algoritmo de clusteringAnaacutelisis de asociaciones (o viacutenculos)Tarea descriptiva que tiene como objetivo identificar relaciones no expliacutecitas entre atributos categoacutericos onominalesDadoUn conjunto de datos E sin etiquetarencontrarUn conjunto de reglas R = frkgCada regla rk con nk antecedentes y mk consecuentes es de la formasi Aa1 = va1 ^ ^ Aank= vankentonces Ac1 = vc1 ^ ^ Acmk= vankdonde Aai Acj 2 A vai 2 V (Aai ) vcj 2 V (Acj ) para i = 1 nk j = 1 mkAlgunas aacutereas de investigacioacuten y desafiacuteos en DMEscalar a conjuntos de datos extremadamente largosAlgoritmos que puedan aprender desde atributos numeacutericos y simboacutelicos combinados con otrostipos de atributos (imaacutegenes texto sonido)Optimizar decisiones en lugar de prediccionesExperimentacioacuten activaWeb MiningInteraccioacuten de usuario y conocimiento previoDatos raacutepidamente cambiantes (no estacionarios)CONTINUACIONhelliphellip

IntroduccioacutenEstas praacutecticas consisten en dado un conjunto de datos (numeacutericos yo nominales) referidos a un problema cualquiera aplicar algoritmos de inteligencia artificial que realizan un aprendizaje automaacutetico para establecer patrones y modelos sobre esos datos y asiacute extraer conclusiones sobre ellos Los objetivos son profundizar en las teacutecnicas baacutesicas de aprendizaje automaacutetico mineriacutea de datos aprender con maacutes detalle algunos de los algoritmos de aprendizaje aprender a evaluar el resultado de

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

la aplicacioacuten de un algoritmo y aprender a evaluar la aplicacioacuten de varios algoritmos Para ello se utilizaraacute

La biblioteca de clases de aprendizaje en Java llamada Weka muy sencilla de utilizar desarrollada en la universidad de Waikato de Nueva Zelanda ([WF99] Ian H Witten y Eibe Frank Data Mining Practical Machine Learning Tools and Techniques with Java Implementations Morgan Kaufmann 1999)

Conjuntos de datos reales sobre problemas variados incluidos en Weka Los datos corresponden a una gran variedad de problemas diferentes Hay dos tipos de conjuntos de datos datos numeacutericos (en los que los valores de las variables son nuacutemeros) y datos nominales (con valores discretos nominales) Ejemplos de conjuntos con datos nominales son

SOCIALES Aprobacioacuten de creacuteditos (Credit-aarff) Votaciones en el Congreso de EEUU (Votearff)

ENFERMEDADES Prediccioacuten de enfermedades (Breast-cancerarff Diabetesarff Heart-arff)

CLASIFICACION Clasificacioacuten de setas (Mushroomarff) Clasificacioacuten de animales (Zooarff) RECONOCIMIENTO Reconocimiento de audio (Vowelarff) Reconocimiento de imaacutegenes

(Letterarff) MERCADO Prediccioacuten del precio de los automoacuteviles (Autosarff)

Ejemplos de datos numeacutericos SOCIALES Modelado de puntosminuto en basket (BasketBallarff) Tasa de homicidios en

Detroit (Detroitarff) Prediccioacuten sobre huelgas (Strikearff) ENFERMEDADES Ecocardiograma (EchoMonthsarff) MERCADO Predicciones sobre automoacuteviles (Autoarff) Consumo de electricidad

(Elusagearff) Consumo de gasolina (Gasconsarff) Valor de la vivienda en barrios de Boston (Housingarff)

GEOLOGIacuteA Datos sobre polucioacuten (Pollutionarff) Prediccioacuten sobre terremotos (Quakearff) Hay que modelar al menos dos problemas uno de tipo nominal y otro de tipo numeacuterico de cualquier categoriacutea utilizando los algoritmos que se estime oportuno En particular con los datos nominales hay que emplear al menos dos de los siguientes algoritmos

Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Clasificador 1R (OneR) wekaclassifiersOneR Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersOneR Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R ID3 wekaclassifiersId3 C45 wekaclassifiersj48J48 PART wekaclassifiersj48PART

Y con los datos numeacutericos hay que emplear al menos dos de los siguientes algoritmos Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R Regresioacuten lineal wekaclassifiersLinearRegression M5 wekaclassifiersm5M5Prime

Se pide Estudiar bien el funcionamiento de los algoritmos elegidos para luego incluir un breve resumen

en una seccioacuten del trabajo Es conveniente consultar referencias externas Utilizando los datos de los problemas crear los modelos estudiando diferentes estrategias de

entrenamiento utilizando los paraacutemetros de cada algoritmo Anaacutelisis de resultados (textuales y graacuteficos) que da Weka comentando la conclusioacuten y las

diferencias entre los algoritmos que se han empleado

Bibliografiacutea

httpwwwdirinfounsleduar~aamdTeoriasteo5md4pdfhttpwwwituc3mesjvillenaircpracticaspropuestasmineriadedatoshtml

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

AutorDarientopicossdariengmailcom

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

  • iquestPor queacute surge la Mineriacutea de Datos
  • iquestQueacute es la Mineriacutea de Datos (MD)
  • Fase de Preparacioacuten de los datos
  • La entrada del proceso de MD
  • La salida del proceso de MD
  • Notacioacuten
  • Clasificacioacuten
  • Introduccioacuten
  • Bibliografiacutea
Page 2: mineria-datos

wwwmonografiascom

Algunos factores impliacutecitos en las definiciones de AAcambios en el comportamiento para lograr una mejor performance futuraExistencia de alguacuten tipo de experiencia de entrenamientola componente de aprendizaje estaacute ldquoembebidardquo en un sistema de toma de decisiones automaacuteticoque la contieneLa componente maacutes variable es el origen de la experiencia de entrenamientoInteraccioacuten con el ambiente u otros agentesInteraccioacuten usuario-sistema (agentes de interfaz)Aprendizaje por observacioacuten o asistido por otros agentes (consejos)Introspeccioacuten de los propios procesos internosBases de datosAprendizaje automaacutetico versus Mineriacutea de DatosAlgunos autores consideran que AA _ MD pero eacutesto no es asiacuteMD toma la experiencia desde Bases de datos AA incluye otras formas de entrenamientoEn MD no soacutelo es importante la performance sino que se suele requerir una representacioacutenexpliacutecita del conocimiento adquirido de manera tal que las decisiones puedan ser explicadas AAincluye meacutetodos que no son adecuados para estos fines (Neural Networks)En MD la elaboracioacuten de la entrada del proceso y el anaacutelisis de la salida suele requerir unaparticipacioacuten humana considerable En AA estas responsabilidades suelen ser asignadas a otrascomponentes del sistemaMD incluye teacutecnicas originadas en la modelizacioacuten estadiacutestica que no son propias del AA

Fase de Preparacioacuten de los datos

Sub-fase de recopilacioacuten e integracioacuten de los datosDeterminar fuentes de informacioacuten uacutetiles y donde conseguirlasColeccionar muacuteltiples bases de datos heterogeacuteneas en un uacutenico repositorio con un esquemaunificado (almaceacuten de datos o data warehouse)Sub-fase de seleccioacuten limpieza y transformacioacutenDeteccioacuten de valores anoacutemalos (no siempre eliminados)Tratamiento de datos faltantes (o perdidos)Seleccioacuten de atributos relevantes (columnas)Seleccioacuten de una muestra de datos (filas)Construccioacuten de nuevos atributos (agrupamiento numerizacioacuten discretizacioacuten)Fase de Mineriacutea de datos1 Determinar queacute tipo de tarea de MD es el maacutes apropiado (clasificacioacuten agrupamiento etc)2 Elegir tipo de modelo (aacuterboles de decisioacuten reglas de clasificacioacuten Redes Neuronales)3 Elegir el algoritmo de mineriacutea (o aprendizaje) (CART C50 Backpropagation

La entrada del proceso de MD

Vista minable en un contexto de BD relacionales es una uacutenica tabla con todos los atributos relevantespara el proceso de MDAtributos Nos concentraremos en dos tipos de atributosAtributos numeacutericos enteros realesAtributos nominales tambieacuten referenciados como atributos categoacutericos enumerados o discretosToman valores en un conjunto finito y preestablecido de categoriacuteasFase de evaluacioacuten interpretacioacuten y visualizacioacuten1 Criterios para la evaluacioacuten de los modelos (patrones) descubiertosPrecisosTeacutecnicas de evaluacioacuten (Validacioacuten simple y cruzada Bootstrapping)Medidas de evaluacioacuten de modelos (precisioacuten predictiva (sobre ldquotesting setrdquo)) confianza ycobertura error cuadraacutetico medio cohesioacuten y separacioacuten)Comprensibles (inteligibles)

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

Interesantes (uacutetiles y novedosos)2 Interpretacioacuten y contextualizacioacuten Evaluar el contexto donde se va a usar el modeloDistribuciones de clases no balanceadasTipo de errores y costo asociadoSituaciones extraordinarias del mundo real (uso de conocimiento previo)3 Visualizacioacuten

La salida del proceso de MD

Reglas de clasificacioacuten (ver ejemplo 3)Clusters (grupos) (ver ejemplo 4)Aacuterboles de decisioacuten (ver ejemplo 5)Redes neuronalesReglas de asociacioacutenReglas relacionales (ILP)Reglas difusasEcuaciones de regresioacutenAacuterboles de regresioacutenK-NN y CBR (Case-based reasoning)Modelos Bayesianos

Notacioacuten

Conjunto de (nombres de) atributos A = fA1A2 AngPor cada atributo Ai 2 A un conjunto de valores (o dominio) V (Ai) = fvi1 vi2 vimgAsumiremos que V _ V (A1) [ V (A2) [ [ V (An)En un conjunto de ejemplos de entrenamiento E sobre A cada elemento (ejemplo) ej 2 E esuna n-tupla representada por un mappging ej A V tal que ej(Ai) 2 V (Ai) 1 _ i _ nT (A) es el conjunto de todas las tuplas sobre los atributos de A y sus dominios

Clasificacioacuten

Una de las tareas maacutes utilizada en DMCada instancia (registro) de la BD es rotulada con el valor de un atributo especial que llamamos laclase de la instanciaCada uno de los valores (discretos) que puede tomar este atributo corresponde a una claseEl resto de los atributos de la instancia se utilizan para predecir la claseObjetivo predecir la clase de nuevas instancias no clasificadasEjemploDada una base de datos E con imaacutegenes de rostros de un nuacutemero acotado de personascon sus respectivos nombres aprender una funcioacuten que dada una nueva imaacutegen deuna de estas personas permita determinar su identidadAprendizajeAprendizaje de ConceptosTambieacuten denominada clasificacioacuten binaria Forma particular de clasificacioacuten en la que el atributo objetivoAO es booleano y por lo tanto la funcioacuten a estimar es del tipoc X f0 1gLos ejemplos en E son rotulados como pertenecientes al concepto (con valores 1 si verdadero o +) ono pertenecientes al concepto (con valores 0 no falso o 1048576) En el primer caso hablaremos de ejemplospositivos y en el segundo de ejemplos negativosClasificacioacuten ldquosuaverdquoAdemaacutes de un clasificador h X V (AO) se aprende otra funcioacuten _ X R tal que _(x) significa

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

el grado de certeza de la clasificacioacuten realizada por h respecto a la instancia xVariantes de la clasificacioacuten ldquosuaverdquo aprender estimadores de probabilidadh X PD(V (AO))donde PD(V (AO)) es el conjunto de distribuciones vaacutelidas sobre V (AO)Si jV (AO)j = m y h(x) = p p es una m-tupla p V (AO) R+ tal que p(ci) es la probabilidad deque x pertenezca a la clase ci 8ci 2 V (AO)Aprendizaje de ConceptosEjemplosDeterminar si un mensaje de correo electroacutenico es spam o noDeterminar la conveniencia de operar a un paciente de acuerdo a sus siacutentomasDeterminar si la imaacutegen de una persona correponde a ldquoPerezrdquo o noDeterminar si un diacutea es propicio para jugar a un deporte particularCategorizacioacutenLos valores de AO corresponden a categoriacuteas y a una instancia le puede corresponder maacutes de unacategoriacutea El modelo a aprender ya no representa una funcioacuten sino una correspondencia 1 a nAlternativac X 2V (AO)EjemplosCategorizar leyes de acuerdo a las aacutereas de gobierno involucradasCategorizar documentos de acuerdo a los temas abordadosDado un conjunto de perfiles de clientes determinar los productos que pueden comprarAgrupamiento (clustering)DadosUn conjunto de datos E sin etiquetar E _ X y X _ T (A)determinarUn conjunto de grupos G = fg1 glgUna funcioacuten h X GEl nuacutemero de grupos jGj = l puede ser especificado a priori o determinado por el algoritmo de clusteringAnaacutelisis de asociaciones (o viacutenculos)Tarea descriptiva que tiene como objetivo identificar relaciones no expliacutecitas entre atributos categoacutericos onominalesDadoUn conjunto de datos E sin etiquetarencontrarUn conjunto de reglas R = frkgCada regla rk con nk antecedentes y mk consecuentes es de la formasi Aa1 = va1 ^ ^ Aank= vankentonces Ac1 = vc1 ^ ^ Acmk= vankdonde Aai Acj 2 A vai 2 V (Aai ) vcj 2 V (Acj ) para i = 1 nk j = 1 mkAlgunas aacutereas de investigacioacuten y desafiacuteos en DMEscalar a conjuntos de datos extremadamente largosAlgoritmos que puedan aprender desde atributos numeacutericos y simboacutelicos combinados con otrostipos de atributos (imaacutegenes texto sonido)Optimizar decisiones en lugar de prediccionesExperimentacioacuten activaWeb MiningInteraccioacuten de usuario y conocimiento previoDatos raacutepidamente cambiantes (no estacionarios)CONTINUACIONhelliphellip

IntroduccioacutenEstas praacutecticas consisten en dado un conjunto de datos (numeacutericos yo nominales) referidos a un problema cualquiera aplicar algoritmos de inteligencia artificial que realizan un aprendizaje automaacutetico para establecer patrones y modelos sobre esos datos y asiacute extraer conclusiones sobre ellos Los objetivos son profundizar en las teacutecnicas baacutesicas de aprendizaje automaacutetico mineriacutea de datos aprender con maacutes detalle algunos de los algoritmos de aprendizaje aprender a evaluar el resultado de

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

la aplicacioacuten de un algoritmo y aprender a evaluar la aplicacioacuten de varios algoritmos Para ello se utilizaraacute

La biblioteca de clases de aprendizaje en Java llamada Weka muy sencilla de utilizar desarrollada en la universidad de Waikato de Nueva Zelanda ([WF99] Ian H Witten y Eibe Frank Data Mining Practical Machine Learning Tools and Techniques with Java Implementations Morgan Kaufmann 1999)

Conjuntos de datos reales sobre problemas variados incluidos en Weka Los datos corresponden a una gran variedad de problemas diferentes Hay dos tipos de conjuntos de datos datos numeacutericos (en los que los valores de las variables son nuacutemeros) y datos nominales (con valores discretos nominales) Ejemplos de conjuntos con datos nominales son

SOCIALES Aprobacioacuten de creacuteditos (Credit-aarff) Votaciones en el Congreso de EEUU (Votearff)

ENFERMEDADES Prediccioacuten de enfermedades (Breast-cancerarff Diabetesarff Heart-arff)

CLASIFICACION Clasificacioacuten de setas (Mushroomarff) Clasificacioacuten de animales (Zooarff) RECONOCIMIENTO Reconocimiento de audio (Vowelarff) Reconocimiento de imaacutegenes

(Letterarff) MERCADO Prediccioacuten del precio de los automoacuteviles (Autosarff)

Ejemplos de datos numeacutericos SOCIALES Modelado de puntosminuto en basket (BasketBallarff) Tasa de homicidios en

Detroit (Detroitarff) Prediccioacuten sobre huelgas (Strikearff) ENFERMEDADES Ecocardiograma (EchoMonthsarff) MERCADO Predicciones sobre automoacuteviles (Autoarff) Consumo de electricidad

(Elusagearff) Consumo de gasolina (Gasconsarff) Valor de la vivienda en barrios de Boston (Housingarff)

GEOLOGIacuteA Datos sobre polucioacuten (Pollutionarff) Prediccioacuten sobre terremotos (Quakearff) Hay que modelar al menos dos problemas uno de tipo nominal y otro de tipo numeacuterico de cualquier categoriacutea utilizando los algoritmos que se estime oportuno En particular con los datos nominales hay que emplear al menos dos de los siguientes algoritmos

Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Clasificador 1R (OneR) wekaclassifiersOneR Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersOneR Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R ID3 wekaclassifiersId3 C45 wekaclassifiersj48J48 PART wekaclassifiersj48PART

Y con los datos numeacutericos hay que emplear al menos dos de los siguientes algoritmos Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R Regresioacuten lineal wekaclassifiersLinearRegression M5 wekaclassifiersm5M5Prime

Se pide Estudiar bien el funcionamiento de los algoritmos elegidos para luego incluir un breve resumen

en una seccioacuten del trabajo Es conveniente consultar referencias externas Utilizando los datos de los problemas crear los modelos estudiando diferentes estrategias de

entrenamiento utilizando los paraacutemetros de cada algoritmo Anaacutelisis de resultados (textuales y graacuteficos) que da Weka comentando la conclusioacuten y las

diferencias entre los algoritmos que se han empleado

Bibliografiacutea

httpwwwdirinfounsleduar~aamdTeoriasteo5md4pdfhttpwwwituc3mesjvillenaircpracticaspropuestasmineriadedatoshtml

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

AutorDarientopicossdariengmailcom

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

  • iquestPor queacute surge la Mineriacutea de Datos
  • iquestQueacute es la Mineriacutea de Datos (MD)
  • Fase de Preparacioacuten de los datos
  • La entrada del proceso de MD
  • La salida del proceso de MD
  • Notacioacuten
  • Clasificacioacuten
  • Introduccioacuten
  • Bibliografiacutea
Page 3: mineria-datos

wwwmonografiascom

Interesantes (uacutetiles y novedosos)2 Interpretacioacuten y contextualizacioacuten Evaluar el contexto donde se va a usar el modeloDistribuciones de clases no balanceadasTipo de errores y costo asociadoSituaciones extraordinarias del mundo real (uso de conocimiento previo)3 Visualizacioacuten

La salida del proceso de MD

Reglas de clasificacioacuten (ver ejemplo 3)Clusters (grupos) (ver ejemplo 4)Aacuterboles de decisioacuten (ver ejemplo 5)Redes neuronalesReglas de asociacioacutenReglas relacionales (ILP)Reglas difusasEcuaciones de regresioacutenAacuterboles de regresioacutenK-NN y CBR (Case-based reasoning)Modelos Bayesianos

Notacioacuten

Conjunto de (nombres de) atributos A = fA1A2 AngPor cada atributo Ai 2 A un conjunto de valores (o dominio) V (Ai) = fvi1 vi2 vimgAsumiremos que V _ V (A1) [ V (A2) [ [ V (An)En un conjunto de ejemplos de entrenamiento E sobre A cada elemento (ejemplo) ej 2 E esuna n-tupla representada por un mappging ej A V tal que ej(Ai) 2 V (Ai) 1 _ i _ nT (A) es el conjunto de todas las tuplas sobre los atributos de A y sus dominios

Clasificacioacuten

Una de las tareas maacutes utilizada en DMCada instancia (registro) de la BD es rotulada con el valor de un atributo especial que llamamos laclase de la instanciaCada uno de los valores (discretos) que puede tomar este atributo corresponde a una claseEl resto de los atributos de la instancia se utilizan para predecir la claseObjetivo predecir la clase de nuevas instancias no clasificadasEjemploDada una base de datos E con imaacutegenes de rostros de un nuacutemero acotado de personascon sus respectivos nombres aprender una funcioacuten que dada una nueva imaacutegen deuna de estas personas permita determinar su identidadAprendizajeAprendizaje de ConceptosTambieacuten denominada clasificacioacuten binaria Forma particular de clasificacioacuten en la que el atributo objetivoAO es booleano y por lo tanto la funcioacuten a estimar es del tipoc X f0 1gLos ejemplos en E son rotulados como pertenecientes al concepto (con valores 1 si verdadero o +) ono pertenecientes al concepto (con valores 0 no falso o 1048576) En el primer caso hablaremos de ejemplospositivos y en el segundo de ejemplos negativosClasificacioacuten ldquosuaverdquoAdemaacutes de un clasificador h X V (AO) se aprende otra funcioacuten _ X R tal que _(x) significa

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

el grado de certeza de la clasificacioacuten realizada por h respecto a la instancia xVariantes de la clasificacioacuten ldquosuaverdquo aprender estimadores de probabilidadh X PD(V (AO))donde PD(V (AO)) es el conjunto de distribuciones vaacutelidas sobre V (AO)Si jV (AO)j = m y h(x) = p p es una m-tupla p V (AO) R+ tal que p(ci) es la probabilidad deque x pertenezca a la clase ci 8ci 2 V (AO)Aprendizaje de ConceptosEjemplosDeterminar si un mensaje de correo electroacutenico es spam o noDeterminar la conveniencia de operar a un paciente de acuerdo a sus siacutentomasDeterminar si la imaacutegen de una persona correponde a ldquoPerezrdquo o noDeterminar si un diacutea es propicio para jugar a un deporte particularCategorizacioacutenLos valores de AO corresponden a categoriacuteas y a una instancia le puede corresponder maacutes de unacategoriacutea El modelo a aprender ya no representa una funcioacuten sino una correspondencia 1 a nAlternativac X 2V (AO)EjemplosCategorizar leyes de acuerdo a las aacutereas de gobierno involucradasCategorizar documentos de acuerdo a los temas abordadosDado un conjunto de perfiles de clientes determinar los productos que pueden comprarAgrupamiento (clustering)DadosUn conjunto de datos E sin etiquetar E _ X y X _ T (A)determinarUn conjunto de grupos G = fg1 glgUna funcioacuten h X GEl nuacutemero de grupos jGj = l puede ser especificado a priori o determinado por el algoritmo de clusteringAnaacutelisis de asociaciones (o viacutenculos)Tarea descriptiva que tiene como objetivo identificar relaciones no expliacutecitas entre atributos categoacutericos onominalesDadoUn conjunto de datos E sin etiquetarencontrarUn conjunto de reglas R = frkgCada regla rk con nk antecedentes y mk consecuentes es de la formasi Aa1 = va1 ^ ^ Aank= vankentonces Ac1 = vc1 ^ ^ Acmk= vankdonde Aai Acj 2 A vai 2 V (Aai ) vcj 2 V (Acj ) para i = 1 nk j = 1 mkAlgunas aacutereas de investigacioacuten y desafiacuteos en DMEscalar a conjuntos de datos extremadamente largosAlgoritmos que puedan aprender desde atributos numeacutericos y simboacutelicos combinados con otrostipos de atributos (imaacutegenes texto sonido)Optimizar decisiones en lugar de prediccionesExperimentacioacuten activaWeb MiningInteraccioacuten de usuario y conocimiento previoDatos raacutepidamente cambiantes (no estacionarios)CONTINUACIONhelliphellip

IntroduccioacutenEstas praacutecticas consisten en dado un conjunto de datos (numeacutericos yo nominales) referidos a un problema cualquiera aplicar algoritmos de inteligencia artificial que realizan un aprendizaje automaacutetico para establecer patrones y modelos sobre esos datos y asiacute extraer conclusiones sobre ellos Los objetivos son profundizar en las teacutecnicas baacutesicas de aprendizaje automaacutetico mineriacutea de datos aprender con maacutes detalle algunos de los algoritmos de aprendizaje aprender a evaluar el resultado de

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

la aplicacioacuten de un algoritmo y aprender a evaluar la aplicacioacuten de varios algoritmos Para ello se utilizaraacute

La biblioteca de clases de aprendizaje en Java llamada Weka muy sencilla de utilizar desarrollada en la universidad de Waikato de Nueva Zelanda ([WF99] Ian H Witten y Eibe Frank Data Mining Practical Machine Learning Tools and Techniques with Java Implementations Morgan Kaufmann 1999)

Conjuntos de datos reales sobre problemas variados incluidos en Weka Los datos corresponden a una gran variedad de problemas diferentes Hay dos tipos de conjuntos de datos datos numeacutericos (en los que los valores de las variables son nuacutemeros) y datos nominales (con valores discretos nominales) Ejemplos de conjuntos con datos nominales son

SOCIALES Aprobacioacuten de creacuteditos (Credit-aarff) Votaciones en el Congreso de EEUU (Votearff)

ENFERMEDADES Prediccioacuten de enfermedades (Breast-cancerarff Diabetesarff Heart-arff)

CLASIFICACION Clasificacioacuten de setas (Mushroomarff) Clasificacioacuten de animales (Zooarff) RECONOCIMIENTO Reconocimiento de audio (Vowelarff) Reconocimiento de imaacutegenes

(Letterarff) MERCADO Prediccioacuten del precio de los automoacuteviles (Autosarff)

Ejemplos de datos numeacutericos SOCIALES Modelado de puntosminuto en basket (BasketBallarff) Tasa de homicidios en

Detroit (Detroitarff) Prediccioacuten sobre huelgas (Strikearff) ENFERMEDADES Ecocardiograma (EchoMonthsarff) MERCADO Predicciones sobre automoacuteviles (Autoarff) Consumo de electricidad

(Elusagearff) Consumo de gasolina (Gasconsarff) Valor de la vivienda en barrios de Boston (Housingarff)

GEOLOGIacuteA Datos sobre polucioacuten (Pollutionarff) Prediccioacuten sobre terremotos (Quakearff) Hay que modelar al menos dos problemas uno de tipo nominal y otro de tipo numeacuterico de cualquier categoriacutea utilizando los algoritmos que se estime oportuno En particular con los datos nominales hay que emplear al menos dos de los siguientes algoritmos

Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Clasificador 1R (OneR) wekaclassifiersOneR Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersOneR Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R ID3 wekaclassifiersId3 C45 wekaclassifiersj48J48 PART wekaclassifiersj48PART

Y con los datos numeacutericos hay que emplear al menos dos de los siguientes algoritmos Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R Regresioacuten lineal wekaclassifiersLinearRegression M5 wekaclassifiersm5M5Prime

Se pide Estudiar bien el funcionamiento de los algoritmos elegidos para luego incluir un breve resumen

en una seccioacuten del trabajo Es conveniente consultar referencias externas Utilizando los datos de los problemas crear los modelos estudiando diferentes estrategias de

entrenamiento utilizando los paraacutemetros de cada algoritmo Anaacutelisis de resultados (textuales y graacuteficos) que da Weka comentando la conclusioacuten y las

diferencias entre los algoritmos que se han empleado

Bibliografiacutea

httpwwwdirinfounsleduar~aamdTeoriasteo5md4pdfhttpwwwituc3mesjvillenaircpracticaspropuestasmineriadedatoshtml

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

AutorDarientopicossdariengmailcom

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

  • iquestPor queacute surge la Mineriacutea de Datos
  • iquestQueacute es la Mineriacutea de Datos (MD)
  • Fase de Preparacioacuten de los datos
  • La entrada del proceso de MD
  • La salida del proceso de MD
  • Notacioacuten
  • Clasificacioacuten
  • Introduccioacuten
  • Bibliografiacutea
Page 4: mineria-datos

wwwmonografiascom

el grado de certeza de la clasificacioacuten realizada por h respecto a la instancia xVariantes de la clasificacioacuten ldquosuaverdquo aprender estimadores de probabilidadh X PD(V (AO))donde PD(V (AO)) es el conjunto de distribuciones vaacutelidas sobre V (AO)Si jV (AO)j = m y h(x) = p p es una m-tupla p V (AO) R+ tal que p(ci) es la probabilidad deque x pertenezca a la clase ci 8ci 2 V (AO)Aprendizaje de ConceptosEjemplosDeterminar si un mensaje de correo electroacutenico es spam o noDeterminar la conveniencia de operar a un paciente de acuerdo a sus siacutentomasDeterminar si la imaacutegen de una persona correponde a ldquoPerezrdquo o noDeterminar si un diacutea es propicio para jugar a un deporte particularCategorizacioacutenLos valores de AO corresponden a categoriacuteas y a una instancia le puede corresponder maacutes de unacategoriacutea El modelo a aprender ya no representa una funcioacuten sino una correspondencia 1 a nAlternativac X 2V (AO)EjemplosCategorizar leyes de acuerdo a las aacutereas de gobierno involucradasCategorizar documentos de acuerdo a los temas abordadosDado un conjunto de perfiles de clientes determinar los productos que pueden comprarAgrupamiento (clustering)DadosUn conjunto de datos E sin etiquetar E _ X y X _ T (A)determinarUn conjunto de grupos G = fg1 glgUna funcioacuten h X GEl nuacutemero de grupos jGj = l puede ser especificado a priori o determinado por el algoritmo de clusteringAnaacutelisis de asociaciones (o viacutenculos)Tarea descriptiva que tiene como objetivo identificar relaciones no expliacutecitas entre atributos categoacutericos onominalesDadoUn conjunto de datos E sin etiquetarencontrarUn conjunto de reglas R = frkgCada regla rk con nk antecedentes y mk consecuentes es de la formasi Aa1 = va1 ^ ^ Aank= vankentonces Ac1 = vc1 ^ ^ Acmk= vankdonde Aai Acj 2 A vai 2 V (Aai ) vcj 2 V (Acj ) para i = 1 nk j = 1 mkAlgunas aacutereas de investigacioacuten y desafiacuteos en DMEscalar a conjuntos de datos extremadamente largosAlgoritmos que puedan aprender desde atributos numeacutericos y simboacutelicos combinados con otrostipos de atributos (imaacutegenes texto sonido)Optimizar decisiones en lugar de prediccionesExperimentacioacuten activaWeb MiningInteraccioacuten de usuario y conocimiento previoDatos raacutepidamente cambiantes (no estacionarios)CONTINUACIONhelliphellip

IntroduccioacutenEstas praacutecticas consisten en dado un conjunto de datos (numeacutericos yo nominales) referidos a un problema cualquiera aplicar algoritmos de inteligencia artificial que realizan un aprendizaje automaacutetico para establecer patrones y modelos sobre esos datos y asiacute extraer conclusiones sobre ellos Los objetivos son profundizar en las teacutecnicas baacutesicas de aprendizaje automaacutetico mineriacutea de datos aprender con maacutes detalle algunos de los algoritmos de aprendizaje aprender a evaluar el resultado de

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

la aplicacioacuten de un algoritmo y aprender a evaluar la aplicacioacuten de varios algoritmos Para ello se utilizaraacute

La biblioteca de clases de aprendizaje en Java llamada Weka muy sencilla de utilizar desarrollada en la universidad de Waikato de Nueva Zelanda ([WF99] Ian H Witten y Eibe Frank Data Mining Practical Machine Learning Tools and Techniques with Java Implementations Morgan Kaufmann 1999)

Conjuntos de datos reales sobre problemas variados incluidos en Weka Los datos corresponden a una gran variedad de problemas diferentes Hay dos tipos de conjuntos de datos datos numeacutericos (en los que los valores de las variables son nuacutemeros) y datos nominales (con valores discretos nominales) Ejemplos de conjuntos con datos nominales son

SOCIALES Aprobacioacuten de creacuteditos (Credit-aarff) Votaciones en el Congreso de EEUU (Votearff)

ENFERMEDADES Prediccioacuten de enfermedades (Breast-cancerarff Diabetesarff Heart-arff)

CLASIFICACION Clasificacioacuten de setas (Mushroomarff) Clasificacioacuten de animales (Zooarff) RECONOCIMIENTO Reconocimiento de audio (Vowelarff) Reconocimiento de imaacutegenes

(Letterarff) MERCADO Prediccioacuten del precio de los automoacuteviles (Autosarff)

Ejemplos de datos numeacutericos SOCIALES Modelado de puntosminuto en basket (BasketBallarff) Tasa de homicidios en

Detroit (Detroitarff) Prediccioacuten sobre huelgas (Strikearff) ENFERMEDADES Ecocardiograma (EchoMonthsarff) MERCADO Predicciones sobre automoacuteviles (Autoarff) Consumo de electricidad

(Elusagearff) Consumo de gasolina (Gasconsarff) Valor de la vivienda en barrios de Boston (Housingarff)

GEOLOGIacuteA Datos sobre polucioacuten (Pollutionarff) Prediccioacuten sobre terremotos (Quakearff) Hay que modelar al menos dos problemas uno de tipo nominal y otro de tipo numeacuterico de cualquier categoriacutea utilizando los algoritmos que se estime oportuno En particular con los datos nominales hay que emplear al menos dos de los siguientes algoritmos

Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Clasificador 1R (OneR) wekaclassifiersOneR Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersOneR Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R ID3 wekaclassifiersId3 C45 wekaclassifiersj48J48 PART wekaclassifiersj48PART

Y con los datos numeacutericos hay que emplear al menos dos de los siguientes algoritmos Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R Regresioacuten lineal wekaclassifiersLinearRegression M5 wekaclassifiersm5M5Prime

Se pide Estudiar bien el funcionamiento de los algoritmos elegidos para luego incluir un breve resumen

en una seccioacuten del trabajo Es conveniente consultar referencias externas Utilizando los datos de los problemas crear los modelos estudiando diferentes estrategias de

entrenamiento utilizando los paraacutemetros de cada algoritmo Anaacutelisis de resultados (textuales y graacuteficos) que da Weka comentando la conclusioacuten y las

diferencias entre los algoritmos que se han empleado

Bibliografiacutea

httpwwwdirinfounsleduar~aamdTeoriasteo5md4pdfhttpwwwituc3mesjvillenaircpracticaspropuestasmineriadedatoshtml

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

AutorDarientopicossdariengmailcom

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

  • iquestPor queacute surge la Mineriacutea de Datos
  • iquestQueacute es la Mineriacutea de Datos (MD)
  • Fase de Preparacioacuten de los datos
  • La entrada del proceso de MD
  • La salida del proceso de MD
  • Notacioacuten
  • Clasificacioacuten
  • Introduccioacuten
  • Bibliografiacutea
Page 5: mineria-datos

wwwmonografiascom

la aplicacioacuten de un algoritmo y aprender a evaluar la aplicacioacuten de varios algoritmos Para ello se utilizaraacute

La biblioteca de clases de aprendizaje en Java llamada Weka muy sencilla de utilizar desarrollada en la universidad de Waikato de Nueva Zelanda ([WF99] Ian H Witten y Eibe Frank Data Mining Practical Machine Learning Tools and Techniques with Java Implementations Morgan Kaufmann 1999)

Conjuntos de datos reales sobre problemas variados incluidos en Weka Los datos corresponden a una gran variedad de problemas diferentes Hay dos tipos de conjuntos de datos datos numeacutericos (en los que los valores de las variables son nuacutemeros) y datos nominales (con valores discretos nominales) Ejemplos de conjuntos con datos nominales son

SOCIALES Aprobacioacuten de creacuteditos (Credit-aarff) Votaciones en el Congreso de EEUU (Votearff)

ENFERMEDADES Prediccioacuten de enfermedades (Breast-cancerarff Diabetesarff Heart-arff)

CLASIFICACION Clasificacioacuten de setas (Mushroomarff) Clasificacioacuten de animales (Zooarff) RECONOCIMIENTO Reconocimiento de audio (Vowelarff) Reconocimiento de imaacutegenes

(Letterarff) MERCADO Prediccioacuten del precio de los automoacuteviles (Autosarff)

Ejemplos de datos numeacutericos SOCIALES Modelado de puntosminuto en basket (BasketBallarff) Tasa de homicidios en

Detroit (Detroitarff) Prediccioacuten sobre huelgas (Strikearff) ENFERMEDADES Ecocardiograma (EchoMonthsarff) MERCADO Predicciones sobre automoacuteviles (Autoarff) Consumo de electricidad

(Elusagearff) Consumo de gasolina (Gasconsarff) Valor de la vivienda en barrios de Boston (Housingarff)

GEOLOGIacuteA Datos sobre polucioacuten (Pollutionarff) Prediccioacuten sobre terremotos (Quakearff) Hay que modelar al menos dos problemas uno de tipo nominal y otro de tipo numeacuterico de cualquier categoriacutea utilizando los algoritmos que se estime oportuno En particular con los datos nominales hay que emplear al menos dos de los siguientes algoritmos

Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Clasificador 1R (OneR) wekaclassifiersOneR Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersOneR Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R ID3 wekaclassifiersId3 C45 wekaclassifiersj48J48 PART wekaclassifiersj48PART

Y con los datos numeacutericos hay que emplear al menos dos de los siguientes algoritmos Aacuterboles de decisioacuten de un nivel (decision stump) wekaclassifiersDecisionStump Tabla de decisioacuten (decision table) wekaclassifiersDecisionTable-R Regresioacuten lineal wekaclassifiersLinearRegression M5 wekaclassifiersm5M5Prime

Se pide Estudiar bien el funcionamiento de los algoritmos elegidos para luego incluir un breve resumen

en una seccioacuten del trabajo Es conveniente consultar referencias externas Utilizando los datos de los problemas crear los modelos estudiando diferentes estrategias de

entrenamiento utilizando los paraacutemetros de cada algoritmo Anaacutelisis de resultados (textuales y graacuteficos) que da Weka comentando la conclusioacuten y las

diferencias entre los algoritmos que se han empleado

Bibliografiacutea

httpwwwdirinfounsleduar~aamdTeoriasteo5md4pdfhttpwwwituc3mesjvillenaircpracticaspropuestasmineriadedatoshtml

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

wwwmonografiascom

AutorDarientopicossdariengmailcom

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

  • iquestPor queacute surge la Mineriacutea de Datos
  • iquestQueacute es la Mineriacutea de Datos (MD)
  • Fase de Preparacioacuten de los datos
  • La entrada del proceso de MD
  • La salida del proceso de MD
  • Notacioacuten
  • Clasificacioacuten
  • Introduccioacuten
  • Bibliografiacutea
Page 6: mineria-datos

wwwmonografiascom

AutorDarientopicossdariengmailcom

Para ver trabajos similares o recibir informacioacuten semanal sobre nuevas publicaciones visite wwwmonografiascom

  • iquestPor queacute surge la Mineriacutea de Datos
  • iquestQueacute es la Mineriacutea de Datos (MD)
  • Fase de Preparacioacuten de los datos
  • La entrada del proceso de MD
  • La salida del proceso de MD
  • Notacioacuten
  • Clasificacioacuten
  • Introduccioacuten
  • Bibliografiacutea