conclusiones debates data mining posgrado uoc - business intelligence

2

Click here to load reader

Upload: julio-rodriguez

Post on 25-Jul-2015

31 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Conclusiones Debates Data Mining Posgrado UOC - Business Intelligence

UOC – Posgrado en BI Data Mining: Fundamentos y Metodologías Julio Rodriguez Brieschke

Conclusiones de los 3 Debates de Data Mining: Fundamentos y Metodologías.

A modo introductorio quería comentar que me ha parecido que los aportes a todos los debates

han sido muy buenos, desde mi modesto conocimiento del tema. Esto es muy importante para mí,

dado que encuentro que es muy enriquecedor poder conocer no solo nuevos conceptos o

conocimientos, sino lo que me parece más importante es como cada uno lo va incorporando a sus

conocimientos previos que posee y los pone en juego en cada explicación o aportación.

Ya he hecho mi propio aporte a cada Debate, por lo tanto, aquí me referiré a aspectos mas

globales de los mismos que he ido observando a lo largo de los 3 Debates.

Creo que los artículos elegidos como disparadores de temas han sido excelentes, tanto la

entrevista de Riedl como la anécdota de los aviones de la WW II. Permitieron, en mi opinión,

poner de manifiesto la importancia de los datos y de la información, de lo relevante que se han

convertido, especialmente porque ha habido un crecimiento exponencial de los datos (según

indican en los 2 últimos años). Creo que el debate ha servido para poner mas en primer plano esta

abundancia de información y de la imposibilidad material de abordarla sin nuevas tecnologías o

paradigmas (hay un articulo muy bueno que nos acerca el compañero Frutos, respecto a lo difícil

que se les esta haciendo leer gente actual desde el uso de Internet, que me parece muestra que

también nosotros estamos cambiando al respecto de la abundancia de la información, algo que

antes no existía).

El tema de la Relevancia de los Datos y la Cantidad, esta manifiesto no solo en los Debates 1 y 2

sino también en el 3, ya que Google Analytics, nos muestra la increíble cantidad de datos que

puede almacenar de un Website y de sus visitantes, además de mostrarnos novedosas formas de

visualización.

Encuentro que en los 3 primeros temas de cada una de las actividades, hemos visto ejemplos que

implican un impacto a nivel de la sociedad del uso de DM, es decir, ver en el campo de la realidad,

la acumulación de información y su tratamiento y el impacto en nuestras vidas (Debate 1, incluso

se ven algunos avances en el terreno de la ética, que lamentablemente no ahondamos en el

debate), las dificultades en la practica de seleccionar los atributos o clasificadores relevantes para

un problema (Debate 2) y las posibilidades que ofrece el Web Mining como una de las actividades

mas novedosas y que permiten explicarnos como los visitantes de un sitio navegan por el mismo y

analizar el comportamiento de los mismos (Debate 3). En este sentido, la herramienta Google

Trends, me pareció increíble para obtener datos a nivel público para incorporar en temas de

Business Intelligence.

En cuanto a los 2 segundos temas de cada una de las actividades, me parece que están claramente

vinculados con los datos: cantidad o abundancia (Debate 1), Reducción de la Dimensionalidad

(Debate 2) y Entropía & Ganancia (Debate 3). Creo que esta línea, es conceptualmente muy

importante, dado que permiten mostrar como trabajar con los datos, es especialmente de orden

mas práctico (aunque las hayamos visto desde la perspectiva teórica pero son de aplicación)

práctica).

Page 2: Conclusiones Debates Data Mining Posgrado UOC - Business Intelligence

UOC – Posgrado en BI Data Mining: Fundamentos y Metodologías Julio Rodriguez Brieschke

En general, me parece que las aportaciones han sido muy buenas, especialmente se han

homogeneizado mas en los Debates 2 y 3, lo cual me parece marca una dinámica de elaboración

de los conceptos mas pareja en el grupo.

En lo personal, la aplicación del concepto de entropía como medida de la predictibilidad de una

probabilidad, me pareció realmente ingeniosa, al igual que el criterio de la ganancia para los

algoritmos ID3 y C4.5. La mayoría de las técnicas de visualización ya las conocía. En cuanto a

técnicas, también me sorprendió el análisis de secuencias y la relación con patrones de aparición.

En el Debate 2 se pudo apreciar la importancia de la Reducción de la Dimensionalidad, para no

crear modelos redundantes y parsimoniosos, se plantearon el uso de varias técnicas para reducir

la dimensionalidad (Análisis Factorial, Multi-colinealidad, Análisis de Componentes Principales).

En el debate 1, me pareció muy interesante la clasificación sobre los tipos de modelos que se

utilizan en DM (Predictivos y Clasificación), de la misma forma que los tipos de aprendizajes

(Supervisado, No Supervisado y Reforzado) así como también las técnicas que podemos emplear

para estos modelos: Agrupamiento, Regresiones, Clasificación.

También me pareció muy efectiva la definición de Riedl respecto a encontrar patrones inusuales

en los datos, creo que fue un disparador muy polémico y sobre el cual se debatió mucho en el

foro. En este sentido, felicitaciones por la elección del tema, fue muy efectiva.

En mi opinión, creo que nos falto cerrar con un debate sobre un la Evaluación de los Modelos, si

bien entiendo que lo veremos en la actividad 4, pero creo que permiten cerrar un circulo básico

con una visión sobre el proceso de Datos, Modelo y Evaluación.