conclusiones debates data mining posgrado uoc - business intelligence
TRANSCRIPT
UOC – Posgrado en BI Data Mining: Fundamentos y Metodologías Julio Rodriguez Brieschke
Conclusiones de los 3 Debates de Data Mining: Fundamentos y Metodologías.
A modo introductorio quería comentar que me ha parecido que los aportes a todos los debates
han sido muy buenos, desde mi modesto conocimiento del tema. Esto es muy importante para mí,
dado que encuentro que es muy enriquecedor poder conocer no solo nuevos conceptos o
conocimientos, sino lo que me parece más importante es como cada uno lo va incorporando a sus
conocimientos previos que posee y los pone en juego en cada explicación o aportación.
Ya he hecho mi propio aporte a cada Debate, por lo tanto, aquí me referiré a aspectos mas
globales de los mismos que he ido observando a lo largo de los 3 Debates.
Creo que los artículos elegidos como disparadores de temas han sido excelentes, tanto la
entrevista de Riedl como la anécdota de los aviones de la WW II. Permitieron, en mi opinión,
poner de manifiesto la importancia de los datos y de la información, de lo relevante que se han
convertido, especialmente porque ha habido un crecimiento exponencial de los datos (según
indican en los 2 últimos años). Creo que el debate ha servido para poner mas en primer plano esta
abundancia de información y de la imposibilidad material de abordarla sin nuevas tecnologías o
paradigmas (hay un articulo muy bueno que nos acerca el compañero Frutos, respecto a lo difícil
que se les esta haciendo leer gente actual desde el uso de Internet, que me parece muestra que
también nosotros estamos cambiando al respecto de la abundancia de la información, algo que
antes no existía).
El tema de la Relevancia de los Datos y la Cantidad, esta manifiesto no solo en los Debates 1 y 2
sino también en el 3, ya que Google Analytics, nos muestra la increíble cantidad de datos que
puede almacenar de un Website y de sus visitantes, además de mostrarnos novedosas formas de
visualización.
Encuentro que en los 3 primeros temas de cada una de las actividades, hemos visto ejemplos que
implican un impacto a nivel de la sociedad del uso de DM, es decir, ver en el campo de la realidad,
la acumulación de información y su tratamiento y el impacto en nuestras vidas (Debate 1, incluso
se ven algunos avances en el terreno de la ética, que lamentablemente no ahondamos en el
debate), las dificultades en la practica de seleccionar los atributos o clasificadores relevantes para
un problema (Debate 2) y las posibilidades que ofrece el Web Mining como una de las actividades
mas novedosas y que permiten explicarnos como los visitantes de un sitio navegan por el mismo y
analizar el comportamiento de los mismos (Debate 3). En este sentido, la herramienta Google
Trends, me pareció increíble para obtener datos a nivel público para incorporar en temas de
Business Intelligence.
En cuanto a los 2 segundos temas de cada una de las actividades, me parece que están claramente
vinculados con los datos: cantidad o abundancia (Debate 1), Reducción de la Dimensionalidad
(Debate 2) y Entropía & Ganancia (Debate 3). Creo que esta línea, es conceptualmente muy
importante, dado que permiten mostrar como trabajar con los datos, es especialmente de orden
mas práctico (aunque las hayamos visto desde la perspectiva teórica pero son de aplicación)
práctica).
UOC – Posgrado en BI Data Mining: Fundamentos y Metodologías Julio Rodriguez Brieschke
En general, me parece que las aportaciones han sido muy buenas, especialmente se han
homogeneizado mas en los Debates 2 y 3, lo cual me parece marca una dinámica de elaboración
de los conceptos mas pareja en el grupo.
En lo personal, la aplicación del concepto de entropía como medida de la predictibilidad de una
probabilidad, me pareció realmente ingeniosa, al igual que el criterio de la ganancia para los
algoritmos ID3 y C4.5. La mayoría de las técnicas de visualización ya las conocía. En cuanto a
técnicas, también me sorprendió el análisis de secuencias y la relación con patrones de aparición.
En el Debate 2 se pudo apreciar la importancia de la Reducción de la Dimensionalidad, para no
crear modelos redundantes y parsimoniosos, se plantearon el uso de varias técnicas para reducir
la dimensionalidad (Análisis Factorial, Multi-colinealidad, Análisis de Componentes Principales).
En el debate 1, me pareció muy interesante la clasificación sobre los tipos de modelos que se
utilizan en DM (Predictivos y Clasificación), de la misma forma que los tipos de aprendizajes
(Supervisado, No Supervisado y Reforzado) así como también las técnicas que podemos emplear
para estos modelos: Agrupamiento, Regresiones, Clasificación.
También me pareció muy efectiva la definición de Riedl respecto a encontrar patrones inusuales
en los datos, creo que fue un disparador muy polémico y sobre el cual se debatió mucho en el
foro. En este sentido, felicitaciones por la elección del tema, fue muy efectiva.
En mi opinión, creo que nos falto cerrar con un debate sobre un la Evaluación de los Modelos, si
bien entiendo que lo veremos en la actividad 4, pero creo que permiten cerrar un circulo básico
con una visión sobre el proceso de Datos, Modelo y Evaluación.