Buenas prácticas para la implementación de herramientas de Ciencia de Datos
Leonardo Alfonso Ramos CoronaFacultad de Geografía, UAEM.
Ciencia de datos
Indicador.
Número de Trámites y Servicios integrados a SEITS
¿Qué es la ciencia de datos?
Es muy difícil encontrar una definición de consenso, las definiciones difieren mucho en cada fuente.
Podemos decir que se trata del estudio de la extracción, generalizada de conocimiento a partir de información y/o de datos.
Ciencia de datos
Indicador.
Número de Trámites y Servicios integrados a SEITS
¿Es algo novedoso?, ¿está de moda?
Se parece a algunas ciencias con las cuáles ya estamos familiarizados.
Estadística: Estudio que reúne, clasifica y recuenta todos los hechos que tienen una determinada característica en común, para poder llegar a conclusiones a partir de los datos numéricos extraídos.
Ciencia de datos
Indicador.
Número de Trámites y Servicios integrados a SEITS
¿Hablamos de lo mismo?
Opinión de Jeff Wu de la Universidad de Michigan.http://www2.isye.gatech.edu/~jeffwu/presentations/datascience.pdf
Ciencia de datos
Indicador.
Número de Trámites y Servicios integrados a SEITS
¿Hablamos de lo mismo?Tras consultar varios puntos de vista concluimos que:• El enfoque de Data Science es más holístico
(multidisciplinario), más global, para partiendo de grandes volúmenes de datos poder extraer conocimiento que aporte valor a una determinada organización, la que sea que tenga datos.
• El foco principal se sitúa en la extracción de conocimiento, empleando para ello las herramientas que estén al alcance.
Ciencia de datos
Indicador.
Número de Trámites y Servicios integrados a SEITS
Ciencia de datos
• Teorías y técnicas relacionadas con muchos campos del conocimiento como las latemáticas, la estadística y las Tecnologías de la Información, estas últimas incluyen: procesamiento de señales, modelos probabilísticos, machine learning, aprendizaje estadístico, minería de datos, programación, ingeniería de datos, reconocimiento de patrones, visualización, modelización de la incertidumbre, data warehousing y computación de alta demanda de procesamiento.
Ciencia de datos
Indicador.
Número de Trámites y Servicios integrados a SEITS
Implementación de la técnicas
Machine Learning Minería de datos BI Sand Box
Inteligencia artificial Big Data
Ciencia de datos
Implementación de la técnicas
Librerías con algoritmos Python
Scikit-learn(Google Summer
Code)
Machine Learning
• Clasificación• Regresión• Clustering• Reducción de dimensionalidad• Selección de modelos• Pre procesamiento
Minería de datos
WEKALenguaje: Java
University of Waikato, Nueva Zelanda
• Modelos lineales• Árboles de decisión• Clustering• Redes bayesianas• Etc.
Ciencia de datos
Implementación de la técnicas
Ciencia de datos
Redes socialesSensores
Ciencia de Datos
Ciencia de datos
Ciencia de datos
Ciencia de datos
Ciencia de datos
Ciencia de datos
Ciencia de datos
El futuro
Actualmente se demanda un perfil muy especializado llamado Científico de Datos, capaz de estudiar las diversas fuentes de información disponibles en una organización, extraer datos a partir de diversos formatos tanto de bases de datos relacionales y no relacionales como de muchos otros tipos, depurarlos, analizarlos, idear y desarrollar algoritmos, en algunos casos paralelos, realizar inferencias, preparar y comunicar los resultados de dichos análisis y ser capaz de transmitir conclusiones acerca de los estudios para finalmente repercutir en un mayor conocimiento que ayude a la Gerencia del organismo o compañía a tomar mejores decisiones.
Ciencia de datos
El futuro
• Bases de datos relacionales• Bases de datos No Relacionales (NoSQL)• Lenguajes de programación (R, Python, Java)• Machine Learning• Data Mining• Business Intelligence (ETL, Reporteo, Tableros de
control)• Big Data• Programación de alta demanda, paralela, distribuida:
Hadoop, MapReduce, Hbase.
Ciencia de datos
Algunos recursos en línea
https://aspgems.com/blog/fernando-calle/cursos-gratuitos-de-especializacion-en-data-science
https://www.coursera.org/
https://www.udemy.com/
Ciencia de datos
MUCHAS GRACIAS POR SU ATENCIÓN
M. en C.A. Alfonso Ramos CoronaProfesor investigador de Tiempo Completo
Facultad de Geografí[email protected]