tendencias y retos en la minería de datostendencias y retos en la minería de datos phd. carlos...
Post on 14-Jul-2020
18 Views
Preview:
TRANSCRIPT
Tendencias y Retos en la Minería de Datos
PhD. Carlos Alberto Cobos Lozadaccobos@unicauca.edu.co
http://www.unicauca.edu.co/~ccobos
Universidad del Cauca
16, 17 y 18 de octubre 2019. Ibarra-Ecuador
Agenda
• Contexto
• Aplicaciones
• Tendencias• Enfoque multimedia• Basada en localización• De datos temporales y secuenciales• Inteligencia Artificial e Internet de las Cosas• Basada en meta datos• Minería móvil
Contexto
2018 Rank Job TitleJob
Score
Job
Satisfaction
Median
Base Salary
Job
Openings
1 Data Scientist 4.8 4.2 $110,000 4,524
2 DevOps Engineer 4.6 4.0 $105,000 3,369
3 Marketing Manager 4.6 4.0 $85,000 6,439
4 Occupational Therapist 4.5 4.0 $74,000 11,903
5 HR Manager 4.5 3.9 $85,000 4,458
18 Analytics Manager 4.4 3.9 $115,000 1,381
26Database
Administrator4.3 3.8 $94,000 2,370
33 Data Engineer 4.2 3.7 $100,000 2,816
38 Data Analyst 4.2 3.9 $60,000 4,729
Científico de datos 3 años seguidos como el trabajo mejor calificado en USA.
* Basada en Glassdoor
ContextoHabilidades clave por rol (Inglés, blandas)
Científico de
datos
Analista de
Datos
Ingeniero
de datos
Programación (Python)
Comunicativas (dialogar con expertos del dominio de
aplicación y presentar resultados verbal y
visualmente)
Estadística
Captura (ETL), procesamiento, análisis de datos
estructurados (SQL) y no estructurados (NoSQL y
NLP) y visualización de datos.
Inteligencia artificial (machine learning (Deep
learning))) – aprendizaje supervisado y no
supervisado, reducción de dimensionalidad, análisis
de series temporales
Ingeniería de Software
Matemáticas (cálculo multivariable y algebra lineal)
Contexto• Gartner Group: es el proceso de descubrir nuevas y
significantes correlaciones, patrones y tendencias en grandescantidades de datos almacenados en repositorios usandotecnologías de reconocimiento de patrones así como técnicasestadísticas y matemáticas
Comprensión del negocio
Análisis de los datos
Preparación de los datos
ModelamientoEvaluación
Despliegue Datos
CRISP-DM
Cross – Industry
Standard Process for
Data Mining
Contexto
• Tareas:• Descripción• Clasificación (~80%)
• Estimación
• Agrupación por similitud (Clustering)• Reglas de Asociación• Análisis de Series Temporales• Detección de valores atípicos (outliers)
Contexto
•Clasificación (Estimación)
Datos de entrenamiento
Necesitamos clasificar
Contexto•Agrupación por similitud (Clustering)
Datos disponibles Datos agrupados
Contexto•Reglas de Asociación
Datos Transaccionales
Reglas
Contexto•Análisis de Series Temporales
Datos de
entrenamiento
Datos ventaneados
Dato a predecir
Aplicaciones
• Identificar prospectos (posibles clientes)
• Escoger el canal de comunicación con los prospectos
• Retener clientes rentables
• Evitar clientes de alto riesgo (hipotecas, créditos)
• Prevenir fraudes
• Recuperar clientes
• Mejorar la satisfacción de los clientes
• Disminuir costos
• Incrementar ventas
• Mejorar la rentabilidad de sus clientes
• Venta cruzada (cross-selling) e venta mejorada (up-selling)
• Retener talento humano
• Definir líneas de capacitación y retención de talento humano
• Gestión de la cadena de suministro
Aplicaciones
• Industrias donde aplica:• Banca• Seguros• Telecomunicaciones• Venta al por menor (e-commerce)• Venta al por mayor• Turismo• Educación• Salud• Manufacturera• Astronomía• Bioinformática• …
Gente
Deptos.
AdministrativosAuditoria
Deptos.
Operativos
Productos
Otros
Proveedores
Clientes
Tendencias
“Ser tan ubicua como las tecnologías más usadas hoy en día”
1. Enfoque multimedia• Imágenes (Facebook, Instagram), videos (YouTube), texto, hipertexto, audio, etc.
2. Basada en localización• La ubicación y los datos geográficos cada día son más importantes.
3. De datos temporales y secuenciales• Ciclos de uso y comportamientos basado en tiempo
Tendencias
“Ser tan ubicua como las tecnologías más usadas hoy en día”
4. Inteligencia Artificial e Internet de las Cosas• Muchos más datos de diversas fuentes (sensores)• Integración con otras técnicas. IA incluye entre otros, las redes neuronales (Deep learning), lógica
difusa, metaheurísticas, sistemas basados en conocimiento y procesamiento de lenguaje natural.
5. Basada en meta datos• Minería de datos sobre fuentes que incluyen datos que son resultados de previos trabajos de
minería de datos
6. Minería móvil• Minar datos recopilados en dispositivos móviles (todo mundo tiene uno) sin violar la Regulación
General de Protección de Datos
1. Enfoque multimedia• Minería de datos en un Centro de Atención Telefónica Empresarial
BD Relacional
TextoVoz Representación
de voz
Representación
de datos
Representación
unificada
Algoritmo de
clasificación
K-NN
SVM
MLP
Naïve Bayes
Random
Forest
C 4.5
1. Enfoque multimedia• Minería de datos para diagnostico médico
Historia clínica:
Estructurada + No
estructurada
Imagen Representación
de Imagen
Representación
unificada de
historia clínica
Representación
unificada
MedicoAlgoritmo de
clasificación
K-NN
SVM
MLP
Naïve Bayes
Random
Forest
C 4.5
1. Enfoque multimedia
• Retos• Preprocesamiento de cada fuente de datos es diferente
• video, imagen, sonido, texto – no estructurado-, datos semiestructurados, datos estructurados
• En ciertos casos, las herramientas de procesamiento deben ser especializadas de acuerdo al contenido de la fuente• tumores en radiografías, • rompimiento de ligamentos en ecografías, • sentimientos basado en el tono de la voz
• Integración de los datos en una vista minable • representaciones no compatibles• alta dimensionalidad (PCA, W2V, SVD, otros)
1. Enfoque multimedia• Recuperación de Procesos de Negocio
Start_TaskUser,
TaskUser_ExclusiveDecision,
ExclusiveDecision_TaskService
ExclusiveDecision_TaskService
1. Enfoque multimedia• Selección de Atributos (reducción de dimensionalidad)
1. Enfoque multimedia• Avances
• Deep Learning (Redes Neuronales Profundas) en Imágenes
• Avances– Deep Learning (Redes Neuronales Profundas) en Imágenes
1. Enfoque multimediahttps://cloud.google.com/vision/
1. Enfoque multimedia• Avances
• Deep Learning: De Voz a Texto
37%
18%
9%
0%
5%
10%
15%
20%
25%
30%
35%
40%
Sphinx-4 Microsoft SpeechAPI
Google SpeechAPI
Word Error
Comparación publicada en 2017 Comparación publicada en 2018
Microsoft Bing Speech API
Amazon Lex
Dragon Speech
Google Cloud Speech API
AV Voice Changer
2. Basada en localización• Encontrar el restaurante más apropiado a una situación especifica
• Cercanía: localización actual del cliente y del restaurante
• Estilo del restaurante• Experiencias previas con el
restaurante o similares• Menú (carta) disponible y costos• Comentarios de otros clientes• Seguridad de la zona• Tiempo real:
• Disponibilidad en el restaurante• Antojos• Dinero disponible• Transporte disponible
2. Basada en localización• Predicción de desastres (inundaciones en India, terremotos,
tsunamis, incendios, deslizamientos)
El modelo predice dónde y cuándo se producirán inundaciones.Envía alertas a las Entidades Responsables de la Gestión del Riesgo. Usa datos georreferenciados de lo ocurrido en el pasado (niveles de los ríos, tipo de terreno, altitud del área, entre otros) e información obtenida en tiempo real.
2. Basada en localización• Retos
• Gestión dinámica de la dimensiones (columnas) de la vista minable• Los productos cambian con el tiempo
• Captura de información en tiempo real• Costos y disponibilidad de los dueños de los datos en actualizar la
información
• Cada tarea (clasificación, estimación, agrupación y asociación) es muy especifica … generalización?• Predecir inundaciones no es igual a predecir tsunamis• El servicio para recomendar restaurantes no es igual a la búsqueda
de hotel o al alquiler de autos
3. De datos temporales y secuenciales• Predicción del clima (temperatura, precipitaciones,
viento) … exactitud de la predicción, otras variables
3. De datos temporales y secuenciales• Definir que hacer en la bolsa de valores o en la
compraventa de monedas
3. De datos temporales y secuenciales• Predicción de diversas variables climáticas … calidad de aire
Fecha (hora)
Temperatura
Humedad
Punto de Rocío
Viento
Presión
Lluvia
Radiación Solar
Evo transpiración
Variable objetivo a 6 horas
24 Temperaturas previas
24 Humedades previas
24 Puntos de Rocío previos
24 Vientos previos
24 Presiones previas
24 Lluvias previas
24 Radiaciones solares previas
24 Evo transpiraciones previas
ClasificadorClasificador(Temperatura)
Correlación Error Absoluto Normalizado
7-NN 0,8711 0,0655
Random Forest 0,8900 0,0612
varias estaciones
de bajo costo en
la ciudad
Vantage Pro2
4 meses
3. De datos temporales y secuenciales• Retos
• La captura de mayor cantidad de datos, desde sensores en el sitio (localización)• Internet of things (IoT) con sensores de bajo costo y técnicas
tradicionales de minería de datos que pueden mejorar la calidad de la predicción
• Almacenamiento de datos en la nube (costo) -> acceso libre -> nuevas aplicaciones Smart City
• Las técnicas tradicionales de minería de datos solas NO son suficientes• Deep Learning y Reinforce Learning muestran los mejores
resultados a la fecha en trading … integrar AI
4. Inteligencia Artificial e Internet de las Cosas• Optimización del rendimiento de los cultivos de maíz
(32) 21 Prácticas agrícolas
2 Geolocalización
1 Rendimiento (MASAGRO)
+ 8 Clima (INIFAP)
+ 8 Suelo (INEGI + GIS)
383 granjas x 37 variables
Chiapas 2012-2016
Ranking Model RMSE R2
1 Random Forest (RF) 0.8702 0.7417
2 Ensemble (RF, CF, MLP) 0.8800 0.7370
3 Conditional Inference Forest (CF) 0.9958 0.6584
4 Linear Multiple regression (LM) 1.1314 0.5763
5 Multi-Layer Perceptron (MLP) 1.1702 0.6075
Minería de datos
clásica con
CRISP-DM
Optimización basada en la
Mejor Búsqueda Armónica Global
Avg. +1.770 ton/ha
4. Inteligencia Artificial e Internet de las Cosas
• Retos• El conocimiento requerido cada vez es más amplio / el
trabajo colaborativo cada vez es más necesario• Sistemas expertos• Redes Neuronales y Deep Learning (CNN, BRM, RNN, …)• Lógica difusa• Optimización basada en metaheurísticas• Reinforce Learning• Sistemas IoT (hardware -> gestión)• Procesamiento distribuido
• Como Inteligencia artificial, ciencia de datos, ingeniería de datos se incluyen en los currículos
GraciasCarlos Alberto Cobos L.
ccobos@unicauca.edu.co
Universidad del Cauca
top related