supervisión del analísis de la base de datos (big...

36
Supervisión del analísis de la base de datos (Big Data) Consejos de un profesional sobre la gestión y el uso de Big Data

Upload: others

Post on 16-Mar-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Supervisión del analísis de la base de datos (Big Data)Consejos de un profesional sobre la gestión y

el uso de Big Data

Definir términos, conceptos y elementosclaves del proyecto DS

Preguntas claves para una ejecución exitosadel proyecto DS

ESQUEMA

Big Data

Aprendizajeprofundo

Ciencia de datos

Aprendizajeautomático

Inteligencia artificial

• Heterogeneidad de los datos

• Curso de modularidad

• Datos que son fuertes y ruidosos• Localidad de

los datos

• Ingeniería de funciones

• Principio de Bonferroni

• Procesando rendimientos

• Procesamiento y transmisión en tiemporeal

• La maldición de dimensionalidad

• No linealidadBIG

DATA

COLOCANDO IA, ML Y DL EN UN CONTEXTO CRONOLÓGICO

INTELLIGENCIA ARTIFICIAL

IA PRECOZ DESPIERTA ENTUSIASMO

EL APRENDIZAJE AUTOMÁTICO COMIENZA A FLORECER

AVANCES EN EL APRENDIZAJE PROFUNDO CONDUCEN A UN CRECIMIENTO DE IA

1950

s

1960

s

1970

s

1980

s

1990

s

2000

s

2010

s

APRENDIZAJE AUTOMATICO

APRENDIZAJE PROFUNDO

Datos de entradaInformación (+ Respuestas)

RendimientoModelo óptimo

Aprendizajeautomático

Algoritmos + técnicas

• Relaciones• Patrones

• Dependencias• Estructuras

escondidas

DIAGRAMA DE LA CIENCIA DE DATOS V2.0

QUE ES LA CIENCIA DE DATOS?

DES

AR

OLL

O D

EL

AN

ALI

SIS

ANH

ELAD

OAV

ANZA

DO

ENTENDIENDO LOS PADRONES

IDENTIFICANDO FACTORES Y CAUSAS

SIMULACIONES Y SISTEMAS DE OPTIMIZACION

PREDICCIONES Y PROBABILIDADES

ENTENDIENDO EL CONTEXTO SOCIAL Y SU SIGNIFICADO

INTELIGENCIA EMPRESARIAL

TRANSSACIONAL ESTRATÉGICOVALOR EMPRESARIAL

CUALIDAD DE DATOS

DESCRIPTIVO

DIAGNÓSTICO

PREDICTIVO

SEMANTICA

PROGRAMMER

ANALISTA COMERCIAL

STATISTICIAN

VISUALIZACIÓN DE DATOS

PERSPICACIA EMPRESARIAL

BIG DATAAnálisis de textoAnálisis de redes

Análisis geoespacialAnálisis de medios

socialesAnálisis de sentimento

Imagenes

CIENTIFICO DE DATOS

ANALISTA COMERCIAL

PROGRAMADOR

Definir términos, conceptos y elementosclaves del proyecto DS

Preguntas claves para una ejecución exitosadel projecto DS

ESQUEMA

Vestibulum congue tempus

Lorem ipsum

CREANDO UN MODELO

ACQUISICION DE DATOS E

INGENIERIA DE CARACTERISTICAS

INGENIERO DE DATOS

CIENTIFICO DE DATOS

CIENTIFICO DE DATOS

DOMAIN EXPERT

DEVOPS

EL CICLO DE VIDA DE UN PROYECTO DS

MODELO DE DESPLIEGUE Y EVALUACION

PREGUNTAS QUE NECESITAN UNA RESPUESTA

✓ ¿Tenemos una línea de base sin ML?✓ ¿Estamos formulando nuestra pregunta de una manera correcta?✓ ¿Tenemos la experiencia de dominio necesaria?✓ ¿Tenemos los datos correctos?✓ ¿Cómo seleccionamos el algoritmo más apropriado?✓ ¿Es la producción de DS “la solución” o un “componente” de un sistema?

¿Entiende el personal que no hace parte del personal científico cómocambian sus trabajos?

✓ ¿Qué oportunidades creamos paras los malos actores?✓ ¿Cómo medimos nuestro éxito?

PREGUNTAS CLAVES PARA UNA EJECUCIÓN EXITOSA DE UN PROYECTO

DS

✓ ¿Existe una solución en su lugar?

✓ ¿Cómo podría un ser humano resolver este problema de pequeñaescala?

✓ ¿La preparación para la creación del modelo propocionará el 90% de beneficios sin el modelo en si?

✓ ¿Qué otras técnicas analíticas aparte de ML son importantes?

¿TENEMOS UNA LINEA DE BASE SIN ML?l

LA ESTRATEGIA TRADICIONAL

LA ESTRATEGIA DEL APRENDIZAJE AUTOMÁTICO

¿Qué? ¿Por qué? ¿Cómo?

¿ESTAMOS FORMULANDO CORRECTAMENTE NUESTRA PREGUNTA?

¿ESTAMOS CORRECTAMENTE FORMULANDO NUESTRA PREGUNTA ?

• ¿Podemos enviar pacientes con

neumonía a casa y liberar una cama?

• patient home and free up a bed?

• NEGOCIO

• CIENCIA DE DATOS

¿Qué pacientes de neumonía tendráncomplicaciones?

Restricción no declarada: no cambie el comportamiento histórico• .

Las personas con asma fueron clasificadaserróneamente como de bajo riesgo por un sistema de IA diseñado para predecir la neumonía.

• CORRELACIÓN VS. CAUSALIDAD

• DESCRIPTIVO VS. PRESCRIPTIVO

TENEMOS LOS DATOS CORRECTOS:

●Comience con el dominio

donde tiene los datos hi no

necesariamente donde la

mayoría de datos se

encuentran.

●Basura adentro basuraafuera

Ctidd lid d

Exploraciónvs.

Explotación

Punto de orgullo-“confia en los

datos”

Problema de la caja negra

“Applied ML esingenieria de

características”

¿TENEMOS LA EXPERIENCIA DE DOMINIO NECESARIA?

COMING UP WITH FEATURES IS DIFFICULT, TIME-CONSUMING, REQUIRES EXPERT KNOWLEDGE. 'APPLIED MACHINE LEARNING' IS BASICALLY FEATURE ENGINEERING.

— ANDREW NGMACHINE LEARNING AND AI VIA BRAIN

SIMULATIONS

Extracción de características

Importancia de la característica

Construcción de la característica

Selección de la característica

INGENIERIA DE CARACTERISTICAS

Vestibulum congue tempus

Lorem ipsum

CREANDO UN MODELO

ACQUISICION DE DATOS E

INGENIERIA DE CARACTERISTICAS

EL CICLO DE VIDA DE UN PROYECTO DS

MODELO DE DESPLIEGUE Y EVALUACION

PREGUNTAS QUE NECESITAN UNA

RESPUESTA

✓ Precisión

✓ Tiempo de entrenamiento

✓ Complejidad de los datos

✓ Numéro de parametros

✓ Numéro de características

✓ Interpretación

✓ Rapidez

✓ Necesidad de un entrenamiento incremental

SELECCIONANDO EL ALGORITMO MAS APROPRIADO

SELECCIONANDO EL ALGORITMO MAS APROPRIADOHOJA DE TRAMPA DEL ALGORITMO PARA UN APRENDIZAJE AUTOMÁTICO

LA COMPENSACION ENTRE SESGO Y VARIANZA

Low

Bi

asH

igh

Bias

Erro

r

Baja Varianza Alta varianza

Complejidad del modelo

VarianceSesgo

Error total

Vestibulum congue tempus

Lorem ipsum

Vestibulum congue tempus

Lorem ipsum

PREGUNTAS QUE NECESITAN UNA

RESPUESTA

MODELO DE DESPLIEGUE Y EVALUACION

ACQUISICION DE DATOS E

INGENIERIA DE CARACTERISTICAS

CREANDO UN MODELO

EL CICLO DE VIDA DE UN PROYECTO DS

¿ES EL MODELO “LA SOLUCION O UN “COMPONENT DE UN SISTEMA?

Source: http://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

• Mantenga a los miembros del equipo muy cerca para unainteracción de alta velocidad.

• Capacite a las personas para quesepan “pescar”: esto solo aumentala capacidad de su organizaciónpara que sea motivada a obtenermás datos

• Mantenga la communicación abierta

¿ENTIENDE EL PERSONAL DE LA CIENCIA DE DATOS COMO

ESTAN CONECTADOS SUS ROLES?

Ingeniero de datos

Cientifico do datos Experto de dominio

• Las mejores prácticas de software bien establecidas no funcionan con ML

• La metodología Agile necesita seractualizada

• Impactos de PM, UX, QA, devops, etc.

¿LOS TRABAJADORES QUE NO SON CIENTÍFICOS DE DATOS ENTIENDEN CÓMO CAMBIAN SUS EMPLEOS?

Source: Panda, https://blog.openai.com/adversarial-example-research/ Stop, https://arstechnica.com/cars/2017/09/hacking-street-signs-with-stickers-could-confuse-self-driving-cars/

RECOGNIZED AS “45 MPH” SIGN

¿Qué oportunidades estamos creando para actores de mala fe?

¿Cómo medimos el éxito?

✓ Precisión de la clasificación

✓ Perdida logarítmica

✓ Matriz de confusión

✓ Area debajo de la curva (AUC)

✓ F1 score

✓ Mean absolute error

✓ Mean squared error

¿ómo medimos el éxito?

✓ Típicamente multifactorial sin una respuesta correcta

✓ Si el resultado es limitado a las métricas del modelo sospeche que

algo raro está pasando.

✓ Es importante ser comprensibles y confiables

¿Cómo medimos nuestro éxito?

Rapidez Cualidad Robustez

Oficinas en losEstados Unidos, Bosnia, Serbia y

Macedonia

5Programadores

de tiempocompleto y

científicos de datos

120+Índice de

aceptación

8%

Alto aumentode clientes

20+ Proveedorpreferido de

Googe Ventures Cuánto hanrecaudado

todosnuestrosclientes

$1.5 bn

Estamos trabajandojuntos con Mckinsey

para obtener un proyecto de

transformación digital para las empresas

Fortune 500

¿PREGUNTAS?

LAMINAS ADICIONALES

¿ENTENDEMOS LO QUE ES PARTICULAR EN NUESTRO CASO DE USO?

ESPECTRO DEL USO DE LOS CASOS DS/ML

Control Optimización Percepción Predicción Decisionesaugmentadas

• Robotica• Vehículos

autónomos• Fábricas

oscuras

• Selección de la ruta

• Inventario• Precio

• Reconocimientofacial

• Traducción de un idioma

• Análisis de los sentimientos

• Detección de fraude

• Riesgo de la perdida de clientes

• Recomendacionesde productos

• Portfolio del producto

• Plan de negocio• Diagnóstico

médico